Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует аудио-фингерпринтинг и голосовые запросы для мгновенного отображения субтитров или текста песен из видео

    METHODS AND DEVICES FOR CLARIFYING AUDIBLE VIDEO CONTENT (Методы и устройства для разъяснения слышимого видеоконтента)
    • US20220408163A1
    • Google LLC
    • 2022-12-22
    • 2014-09-16
    2014 Мультимедиа Мультиязычность Патенты Google

    Система Google позволяет пользователю спросить «Что он только что сказал?» во время просмотра видео на другом устройстве. Система захватывает образец аудио, идентифицирует точный медиафайл и временную метку с помощью фингерпринтинга, извлекает соответствующий текст (субтитры, текст песни или перевод) и мгновенно отображает его. Это демонстрирует гранулярное понимание Google аудио/видео контента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности и неудобства, с которыми сталкиваются пользователи, когда они не расслышали или не поняли диалог, текст песни или другую вербальную информацию (Audible Verbal Information) во время просмотра видеоконтента. Традиционные методы (перемотка или ручной поиск) отвлекают пользователя. Система предлагает мгновенное уточнение аудиоконтента по голосовому запросу.

    Что запатентовано

    Запатентована система для разъяснения медиаконтента по требованию, часто использующая взаимодействие между устройствами. Вспомогательное устройство (например, смартфон) записывает аудиоконтент, воспроизводимый на основном устройстве (например, ТВ), вместе с голосовым запросом пользователя. Система использует технологию аудио-фингерпринтинга (Content Fingerprint) для идентификации контента и точной временной метки, после чего извлекает и предоставляет соответствующую Textual Information (транскрипцию, текст песни, субтитры).

    Как это работает

    Ключевой механизм работы системы:

    • Захват аудио и запроса: Вспомогательное устройство захватывает окружающий звук (Audio Sample) от устройства воспроизведения и голосовой запрос пользователя (Verbal Query).
    • Идентификация контента: Сервер получает аудио-образец и использует Content Identification Module для сравнения с базой данных отпечатков (Fingerprint Database).
    • Определение позиции: Система точно определяет текущую позицию воспроизведения (Playback Position) в идентифицированном контенте.
    • Извлечение текста: Audio Clarification Module извлекает синхронизированную Textual Information (субтитры, текст песни) из базы данных или внешних источников, соответствующую этой позиции и запросу.
    • Отображение: Текстовая информация отправляется обратно на устройство пользователя.

    Актуальность для SEO

    Высокая. Технология соответствует стратегическому фокусу Google на развитии голосовых ассистентов (Google Assistant), взаимодействии между устройствами и глубоком, мультимодальном понимании мультимедийного контента. Способность точно транскрибировать, синхронизировать и понимать аудио на гранулярном уровне критически важна для индексации контента.

    Важность для SEO

    Влияние на традиционное ранжирование веб-страниц низкое (5/10), так как патент описывает функцию пользовательского интерфейса (UX) и Ассистента. Однако он имеет высокое стратегическое значение для Видео SEO (Video SEO). Патент демонстрирует продвинутые возможности Google в анализе аудио/видео, подтверждая способность системы точно транскрибировать, синхронизировать и понимать содержание медиафайлов. Это подчеркивает критическую важность наличия точных субтитров и чистого звука для обеспечения обнаруживаемости контента.

    Детальный разбор

    Термины и определения

    Assistant Application (Приложение-ассистент)
    Программное обеспечение на устройстве пользователя (например, Google Assistant), которое обрабатывает голосовые запросы, управляет захватом аудио и отображает результат.
    Audio Sample (Аудио-образец / Аудиосэмпл)
    Фрагмент аудиоконтента, захваченный микрофоном вспомогательного устройства. Используется для идентификации медиаконтента и определения позиции воспроизведения.
    Audible Verbal Information (Слышимая вербальная информация)
    Часть аудиодорожки медиаконтента, содержащая речь, диалог или текст песни.
    Content Fingerprint (Отпечаток контента / Фингерпринт)
    Компактное цифровое представление или сигнатура аудио- и/или видеоконтента. Используется для быстрого и точного сопоставления аудио-образца с известным медиаконтентом.
    Content Identification Module (Модуль идентификации контента)
    Компонент сервера, который сопоставляет полученный Audio Sample с базой данных фингерпринтов.
    Entities Database (База данных сущностей)
    Хранилище, содержащее информацию о медиаконтенте, включая связанные сущности (актеры, персонажи, песни, цитаты) и, что важно для этого патента, хранящее или ссылающееся на Textual Information.
    Playback Position (Позиция воспроизведения)
    Точная временная метка в медиаконтенте, соответствующая моменту, когда пользователь сделал запрос на разъяснение.
    Textual Information (Текстовая информация)
    Отображаемая информация в текстовой форме, соответствующая Audible Verbal Information. Включает субтитры (subtitle data), транскрипцию речи, текст песни, а также переводы (translation) или романизацию.
    Verbal Query (Вербальный запрос)
    Голосовой запрос пользователя, инициирующий процесс уточнения (например, «Что он сказал?»).

    Ключевые утверждения (Анализ Claims)

    Патент US20220408163A1 является публикацией заявки (Application Publication). Claims фокусируются на методе, выполняемом на клиентском устройстве (например, смартфоне).

    Claim 1 (Независимый пункт): Описывает основной метод, выполняемый на клиентском устройстве (Устройство А), имеющем микрофон.

    1. Получение вербального запроса (Verbal Query) от пользователя через микрофон.
    2. В ответ на запрос, отправка запроса на удаленный сервер. Запрос включает сам вербальный запрос И часть медиаконтента (например, Audio Sample), воспроизводимого на втором устройстве (Устройство Б), находящемся поблизости.
    3. Получение от сервера информации, отвечающей на вербальный запрос и соответствующей этой части медиаконтента.
    4. Представление полученной информации пользователю.

    Ядром изобретения является использование комбинации явного запроса пользователя (голосовой ввод) и неявного контекста (образец окружающего звука) для предоставления точного разъяснения контента, потребляемого на другом устройстве.

    Claim 5 (Зависимый от 1): Уточняет, что отправляемая часть медиаконтента является аудиоконтентом.

    Claims 6 и 7 (Зависимые от 1): Определяют тип возвращаемой информации: текст песни (song lyrics) или транскрипция речи (transcription of speech).

    Claim 8 (Зависимый от 1): Описывает обработку ситуаций с несколькими говорящими. Вербальный запрос может включать просьбу разъяснить речь конкретного человека. Это требует от системы не только транскрибирования, но и идентификации спикера (диаризации).

    Claims 11 и 12 (Зависимые от 1): Указывают, что информация может включать перевод (translation) речи на другой язык.

    Где и как применяется

    Изобретение затрагивает этапы индексирования для подготовки данных и этапы понимания запроса и извлечения информации для обработки запроса в реальном времени.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система выполняет критически важную предварительную обработку медиаконтента:

    • Генерацию Content Fingerprints из аудио- и видеодорожек и сохранение их в Fingerprint Database.
    • Извлечение, генерацию (через Speech-to-Text) или получение из внешних источников (online documents) Textual Information (субтитров, текстов песен).
    • Точную синхронизацию Textual Information с временными метками медиаконтента.
    • Извлечение сущностей (идентификация говорящих, песен) и их привязка к тексту и временным меткам, сохранение в Entities Database.

    QUNDERSTANDING – Понимание Запросов
    Система должна интерпретировать вербальный запрос пользователя в реальном времени. Это включает распознавание речи и понимание намерения (Intent) – запрос на разъяснение, а также извлечение спецификаторов (например, «она» указывает на говорящего, «5 секунд назад» указывает на время).

    RANKING / RETRIEVAL (Точный Поиск/Извлечение)
    Это не традиционное ранжирование веб-документов, а процесс точного извлечения (Precise Retrieval):

    1. Идентификация Контента: Система использует полученный Audio Sample для запроса к Fingerprint Database.
    2. Идентификация Позиции: Система определяет точную Playback Position.
    3. Извлечение Текста: Используя идентификатор контента и позицию, система извлекает соответствующую Textual Information из индекса или Entities Database.

    Входные данные:

    • Вербальный запрос пользователя (голосовой ввод).
    • Audio Sample (Контентная информация), захваченный из окружающей среды.

    Выходные данные:

    • Textual Information (транскрипция, текст песни, субтитры), соответствующая запросу.
    • Опционально, информация о сущностях (например, имя говорящего).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на потребление видео (ТВ, фильмы, онлайн-видео, новости, образовательный контент) и аудио (музыка, подкасты). Патент упоминает живой (live television content), записанный (recorded content) и потоковый (streaming content) контент.
    • Специфические запросы: Запросы на разъяснение, транскрипцию и перевод, связанные с медиаконтентом в реальном времени.
    • Языковые ограничения: Патент явно упоминает возможность перевода (translation) и романизации, что указывает на мультиязычную поддержку.

    Когда применяется

    Алгоритм применяется в реальном времени во время потребления медиаконтента.

    • Триггеры активации: Вербальный запрос пользователя на разъяснение (например, «Что это было?», «Что он сказал?») или активация соответствующего элемента интерфейса в Assistant Application.
    • Условия работы: Наличие воспроизводимого медиаконтента поблизости и способность вспомогательного устройства захватить аудио этого контента. Контент должен быть предварительно проиндексирован Google.

    Пошаговый алгоритм

    Процесс А: Предварительная обработка (Офлайн/Индексирование)

    1. Сбор данных: Получение медиаконтента и связанных данных (субтитры, метаданные).
    2. Генерация отпечатков: Создание Content Fingerprints для аудио- и видеодорожек.
    3. Обработка текста: Извлечение или генерация Textual Information.
    4. Синхронизация: Привязка отпечатков и текста к временным меткам медиаконтента.
    5. Идентификация сущностей: Определение говорящих или исполнителей (диаризация) и их привязка к соответствующим фрагментам текста.
    6. Индексирование: Сохранение данных в Fingerprint Database и Entities Database.

    Процесс Б: Обработка запроса (Реальное время)

    1. Воспроизведение контента: Медиаконтент воспроизводится на первом устройстве.
    2. Получение запроса и захват аудио: Второе устройство получает вербальный запрос пользователя и одновременно записывает Audio Sample из окружающей среды.
    3. Передача данных: Второе устройство отправляет вербальный запрос и Audio Sample на сервер.
    4. Идентификация контента и позиции: Сервер сопоставляет Audio Sample с Fingerprint Database для идентификации Media Content Item и определения точной Playback Position.
    5. Интерпретация запроса: Сервер анализирует вербальный запрос для определения специфики (например, запрос перевода, уточнение говорящего).
    6. Извлечение текстовой информации: Сервер получает Textual Information, соответствующую идентифицированному контенту, позиции и специфике запроса.
    7. Формирование ответа: Сервер формирует ответ, который может включать текст и идентификацию говорящего.
    8. Отображение: Ответ отправляется на второе устройство и отображается пользователю.

    Какие данные и как использует

    Данные на входе

    Система использует следующие основные типы данных:

    • Мультимедиа факторы:
      • Audio Sample: Фрагмент аудио, захваченный в реальном времени, является ключевым входным сигналом для идентификации контента.
      • (На этапе индексирования) Предварительно обработанные аудио- и видеоданные для создания Fingerprint Database.
    • Пользовательские факторы:
      • Вербальный запрос (Verbal Query): Голосовая команда пользователя, определяющая намерение и специфику запроса.
    • Контентные факторы (Используются на этапе индексирования и извлечения):
      • Данные субтитров (Subtitle data): Основной источник для Textual Information.
      • Тексты песен (Song lyrics).
      • Онлайн-документы (Online documents): Внешние источники (веб-страницы) для получения транскрипций или переводов.

    Какие метрики используются и как они считаются

    Патент не детализирует конкретные формулы, но описывает используемые методы и процессы:

    • Fingerprint Matching (Сопоставление отпечатков): Используется для сравнения Audio Sample с Fingerprint Database. Вероятно, используется метрика уверенности (confidence score) для определения наилучшего совпадения и точной временной метки.
    • Temporal Synchronization (Временная синхронизация): Методы для точного определения Playback Position.
    • NLP и Распознавание речи (Speech Recognition): Используются для обработки вербального запроса пользователя. Также могут использоваться для генерации Textual Information (транскрипции), если субтитры недоступны на этапе индексирования.
    • Диаризация (Diarization) и Идентификация Спикеров: Методы, позволяющие системе различать говорящих (упомянуто в Claim 8), что необходимо для ответов на запросы типа «Что сказала она?».
    • Машинный перевод (Machine Translation): Упоминается возможность генерации перевода (translation) текстовой информации.

    Выводы

    1. Глубокое и гранулярное понимание мультимедиа: Патент демонстрирует продвинутые возможности Google в анализе аудио и видео. Система способна не только идентифицировать контент (Fingerprinting), но и точно определять временные метки, извлекать связанный текст и идентифицировать говорящих (respective speaker).
    2. Критическая роль транскрипций и субтитров для индексации: Textual Information (субтитры, тексты песен) является основой для этого изобретения. Это подтверждает, что Google активно индексирует и использует эти данные для понимания содержания медиафайлов на самом глубоком уровне.
    3. Интеграция Ассистента и медиапотребления: Изобретение стирает границы между просмотром контента и поиском информации, используя голосового ассистента как интерфейс для взаимодействия с медиа. Это указывает на растущую важность оптимизации контента под функции Ассистента.
    4. Мультимодальность и доступность: Включение функций перевода и романизации подчеркивает фокус на мультиязычной обработке контента и повышении его доступности, что является важным трендом в современном поиске.
    5. Использование веба как источника данных: Система может полагаться на «онлайн-документы» (веб-страницы) для получения Textual Information (например, текстов песен или переводов), что подчеркивает важность авторитетного веб-контента.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает функцию пользовательского опыта, он дает критически важные инсайты для стратегии Видео SEO и оптимизации мультимедийного контента.

    • Предоставление точных, синхронизированных субтитров: Это самое важное действие. Поскольку Textual Information является основой для системы, необходимо предоставлять Google (через YouTube, VTT-файлы или встроенные субтитры) точные, проверенные человеком субтитры. Это гарантирует, что система использует корректные данные для понимания и индексации вашего контента.
    • Обеспечение высокого качества и чистоты аудио: Качество звука напрямую влияет на точность Fingerprinting и автоматической транскрипции (если вы не предоставили субтитры). Приоритет должен отдаваться чистому звуку без сильного фонового шума.
    • Оптимизация метаданных и структурированных данных для сущностей: Используйте разметку Schema.org (например, VideoObject, MusicRecording), чтобы помочь Google идентифицировать медиаконтент, говорящих (актеров, гостей) и упоминаемые сущности. Это помогает системе корректно связывать текст с говорящим (как описано в Claim 8).
    • Создание мультиязычного контента с переводами: Предоставление профессиональных переводов субтитров увеличивает доступность контента и позволяет Google использовать эти данные для функций перевода, описанных в патенте.

    Worst practices (это делать не надо)

    • Полностью полагаться на автоматические субтитры: Автоматически сгенерированные субтитры могут содержать ошибки. Если вы не предоставляете собственные точные транскрипции, Google может использовать неверные данные для понимания вашего контента, что негативно скажется на его индексации и пользовательском опыте.
    • Публикация контента с низким качеством звука: Зашумленный или нечеткий звук затрудняет понимание контента как для пользователей, так и для алгоритмов Google (Fingerprinting и Speech-to-Text).
    • Игнорирование текстового сопровождения видео: Рассматривать видео как контент, не требующий текстовой оптимизации, рискованно. Патент показывает, что Google инвестирует значительные ресурсы в глубокий анализ содержания медиафайлов через текст.

    Стратегическое значение

    Патент подтверждает стратегический сдвиг Google в сторону глубокого понимания мультимедийного контента и интеграции голосового поиска во все аспекты взаимодействия пользователя с информацией. Для SEO это означает, что оптимизация должна выходить за рамки текста на веб-страницах. Обеспечение машиночитаемости видео и аудио через точные транскрипции и структурированные данные становится необходимым условием для обеспечения обнаруживаемости контента на различных платформах Google (Search, Assistant, YouTube).

    Практические примеры

    Сценарий: Оптимизация образовательного видео или вебинара на YouTube

    1. Действие: При загрузке видеолекции на YouTube SEO-специалист загружает профессионально подготовленный файл субтитров (SRT/VTT) с точными временными метками, а не полагается на автоматическую транскрипцию.
    2. Как это работает (по патенту): Google индексирует это видео, создает Content Fingerprint и сохраняет предоставленные субтитры как Textual Information, синхронизированную с видео.
    3. Ожидаемый результат: Содержание вебинара точно проиндексировано. Если пользователь при просмотре спросит свой Google Assistant: «Что только что сказал лектор?», система, описанная в патенте, использует Audio Sample для определения точного момента и извлекает текст из загруженного файла субтитров. Это улучшает UX и обеспечивает глубокое понимание контента поисковой системой.

    Вопросы и ответы

    Какое значение этот патент имеет для SEO, если он не описывает ранжирование?

    Хотя он не описывает алгоритмы ранжирования веб-страниц, он критически важен для Video SEO. Патент демонстрирует техническую способность Google точно идентифицировать, транскрибировать и синхронизировать медиаконтент. Это означает, что предоставление точных субтитров и чистого звука является фундаментальным требованием для обеспечения глубокой индексации и обнаруживаемости вашего видеоконтента.

    Что такое «Content Fingerprint» и как он используется?

    Content Fingerprint – это уникальная цифровая сигнатура медиафайла. Google генерирует эти отпечатки заранее. Когда пользователь делает запрос, система сравнивает захваченный аудио-образец (Audio Sample) с этой базой данных, что позволяет мгновенно и точно идентифицировать воспроизводимый контент и временную метку без необходимости анализировать весь файл.

    Откуда Google берет текст для разъяснения (Textual Information)?

    Патент упоминает несколько источников. Основными являются данные субтитров (subtitle data), связанные с медиаконтентом, и тексты песен (song lyrics). Также упоминается возможность получения информации из онлайн-документов (online documents) или генерации транскрипции речи (transcription of speech), вероятно, с помощью технологий Speech-to-Text.

    Означает ли это, что автоматические субтитры Google теперь идеальны?

    Нет. Хотя технологии распознавания речи Google совершенствуются, патент фокусируется на механизме доставки Textual Information. Если Google полагается на неточные автоматические субтитры, то и разъяснение будет неточным, а индексация контента – некорректной. Это подчеркивает необходимость для создателей контента предоставлять собственные верифицированные субтитры.

    Может ли система определить, кто именно говорит?

    Да. Патент явно описывает обработку ситуаций с несколькими говорящими (Claim 8) и возможность пользователя спросить о конкретном говорящем (например, «Что сказала она?»). Это подразумевает, что на этапе индексирования Google пытается связать сущности (актеров, персонажей) с конкретными фрагментами текста и временными метками (диаризация).

    Работает ли это только для заранее записанного контента?

    Нет. Патент утверждает, что система работает для различных типов контента, включая прямой эфир (live television content), ранее транслировавшийся контент и потоковое видео. Для прямого эфира система, вероятно, полагается на данные субтитров, передаваемые в реальном времени, или на быстрое распознавание речи.

    Как это связано с голосовым поиском и Google Assistant?

    Это напрямую связано. Описанная технология является функцией, которая реализуется через Google Assistant (упоминается Assistant Application). Это пример того, как Google использует голосовой интерфейс для предоставления прямых ответов и взаимодействия с окружающей средой пользователя, расширяя возможности поиска за пределы текстовых запросов.

    Какие действия следует предпринять SEO-специалисту для оптимизации видео под эту технологию?

    Ключевые действия: обеспечить максимально возможное качество и чистоту звуковой дорожки для облегчения распознавания и создания отпечатков. Всегда загружать точные, вручную проверенные и синхронизированные файлы субтитров (SRT/VTT) вместе с видео. Использовать структурированные данные для четкого определения сущностей в видео.

    Может ли эта технология использоваться для индексации контента для поиска?

    Да, косвенно. Процессы, лежащие в основе этой функции (индексирование, создание отпечатков, извлечение и синхронизация Textual Information), являются теми же процессами, которые Google использует для понимания содержания видео и аудио с целью их индексации и ранжирования в поиске (например, в Google Search и YouTube).

    Что делать, если мой контент на иностранном языке?

    Патент явно предусматривает функции перевода (translation). Это означает, что предоставление качественных переводов субтитров на разные языки не только улучшает доступность для пользователей, но и позволяет Google обслуживать запросы на разъяснение с переводом, что повышает ценность вашего контента для международной аудитории.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.