Google использует систему автоматического распознавания контента (ACR) для идентификации медиа (ТВ-шоу, реклама, стриминг), которое потребляет пользователь. Система не просто определяет название, но извлекает контекст в реальном времени (субтитры, EPG, анализ видеокадров) и автоматически генерирует релевантные поисковые запросы, минуя ручной ввод ключевых слов.
Описание
Какую задачу решает
Патент решает проблему сложности и неэффективности ручного ввода поисковых запросов на мобильных устройствах (Client Device) в момент потребления другого медиаконтента (ТВ, радио, стриминг). Изобретение предоставляет интерфейс для поиска без использования ключевых слов (non-keyword-based search), позволяя пользователю мгновенно получать контекстуально релевантную информацию о том, что он смотрит или слушает.
Что запатентовано
Запатентована система и инфраструктура для автоматической генерации поисковых запросов на основе распознавания окружающего аудио. Система использует Audio Fingerprinting (аудио-фингерпринтинг) для идентификации конкретного медиаконтента. Ключевым элементом является извлечение богатых метаданных (additional information), связанных с этим контентом, и их использование для автоматического построения и выполнения поискового запроса.
Как это работает
Система функционирует в двух плоскостях: бэкенд-индексация медиа и обработка запросов в реальном времени.
- Бэкенд (Индексация): Capture Servers непрерывно записывают медиаисточники. Из потоков извлекаются аудио, видео, субтитры и данные EPG. Из аудио генерируются Audio Fingerprints, а остальные данные анализируются для извлечения метаданных (например, с помощью OCR на видео или анализа субтитров). Все данные индексируются и сохраняются.
- Реальное время (Запрос): Клиентское устройство записывает окружающий звук. Полученный аудио-отпечаток отправляется на Match Server, который идентифицирует контент. Затем Search Query Builder извлекает связанные метаданные для этого момента времени и автоматически формирует текстовый поисковый запрос. Результаты возвращаются пользователю.
Актуальность для SEO
Высокая. Технологии автоматического распознавания контента (ACR) широко распространены (например, Google Assistant). Патент описывает инфраструктуру, позволяющую не просто идентифицировать контент, но и понимать его глубокий контекст для инициации поиска. Это крайне актуально в контексте развития амбиентного компьютинга (ambient computing) и мультимодального поиска.
Важность для SEO
Патент имеет высокое стратегическое значение (70/100). Он не описывает алгоритмы ранжирования, но фундаментально влияет на способ генерации поискового трафика. Он демонстрирует механизм, при котором запрос генерируется автоматически на основе контекста пользователя и сущностей, извлеченных из медиа. Для SEO это означает необходимость оптимизации под машиногенерируемые, контекстуально богатые запросы и подтверждает критическую важность Entity SEO.
Детальный разбор
Термины и определения
- Ad Detection Server (Сервер обнаружения рекламы)
- Компонент, анализирующий медиапотоки для идентификации рекламы. Использует сравнение фингерпринтов или алгоритмы обнаружения повторений (repetition pattern algorithm).
- Audio Fingerprint (Аудио-фингерпринт / Цифровой аудио-отпечаток)
- Уникальное цифровое представление аудиосигнала. Ключ для сопоставления записи пользователя с базой данных проиндексированного контента.
- Capture Server (Сервер захвата)
- Сервер, отвечающий за непрерывный мониторинг, запись и обработку контента из медиаисточников (ТВ, радио, стриминг).
- Content Identifier (Идентификатор контента)
- Уникальный идентификатор (unique content identifier), связывающий Audio Fingerprint захваченного контента со всеми его метаданными.
- EPG Metadata (Метаданные EPG)
- Данные из Electronic Program Guide (Электронный телегид). Содержат информацию о расписании, названиях программ, описаниях.
- Image Analysis Server (Сервер анализа изображений)
- Компонент, обрабатывающий стоп-кадры из видеопотока для извлечения Video-Based Keyword Metadata с помощью OCR, распознавания лиц (facial recognition), объектов (object recognition) или логотипов.
- Match Server / Match Service (Сервер / Служба сопоставления)
- Компонент, который сравнивает Audio Fingerprint от клиентского устройства с базой данных для идентификации совпадения.
- Search Query Builder (Построитель поисковых запросов)
- Модуль, который использует метаданные, связанные с идентифицированным контентом, для автоматической генерации релевантного текстового поискового запроса.
- Service Information Server (Сервер служебной информации)
- Центральное хранилище для всех метаданных (Subtitle Metadata, EPG Metadata, Video-Based Keyword Metadata), проиндексированных по идентификаторам контента.
- Video-Based Keyword Metadata (Метаданные ключевых слов на основе видео)
- Ключевые слова и сущности, извлеченные путем анализа видеоряда.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс работы системы.
- Получение аудиоданных (audio data) от клиентского устройства.
- Определение совпадения аудиоданных с конкретным контентом из медиаисточников на основе сравнения audio fingerprints, хранящихся в репозитории.
- Получение дополнительной информации (additional information / метаданных), связанной с идентифицированным контентом.
- Использование этой дополнительной информации для генерации поискового запроса (search query).
- Возврат результатов поиска на клиентское устройство.
Ядро изобретения — автоматическая генерация поискового запроса на основе метаданных контента, который был идентифицирован через аудио распознавание.
Claim 10 и 11 (Зависимые): Детализируют бэкенд-инфраструктуру. Система должна непрерывно извлекать аудиопотоки, генерировать метаданные, связывать их с unique content identifier и аудио-отпечатком, и хранить их (Claim 10). Claim 11 описывает, как эти данные используются: сопоставление отпечатка клиента с базой, идентификация unique content identifier и извлечение связанных метаданных.
Claim 14 и 15 (Зависимые): Уточняют состав данных для генерации запроса. Запрос генерируется на основе контента, его контекста (context) и метаданных (Claim 14). Контекст включает идентификацию сущностей: людей, локаций, новостных сюжетов или продуктов, связанных с контентом (Claim 15). Это указывает на Entity-Oriented подход к генерации запроса.
Claim 2, 3, 4, 12 (Зависимые): Уточняют обработку рекламы. Контент может быть рекламой (Claim 2), идентифицированной с помощью алгоритма повторений (repetition pattern algorithm) (Claim 12). Метаданные могут быть извлечены из аудио (Claim 3) или видео (Claim 4) рекламы.
Где и как применяется
Патент описывает создание параллельной инфраструктуры для индексации медиаконтента, которая взаимодействует с основной поисковой системой.
CRAWLING & INDEXING (Параллельная инфраструктура)
Это не сканирование веба, а индексация вещательного медиа. Capture Servers непрерывно записывают медиаисточники. Происходит извлечение признаков (Feature Extraction): генерация Audio Fingerprints, извлечение метаданных (EPG, субтитры) и анализ видео (OCR, распознавание объектов/лиц) с помощью Image Analysis Server. Эти данные индексируются и сохраняются.
QUNDERSTANDING (Понимание Запросов)
Это основное применение патента. Входными данными является аудиосэмпл. Match Server распознает контент. Затем Search Query Builder выполняет ключевую задачу этапа QUnderstanding: он преобразует контекст и сущности, извлеченные из метаданных контента, в структурированный текстовый поисковый запрос.
RANKING (Ранжирование)
Сгенерированный запрос передается стандартной поисковой системе (Search Engine), которая использует свои обычные алгоритмы ранжирования. Патент не вводит новых факторов ранжирования.
Входные данные (для обработки запроса):
- Аудиосэмпл или Audio Fingerprint от клиентского устройства.
- Опционально: Местоположение устройства (для фильтрации источников), данные пользователя (для персонализации результатов).
Выходные данные:
- Результаты поиска, релевантные распознанному медиаконтенту.
На что влияет
- Типы контента и ниши: Наибольшее влияние на контент, связанный с медиа: развлечения, новости, спорт, а также E-commerce (через распознавание рекламы и продуктов).
- Специфические запросы: Влияет на генерацию информационных и коммерческих запросов, основанных на сущностях (люди, продукты, места), упомянутых в медиа в реальном времени.
Когда применяется
- Триггеры активации: Когда пользователь инициирует захват аудио на своем устройстве через Capture Application.
- Режимы работы: Может работать в режиме разового запроса или в непрерывном режиме (continuous mode), когда устройство постоянно слушает и обновляет результаты поиска синхронно с медиапотоком.
- Условия работы: Требуется, чтобы медиаисточник был предварительно проиндексирован Capture Servers.
- Исключения: Если аудио-отпечаток не найден (например, из-за шума), система может запросить у пользователя ручной ввод информации об источнике (например, название ТВ-канала).
Пошаговый алгоритм
Процесс А: Индексирование медиаконтента (Backend / Непрерывный)
- Захват контента: Серверы захвата непрерывно записывают потоки из медиаисточников.
- Извлечение данных: Из потока извлекаются аудио, видео, субтитры и данные EPG.
- Генерация аудио отпечатков: Из аудиопотока генерируются аудио-фингерпринты, которые сохраняются и связываются с уникальным идентификатором контента.
- Обработка метаданных:
- Субтитры обрабатываются (включая OCR, если они в виде изображений, или Speech-to-Text, если отсутствуют).
- Данные EPG парсятся.
- Видеопоток анализируется Сервером анализа изображений для извлечения ключевых слов на основе видео (текст в кадре, логотипы, лица, объекты).
- Обнаружение рекламы: Сервер обнаружения рекламы анализирует поток для идентификации рекламы.
- Хранение: Все извлеченные метаданные сохраняются на Сервере служебной информации, связанные с тем же идентификатором контента.
Процесс Б: Обработка запроса пользователя (Real-time)
- Захват аудио: Клиентское устройство записывает сэмпл окружающего звука.
- Генерация и передача отпечатка: Генерируется аудио-фингерпринт (на устройстве или сервере) и отправляется на Сервер сопоставления.
- Сопоставление: Служба сопоставления сравнивает отпечаток с базой данных.
- Идентификация контента: При совпадении извлекается идентификатор контента.
- Извлечение метаданных: Идентификатор контента используется для запроса к Серверу служебной информации для получения связанных метаданных (EPG, субтитры, ключевые слова из видео).
- Генерация запроса: Модуль построения поисковых запросов анализирует метаданные и сущности (люди, продукты, локации) и автоматически конструирует текстовый поисковый запрос.
- Выполнение поиска и возврат результатов: Запрос выполняется стандартной поисковой системой, результаты возвращаются пользователю.
Какие данные и как использует
Данные на входе
Система использует мультимодальные данные для индексации и обработки запросов.
Из медиаисточников (Backend):
- Мультимедиа факторы: Потоки аудио (для фингерпринтинга и Speech-to-Text) и видео (для анализа изображений).
- Контентные факторы: Потоки субтитров (текстовые или графические).
- Структурные факторы: Данные EPG (Electronic Programming Guide).
- Технические факторы: Информация о канале вещания (название, жанр).
От пользователя (Frontend):
- Мультимедиа факторы: Записанный аудиосэмпл или его Audio Fingerprint.
- Географические и Пользовательские факторы: Местоположение устройства (упоминается использование GPS, IP geo-location). Используется для фильтрации потенциальных источников вещания. Данные пользователя (история, профиль) используются для персонализации результатов.
Какие метрики используются и как они считаются
Патент фокусируется на методах извлечения данных и идентификации, а не на метриках ранжирования.
- Audio Fingerprint Matching: Основной механизм идентификации. Используются алгоритмы (упоминается «forgiving hash» algorithm) для сопоставления аудио. Могут использоваться уровни уверенности (confidence levels) для выбора наилучшего совпадения.
- Image Analysis (Анализ изображений):
- OCR (Optical Character Recognition): Применяется для извлечения текста из графических субтитров и из стоп-кадров видеопотока (текст на экране, логотипы).
- Распознавание сущностей: Упоминаются методы распознавания лиц (facial recognition), объектов (object recognition), логотипов и локаций на основе анализа видеокадров.
- Анализ текста:
- Voice-to-text (Преобразование речи в текст): Используется для генерации текстовых данных из аудиопотока, если субтитры отсутствуют.
- Извлечение сущностей (Entity Extraction): Применение NLP к тексту субтитров и EPG для идентификации людей, продуктов, локаций (Claim 15).
- Алгоритмы обнаружения рекламы: Сравнение отпечатков и анализ повторяющихся паттернов (repetition pattern algorithm).
Выводы
- Индексация мультимедиа за пределами веба: Патент демонстрирует инфраструктуру Google для индексации и глубокого понимания контента из внешних медиаисточников (ТВ, радио, стриминг) в реальном времени, используя мультимодальный анализ (аудио, видео, текст).
- Автоматическая генерация запросов из контекста: Ключевая инновация – использование богатого контекста, связанного с аудио-фингерпринтом, для автоматической генерации поискового запроса. Система понимает не только ЧТО смотрит пользователь, но и О ЧЕМ именно идет речь в этот момент.
- Фокус на извлечении сущностей (Entity-First): Система активно извлекает сущности (люди, продукты, локации) из всех доступных источников (субтитры, EPG, анализ видео) для генерации высокорелевантных запросов (Claims 14, 15). Это подтверждает важность Entity-First подхода в SEO.
- Связь медиапотребления и поиска: Этот механизм напрямую связывает просмотр медиа с поисковой активностью, позволяя захватывать интент пользователя без ручного ввода запроса (Ambient Computing).
- Специфическая обработка рекламы: Наличие Ad Detection Server позволяет точно идентифицировать рекламу и генерировать запросы, ведущие непосредственно к продукту, создавая мост между офлайн/ТВ рекламой и онлайн-поиском.
Практика
Best practices (это мы делаем)
- Оптимизация под сущности (Entity Optimization): Поскольку система генерирует запросы на основе сущностей, извлеченных из медиа (Claim 15), критически важно обеспечить четкое определение ваших ключевых сущностей (бренды, продукты, персоны) в вашем контенте и их связь в Knowledge Graph.
- Выравнивание веб-контента с медиа-контекстом: Если ваш бренд или тема освещается в медиа, убедитесь, что терминология на сайте соответствует той, что используется в эфире (и, следовательно, в субтитрах и EPG). Ваш сайт должен быть авторитетным ответом на автоматически сгенерированные запросы.
- Оптимизация мультимедийного контента (Видео/Аудио SEO): Если вы производите контент (включая рекламу):
- Обеспечьте чистое аудио для корректной работы Speech-to-Text и фингерпринтинга.
- Предоставляйте точные субтитры и транскрипты.
- Визуально демонстрируйте ключевую информацию (названия, логотипы) в видео, чтобы они могли быть распознаны системами OCR и Image Analysis Server.
- Синхронизация рекламных кампаний: При запуске ТВ/радио рекламы готовьте цифровые лендинги к приему трафика по запросам, точно соответствующим формулировкам и визуальным элементам рекламы.
Worst practices (это делать не надо)
- Игнорирование влияния медиа на поиск: Рассматривать SEO в отрыве от общего медиа-ландшафта неэффективно. Этот патент доказывает прямую техническую связь между трансляциями и поисковыми сессиями.
- Нечеткая идентификация продукта в медиа: Создание контента или рекламы, где ключевые сущности произносятся нечетко или не отображаются визуально, снижает вероятность их корректной идентификации системой и генерации релевантных запросов.
- Публикация медиа без текстового сопровождения: Размещение видео или аудио без субтитров или транскриптов затрудняет системам извлечение контекста и сущностей, полагаясь только на менее надежные методы Speech-to-Text или визуальный анализ.
Стратегическое значение
Патент имеет важное стратегическое значение, подтверждая возможности Google в области мультимодального понимания контента и движения к Ambient Computing. Он показывает, как Google стирает границы между различными типами контента (веб, ТВ, радио), индексируя их и извлекая унифицированный контекст и сущности. Для SEO это означает, что источником интента являются не только текстовые запросы, но и весь медиа-ландшафт. Стратегия должна фокусироваться на оптимизации сущностей и обеспечении их корректной интерпретации мультимодальными системами.
Практические примеры
Сценарий: Оптимизация ТВ-рекламы для контекстного поиска
- Ситуация: Фармацевтическая компания запускает ТВ-рекламу нового препарата «ИмуноМакс».
- Действия по оптимизации (на основе патента):
- В аудиодорожке четко произносится «ИмуноМакс».
- В видеоряде крупным планом показана упаковка и добавлен текст «Укрепляет иммунитет в сезон простуд».
- На сайте создана целевая страница, оптимизированная под сущность «ИмуноМакс» и интент «укрепить иммунитет».
- Работа системы (по патенту):
- Capture Server Google индексирует рекламу.
- Система Speech-to-Text/Subtitles распознает название.
- Image Analysis Server через OCR распознает текст на экране. Все данные сохраняются как метаданные.
- Взаимодействие пользователя: Пользователь смотрит рекламу и активирует ассистента на телефоне.
- Результат: Система идентифицирует рекламу по Audio Fingerprint, извлекает метаданные («ИмуноМакс», «Укрепляет иммунитет») и автоматически генерирует запросы. Пользователь видит в топе выдачи официальный сайт препарата.
Вопросы и ответы
Влияет ли этот патент на алгоритмы ранжирования Google?
Нет, напрямую не влияет. Патент описывает механизм идентификации медиаконтента и автоматической генерации поисковых запросов на основе контекста этого контента. Он объясняет, как возникает поисковый запрос (Query Generation), а не то, как ранжируются результаты. Ранжирование выполняется стандартными алгоритмами.
Какие именно данные Google извлекает из ТВ-трансляций или видео для генерации запроса?
Google извлекает мультимодальные данные: 1) Аудиопоток (для фингерпринтинга и Speech-to-Text). 2) Поток субтитров (текст или OCR). 3) Видеопоток для анализа кадров (OCR текста на экране, распознавание лиц, объектов, логотипов). 4) Данные EPG (информация о программе). Комбинация этих данных формирует запрос.
Как система определяет, какие ключевые слова использовать для генерации запроса?
Search Query Builder анализирует всю собранную метаинформацию. Патент указывает (Claim 15), что система фокусируется на контексте, который включает идентификацию сущностей: людей, локаций, новостных сюжетов или продуктов. Вероятно, эти извлеченные сущности имеют наивысший приоритет при формировании запроса.
Что это значит для SEO при запуске ТВ-рекламы?
Это означает, что ТВ-реклама может генерировать специфические поисковые запросы в реальном времени. Система идентифицирует ролик через Ad Detection Server и использует его содержание для генерации запроса. SEO-специалистам необходимо убедиться, что посадочные страницы оптимизированы именно под фразы и сущности из рекламы, чтобы захватить этот трафик.
Может ли система работать с любым медиаконтентом?
Теоретически да (ТВ, радио, стриминг, DVD, Blu-ray). Однако для работы необходимо, чтобы этот контент был предварительно захвачен и проиндексирован Capture Servers. Для прямых трансляций это требует инфраструктуры для записи в реальном времени, а для записанного контента – его предварительной обработки.
Как система обрабатывает ситуацию, когда звук нечеткий или шумно?
Если Match Service не может идентифицировать совпадение аудио-фингерпринта, патент предусматривает резервный механизм. Система может запросить у пользователя ручной ввод источника аудио (например, название ТВ-канала) и определить контент на основе этого ввода и времени запроса.
Использует ли система информацию о местоположении пользователя?
Да. Информация о местоположении клиентского устройства (включая GPS или IP geo-location) может использоваться для фильтрации потенциальных медиаисточников. Например, система может ограничить сравнение только теми ТВ-каналами, которые доступны в регионе пользователя, что повышает точность идентификации.
Что такое режим непрерывной работы («continuous mode»)?
Это режим, при котором клиентское приложение постоянно или периодически записывает и отправляет аудиосэмплы без прямого участия пользователя. Система постоянно идентифицирует контент и обновляет результаты поиска на экране устройства в реальном времени по мере изменения контекста трансляции (например, при смене новостного сюжета).
Какова роль субтитров и транскриптов в этом процессе?
Они критически важны. Субтитры (или текст, полученный через Speech-to-Text) являются ключевым источником текстовых метаданных. Система использует их для понимания контекста, извлечения сущностей и генерации поисковых запросов. Наличие точных субтитров значительно повышает эффективность системы.
Какое значение имеет извлечение ключевых слов на основе видео (Video-Based Keyword Metadata) для SEO?
Это подтверждает, что Google активно анализирует визуальную составляющую видеоконтента. Система использует OCR для чтения текста на экране и распознавание объектов/лиц. Это подчеркивает важность оптимизации визуальных элементов в видео (четкость текста, видимость продукта) и соответствия этих визуальных сущностей контенту на целевых веб-страницах.