Патент Google описывает технологию для «второго экрана» (например, смартфона). Система распознает телепрограмму по звуку, предлагает пользователю скриншоты из нее, определяет сущности (например, актеров или локации) на выбранном скриншоте с учетом уточнений пользователя (Кто/Что/Где) и автоматически генерирует поисковый запрос для получения связанной информации.
Описание
Какую задачу решает
Патент решает проблему сложности и времязатратности поиска информации о контенте, просматриваемом на другом экране (например, телевизоре). Традиционный подход требует ручного ввода текстовых запросов для идентификации актеров, локаций или объектов, что отвлекает пользователя от просмотра. Изобретение автоматизирует этот процесс, устраняя необходимость в ручном вводе запроса.
Что запатентовано
Запатентована система для создания интерактивного опыта «второго экрана» (Second Screen), которая связывает медиаконтент с мобильным поиском без текстового ввода. Система идентифицирует просматриваемую программу (например, через audio fingerprinting), предоставляет пользователю релевантные изображения (скриншоты) этого контента, распознает сущности в выбранном пользователем изображении с учетом уточняющих опций и инициирует поиск информации по этой сущности.
Как это работает
Ключевой механизм работы системы:
- Идентификация контента: Система определяет, что смотрит пользователь, используя audio fingerprinting (сравнение аудиосэмпла с базой данных для определения канала и времени) или через прямое взаимодействие с медиаустройством.
- Получение изображений: Система извлекает и отображает скриншоты из идентифицированного контента за недавний период времени.
- Взаимодействие и Уточнение: Пользователь выбирает изображение, указывает область интереса (region of interest) и выбирает тип информации (supplemental content option, например, «Кто?» или «Где?»).
- Распознавание: Система использует image recognition techniques (включая распознавание лиц и объектов) для идентификации сущности (entity) указанного типа в выбранной области.
- Поиск: Автоматически генерируется search query на основе идентифицированной сущности, и результаты предоставляются пользователю.
Актуальность для SEO
Средняя. Технологии, лежащие в основе патента — распознавание аудио (ACR) и распознавание изображений (как в Google Lens) — крайне актуальны и активно развиваются Google. Однако конкретный сценарий использования «второго экрана» (идентификация ТВ-канала -> просмотр скриншотов -> поиск), описанный в патенте, не стал доминирующим. Акцент сместился на более универсальные инструменты визуального поиска.
Важность для SEO
Влияние на SEO минимальное (1/10). Патент не описывает алгоритмы ранжирования веб-поиска. Он описывает архитектуру конкретного приложения и пользовательский интерфейс для генерации поисковых запросов из нетекстового контекста (просмотр ТВ). Патент описывает внутренние процессы Google без прямых рекомендаций для SEO, но важен для понимания возможностей Google в области мультимодального поиска и распознавания сущностей.
Детальный разбор
Термины и определения
- Audio Fingerprint (Цифровой аудио-отпечаток)
- Цифровое представление аудиосигнала. Используется для идентификации медиаконтента (ТВ-канала и программы) путем сравнения с базой данных предварительно сгенерированных отпечатков.
- Capture Module (Модуль захвата)
- Серверный компонент, который непрерывно отслеживает медиаконтент из разных источников, генерирует Audio Fingerprints и делает скриншоты для индексации.
- Channel Detection Mode (Режим определения канала)
- Режим работы клиентского приложения, в котором оно пытается идентифицировать источник медиаконтента, используя аудиосэмплы или другие методы.
- Entity (Сущность)
- Идентифицируемый объект в изображении. Патент упоминает людей, места, события, объекты, логотипы, достопримечательности (landmarks).
- Guidance Data (Справочные данные / Данные телегида)
- Данные о программе (например, EPG — Electronic Program Guide), такие как список актеров. Используются для предоставления контекста и повышения точности распознавания сущностей.
- Image Recognition Techniques (Техники распознавания изображений)
- Набор методов для идентификации сущностей. Включает распознавание лиц (facial recognition), распознавание объектов (image recognition) и оптическое распознавание символов (optical character recognition, OCR).
- Region of Interest (Область интереса)
- Конкретная часть изображения, выбранная пользователем (например, выделенное лицо или объект) для последующего анализа и идентификации сущности.
- Screenshot Browsing Mode (Режим просмотра скриншотов)
- Режим интерфейса, в котором пользователю предоставляются изображения (скриншоты), соответствующие идентифицированному медиаконтенту за определенный временной интервал.
- Supplemental Content Option (Опция дополнительного контента)
- Опция интерфейса (например, кнопки «Кто?», «Что?», «Где?»), позволяющая пользователю указать тип сущности (entity type), которую нужно идентифицировать в изображении. Также называется Question Terms.
Ключевые утверждения (Анализ Claims)
Анализ основан на Claims патента US20170155964A1 (публикация заявки 2017 года), которая является продолжением (continuation) более ранних заявок. Claims этой версии фокусируются на взаимодействии с пользователем для уточнения интента.
Claim 1 (Независимый пункт): Описывает метод предоставления информации, связанной с медиаконтентом.
- Получение выбора изображения, которое соответствует части медиаконтента.
- Получение выбора «опции дополнительного контента» (supplemental content option), относящейся к выбранному изображению. Эта опция указывает тип сущности (entity type), который должен быть идентифицирован.
- В ответ на получение выбора опции, идентификация сущности указанного типа в выбранном изображении.
- Генерация поискового запроса (search query), включающего термины, относящиеся к идентифицированной сущности.
- Получение результатов поиска и их представление.
Ядро изобретения в этой версии — использование явного выбора пользователя (supplemental content option) для определения того, какой тип сущности искать на изображении (например, человека или локацию). Это сужает область распознавания и значительно уточняет интент поискового запроса.
Claim 4 (Зависимый): Уточняет Claim 3, указывая, что supplemental content options включают «вопросительный термин» (question term), который и определяет тип сущности (например, интерфейс с вопросами «Кто?», «Что?», «Где?»).
Claim 5 (Зависимый): Дополняет Claim 1, включая шаг получения выбора области интереса (region of interest) внутри изображения. Идентификация сущности происходит внутри этой области с использованием image recognition techniques.
Claim 6 и 7 (Зависимые): Описывают определение информации об источнике (source information, например, канала). Claim 7 уточняет, что источник может быть определен на основе полученных аудиоданных (audio data) — это механизм аудио-фингерпринтинга.
Claim 9 (Зависимый): Включает доступ к программной информации (guidance information) и использование этой информации для идентификации сущности. Система использует внешние метаданные (например, списки актеров из EPG) для повышения точности распознавания.
Где и как применяется
Патент описывает работу конкретного приложения (продукта), а не стандартную архитектуру веб-поиска, но взаимодействует с ее компонентами.
INDEXING – Индексирование (Косвенно)
Система полагается на специализированную инфраструктуру (Capture Module), которая непрерывно сканирует медиапотоки (ТВ-каналы). На этом этапе происходит генерация Audio Fingerprints и сохранение скриншотов. Эти данные индексируются по каналу и времени. Также система использует индексы сущностей и изображений (Knowledge Graph) для распознавания.
QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Описан процесс понимания сложного мультимодального запроса. Система интерпретирует комбинацию входных данных — аудиосэмпл, выбор изображения, выбор region of interest и выбор supplemental content option («Кто?», «Что?») — как единое поисковое намерение. На выходе генерируется структурированный поисковый запрос (search query).
RANKING (Ранжирование)
Не применимо. Патент не описывает, как ранжируются результаты сгенерированного запроса.
Входные данные:
- Аудиосэмпл медиаконтента (для идентификации источника).
- Выбранное пользователем изображение (selected image).
- Выбранная область интереса (region of interest) (опционально).
- Выбранная опция дополнительного контента (supplemental content option).
- Guidance Data (EPG) (используется на сервере).
Выходные данные:
- Сгенерированный поисковый запрос (search query).
- Полученные результаты поиска (search results).
На что влияет
- Конкретные типы контента и ниши: Влияет на контент, связанный с медиа: биографии актеров, описания фильмов и сериалов, туристические локации, товары, показанные в программах.
- Специфические запросы: Генерирует информационные запросы, связанные с сущностями (имена людей, названия мест, наименования продуктов).
Когда применяется
- Условия работы алгоритма: Алгоритм работает в рамках специализированного клиентского приложения на устройстве пользователя (Second Screen).
- Триггеры активации: Запуск приложения пользователем во время просмотра медиаконтента и активация режима определения канала (Channel Detection Mode). Последующие шаги требуют взаимодействия пользователя с интерфейсом.
Пошаговый алгоритм
Процесс работы системы можно разделить на несколько этапов:
Этап 1: Идентификация контента (Channel Detection Mode)
- Клиентское приложение получает аудиосэмпл просматриваемого медиаконтента.
- Генерируется audio fingerprint из полученного сэмпла.
- Отпечаток передается на сервер и сравнивается с базой данных предварительно сгенерированных отпечатков, индексированных по каналам и времени.
- При обнаружении совпадения идентифицируется канал и временная метка.
Этап 2: Получение изображений (Screenshot Browsing Mode)
- Сервер обращается к базе данных сохраненных скриншотов.
- Извлекается набор скриншотов на основе идентифицированного канала и заданного временного окна (например, последние N минут).
- Скриншоты передаются клиентскому приложению и отображаются пользователю.
Этап 3: Взаимодействие и Уточнение Интента
- Система получает выбор одного изображения пользователем.
- (Опционально) Система получает выбор конкретной области интереса (region of interest).
- Система получает выбор supplemental content option (например, «Кто?»), указывающий на тип искомой сущности (entity type).
Этап 4: Генерация запроса и поиск (Result Display Mode)
- Выбранное изображение (или область) и тип сущности передаются на сервер.
- Сервер идентифицирует сущность (entity) с использованием image recognition techniques, фокусируясь на указанном типе. Для повышения точности могут использоваться Guidance Data (например, список актеров шоу).
- Генерируется поисковый запрос (search query) на основе идентифицированной сущности.
- Выполняется поиск, и результаты возвращаются клиентскому приложению.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Ключевые данные — это аудиосэмплы (audio sample) для идентификации контента и изображения (скриншоты, images), извлеченные из медиапотока Capture Modules на сервере.
- Пользовательские факторы: Взаимодействия пользователя с интерфейсом: выбор изображения, выделение region of interest, выбор supplemental content option. Патент также упоминает возможность использования местоположения и предпочтений пользователя для фильтрации совпадений аудио-отпечатков.
- Временные факторы: Временные метки критичны для синхронизации аудио и видео и для извлечения релевантных скриншотов за определенный период (time parameter).
- Системные данные: Guidance Data (EPG), используемые для получения контекста программы.
Какие метрики используются и как они считаются
Патент не детализирует конкретные метрики ранжирования или формулы расчета оценок. Он фокусируется на техниках идентификации и генерации запросов.
Методы анализа и распознавания:
- Audio Fingerprinting: Технология сравнения аудио-отпечатков для точной идентификации источника (канала) и времени вещания.
- Image Recognition Techniques: Упоминается использование нескольких техник для идентификации сущностей:
- Facial recognition (распознавание лиц) для идентификации людей.
- Image recognition / Object recognition (распознавание объектов) для идентификации предметов, достопримечательностей.
- Optical character recognition (OCR) для извлечения текста из изображения.
- Контекстная фильтрация: Система использует Guidance Data (EPG) для верификации результатов распознавания и фильтрации ложных срабатываний (например, сверка распознанного лица со списком актеров).
Выводы
Патент описывает инфраструктурный и продуктовый механизм для реализации мультимодального поиска в контексте «второго экрана», а не алгоритм ранжирования веб-страниц. Практических выводов для традиционного SEO мало.
- Мультимодальный ввод запроса: Google демонстрирует способность интерпретировать комбинацию различных типов данных — аудио, изображения, выделенной области и текстовых подсказок (supplemental content options) — как единый поисковый интент.
- Сложный конвейер извлечения сущностей: Система использует многоступенчатый процесс для извлечения entity из медиаконтента. Контекстная информация (время, канал, данные EPG) используется для значительного повышения точности распознавания изображений.
- Уточнение интента через взаимодействие: Акцент сделан на получении от пользователя указания типа сущности (Кто/Что/Где). Это позволяет системе точнее сфокусировать алгоритмы распознавания и сгенерировать более релевантный запрос.
- Автоматическая генерация запросов: Основная цель системы — устранить необходимость ручного ввода текста, автоматически генерируя search query на основе контекста пользователя и его минимальных взаимодействий с интерфейсом.
- Фокус на Entity-Based Search: Конечным результатом работы системы является поиск информации об идентифицированной сущности, что подчеркивает роль Knowledge Graph в обеспечении ответов на такие запросы.
Практика
Патент является инфраструктурным и описывает работу конкретного приложения или функции («второго экрана»). Прямых рекомендаций для SEO продвижения веб-сайтов он не дает. Однако он позволяет лучше понять возможности и приоритеты Google в области распознавания изображений и сущностей.
Best practices (это мы делаем)
- Построение сильного профиля сущности (Entity Optimization): Поскольку система идентифицирует сущности (актеров, локации, продукты) и генерирует запросы о них, стратегически важно, чтобы эти сущности были корректно представлены в Knowledge Graph и имели авторитетные целевые страницы. SEO-специалисты должны гарантировать, что их контент является лучшим ответом на сгенерированный запрос о сущности.
- Оптимизация изображений для распознавания (Косвенно): Патент использует базовые технологии распознавания изображений (аналогичные Google Lens). Размещение на сайте четких, высококачественных изображений ключевых сущностей (продуктов, ключевых персон) облегчает их корректную идентификацию системами Google.
- Структурирование данных о медиаконтенте: Если вы работаете с медиа-сайтами, убедитесь, что информация о фильмах и передачах (актерский состав, локации) четко структурирована. Эти данные действуют аналогично Guidance Data, помогая поисковым системам ассоциировать сущности с медиаконтентом.
Worst practices (это делать не надо)
Патент не направлен на борьбу с какими-либо конкретными SEO-манипуляциями или тактиками продвижения, поэтому выделить худшие практики на его основе невозможно.
Стратегическое значение
Патент подтверждает долгосрочную стратегию Google на развитие мультимодального поиска и уход от зависимости исключительно от текстовых запросов. Он демонстрирует, как Google может интерпретировать аудиовизуальный контекст пользователя для генерации поискового интента без ввода ключевых слов (Ambient Search). Это усиливает важность визуального контента и Entity-Based SEO.
Практические примеры
Сценарий: Идентификация актера во время просмотра фильма
- Действие пользователя: Пользователь смотрит фильм по ТВ и запускает приложение на смартфоне.
- Работа системы: Приложение записывает звук (Channel Detection Mode), идентифицирует фильм с помощью Audio Fingerprinting.
- Взаимодействие: Приложение показывает недавние скриншоты (Screenshot Browsing Mode). Пользователь выбирает кадр, выделяет лицо актера (Region of Interest) и нажимает кнопку «Кто» (Supplemental Content Option).
- Генерация запроса: Система использует Facial Recognition, сверяется с Guidance Data фильма, идентифицирует сущность «Актер Имя Фамилия» и генерирует этот поисковый запрос.
- Результат: Пользователю отображаются результаты поиска (например, профиль IMDb или статья в Wikipedia).
- Роль SEO: SEO-специалист не влияет на процесс идентификации, но может оптимизировать целевую страницу (например, официальный сайт актера), чтобы она ранжировалась выше в результатах этого сгенерированного запроса.
Вопросы и ответы
Описывает ли этот патент, как Google ранжирует сайты в поиске?
Нет, этот патент не описывает алгоритмы ранжирования веб-страниц. Он посвящен технологии идентификации медиаконтента (например, ТВ-шоу) с помощью аудио и изображений и автоматической генерации поисковых запросов на основе объектов, распознанных в этом контенте. Это описание работы специализированного приложения.
Как система определяет, что именно смотрит пользователь?
Основной метод, описанный в патенте, — это использование цифровых аудио-отпечатков (Audio Fingerprinting). Приложение записывает звук с телевизора, создает отпечаток и сравнивает его с базой данных отпечатков, предварительно записанных с различных каналов и индексированных по времени. Это позволяет точно определить канал и момент трансляции.
Что такое «Supplemental Content Option» и зачем это нужно?
Это элемент интерфейса, который позволяет пользователю уточнить свой интент, выбрав вопрос типа «Кто?», «Что?» или «Где?» применительно к изображению. Это помогает системе понять, какой тип сущности (entity type) нужно искать (человека, объект или локацию), что повышает точность распознавания и релевантность сгенерированного поискового запроса.
Откуда система берет скриншоты программ?
Система предполагает наличие серверной инфраструктуры (Capture Module), которая постоянно мониторит и записывает контент с множества источников (телевизионных каналов). Она сохраняет скриншоты и аудио-отпечатки в базу данных, индексированную по каналу и времени, что позволяет быстро извлекать недавние изображения.
Как система обеспечивает точность распознавания актеров или объектов?
Помимо стандартных технологий распознавания лиц и объектов, патент предлагает использовать Guidance Data (данные телегида, EPG). Если система знает, какой фильм идет, она может получить список актеров из EPG и использовать его для верификации результатов распознавания лиц, что значительно повышает точность.
Связан ли этот патент с технологией Google Lens?
Да, концептуально они связаны. Оба используют технологии распознавания изображений (Image Recognition Techniques) для идентификации сущностей в визуальном контенте. Однако данный патент специфичен для сценария «второго экрана» и включает интеграцию с распознаванием аудио (ACR) и данными телегида (EPG), в отличие от более универсального Google Lens.
Каково стратегическое значение этого патента для SEO-специалистов?
Стратегическое значение заключается в понимании того, что Google активно развивает методы поиска без текстового ввода (Ambient Search). Это подчеркивает необходимость смещения фокуса с оптимизации под ключевые слова на оптимизацию под сущности (Entity Optimization) и обеспечение их корректного присутствия в Knowledge Graph.
Могу ли я оптимизировать свой сайт, чтобы он появлялся в результатах такого поиска?
Напрямую оптимизировать под этот механизм нельзя. Однако вы можете оптимизировать свой контент под те сущности, которые могут быть идентифицированы. Если система распознает продукт в телешоу и генерирует запрос о нем, ваш сайт может высоко ранжироваться по этому запросу, если он хорошо оптимизирован для этой сущности стандартными методами SEO.
Какие технологии распознавания используются для идентификации сущностей?
В патенте упоминаются три ключевые техники: Facial Recognition для идентификации людей, Image Recognition (или Object Recognition) для идентификации объектов, достопримечательностей и локаций, а также Optical Character Recognition (OCR) для извлечения текста из изображения.
Использует ли эта система камеру мобильного устройства?
Нет, в этом конкретном патенте не описано использование камеры для захвата изображения с экрана. Он использует микрофон для аудиоидентификации и отображает предварительно захваченные скриншоты, полученные с сервера.