Google патентует механизм для понимания голосовых запросов, заданных во время просмотра видео (например, «Кто этот актер?»). Система синхронизирует мобильное устройство с устройством воспроизведения, фиксируя точную временную метку и идентификатор контента в момент запроса. Эти данные используются для выполнения контекстного поиска и предоставления точного ответа.
Описание
Какую задачу решает
Патент решает проблему неоднозначности (ambiguity) запросов, задаваемых во время потребления медиаконтента, и сложности ручного поиска контекстной информации. Когда пользователь спрашивает «Кто это?» во время просмотра фильма, системе необходим контекст, чтобы понять, о ком идет речь. Изобретение автоматизирует получение этого контекста, устраняя необходимость для пользователя вручную вводить названия или имена.
Что запатентовано
Запатентована система для обработки контекстуальных запросов, основанная на синхронизации между мобильным устройством (Mobile Device) и устройством воспроизведения медиа (Media Playback Device). Мобильное устройство захватывает голосовой запрос, а устройство воспроизведения предоставляет точный контекст: идентификатор контента (Media Content Identification Information) и временную метку (Timing Information) момента запроса. Эти данные объединяются для выполнения высокоточного поиска.
Как это работает
Механизм работает следующим образом:
- Ассоциация: Мобильное устройство связывается с устройством воспроизведения (например, Smart TV).
- Прослушивание: Микрофон на мобильном устройстве активируется (с согласия пользователя) для приема окружающих звуков (Ambient Sounds).
- Детекция запроса: Система распознает триггерную фразу (Trigger Term, например, «OK Smart TV») и следующий за ней запрос (Query).
- Получение контекста: Система немедленно запрашивает у устройства воспроизведения текущий ID контента и точные временные метки (начало и конец запроса).
- Контекстный поиск: Запрос, ID контента и временные метки отправляются на поисковый сервер. Сервер использует эту информацию, чтобы понять, на что именно смотрел пользователь.
- Ответ: Результат поиска отображается на мобильном устройстве или экране ТВ.
Актуальность для SEO
Высокая. Контекстный поиск, голосовые ассистенты (Google Assistant) и экосистемы умного дома являются ключевыми направлениями развития. Этот патент (продолжение заявок с 2015 года) описывает фундаментальную механику взаимодействия с медиаконтентом в реальном времени, которая активно используется в современных платформах (Google TV, Chromecast).
Важность для SEO
Влияние на традиционное веб-SEO минимальное (40/100), так как патент не описывает алгоритмы ранжирования сайтов. Он фокусируется на понимании запросов в специфической медиа-среде. Однако он имеет существенное значение для Video SEO и оптимизации сущностей (Entity SEO). Он подчеркивает критическую важность наличия точных, структурированных и синхронизированных по времени метаданных для видеоконтента, чтобы Google мог использовать их для ответов на такие контекстные запросы.
Детальный разбор
Термины и определения
- Ambient Sounds (Окружающие звуки)
- Аудиоданные, захваченные микрофоном в окружении пользователя, включающие речь и фоновые шумы.
- Audio Capturing Device (Устройство захвата аудио)
- Микрофон, интегрированный в мобильное устройство или устройство воспроизведения.
- Media Content Identification Information (Информация для идентификации медиаконтента)
- Уникальный идентификатор (ID) воспроизводимого контента (фильма, видео).
- Media Playback Device (Устройство воспроизведения медиа)
- Устройство, на котором проигрывается контент (например, Smart TV, стриминговая приставка).
- Media Playback Information (Информация о воспроизведении медиа)
- Контекстные данные, включающие Media Content Identification Information и Timing Information.
- Mobile Device (Мобильное устройство)
- Устройство пользователя (смартфон, планшет), используемое для захвата запроса.
- Timing Information (Информация о времени)
- Точные временные метки (timestamps) воспроизводимого контента, соответствующие моменту получения запроса (начало и конец).
- Trigger Term (Триггерный термин)
- Ключевая фраза (например, «OK Smart TV»), которая инициирует процесс обработки запроса.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод, выполняемый мобильным устройством.
- Получение запроса (query) и триггера (trigger term) на мобильном устройстве.
- Запрос Media Playback Information у устройства воспроизведения.
- Получение ID контента и Timing Information. Временная информация включает первую метку (когда получен триггер) и вторую метку (спустя определенный период времени после триггера — after an elapsed time period).
- Инициирование поиска на сервере с использованием запроса, ID и временных меток.
- Отображение результата на мобильном устройстве.
Claim 4 (Зависимый): Детализирует предварительные условия: ассоциация устройств и активация микрофона для приема Ambient Sounds.
Claim 15 (Независимый пункт): Описывает систему (мобильное устройство), реализующую схожий метод, но с важным уточнением определения второй временной метки.
Вторая временная метка соответствует времени, когда входные данные принимались непрерывно в соответствии с пороговым значением (inputs were received continuously according to a threshold value).
Это означает, что система определяет окончание запроса не по фиксированному таймеру (как в Claim 1), а анализируя непрерывность речи пользователя. Если пауза превышает порог, запрос завершен.
Claim 16 (Зависимый от 15): Уточняет пороговое значение из Claim 15 как «не более одной секунды между получением каждого текстового ввода».
Где и как применяется
Изобретение применяется для улучшения интерпретации голосовых команд в контексте потребления медиа.
QUNDERSTANDING – Понимание Запросов
Это основная фаза применения. Весь механизм направлен на устранение неоднозначности запроса путем его обогащения точным контекстом. Система преобразует запрос (например, «Кто это?») в конкретное намерение (Кто Актер X, появляющийся на временной метке Y в Фильме Z?). Контекст формируется из двух ключевых сигналов: Media Content Identification Information (ЧТО смотрит пользователь) и Timing Information (КОГДА задан вопрос).
INDEXING – Индексирование (Косвенно)
Для работы системы необходимо, чтобы поисковый бэкенд имел доступ к индексу, где медиаконтент аннотирован с привязкой ко времени (time-coded metadata). Сущности должны быть связаны с конкретными временными метками в видео.
Входные данные:
- Аудиосигнал (Ambient Sounds) с мобильного устройства.
- Media Playback Information (ID контента и временные метки) от устройства воспроизведения.
- Согласие пользователя на использование микрофона.
Выходные данные:
- Search Result (часто прямой ответ или карточка сущности), отображаемый на экране.
На что влияет
- Конкретные типы контента: Видеоконтент (фильмы, сериалы, ТВ-программы, длинные видео).
- Специфические запросы: Информационные голосовые запросы о сущностях, присутствующих на экране в данный момент (кто, что, где).
- Конкретные ниши: Развлечения, кино, музыка, спорт (при наличии синхронизированных метаданных).
Когда применяется
- Условия работы: Медиаконтент активно воспроизводится на Media Playback Device, которое ассоциировано с Mobile Device.
- Триггеры активации: Детекция голосовой команды Trigger Term в аудиопотоке, захваченном активированным и авторизованным микрофоном.
Пошаговый алгоритм
Этап 1: Подготовка и Ассоциация
- Ассоциация мобильного устройства с устройством воспроизведения (например, через одну сеть или аккаунт). Установление канала для обмена данными.
- Получение согласия пользователя на использование микрофона.
- Активация микрофона на мобильном устройстве для приема Ambient Sounds.
Этап 2: Обработка Запроса и Контекста
- Прием окружающих звуков и их конвертация в текст (Speech-to-Text).
- Детекция Trigger Term в текстовом потоке.
- Захват последующего текста как Query. Определение окончания запроса по паузе в речи (порог ~1 сек) или по таймеру.
- Немедленный запрос Media Playback Information у устройства воспроизведения.
- Получение контекста: Media Content ID и Timing Information (временные метки начала и конца запроса).
Этап 3: Поиск и Отображение
- Формирование поискового пакета: Query + Timing Information + Media Content ID.
- Отправка пакета на поисковый сервер для выполнения контекстуализированного поиска.
- Получение Search Result (с возможной фильтрацией по уровню уверенности или популярности).
- Отображение результата пользователю (на мобильном устройстве или ТВ).
Какие данные и как использует
Данные на входе
- Пользовательские факторы: Голосовой ввод (аудиосигнал). Явное согласие пользователя на использование микрофона.
- Мультимедиа факторы (Контекст): Media Content Identification Information — идентификатор контента. Ключ к пониманию того, ЧТО смотрит пользователь.
- Временные факторы (Контекст): Timing Information — точные временные метки (timestamps) воспроизведения. Ключ к пониманию того, КОГДА задан вопрос.
Какие метрики используются и как они считаются
Патент не описывает метрики ранжирования веб-документов, но использует следующие параметры:
- Временные метки (Timestamps):
- First timestamp: Момент получения триггера.
- Second timestamp: Момент окончания запроса.
- Пороговые значения (Threshold values): Используются для определения конца голосового запроса на основе непрерывности речи (например, пауза > 1 секунды).
- Уровень уверенности (Confidence information): Упоминается для фильтрации результатов поиска; если уверенность низкая, ответ может быть не показан.
- Популярность поиска (Search Popularity Information): Может использоваться для выбора наилучшего ответа или определения места его отображения.
Выводы
- Контекст как ключ к разрешению неоднозначности: Патент демонстрирует, как Google использует информацию из окружающей среды (состояние воспроизведения медиа) для радикального улучшения понимания неоднозначных голосовых запросов.
- Критичность точной синхронизации (Timing Information): Ядром изобретения является использование точных временных меток. Это позволяет системе связывать запрос с конкретной сценой или объектом на экране в данный момент времени.
- Требования к гранулярным метаданным: Эффективность системы зависит от наличия у Google доступа к детализированным, размеченным по времени метаданным (time-coded metadata) о контенте (например, кто из актеров в кадре в интервале X-Y).
- Инфраструктура «Второго экрана» и Ambient Computing: Патент описывает техническую реализацию бесшовного взаимодействия между устройствами, где поиск интегрирован в повседневную деятельность (просмотр ТВ) и не требует ручного ввода контекста.
- Фокус на сущностях и прямых ответах: Система предназначена для идентификации сущностей (Entities) и предоставления прямых ответов о них, опираясь на данные из Knowledge Graph.
Практика
ВАЖНО: Патент описывает инфраструктуру понимания запросов, а не алгоритмы веб-ранжирования. Прямых рекомендаций для традиционного SEO мало, но есть критически важные выводы для Video SEO и оптимизации сущностей.
Best practices (это мы делаем)
- Оптимизация под Граф Знаний (Entity SEO): Система ищет ответы о сущностях. Необходимо обеспечить максимальное присутствие ваших сущностей (персон, фильмов, продуктов, локаций) в Knowledge Graph, так как он является основным источником ответов.
- Предоставление размеченных по времени метаданных (Time-coded Metadata): Это главный вывод для Video SEO. Поскольку система полагается на Timing Information, необходимо предоставлять данные, синхронизированные с таймлайном видео:
- Загружайте точные субтитры и транскрипты.
- Используйте временные метки (таймкоды) и главы (chapters).
- Применяйте разметку Clip или hasPart в Schema.org для описания сегментов видео и сущностей, присутствующих в них.
- Полное структурирование данных о медиа: Для сайтов в нише развлечений критически важно иметь исчерпывающие и структурированные данные (Movie, TVSeries), включая полные списки актеров, локаций, саундтреков и их взаимосвязей.
Worst practices (это делать не надо)
- Публикация видео с минимальными метаданными: Если Google не знает, кто или что присутствует в вашем видео в конкретный момент, он не сможет ответить на контекстные вопросы пользователей о нем.
- Игнорирование оптимизации под сущности: Фокусировка только на ключевых словах неэффективна для систем, которые оперируют сущностями и контекстом.
- Неточные транскрипты: Ошибки в транскриптах или субтитрах могут привести к неверной идентификации сущностей в определенные моменты времени.
Стратегическое значение
Патент подтверждает стратегию Google на глубокое, гранулярное понимание содержания медиафайлов, выходящее за рамки анализа заголовков. Он укрепляет движение к поиску на основе сущностей и демонстрирует развитие «Ambient Computing» — среды, где поиск понимает контекст пользователя и предоставляет информацию без сложных манипуляций. Для SEO это означает долгосрочный сдвиг фокуса на оптимизацию сущностей и предоставление структурированных данных.
Практические примеры
Сценарий: Оптимизация кулинарного видео для контекстного поиска
- Ситуация: Пользователь смотрит видеорецепт и в момент добавления специи (на 05:32) спрашивает: «Сколько калорий в этом ингредиенте?».
- Работа системы (по патенту): Система фиксирует запрос, получает ID видео и временную метку 05:32.
- Действия SEO-специалиста (Оптимизация): Специалист должен предоставить:
- Точный транскрипт, где на 05:32 упоминается «Куркума».
- Таймкоды (главы), указывающие на этап «Добавление специй».
- Структурированные данные (schema.org/Recipe), перечисляющие ингредиенты.
- Результат: Сервер Google сопоставляет временную метку 05:32 с транскриптом и главами, идентифицирует сущность «Куркума» и предоставляет ответ о ее калорийности. Без точных, синхронизированных метаданных система не поняла бы, о каком «этом ингредиенте» идет речь.
Вопросы и ответы
Влияет ли этот патент на ранжирование моего сайта в органической выдаче Google?
Напрямую нет. Патент не описывает алгоритмы ранжирования веб-страниц. Он фокусируется на механизме понимания контекста голосовых запросов (Query Understanding) при просмотре медиаконтента на связанных устройствах (например, ТВ и смартфон).
Какое практическое значение этот патент имеет для SEO?
Он имеет важное значение для Video SEO и оптимизации сущностей. Он демонстрирует, что Google индексирует видеоконтент на гранулярном уровне (посекундно). Это подчеркивает важность предоставления размеченных по времени метаданных (time-coded metadata) и оптимизации под Knowledge Graph, который служит источником ответов для этой системы.
Что такое «Timing Information» и почему это так важно?
Timing Information — это точные временные метки воспроизводимого контента в момент запроса. Это критически важно для разрешения неоднозначности. Например, вопрос «Кто это?» в разные моменты фильма относится к разным актерам. Временные метки позволяют системе понять, что именно было на экране в этот момент.
Как я могу оптимизировать свои видео под эту технологию?
Ключевой элемент — предоставление синхронизированных по времени данных. Это включает загрузку точных транскриптов и субтитров, использование таймкодов (глав) для разметки видео и применение микроразметки Schema.org (например, Clip, hasPart) для идентификации сущностей в конкретные моменты времени.
Как система узнает, кто находится на экране в определенный момент времени?
Патент описывает, как система получает временную метку, но не то, как сервер ее интерпретирует. На бэкенде Google использует комбинацию методов: анализ метаданных, предоставленных создателями (включая time-coded metadata), технологии машинного обучения для распознавания лиц/объектов и данные из Knowledge Graph для идентификации сущностей.
Как система определяет, когда запрос начался и закончился?
Начало определяется моментом детекции триггерного слова (Trigger Term). Окончание определяется продвинутым способом (Claim 15 и 16): анализом непрерывности речи. Если пауза в речи пользователя превышает определенный порог (например, 1 секунду), запрос считается завершенным. Также есть вариант с фиксированным таймером (Claim 1).
Должен ли микрофон быть постоянно включен?
Система требует активации микрофона для прослушивания окружающих звуков и детекции триггерного слова. В патенте подчеркивается необходимость получения предварительного согласия пользователя (авторизации) на активацию микрофона и передачу аудиоданных (Paragraph [0055]).
Где отображается ответ на запрос пользователя?
Патент указывает, что ответ может быть представлен на мобильном устройстве (Mobile Device), которое приняло запрос (Claim 1). Также упоминается возможность отображения ответа на самом устройстве воспроизведения (Media Playback Device), например, на экране ТВ.
Что происходит, если в комнате несколько человек задают вопросы?
Система поддерживает сценарий с несколькими устройствами (Claim 9). Она может активировать микрофоны на разных устройствах, принимать несколько запросов, обрабатывать их и направлять ответы на соответствующие устройства или отображать их на главном экране.
Что этот патент говорит о будущем поиска Google?
Он указывает на развитие в сторону «Ambient Computing» и контекстуального поиска. Google стремится понимать намерения пользователя, основываясь на его окружении и текущей деятельности, минимизируя необходимость явного ввода информации. Поиск становится все более диалоговым, основанным на сущностях и интегрированным в экосистему устройств.