Как Google использует контент на экране для распознавания голосовых команд без активационной фразы (Hotword)

Патент Google описывает, как голосовые ассистенты на устройствах с экраном (смартфоны, смарт-дисплеи) определяют, предназначена ли им последующая фраза, даже если пользователь не произнес активационное слово («Ok Google»). Система анализирует, связана ли произнесенная команда с контентом, который в данный момент отображается на дисплее, чтобы поддержать естественный диалог.

Описание

Какую задачу решает

Патент решает проблему неестественного и неудобного взаимодействия с голосовыми ассистентами, когда пользователю приходится повторять активационную фразу (Hotword, например, «Ok Google») перед каждой командой в рамках одного диалога. Изобретение улучшает пользовательский опыт (UX), позволяя системе автоматически распознавать продолжение разговора и отличать его от посторонней речи.

Что запатентовано

Запатентована система для определения того, предназначена ли последующая голосовая команда (без Hotword) вычислительному устройству. Критически важно отметить, что хотя описание патента охватывает различные контекстуальные сигналы, защищенная Формула изобретения (Claims) этого конкретного патента (US11893350B2), который является патентом-продолжением, сфокусирована исключительно на анализе связи между произнесенной командой и контентом, отображаемым на экране устройства (user-facing display).

Как это работает

Механизм активируется, когда устройство фиксирует речь, но не обнаруживает Hotword:

Транскрипция и Анализ Экрана: Речь преобразуется в текст, и одновременно система идентифицирует контент на дисплее.
Контекстуальное сравнение: Транскрипция сравнивается с контентом на экране для поиска связи.
Принятие решения: Если связь обнаружена и Confidence Score (оценка уверенности) высок, система маршрутизирует (route) команду для обработки. В противном случае команда игнорируется (bypass routing).

Актуальность для SEO

Высокая. Патент опубликован в 2024 году. Развитие Conversational AI и мультимодального взаимодействия (голос + визуальный контекст) является стратегическим направлением для Google. Технологии, подобные описанной (например, Continued Conversation в Google Assistant), активно используются на смартфонах и смарт-дисплеях.

Важность для SEO

(4/10). Влияние на традиционное SEO (ранжирование веб-сайтов) минимальное. Патент описывает механизмы Human-Computer Interaction (HCI) и UX на стороне устройства. Однако он имеет значение для AEO (Answer Engine Optimization) и оптимизации под смарт-дисплеи. Патент показывает, что контент, отображаемый на экране (часто взятый из Featured Snippets), формирует визуальный контекст для следующего голосового взаимодействия. Это требует оптимизации структуры контента для поддержания диалога.

Детальный разбор

Термины и определения

Analyzer (Анализатор): Компонент системы, который оценивает контекстуальные сигналы и генерирует Confidence Score. Включает суб-компоненты, такие как Screen Analyzer.
Confidence Score (Оценка уверенности): Числовая метрика, отражающая вероятность того, что пользователь обращался к устройству, произнося фразу без Hotword. Сравнивается с пороговым значением.
Data Routing Component (Компонент маршрутизации данных): Компонент, который направляет транскрипцию в систему обработки запросов (Query Processing System) или блокирует ее маршрутизацию (bypass routing).
Hotword (Активационная фраза): Ключевое слово или фраза (например, «Ok Google»), используемая для явной активации устройства.
Knowledge Graph (Граф знаний): Упоминается в описании патента как потенциальный инструмент для анализа семантической связи между терминами в последовательных запросах (но не является фокусом Claims этого патента).
Screen Analyzer (Анализатор экрана): Ключевой компонент согласно Claims этого патента. Идентифицирует контент на экране и оценивает его связь с текущей фразой.
Spoken Utterance (Произнесенная фраза/реплика): Фрагмент речи пользователя, зафиксированный микрофоном.
User-facing display (Дисплей, обращенный к пользователю): Экран устройства, контент на котором служит визуальным контекстом.

Ключевые утверждения (Анализ Claims)

Критическое замечание: Патент US11893350B2 является патентом-продолжением (Continuation). В то время как общее описание (Specification) обсуждает множество контекстуальных факторов (время, местоположение, предыдущие запросы, Knowledge Graph), независимые пункты Формулы изобретения (Claims 1, 9, 16) в этом конкретном патенте узко сфокусированы на использовании контента на экране.

Claim 1 (Независимый пункт): Описывает основной метод реагирования на голосовую команду без Hotword.

Система получает через микрофон аудиоданные произнесенной фразы (spoken utterance), которая не содержит Hotword.
Система определяет, что Hotword отсутствует.
В ответ на это система определяет, содержит ли транскрипция фразы запрос, который направлен на контент, отображаемый на дисплее устройства (content that is displayed via a user-facing display).
Если определено, что запрос направлен на контент на дисплее, система выполняет операцию в ответ на фразу.

Ядром защищенного изобретения является использование визуального контекста для подтверждения намерения пользователя взаимодействовать с устройством при отсутствии явной активации.

Claim 2 (Зависимый от 1): Уточняет метод определения связи с контентом на экране.

Определение связи включает:

Токенизацию транскрипции команды на термины.
Идентификацию контента, отображаемого на дисплее.
Определение, предоставляет ли контент на дисплее информацию для какого-либо термина из транскрипции. (Claim 3 приводит пример: термин «погода» в команде и информация о погоде на экране).

Claim 4 (Зависимый от 1): Уточняет механизм принятия решения.

Генерируется Confidence Score. Обнаружение связи между командой и контентом на экране положительно влияет (positively influenced) на эту оценку. Операция выполняется, если Confidence Score превышает установленный порог.

Где и как применяется

Этот патент относится к взаимодействию пользователя с устройством (HCI) и предварительной обработке ввода. Он не применяется к фазам CRAWLING, INDEXING, RANKING, METASEARCH или RERANKING органического поиска.

QUNDERSTANDING – Понимание Запросов
Применяется на этапе ввода и интерпретации голосовой команды на устройстве (Device-side Intent Classification). Система должна решить, является ли услышанная речь запросом, прежде чем обрабатывать ее семантику или отправлять в основную поисковую систему.

Взаимодействие компонентов:

Система взаимодействует с аудиоподсистемой, детектором активационных фраз (Hotworder), распознавателем речи (Speech Recognizer) и анализатором контекста (Analyzer). Ключевую роль, согласно Claims, играет Screen Analyzer.

Входные данные (согласно Claims):

Аудиоданные голосовой команды (audio data).
Транскрипция команды.
Данные о контенте, отображаемом на экране устройства (content displayed via a user-facing display).

Выходные данные:

Решение о маршрутизации (обработать или игнорировать).
Сконфигурированный Data Routing Component для выполнения действия.

На что влияет

Типы устройств: Влияет исключительно на взаимодействие с устройствами, обладающими голосовым интерфейсом и экраном (смартфоны, планшеты, умные дисплеи). Не применимо к устройствам только с голосовым управлением (согласно Claims).
Специфические запросы: Влияет на уточняющие запросы (follow-up queries), которые связаны с информацией, уже представленной пользователю визуально (погода, рецепты, списки, карточки знаний).

Когда применяется

Условия активации: Устройство находится в активном состоянии и отображает контент на дисплее (например, сразу после ответа на предыдущий запрос).
Триггер: Устройство слышит речь, но Hotworder не обнаруживает активационную фразу.
Условие применения: Система должна оценить вероятность того, что речь является командой, основываясь на связи с контентом экрана.

Пошаговый алгоритм

Описание процесса работы системы (с фокусом на защищенных Claims):

Получение аудиоданных: Микрофон устройства улавливает речь пользователя (spoken utterance).
Проверка Hotword (Негативная): Hotworder анализирует аудиопоток и определяет, что активационная фраза (Hotword) отсутствует. Это запускает механизм анализа контекста.
Транскрипция и Токенизация: Речь преобразуется в текст (транскрипцию), который затем разбивается на отдельные термины (токены).
Анализ контекста экрана: Screen Analyzer определяет, какой контент в данный момент отображается на дисплее устройства.
Сравнение и Установление связи: Система сравнивает токены из транскрипции с контентом на экране. Определяется, есть ли между ними связь.
Вычисление уверенности: Генерируется Confidence Score. Обнаружение связи с контентом на экране повышает эту оценку.
Принятие решения: Confidence Score сравнивается с пороговым значением.
- Если порог превышен: Data Routing Component направляет транскрипцию в соответствующую систему обработки запросов.
- Если порог не достигнут: Команда игнорируется (bypass routing).

Какие данные и как использует

Данные на входе

Основываясь строго на защищенных Claims патента US11893350B2:

Мультимедиа факторы: Аудиоданные голосовой команды.
Контентные факторы: Транскрипция (текст) голосовой команды.
Системные/Визуальные данные: Контент, отображаемый на экране устройства (content displayed via a user-facing display).

Примечание о данных в Описании (Specification): В общем описании изобретения упоминается гораздо более широкий набор данных, которые система может использовать (но эти факторы не защищены Claims этого патента):

Поведенческие/Временные: Предыдущие запросы (Query Log), Предыдущие ответы (Response Log), Время суток.
Географические: Местоположение устройства.
Семантические: Связи между сущностями (Knowledge Graph).

Какие метрики используются и как они считаются

Confidence Score: Основная метрика для принятия решения. Согласно Claims, положительно коррелирует (positively influenced) с наличием связи между транскрипцией и контентом на экране.
Методы анализа текста:
- Токенизация транскрипции.
- Сравнение терминов (токенов) транскрипции с контентом, идентифицированным на экране (Term Matching).

Выводы

Экран как ключевой контекст для диалога: Ядро защищенного изобретения заключается в использовании визуального контента на экране как основного сигнала для интерпретации голосовых команд без Hotword.
Мультимодальное взаимодействие (Голос + Видение): Патент подчеркивает стратегию Google по объединению голосового (VUI) и графического (GUI) интерфейсов. Визуальное представление информации напрямую влияет на интерпретацию последующих голосовых запросов.
Узкая направленность Claims: Критически важно понимать разницу между Описанием и Формулой изобретения. Хотя описание обсуждает широкий спектр сигналов, защищенные Claims этого конкретного патента сосредоточены исключительно на использовании контента на экране.
Значение для AEO и VSO: Хотя прямого влияния на традиционное SEO нет, патент важен для оптимизации под голосовые ответы (AEO/VSO). Контент, попадающий на экран (например, через Featured Snippets), должен быть структурирован так, чтобы поддерживать дальнейший диалог и содержать достаточно контекстных анкорей (сущностей).

Практика

Best practices (это мы делаем)

Рекомендации относятся к AEO (Answer Engine Optimization) и оптимизации контента для голосовых ассистентов и смарт-дисплеев.

Оптимизация структуры контента для дисплеев: При создании контента, который может быть отображен на смарт-дисплеях (рецепты, инструкции, Featured Snippets), необходимо обеспечивать четкую визуальную структуру (списки, таблицы). Поскольку отображаемый контент служит контекстом для следующих команд, его ясность помогает системе поддерживать диалог.
Насыщение ответов сущностями (Entity Saturation): Убедитесь, что ключевые сущности (названия, даты, места) четко видны и правильно размечены (например, с использованием Schema.org). Если сущность видна на экране, система с большей вероятностью правильно интерпретирует уточняющий вопрос о ней.
Проектирование с учетом продолжения диалога: Создавайте контент, который предвосхищает следующие вопросы пользователя. Ваш контент должен предоставлять достаточно контекста, чтобы пользователь мог естественным образом продолжить взаимодействие с Ассистентом после получения ответа.

Worst practices (это делать не надо)

Создание «тупикового» контента: Предоставление сверхкратких ответов, которые не содержат связанных сущностей или контекста для продолжения диалога. Это ухудшает пользовательский опыт на голосовых устройствах и может привести к завершению сессии.
Игнорирование мультимодальности: Рассмотрение голосового поиска без учета того, как контент может быть представлен визуально на смарт-дисплеях. Нельзя предполагать, что контекст определяется только аудио-диалогом.
Сложное форматирование для прямых ответов: Использование форматирования, которое трудно парсить и отображать на небольших экранах, снижает шансы стать источником визуального контекста.

Стратегическое значение

Патент подтверждает стратегический курс Google на развитие мультимодальных и диалоговых интерфейсов (Conversational AI). Для SEO-специалистов это означает усиление тренда на оптимизацию под естественный язык и прямые ответы (AEO). Взаимодействие усложняется, и оптимизация должна учитывать, как контент потребляется на смарт-устройствах, где контекст и способность поддерживать диалог играют важную роль.

Практические примеры

Сценарий: Оптимизация рецепта для смарт-дисплея (AEO)

Задача SEO: Сделать так, чтобы пользователи могли взаимодействовать с рецептом голосом без повторения Hotword.
Действие: Структурировать рецепт с четким списком ингредиентов и шагов (используя разметку Schema.org и чистый HTML).
Взаимодействие пользователя:
- Пользователь: «Ok Google, покажи рецепт блинов».
- Система: Отображает ваш рецепт на экране (Ингредиенты: мука, молоко, яйца).
- Пользователь (без Hotword): «Сколько нужно муки?».
Результат (Работа патента): Система не слышит Hotword. Screen Analyzer видит рецепт и ингредиент «мука» на экране. Система сопоставляет запрос с визуальным контекстом, генерирует высокий Confidence Score и отвечает на вопрос.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

Нет, напрямую не влияет. Патент описывает технологию улучшения пользовательского опыта при голосовом взаимодействии с устройством (например, Google Assistant). Он определяет, как устройство реагирует на команды без активационной фразы, но не меняет алгоритмы, определяющие позицию сайта в органической выдаче.

Что является главным сигналом для определения продолжения разговора согласно этому патенту?

Согласно Формуле изобретения (Claims) этого конкретного патента (US11893350B2), главным сигналом является контент, который в данный момент отображается на экране устройства (user-facing display). Система проверяет, связана ли произнесенная фраза с тем, что показано на экране.

В описании патента упоминаются время, местоположение, Knowledge Graph. Почему они не главные?

Этот патент является патентом-продолжением (Continuation). Хотя общее описание (Description) охватывает широкий спектр сигналов, защищенное ядро (Claims) именно этого патента было сужено до анализа экрана. Другие факторы могут использоваться системой в целом или быть защищены в других патентах, но они не являются предметом защиты данного документа.

На каких устройствах применяется эта технология?

Технология, описанная в Claims, применима только к устройствам, оснащенным как микрофоном, так и дисплеем (смартфоны, смарт-дисплеи типа Google Nest Hub). Она не применима к устройствам без экрана (простым смарт-колонкам) в том виде, как это защищено в данном патенте.

Как SEO-специалист может использовать знание этого патента на практике?

Знание полезно для AEO (Answer Engine Optimization). Необходимо оптимизировать контент для Featured Snippets и обеспечивать четкую визуальную структуру. Это помогает контенту попасть на экран устройства и служить контекстом для последующих голосовых взаимодействий, улучшая пользовательский опыт и вовлеченность.

Что такое Confidence Score в контексте этого патента?

Confidence Score — это внутренняя оценка вероятности того, что фраза без Hotword является командой для устройства. Эта оценка увеличивается, если система находит сильную связь между фразой и контентом на экране. Если оценка превышает порог, команда выполняется.

Как система определяет связь между фразой и контентом на экране?

Согласно Claim 2, система проводит токенизацию (разбивку на слова) транскрипции фразы и анализирует контент на экране. Затем она определяет, релевантен ли контент на экране терминам из фразы. Например, если на экране погода, а пользователь спрашивает «А завтра?», система устанавливает связь.

Что произойдет, если система решит, что фраза не связана с контентом на экране?

Если Confidence Score окажется низким, система проигнорирует фразу (bypass routing). Она решит, что пользователь разговаривает не с устройством, а, например, с другим человеком в комнате, и не будет предпринимать никаких действий.

Помогает ли использование микроразметки (Schema.org) в работе этого механизма?

Патент напрямую не упоминает Schema.org. Однако микроразметка помогает Google лучше структурировать контент (например, рецепт) для отображения на смарт-дисплее. Чем лучше структурирован контент на экране, тем эффективнее работает механизм поддержания контекста, описанный в патенте.

Каково стратегическое значение этого патента для Google?

Стратегическое значение высоко, так как патент направлен на улучшение естественности взаимодействия с Google Assistant и развитие мультимодальных интерфейсов (голос + зрение). Это ключевой элемент для повышения удобства использования смарт-устройств в экосистеме Google.