Как Google Assistant понимает голосовые команды, ссылающиеся на визуальные объекты на карте (например, "Отвези меня сюда")

Патент описывает, как цифровой ассистент интерпретирует неоднозначные голосовые команды (например, «Поехали туда» или «В тот, что слева»), ссылающиеся на объекты, видимые на экране навигационного приложения. Система получает визуальный контекст из видимой области карты (viewport), анализирует команду с помощью NLP и точно определяет, какой объект имел в виду пользователь, для выполнения действия.

Описание

Какую задачу решает

Патент решает проблему интерпретации неоднозначных (дейктических или индексальных) голосовых команд, которые ссылаются на визуальные элементы, отображаемые в графическом интерфейсе навигационного приложения. Например, когда пользователь смотрит на карту с несколькими результатами поиска и говорит «Отвези меня туда» или «Покажи мне тот, что слева». Задача — точно определить, на какую конкретную точку интереса (POI) ссылается пользователь, используя визуальный контекст экрана (viewport).

Что запатентовано

Запатентована система взаимодействия между цифровым ассистентом (Digital Assistant Application) и навигационным приложением (Navigation Application). Суть изобретения заключается в использовании визуального контекста (reference frame), видимого пользователю на карте, для разрешения неоднозначности голосовых команд. Система извлекает видимые точки интереса и их идентификаторы из навигационного приложения и использует NLP для сопоставления референциальных слов из команды с этими точками.

Как это работает

Ключевой механизм работает следующим образом:

Получение команды и Парсинг: Цифровой ассистент получает голосовой ввод. NLP-компонент разбирает его, выделяя запрос (например, «Отвези меня») и референциальные/вспомогательные слова (например, «тот, что слева»).
Извлечение контекста: Система запрашивает у навигационного приложения данные о reference frame — список всех точек интереса (Point Locations) и их идентификаторов (Identifiers), видимых в данный момент в viewport.
Разрешение неоднозначности (Disambiguation): Система использует NLP (включая расчет semantic distance и indexical measure) для определения, какая из видимых точек соответствует команде пользователя, учитывая расположение объектов на экране, историю поиска и текст команды.
Выполнение действия: Цифровой ассистент генерирует структурированную команду (action data structure) с указанием конкретной точки и отправляет ее обратно навигационному приложению для выполнения (например, построения маршрута).

Актуальность для SEO

Высокая. Взаимодействие с картами через голосовой интерфейс (например, в Android Auto или режимах вождения Google Assistant) является критически важной функцией для обеспечения безопасности и удобства. Точная интерпретация команд, зависящих от визуального контекста, остается актуальной задачей в области HCI (Human-Computer Interaction) и NLP.

Важность для SEO

Прямое влияние на классическое SEO ранжирование (1/10) минимально. Патент описывает не алгоритмы ранжирования веб-страниц, а механизмы интерпретации команд и взаимодействия интерфейсов. Однако он имеет умеренное значение для Local SEO и оптимизации сущностей (Entity Optimization). Патент подчеркивает критическую важность точных и понятных идентификаторов (Identifiers) для точек интереса (POI) и использование Semantic Knowledge Graph для связи естественного языка с этими сущностями.

Детальный разбор

Термины и определения

Action Data Structure (Структура данных действия): Структурированный запрос, который цифровой ассистент отправляет навигационному приложению для выполнения конкретного действия (например, построения маршрута к определенному POI).
Auxiliary Word (Вспомогательное слово): Слова в голосовой команде, которые помогают уточнить объект ссылки, часто указывая на пространственное расположение на экране (например, «слева», «в углу»).
Digital Assistant Application (DA) (Приложение цифрового ассистента): Приложение (например, Google Assistant), обрабатывающее голосовые команды.
Identifier (Идентификатор): Метка, связанная с точкой интереса на карте, например, название («ABC Pizzeria») или категория («ресторан», «пицца»).
Indexical Measure (Индексальная мера / Мера соответствия): Метрика, рассчитываемая NLP-компонентом, указывающая на вероятность того, что Referential Word обозначает конкретный идентификатор точки интереса.
Navigation Application (NA) (Навигационное приложение): Приложение (например, Google Maps), отображающее карты и выполняющее навигационные функции.
Point Location (POI) (Точка интереса): Конкретное место на карте (ресторан, заправка, ориентир), имеющее географические координаты и идентификатор.
Reference Frame (Система отсчета / Контекст): Часть карты, которая видна через viewport навигационного приложения в данный момент. Является основой для интерпретации визуальных ссылок.
Referential Word (Референциальное слово): Слово в голосовой команде, которое ссылается на объект. Часто это дейктические или индексальные слова (например, «здесь», «туда», «этот»), чье значение зависит от контекста.
Semantic Distance (Семантическое расстояние): Мера семантической близости или связанности между словами (например, между референциальным словом в запросе и идентификатором POI), часто определяемая с помощью Semantic Knowledge Graph.
Viewport (Область просмотра): Видимая область экрана устройства, через которую отображается часть карты (Reference Frame).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод взаимодействия.

Система получает входной аудиосигнал во время работы навигационного приложения на первом устройстве.
Система парсит сигнал для идентификации запроса и referential word.
В ответ на запрос система обращается к навигационному приложению для получения списка point locations в пределах reference frame (видимой географической области в viewport). Каждая точка имеет identifier.
Система идентифицирует конкретную точку из списка на основе referential word и identifier этой точки.
Система генерирует action data structure, включающую идентифицированную точку.
Система передает action data structure навигационному приложению для инициации процесса навигации.

Claim 7 (Зависимый): Уточняет механизм идентификации точки с использованием пространственных указателей (auxiliary words).

Система идентифицирует auxiliary word (например, «слева»). Затем определяется подобласть (subset area) viewport, соответствующая этому слову (например, левая часть экрана). Для финального выбора используются только те point locations, которые находятся в этой подобласти.

Claim 6 (Зависимый): Уточняет использование истории поиска для улучшения идентификации.

Система получает из навигационного приложения список поисковых терминов, введенных незадолго до голосовой команды. Вычисляется semantic distance между идентификаторами видимых точек и этими терминами с использованием Semantic Knowledge Graph. Предпочтение отдается точкам, семантически близким к недавним поискам.

Claims 9 и 10 (Зависимые): Описывают метрики для выбора лучшей точки.

Claim 9: Для каждой точки вычисляется indexical measure — вероятность того, что referential word обозначает идентификатор этой точки. Выбор происходит на основе этих мер.
Claim 10: Для каждой точки вычисляется semantic distance между referential word и идентификатором точки с помощью Semantic Knowledge Graph. Выбор происходит на основе этих расстояний.

Claim 4 (Зависимый): Уточняет границы контекста (reference frame).

Система отсчета может включать не только текущую видимую область, но и область, находящуюся в определенной близости от пункта назначения (destination location) текущего маршрута. Это позволяет обрабатывать запросы типа «Найди заправку рядом с пунктом назначения», даже если он не виден на экране.

Где и как применяется

Изобретение функционирует на стыке интерпретации пользовательского ввода и выполнения команд в рамках экосистемы Ассистент/Карты. Оно не связано напрямую с базовой архитектурой веб-поиска.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система должна не просто понять слова в голосовой команде, но и интерпретировать их значение в контексте того, что пользователь видит на экране. NLP-компонент анализирует запрос, идентифицирует референциальные и вспомогательные слова и обогащает понимание запроса данными, полученными из навигационного приложения (визуальный контекст или Reference Frame).

Входные данные:

Входной аудиосигнал (голосовая команда).
Данные от навигационного приложения: список видимых Point Locations, их Identifiers, размеры и координаты Viewport, история поисковых запросов в приложении.
Данные сенсоров (опционально): Текущее местоположение (GPS), данные инерциальных датчиков (IMU) для определения скорости и направления движения.

Выходные данные:

Action Data Structure — структурированная команда, отправляемая навигационному приложению, содержащая конкретный идентифицированный POI и тип действия.

На что влияет

Конкретные типы контента: Влияет на взаимодействие с сущностями, представленными как точки интереса (POI) на картах — локальный бизнес, адреса, ориентиры.
Специфические запросы: Наиболее сильно влияет на локальные и навигационные запросы, особенно те, которые содержат неоднозначные ссылки («Поехали в это кафе», «Как далеко до того магазина?»).
Языковые ограничения: Работа механизма зависит от качества NLP-моделей для конкретного языка, особенно в части распознавания дейктических и пространственных терминов.

Когда применяется

Условия работы: Алгоритм активируется, когда на устройстве пользователя активно (видимо) навигационное приложение, отображающее карту с точками интереса.
Триггеры активации: Получение голосовой команды, которая содержит запрос, относящийся к функциям навигации (например, «Поехали», «Покажи»), и Referential Words (например, «туда», «этот»), требующие визуального контекста для интерпретации.

Пошаговый алгоритм

Процесс интерпретации команды:

Получение ввода: Цифровой ассистент получает аудиосигнал от пользователя во время активной сессии навигации.
Первичный парсинг: NLP-компонент анализирует сигнал, идентифицируя запрос (интент) и выделяя Referential Words (например, «туда») и Auxiliary Words (например, «слева»).
Запрос контекста: Цифровой ассистент отправляет запрос навигационному приложению для получения данных о текущем Reference Frame.
Получение контекстных данных: Навигационное приложение возвращает список всех Point Locations, видимых в Viewport, их Identifiers, а также (опционально) историю недавних поисковых запросов пользователя.
Фильтрация кандидатов (Несколько вариантов реализации):
- На основе вспомогательных слов: Если присутствуют Auxiliary Words, система определяет подобласть Viewport (например, левую верхнюю четверть) и отфильтровывает точки, не попадающие в нее.
- На основе истории поиска: Система рассчитывает Semantic Distance между идентификаторами видимых точек и недавними поисковыми терминами. Точки с меньшим расстоянием получают приоритет.
- На основе движения: Система может учитывать скорость и направление движения устройства для фильтрации точек (например, исключая те, что остались позади) или для включения в контекст недавно видимых областей.
Оценка кандидатов: Для оставшихся точек рассчитываются метрики:
- Semantic Distance между Referential Word (например, «кафе») и Identifier точки (например, «Starbucks»).
- Indexical Measure — общая вероятность того, что команда ссылается именно на эту точку.
Выбор точки: Выбирается точка с наилучшими показателями (наименьшее расстояние/наибольшая мера).
Генерация действия: Создается Action Data Structure, содержащая идентификатор выбранной точки и тип запрошенного действия.
Выполнение: Структура отправляется навигационному приложению, которое инициирует соответствующий процесс (например, строит маршрут).

Какие данные и как использует

Данные на входе

Система использует комбинацию лингвистических, визуальных, поведенческих и физических данных.

Контентные факторы (Данные Сущностей): Используются Identifiers точек интереса (POI), извлеченные из навигационного приложения. Это включает названия и категории объектов на карте.
Поведенческие факторы: История поисковых запросов (search terms), введенных в навигационное приложение незадолго до голосовой команды. Также могут использоваться предыдущие голосовые команды в рамках текущей сессии.
Географические факторы: Текущее местоположение устройства (location identifier).
Технические факторы (Сенсоры): Данные инерциальных датчиков (IMU) для определения скорости (velocity) и направления движения (travel direction).
Визуальные данные: Размеры и координаты Viewport, а также точное расположение POI в пределах этого Viewport (используется для интерпретации Auxiliary Words).

Какие метрики используются и как они считаются

Semantic Distance (Семантическое расстояние): Рассчитывается между двумя текстовыми элементами (например, словом из запроса и идентификатором POI, или идентификатором POI и предыдущим поисковым термином). Расчет производится с использованием Semantic Knowledge Graph, где расстояние отражает степень семантической связанности.
Indexical Measure (Индексальная мера): Вероятностная оценка того, что Referential Word в команде обозначает конкретный Identifier POI. Расчет этой метрики агрегирует различные сигналы, включая семантическое расстояние и контекстуальные факторы.

Выводы

Интеграция визуального и лингвистического контекста: Патент демонстрирует сложный механизм, позволяющий Google объединять то, что пользователь говорит, с тем, что он видит на экране. Это ключевой элемент для создания естественного взаимодействия с графическими интерфейсами через голос.
Разрешение неоднозначности (Disambiguation): Основная ценность изобретения — способность разрешать дейктические и индексальные ссылки (слова типа «этот», «тот», «здесь»), которые не имеют смысла вне контекста.
Зависимость от структурированных данных (Identifiers): Эффективность системы напрямую зависит от качества и доступности Identifiers (названий, категорий) для точек интереса на карте. NLP-система должна сопоставить запрос с этими идентификаторами.
Использование Knowledge Graph для интерфейсных задач: Semantic Knowledge Graph используется не для ранжирования контента, а для понимания пользовательского интерфейса — расчета Semantic Distance между тем, что было запрошено, и тем, что показано на карте.
Многофакторный анализ контекста: Система учитывает не только то, что видно сейчас, но и историю поиска в приложении, историю голосовых команд, а также физический контекст (движение и направление устройства).
Отсутствие влияния на веб-ранжирование: Патент не описывает механизмов, влияющих на ранжирование сайтов в органическом поиске. Он полностью сосредоточен на взаимодействии внутри приложений Google (Assistant и Maps).

Практика

Best practices (это мы делаем)

Хотя патент не дает прямых рекомендаций для веб-SEO, он имеет важное значение для Local SEO и оптимизации сущностей (Entity Optimization), так как система полагается на качество данных о точках интереса (POI).

Оптимизация идентификаторов в Google Business Profile (GBP): Убедитесь, что основные Identifiers бизнеса — Название и Основная Категория — максимально точны, описательны и соответствуют тому, как пользователи могут называть или искать бизнес. Это данные, которые цифровой ассистент использует для сопоставления (matching).
Насыщение данных о сущности (Entity Optimization): Работайте над тем, чтобы ваша бизнес-сущность была точно и полно представлена в Semantic Knowledge Graph. Это уменьшает Semantic Distance между общими терминами (например, «кофейня рядом») и вашим конкретным бизнесом, повышая вероятность правильной идентификации при голосовом взаимодействии.
Актуальность локальных данных: Поскольку система использует текущий Reference Frame (то, что видно на карте), важно поддерживать высокую видимость бизнеса в локальном поиске и на картах при запросах, связанных с вашим местоположением.

Worst practices (это делать не надо)

Использование спама в названии GBP: Использование неестественных, перегруженных ключевыми словами названий бизнеса может негативно сказаться на способности NLP-компонента точно сопоставить голосовую команду с вашим Identifier, потенциально увеличивая Semantic Distance в контексте естественного запроса.
Неверный выбор основной категории в GBP: Ошибки в категоризации бизнеса могут привести к тому, что система не сможет идентифицировать ваш бизнес при релевантных запросах (например, если пользователь ищет «ресторан», а вы указаны как «кафе»), так как семантическое расстояние может оказаться слишком велико.

Стратегическое значение

Патент подтверждает стратегию Google по созданию интегрированной экосистемы, где различные продукты (Assistant, Maps, Knowledge Graph) бесшовно обмениваются данными для понимания намерений пользователя. Для Local SEO это укрепляет понимание того, что оптимизация направлена не только на веб-сайт, но в первую очередь на представление сущности (Entity/POI) внутри систем Google. Точность данных в GBP становится фактором не только ранжирования на картах, но и функциональности голосового взаимодействия.

Практические примеры

Сценарий: Голосовое управление картой в автомобиле и значение GBP

Ситуация: Пользователь едет на машине, на экране открыты Google Maps, где показано несколько кафе поблизости, включая «CoffeeBean» (справа) и «Starbucks» (слева).
Команда пользователя: «Окей, Гугл, поехали в кофейню слева».
Действия системы (согласно патенту):
- Ассистент парсит команду: Запрос=»Поехали», Референциальное слово=»кофейня», Вспомогательное слово=»слева».
- Система запрашивает у Карт видимые POI (Reference Frame). Получает «CoffeeBean» и «Starbucks».
- Система фильтрует по вспомогательному слову («слева») — остается «Starbucks».
- Система проверяет Semantic Distance между «кофейня» и «Starbucks». Расстояние малое (благодаря правильной категории в GBP).
- Система генерирует Action Data Structure для построения маршрута к «Starbucks».
Значение для SEO: Если бы «Starbucks» имел нерелевантную категорию (например, «Магазин») или непонятное название, система могла бы не распознать его как «кофейню» (Semantic Distance было бы большим), и команда не была бы выполнена корректно. Точная оптимизация GBP обеспечивает работоспособность этой функции для бизнеса.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в поиске Google?

Нет, этот патент не описывает алгоритмы ранжирования веб-страниц. Он сосредоточен исключительно на том, как цифровой ассистент (Google Assistant) интерпретирует голосовые команды, которые ссылаются на визуальные элементы, отображаемые в навигационном приложении (Google Maps). Это патент об интерфейсе и взаимодействии пользователя (HCI).

Какое значение этот патент имеет для Local SEO?

Патент имеет важное косвенное значение для Local SEO. Он показывает, насколько критичны точные Identifiers (идентификаторы) для точек интереса (POI) — в первую очередь, Название и Категория в Google Business Profile. Чтобы система могла правильно понять команду типа «Отвези меня в это кафе», она должна уметь сопоставить слово «кафе» с вашим бизнесом, используя эти идентификаторы и данные из Semantic Knowledge Graph.

Что такое «Reference Frame» и «Viewport» в контексте патента?

Viewport — это физическая область экрана устройства, на которой отображается карта. Reference Frame — это данные о том, какая именно географическая область и какие объекты (POI) видны в этом Viewport в данный момент. Reference Frame является визуальным контекстом, который система использует для понимания команды пользователя.

Как система понимает, что значит «слева» или «справа»?

Система идентифицирует в команде Auxiliary Words (вспомогательные слова), такие как «слева». Затем она анализирует Viewport (видимую область экрана) и определяет подобласть (например, левую половину экрана). После этого она фильтрует видимые точки интереса (POI), оставляя только те, которые физически расположены в этой подобласти экрана.

Что такое «Semantic Distance» и как он используется здесь?

Semantic Distance — это мера семантической близости между двумя понятиями, определяемая с помощью Semantic Knowledge Graph. В патенте она используется для определения, насколько близки по смыслу слова из голосовой команды (например, «пиццерия») к идентификаторам видимых объектов (например, «Додо Пицца»). Чем меньше расстояние, тем выше вероятность совпадения.

Учитывает ли система историю поиска пользователя?

Да. Патент описывает (Claim 6), что система может извлекать из навигационного приложения историю недавно введенных поисковых терминов. Если пользователь недавно искал «аптеки», а затем говорит «Поехали сюда», система с большей вероятностью предположит, что «сюда» относится к аптеке, используя Semantic Distance между историей поиска и видимыми объектами.

Может ли система понять объект, который сейчас не виден на экране?

Да, патент предусматривает варианты (Claims 2, 4). Система может учитывать объекты, которые были видны недавно (основываясь на скорости движения устройства), или объекты, находящиеся рядом с конечным пунктом назначения, даже если они сейчас не в Viewport.

Использует ли система данные о движении пользователя?

Да, патент упоминает (Claims 2, 3) использование данных с инерциальных датчиков (IMU) для определения скорости и направления движения устройства. Это может использоваться для фильтрации кандидатов, например, чтобы исключить объекты, которые пользователь уже проехал, или отдать приоритет тем, что находятся по ходу движения.

Что важнее для SEO в контексте этого патента: название бизнеса или его категория?

Оба элемента критически важны, так как они формируют Identifier сущности. Система использует и название, и категорию для расчета Semantic Distance. Правильная категория позволяет системе понять, что вы, например, «кофейня», а точное название позволяет отличить вас от других кофеен на экране.

Работает ли это, если голосовая команда подается на одно устройство, а карта открыта на другом?

Да, патент предусматривает такой сценарий (Claim 1 упоминает сенсор первого или второго устройства). Если устройства связаны общим контекстом (например, одним аккаунтом Google), система может получить Reference Frame с устройства, на котором открыта карта, и обработать команду, полученную с другого устройства (например, умной колонки), используя этот визуальный контекст.

Как Google Assistant понимает голосовые команды, ссылающиеся на визуальные объекты на карте (например, «Отвези меня сюда»)