Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует местоположение и контекст пользователя для точного распознавания голосовых запросов и локализации выдачи

    VOICE RECOGNITION GRAMMAR SELECTION BASED ON CONTEXT (Выбор грамматики распознавания речи на основе контекста)
    • US20230112412A1
    • Google LLC
    • 2023-04-13
    • 2008-03-07
    2008 Local SEO Патенты Google Персонализация Семантика и интент

    Google использует контекст пользователя (текущее местоположение по GPS, просматриваемую карту или активное приложение) для выбора специализированной «грамматики» (словаря). Это позволяет системе точнее распознавать названия местных бизнесов и объектов во время голосового поиска и предоставлять локально релевантные результаты.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему низкой точности и скорости систем распознавания речи (ASR), когда они используют большие, общие грамматики (general grammar). Общие грамматики неэффективны для распознавания локально-специфичных терминов (названий бизнесов, улиц, достопримечательностей). Изобретение повышает точность интерпретации голосового ввода (vocal input) путем динамического выбора меньшей, контекстно-зависимой грамматики.

    Что запатентовано

    Запатентована система для выбора специализированной грамматики (grammar) распознавания речи на основе неявной контекстной информации (implicit context information). Ключевым элементом является определение контекста (часто географического) на основе невербальных действий пользователя (non-verbal user action), таких как данные GPS или просмотр карты. Система использует этот контекст для выбора локальной грамматики перед обработкой последующего голосового ввода.

    Как это работает

    Система работает следующим образом:

    • Сбор контекста: Устройство пользователя отправляет неявную контекстную информацию (например, GPS-координаты или координаты центра просматриваемой карты).
    • Выбор грамматики: Grammar Selection Server обрабатывает эту информацию (например, с помощью Reverse Geocoder), определяет локацию и выбирает соответствующую географическую грамматику (например, словарь местных бизнесов).
    • Распознавание речи: Когда пользователь произносит запрос, Voice Recognition Server использует эту узкоспециализированную грамматику для интерпретации аудио.
    • Формирование выдачи: Система генерирует результаты поиска, основываясь как на точно распознанном запросе, так и на исходном контексте (местоположении), как указано в Claims.

    Актуальность для SEO

    Высокая. Голосовой поиск, мобильные ассистенты и локальный контекст остаются ключевыми направлениями развития. Хотя основная концепция патентовалась ранее (исходная приоритетная дата 2008 год), данная публикация 2023 года является продолжением (continuation) и подтверждает фундаментальную важность этой технологии для инфраструктуры Google для точной интерпретации локальных запросов.

    Важность для SEO

    Патент имеет высокое значение (7.5/10), особенно для Local SEO и оптимизации под голосовой поиск (Voice Search Optimization). Он не описывает алгоритмы ранжирования, но критически важен для этапа Понимания Запросов (Query Understanding). Если система не может точно распознать название локального бизнеса из-за его отсутствия в локальной грамматике, он не будет показан. Это подчеркивает необходимость точных и полных данных о локальных сущностях.

    Детальный разбор

    Термины и определения

    Grammar (Грамматика)
    Набор данных, используемый системой распознавания речи для интерпретации аудиоввода. Включает словарь (vocabulary), синтаксис (syntax) и правила. Могут быть общими или специализированными (географическими, тематическими, персонализированными).
    Geographical Grammar (Географическая грамматика)
    Грамматика, связанная с конкретной локацией. Включает лексику, специфичную для региона (названия бизнесов, достопримечательностей, улиц).
    Implicit Context Information (Неявная контекстная информация)
    Данные о контексте пользователя, полученные без прямого запроса со стороны системы распознавания речи (unprompted by a voice recognition processor). Примеры: GPS-координаты, область просмотра карты (Implicit Geographical Information), активное приложение.
    Non-verbal user action (Невербальное действие пользователя)
    Действия, которые подразумевают интерес (implies an interest) к определенному контексту, но не являются голосовым вводом (например, масштабирование карты, физическое перемещение устройства, просмотр контента).
    Grammar Selection Server
    Компонент, отвечающий за получение контекстной информации и выбор соответствующей грамматики из Grammar Index.
    Voice Recognition Server
    Компонент (ASR-система), который интерпретирует голосовой ввод, используя выбранную грамматику.
    Reverse Geocoder
    Компонент, преобразующий географические координаты (например, GPS) в конкретную географическую локацию или идентифицирующий ближайшую локацию, для которой доступна грамматика.
    Multimodal Server
    Сервер-посредник, принимающий различные типы ввода (контекст, аудио) от клиента и координирующий работу системы обработки аудио (Audio Processing System).

    Ключевые утверждения (Анализ Claims)

    Анализ основан на Claims 1-20 публикации US20230112412A1. Эти пункты описывают полный цикл контекстного голосового поиска.

    Claim 1 (Независимый пункт): Описывает метод взаимодействия при голосовом поиске.

    1. Получение аудиоданных, соответствующих высказыванию поисковых терминов пользователем.
    2. Определение контекста (context) пользовательского устройства.
    3. Отображение списка результатов поиска на основе (Аудиоданных + Контекста устройства).
    4. Получение ввода пользователя, указывающего на выбор результата из списка.
    5. Предоставление вывода на основе этого выбора.

    Ключевым для SEO является утверждение (шаг 3), что список результатов формируется на основе комбинации распознанной речи и контекста. Контекст используется не только для распознавания (как описано в теле патента), но и для ранжирования/фильтрации выдачи.

    Claim 2 (Зависимый от 1): Уточняет Claim 1.

    1. Определение контекста включает определение местоположения (location) устройства.
    2. Отображение списка результатов основано на аудиоданных и местоположении устройства.

    Подтверждает использование геолокации как основного элемента контекста для локализации поисковой выдачи по голосовому запросу.

    Claim 3 (Зависимый от 2): Уточняет, что результаты поиска включают названия бизнесов поблизости (in a vicinity) от устройства пользователя. Это прямое указание на применение в локальном поиске (Local Search).

    Claim 7 (Зависимый от 1): Уточняет, что финальный вывод включает предоставление карты с визуальным индикатором географического местоположения, связанного с выбранным результатом.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая точную интерпретацию запроса и формирование релевантной выдачи.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система подготавливает данные. Это включает индексацию локальных сущностей (названия бизнесов, POI) и их привязку к географическим регионам. Происходит офлайн-генерация Geographical Grammars, которые сохраняются в Grammar Index.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента (слой ASR – Automatic Speech Recognition).

    1. Получение контекста: Система получает данные о контексте (GPS, просматриваемая карта, приложение) от устройства.
    2. Выбор грамматики: Grammar Selection Server использует этот контекст для выбора наиболее подходящей, узкоспециализированной Grammar.
    3. Распознавание речи: Voice Recognition Server применяет выбранную грамматику для транскрибации аудио в текст.

    RANKING / RERANKING – Ранжирование и Переранжирование
    Согласно Claims, контекст используется также для формирования списка результатов. Контекст (местоположение) применяется для повышения в выдаче результатов, релевантных этому контексту (локализация выдачи).

    Входные данные:

    • Аудиоданные (голосовой ввод пользователя).
    • Контекстная информация (GPS-координаты, центр карты, данные приложения).
    • User ID (опционально, для персонализации грамматик).

    Выходные данные:

    • Текстовая интерпретация голосового запроса (Text From Audio).
    • Список результатов поиска, основанный на интерпретированном запросе и контексте.

    На что влияет

    • Конкретные ниши и типы контента: Критическое влияние на Local SEO – рестораны, магазины, услуги, локальные объекты. Влияет на любой контент с четкой географической привязкой.
    • Специфические запросы: Локальные информационные и транзакционные запросы, инициированные голосом, особенно на мобильных устройствах. Важно для запросов, содержащих названия с неоднозначным произношением или локализмы.

    Когда применяется

    • Условия работы: При использовании голосового ввода на устройстве.
    • Триггеры активации: Активация функции голосового поиска пользователем, особенно в приложениях с выраженным контекстом (карты, браузер).
    • Частота применения: Система динамически отслеживает изменения контекста. Если пользователь перемещается или меняет просматриваемую область на карте, контекст обновляется, и может быть выбрана новая грамматика.

    Пошаговый алгоритм

    Процесс работы системы:

    1. Создание сессии: Устанавливается связь между клиентским устройством и аудиосистемой (через Multimodal Server).
    2. Получение контекста: Система получает контекстную информацию от устройства (GPS-координаты или данные карты). Это происходит на основе невербальных действий пользователя.
    3. Выбор грамматики: Grammar Selection Server анализирует контекст.
      • Используется Reverse Geocoder для определения локации по координатам.
      • По Grammar Index выбирается соответствующая Geographical Grammar (или тематическая/персональная).
      • Идентификатор грамматики (Grammar ID) передается на Voice Recognition Server.
    4. Получение аудио: Пользователь произносит запрос. Аудио передается на Voice Recognition Server.
    5. Интерпретация аудио: Сервер использует ранее выбранную (контекстную) грамматику для распознавания речи.
    6. Формирование выдачи: Система генерирует список результатов, учитывая распознанный текст И исходный контекст (местоположение) для ранжирования.
    7. Взаимодействие с результатами: Пользователь выбирает результат из списка (голосом или касанием). Система предоставляет финальный вывод (например, показывает объект на карте).
    8. Мониторинг контекста: Система проверяет, изменился ли контекст. Если да, процесс возвращается к шагу 2 для выбора новой грамматики.

    Какие данные и как использует

    Данные на входе

    • Географические факторы: Ключевые данные для определения контекста.
      • Прямые сигналы: GPS-координаты, данные триангуляции сотовых вышек (в патенте упоминаются методы COO, TDOA, EOTD).
      • Неявные сигналы (Implicit Geographical Information): Координаты центра просматриваемой карты, локация, указанная ранее (например, сохраненный ZIP-код в cookies).
    • Контентные факторы (как источник контекста): Текст на просматриваемой веб-странице. Если страница часто упоминает определенную локацию или тему (например, финансы), это может использоваться для выбора грамматики. Упоминается извлечение текста вокруг курсора.
    • Пользовательские факторы: User ID. Используется для выбора персонализированных грамматик (personalized grammar), построенных на основе истории поиска пользователя или даже его email (с разрешения пользователя).
    • Технические факторы (Application-specific): Информация о том, какое приложение активно (например, карты, календарь) и его текущее состояние (история навигации в приложении).

    Какие метрики используются и как они считаются

    • Reverse Geocoding: Метод преобразования географических координат в конкретную локацию (адрес, регион).
    • Grammar Index Matching: Сопоставление определенной локации или контекстных ключевых слов с индексом доступных грамматик. Выбирается грамматика, центр (anchor) которой ближе всего к контексту.
    • Classification (Упоминается в патенте): Классификация контента, с которым взаимодействует пользователь (например, определение тематики новостей), для выбора соответствующей тематической грамматики.
    • Personalized Grammar Building (Упоминается в патенте): Офлайн-процесс построения персонализированных грамматик на основе анализа данных пользователя (история поиска, email).
    • Контекстное ранжирование: Использование местоположения как фактора ранжирования при формировании списка результатов (согласно Claims).

    Выводы

    1. Контекст определяет интерпретацию: Контекст пользователя (местоположение, приложение, контент) является определяющим фактором для того, как Google интерпретирует голосовые запросы. Система динамически выбирает специализированную модель (грамматику) для повышения точности ASR.
    2. Существование локальных грамматик: Google компилирует и поддерживает Geographical Grammars для разных регионов. Они содержат словарь (названия бизнесов, улиц, POI), специфичный для этой местности.
    3. Использование неявных сигналов: Google активно использует неявные сигналы (implicit context information) – GPS, просмотр карты – для определения контекста, делая процесс незаметным для пользователя.
    4. Двойное использование контекста: Контекст используется дважды: сначала для выбора грамматики (улучшение распознавания, описанное в теле патента), а затем для ранжирования и локализации результатов (описанное в Claims).
    5. Критичность локальных данных для Voice SEO: Точность распознавания локальных названий напрямую зависит от того, насколько хорошо эти названия представлены в интернете и включены в соответствующую Geographical Grammar. Это подчеркивает фундаментальную важность Local SEO для видимости в голосовом поиске.

    Практика

    Best practices (это мы делаем)

    • Обеспечение абсолютной консистентности NAP: Критически важно поддерживать точность и консистентность данных (Name, Address, Phone) во всех источниках (Google Business Profile, сайт, агрегаторы данных, локальные каталоги). Это основной способ гарантировать, что название бизнеса будет корректно проиндексировано и включено в Geographical Grammar для вашего региона.
    • Оптимизация под естественное произношение и варианты названий: Учитывайте, как пользователи называют ваш бизнес голосом, включая сокращения или локальные прозвища. Убедитесь, что Google знает об этой связи. Используйте поле alternateName в микроразметке LocalBusiness и упоминайте варианты в контенте и отзывах.
    • Укрепление локальных сущностей (Entity Optimization): Работайте над тем, чтобы бизнес был четко определен как локальная сущность в Графе Знаний. Используйте разметку LocalBusiness, PostalAddress и GeoCoordinates. Эти структурированные данные используются для формирования локальных грамматик.
    • Насыщение локальной лексикой: Размещайте на сайте релевантный локальный контент, включающий названия районов, улиц, местных ориентиров. Это укрепляет географическую ассоциацию и расширяет локальный словарь, связанный с вашим бизнесом.

    Worst practices (это делать не надо)

    • Несоответствие данных NAP: Расхождения в названии или адресе в разных источниках могут привести к тому, что система не сможет однозначно идентифицировать бизнес и не включит его в локальную грамматику, снижая точность распознавания.
    • Использование спамных или неестественных названий в GBP: Добавление ключевых слов в название бизнеса может затруднить распознавание реального названия бренда при голосовом поиске, так как оно может не соответствовать тому, как пользователи его произносят.
    • Игнорирование локальных сигналов: Отсутствие четкой привязки сайта к географической локации (нет адреса, локального контента) снижает его полезность как источника данных для формирования локальных грамматик и ухудшает видимость в локальном голосовом поиске.

    Стратегическое значение

    Патент подтверждает стратегический приоритет контекстно-зависимого и мультимодального поиска, особенно на мобильных устройствах. Для SEO это означает, что локальная видимость зависит не только от ранжирования, но и от базовой способности системы точно интерпретировать устные ссылки на местные сущности (ASR). Стратегия должна быть направлена на построение четких и авторитетных локальных сущностей (Entity Management), данные о которых используются для обучения моделей распознавания речи.

    Практические примеры

    Сценарий: Оптимизация кофейни с учетом локального названия

    1. Задача: Кофейня «The Daily Grind» в Роузвилле, Калифорния. Местные жители часто называют ее просто «The Grind».
    2. Анализ контекста: Пользователи ищут ее, находясь поблизости (GPS контекст) или просматривая карту Роузвилла. Google должен использовать грамматику для Роузвилла.
    3. Действия SEO-специалиста:
      • Обеспечить точность NAP для «The Daily Grind» в GBP и локальных каталогах.
      • Оптимизация контента: Добавить на сайт упоминания вроде «Известная местным как ‘The Grind’…». Поощрять отзывы, где упоминаются оба варианта.
      • Использовать alternateName в разметке LocalBusiness для указания «The Grind».
    4. Ожидаемый результат: Google индексирует эти данные и включает «The Daily Grind» и «The Grind» в локальную грамматику Роузвилла. Когда пользователь в Роузвилле спросит голосом «Найти The Grind», система выберет правильную грамматику, точно распознает запрос и покажет кофейню на карте, используя контекст для локализации выдачи.

    Вопросы и ответы

    Что такое «Грамматика» (Grammar) в контексте этого патента?

    Это не лингвистические правила, а специализированный словарь (vocabulary) и модель распознавания речи. Она содержит набор слов, фраз и правил, которые, вероятно, будут использованы в определенном контексте. Например, «Географическая грамматика» для Сан-Франциско будет содержать названия местных улиц, бизнесов и достопримечательностей, что повышает точность их распознавания.

    Как Google определяет контекст пользователя для выбора грамматики?

    Система использует неявные (implicit) сигналы, основанные на «невербальных действиях пользователя». Ключевые из них: текущее местоположение устройства (через GPS или триангуляцию вышек), географическая область, которую пользователь просматривает в приложении (например, центр карты в Google Maps), а также состояние активного приложения или анализ контента на экране.

    Используется ли контекст только для распознавания слов?

    Нет. Патент (особенно Claims) подчеркивает, что контекст используется дважды. Во-первых, для выбора grammar и улучшения точности распознавания слов (ASR). Во-вторых, для ранжирования и фильтрации результатов поиска (локализации выдачи). Система предоставляет результаты, основанные на комбинации распознанного аудио и исходного контекста.

    Как SEO-специалист может гарантировать, что название бизнеса попадет в локальную грамматику Google?

    Гарантировать это невозможно, но можно значительно повысить вероятность. Ключ — в сильных и консистентных сигналах локальной привязки. Это достигается за счет безупречной точности NAP (Имя, Адрес, Телефон) во всех источниках (GBP, сайт, каталоги), использования микроразметки LocalBusiness и получения авторитетных локальных упоминаний.

    Откуда Google берет данные для локализованных грамматик?

    Патент не детализирует источники, но логично предположить, что это индексируемый веб-контент, данные Google Maps, Google Business Profile и Граф Знаний (Knowledge Graph). Эти данные используются для компиляции словарей местных бизнесов, достопримечательностей и событий, связанных с конкретной локацией.

    Может ли система использовать историю поиска пользователя как контекст?

    Да, патент упоминает возможность использования User ID для выбора персонализированной грамматики (personalized grammar). Если пользователь часто ищет информацию по определенной теме (например, археологии), система может создать и использовать персонализированную грамматику, включающую соответствующую терминологию, построенную на основе истории поиска или даже email.

    Что такое мультимодальный поиск в контексте этого патента?

    Это поиск, который использует несколько способов (модальностей) ввода. В патенте описан сценарий: ввод контекста (невербальное действие, например, просмотр карты — первый тип ввода) + голосовой ввод (запрос — второй тип ввода). Система объединяет оба ввода для интерпретации намерения и предоставления результата.

    Как система обрабатывает ситуацию, когда пользователь находится в одном месте, а ищет информацию о другом?

    Система анализирует доступный контекст. Если пользователь физически находится в Лос-Анджелесе (контекст GPS), но просматривает карту Нью-Йорка (контекст приложения), система может отдать приоритет контексту приложения (Нью-Йорк) для выбора грамматики, так как он более релевантен для текущей задачи пользователя.

    Какова связь этого патента с современными NLP-моделями (BERT, MUM)?

    Патент описывает инфраструктуру для выбора подходящей модели (грамматики) распознавания речи. Современные NLP-модели, вероятно, дополнили или заменили традиционные «грамматики», но общая архитектура – использование контекста для сужения области интерпретации запроса – остается актуальной. Контекст помогает большим языковым моделям точнее интерпретировать интент и сущности в голосовом вводе.

    Какова основная польза этого патента для SEO?

    Основная польза заключается в понимании того, что точность распознавания локальных голосовых запросов напрямую зависит от качества индексации локальных сущностей. Это подтверждает критическую важность фундаментальных работ по Local SEO (GBP, NAP, Citations, Schema) как основы для видимости в голосовом поиске.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.