Как Google использует иерархические географические модели для точного распознавания локальных сущностей в голосовом поиске

Google использует механизм для улучшения точности распознавания голосовых запросов, содержащих редкие или локально-специфичные термины (например, названия местных бизнесов). Система анализирует местоположение пользователя и применяет иерархические географические модели (район, субрегион, регион), построенные на основе локальной популярности терминов, чтобы скорректировать ошибки стандартного распознавания речи и точно определить, какую локальную сущность ищет пользователь.

Описание

Какую задачу решает

Патент решает проблему низкой точности автоматического распознавания речи (Automatic Speech Recognizer, ASR) при обработке голосовых запросов, содержащих редкие, локально-специфичные термины (location-specific terms) или названия сущностей (entity terms). Стандартные системы ASR, опирающиеся на глобальные языковые модели, часто ошибаются, распознавая такие термины как более распространенные, но фонетически похожие слова. Это критически ухудшает пользовательский опыт в локальном поиске.

Что запатентовано

Запатентована система улучшения точности распознавания голосовых запросов путем использования данных о местоположении пользователя для генерации дополнительных, локально-релевантных транскрипций. Система использует иерархию географических моделей (Region Models): модель района (Neighborhood), субрегиона (Sub-locality) и региона (Locality). Эти модели содержат наборы n-грамм (терминов), популярных в соответствующих территориях, и используются для коррекции ошибок ASR в пользу локальных сущностей.

Как это работает

Система работает в двух режимах: офлайн-построение моделей и онлайн-обработка запросов.

Офлайн: Анализируются логи запросов для выявления терминов, чья локальная популярность превышает глобальную. Эти термины включаются в иерархические Region Models.
Онлайн: При получении голосового запроса и местоположения пользователя стандартный ASR генерирует исходные транскрипции.
Расширение: Компонент Candidate Transcription Expander проверяет соответствующие Region Models на наличие фонетически похожих локальных терминов.
Переоценка и Выбор: Генерируются дополнительные кандидаты. Система выбирает наилучшую транскрипцию, отдавая предпочтение терминам из более точных географических моделей (например, район предпочтительнее региона) с помощью механизма смещения (LMBoost).

Актуальность для SEO

Высокая. Голосовой и локальный поиск остаются критически важными направлениями развития. Точное распознавание названий местных компаний и уникальных локальных терминов необходимо для качественной работы голосовых ассистентов, карт и мобильного поиска. Интеграция гео-контекста в ASR является фундаментальной технологией для улучшения качества локального голосового поиска.

Важность для SEO

Патент имеет высокое значение для Local SEO и оптимизации под голосовой поиск (VSO). Он не описывает алгоритмы ранжирования, но критически важен для этапа понимания запроса (Query Understanding). Если название локального бизнеса не будет правильно распознано в голосовом запросе, поиск не состоится. Патент подчеркивает, что Google строит модели локальных терминов на основе пользовательской активности в конкретных регионах, что усиливает важность локальной узнаваемости бренда для попадания в эти Region Models.

Детальный разбор

Термины и определения

ASR (Automatic Speech Recognizer / Автоматический распознаватель речи)

Система, которая преобразует речь (аудиоданные) в текст (транскрипцию). Использует акустические и языковые модели.

Candidate Transcription Expander (Расширитель кандидатов транскрипции)

Компонент системы, который использует данные о местоположении и Region Models для генерации дополнительных, локально-релевантных кандидатов транскрипции.

Entity Terms (Термины-сущности)

N-граммы, представляющие названия конкретных объектов, например, имена бизнесов или достопримечательностей.

Feature Score (FS) (Оценка признака)

Весовой коэффициент, присваиваемый уровню географической иерархии. Используется для приоритизации: более узкие географические модели (Neighborhood) имеют более высокий FS, чем широкие (Locality).

Language Model Biaser (Смещатель языковой модели)

Компонент, который корректирует вероятности в базовой языковой модели ASR, повышая вес локально-релевантных терминов.

LMBoost (Language Model Boost)

Метрика, рассчитываемая для определения степени положительного смещения (повышения вероятности) для конкретной n-граммы в языковой модели на основе ее локальной популярности и FS.

Region Models (Региональные модели)

Иерархические структуры данных, хранящие коллекции n-грамм, связанных с определенными географическими регионами разного масштаба:

Neighborhood (Район): Наиболее специфичный уровень (например, район города или город).
Sub-locality (Субрегион): Средний уровень (например, область или штат).
Locality (Регион/Местность): Наиболее общий уровень (например, страна или макрорегион).

Representative Transcription (Репрезентативная транскрипция)

Финальный, выбранный системой вариант транскрипции голосового запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы обработки голосовых запросов (включающей ASR, Candidate Transcription Expander и Поисковую систему).

Система получает аудиоданные и данные о местоположении пользователя.
ASR генерирует исходную транскрипцию (Initial candidate transcription).
Candidate Transcription Expander выбирает наборы n-грамм (названия сущностей), предварительно связанных с несколькими географическими регионами, соответствующими местоположению.
Expander генерирует дополнительные кандидаты транскрипции. Ключевое условие: эти кандидаты должны быть фонетически похожи на термины из исходной транскрипции, но НЕ должны присутствовать в ней.
ASR выбирает репрезентативную транскрипцию из числа дополнительных кандидатов на основе фонетического сходства с аудиоданными.
Система предоставляет эту транскрипцию как наиболее точный результат и передает ее поисковой системе для генерации результатов.

Claim 2 (Зависимый от 1): Уточняет иерархию географических регионов: как минимум Neighborhood, Sub-locality и Locality.

Claim 3 (Зависимый от 2): Вводит механизм приоритизации с помощью Feature Scores (FS).

Каждому уровню присваивается оценка FS.
Установлена иерархия весов: FS(Neighborhood) > FS(Sub-locality) > FS(Locality).
Выбор репрезентативной транскрипции основывается на этих оценках. Система предпочитает совпадения из более специфичных (меньших по размеру) географических моделей.

Claim 4 (Зависимый от 2): Описывает офлайн-процесс отбора n-грамм для включения в Region Models.

Для каждого региона получается коллекция n-грамм.
Для каждой n-граммы вычисляются две вероятности: (i) Локальная вероятность (использование в данном местоположении); (ii) Глобальная вероятность (использование коллекцией пользователей).
В модель включаются только те n-граммы, у которых локальная вероятность (i) выше глобальной (ii). В модель попадают только термины, уникально популярные в данном регионе.

Где и как применяется

Изобретение затрагивает два ключевых этапа поисковой архитектуры: предварительную обработку данных и понимание запроса в реальном времени.

INDEXING / Извлечение признаков (Офлайн-процесс)
На этом этапе происходит построение Region Models. Система анализирует исторические данные (query log data) и данные о местоположении пользователей, чтобы определить, какие n-граммы (сущности) популярны в каких регионах. Происходит агрегация, фильтрация (Claim 4) и категоризация n-грамм по иерархическим моделям.

QUNDERSTANDING – Понимание Запросов (Онлайн-процесс)
Это основной этап применения патента. Процесс происходит в момент получения голосового запроса внутри системы ASR:

Первичная обработка: Генерация исходных транскрипций.
Контекстуализация: Получение данных о местоположении.
Расширение: Активация Region Models и генерация дополнительных локальных кандидатов с помощью Candidate Transcription Expander.
Переоценка/Смещение (Biasing): Выбор финальной транскрипции с учетом локальной релевантности и Feature Scores, часто с использованием Language Model Biaser и расчета LMBoost.

Входные данные (Онлайн):

Аудиоданные голосового запроса.
Данные о местоположении пользователя (Location data).
Иерархические Region Models (предварительно рассчитанные).
(Опционально) История запросов пользователя (Claim 6).

Выходные данные (Онлайн):

Representative transcription – скорректированная текстовая версия голосового запроса.

На что влияет

Конкретные типы контента: Страницы локальных бизнесов, достопримечательностей, географических объектов (улицы, парки), имеющих уникальные или фонетически неоднозначные названия.
Специфические запросы: Локальные информационные и навигационные запросы, заданные голосом (например, поиск ресторана по названию).
Конкретные ниши или тематики: Все ниши, связанные с локальным бизнесом (HoReCa, ритейл, услуги).

Когда применяется

Триггеры активации: Получение голосового запроса, сопровождаемого данными о местоположении пользователя.
Условия работы: Механизм коррекции активируется, если в соответствующих Region Models существуют n-граммы, которые (i) фонетически похожи на термины в исходной транскрипции ASR (определяется, например, путем сравнения волноформ аудио, Claim 9) и (ii) отсутствуют в исходном списке кандидатов.

Пошаговый алгоритм

Процесс А: Офлайн-генерация региональных моделей (Region Models)

Сбор данных: Сбор логов запросов (текстовых и голосовых) от множества пользователей с привязкой к местоположению.
Извлечение и фильтрация N-грамм: Извлечение n-грамм (сущностей). Применяется фильтрация шума: удаляются опечатки, глобально популярные термины, а также термины, возникающие из-за частых ошибок распознавания (например, если термин появляется преимущественно в голосовых, но не в текстовых запросах).
Расчет вероятностей: Расчет локальной вероятности P(n-gram|location) и глобальной вероятности P(n-gram).
Отбор локальных терминов: Включение в модель только тех n-грамм, где P(n-gram|location) > P(n-gram) (Claim 4).
Построение иерархии: Распределение n-грамм по моделям Neighborhood, Sub-locality, и Locality. Присвоение Feature Scores (FS) каждому уровню (FS Neighborhood > FS Locality).

Процесс Б: Обработка голосового запроса в реальном времени

Получение ввода: Система получает аудиоданные и данные о местоположении пользователя.
Первичное распознавание: ASR генерирует список исходных кандидатов транскрипций.
Выбор моделей: Candidate Transcription Expander выбирает релевантные Region Models на основе местоположения.
Генерация дополнительных кандидатов: Система ищет в моделях n-граммы, которые фонетически схожи с исходными кандидатами, но отсутствуют в исходном списке.
Расчет LMBoost и Смещение: Для локальных кандидатов рассчитывается LMBoost на основе их локальной популярности и FS модели. Language Model Biaser может корректировать базовую языковую модель.
Оценка и выбор: ASR выбирает одну репрезентативную транскрипцию из объединенного списка на основе наивысшей итоговой оценки (confidence score), учитывающей фонетическое сходство и локальную релевантность.
Вывод результата: Выбранная транскрипция используется как поисковый запрос.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Query Logs): Исторические данные о текстовых и голосовых запросах пользователей. Используются офлайн для построения Region Models и определения частоты использования n-грамм.
Географические факторы (Location Data): Местоположение пользователя (текущее и историческое). Критически важно для построения моделей и для их активации в реальном времени.
Пользовательские факторы (User Context/History): Патент упоминает (Claim 6), что могут использоваться n-граммы из предыдущих запросов пользователя для персонализации распознавания.
Технические факторы (Audio Data): Аудиосигнал (waveforms) голосового запроса. Используется для анализа фонетического сходства (сравнения волноформ, Claim 9).

Какие метрики используются и как они считаются

P(n-gram) (Глобальная вероятность): Вероятность использования n-граммы всеми пользователями (в базовой языковой модели).
P(n-gram|location) (Локальная вероятность): Вероятность использования n-граммы в определенном местоположении.
Feature Score (FS): Предопределенный вес, связанный с уровнем иерархии региональной модели (FS Neighborhood > FS Locality).
LMBoost (Language Model Boost): Метрика для смещения языковой модели. В патенте приводится формула (Equation 1): LMBoost = log [P(n-gram|location)] — log [P(n-gram)] + FS.
Бустинг тем выше, чем больше локальная популярность превышает глобальную, и дополнительно увеличивается за счет FS региона.
Confidence Score / Recognition Score: Итоговая оценка кандидата транскрипции, учитывающая фонетическое сходство и локальную релевантность.

Выводы

Локальный контекст критичен для распознавания голоса: Google активно использует местоположение пользователя для коррекции ошибок ASR на фундаментальном уровне. Система предполагает, что пользователь скорее ищет локально релевантную сущность, чем фонетически похожее общеупотребительное слово.
Иерархическое предпочтение локальности: Система использует иерархические Region Models и отдает явное предпочтение более узким географическим областям. Термины из модели района (Neighborhood) получают больший вес (Feature Score), чем термины из модели региона (Locality).
Модели строятся на основе поведения пользователей: Region Models генерируются путем анализа логов запросов. Чтобы сущность попала в модель, она должна демонстрировать популярность в конкретном регионе, превышающую ее глобальную популярность (Claim 4).
Фильтрация шума и ошибок при обучении: При построении моделей Google фильтрует глобально популярные термины и потенциальные ошибки ASR (например, сравнивая частотность в голосовых и текстовых запросах), чтобы обеспечить качество моделей.
Агрессивный бустинг локальных терминов: Механизм LMBoost значительно повышает вероятность распознавания локальных терминов, комбинируя их локальную уникальность (разница вероятностей) и географическую близость (Feature Score).

Практика

Best practices (это мы делаем)

Усиление локальной узнаваемости бренда (Local Brand Awareness): Необходимо стимулировать реальный поисковый интерес (текстовый и голосовой) к бренду в целевом регионе. Это повышает P(n-gram|location) и увеличивает вероятность попадания названия в Region Models, так как они строятся на основе query logs.
Консистентность NAP и управление сущностью (Entity Management): Обеспечьте полное и консистентное представление локальной сущности (Name, Address, Phone) в Google Business Profile и других локальных источниках (каталоги, отзывы). Это помогает Google четко связать n-грамму (название) с конкретным местоположением при построении Region Models.
Усиление микро-локальных сигналов: Поскольку Neighborhood Model имеет наивысший Feature Score, важно укреплять связь бизнеса с конкретным районом через упоминания в локальных СМИ, участие в местных событиях и использование названий районов в контенте и отзывах.
Анализ фонетики бренда: Оценивайте, насколько название бренда фонетически уникально. Если оно похоже на общеупотребительное слово, требуется активная работа над локальными сигналами, чтобы механизм коррекции срабатывал в пользу бренда.

Worst practices (это делать не надо)

Использование общеупотребительных слов в названии: Названия, состоящие только из общих слов (например, «Лучшая Пицца»), могут не пройти фильтр локальной значимости, так как их глобальная популярность (P(n-gram)) будет высока. Это затрудняет их включение в Region Models и корректное распознавание в голосовом поиске.
Игнорирование текстового поиска: Полагаться только на голосовой трафик рискованно. Google использует сравнение частотности в голосовых и текстовых логах для валидации n-грамм. Аномально высокая частота только в голосовом поиске может быть интерпретирована как ошибка распознавания, и термин будет исключен из модели.
Частый ребрендинг или неконсистентность данных (NAP): Изменение названия или использование разных вариантов написания затрудняет консолидацию сущности и снижает вероятность ее попадания в Region Models.

Стратегическое значение

Патент подтверждает стратегическую важность интеграции географического контекста в основы поисковых технологий (ASR). Для SEO это означает, что успех в локальном и голосовом поиске напрямую зависит от того, насколько хорошо Google ассоциирует вашу сущность с конкретным регионом на основе агрегированного поведения пользователей. Долгосрочная стратегия должна фокусироваться на построении реальной локальной авторитетности и узнаваемости бренда.

Практические примеры

Сценарий: Коррекция распознавания названия ресторана (на основе примера из патента, FIG. 1)

Ситуация: В Маунтин-Вью есть ресторан «Zanh». Пользователь находится там же и произносит голосовой запрос «Zanh» (звучит как «ZE-EH-EN»).
Исходное распознавание (ASR): Стандартный ASR, опираясь на глобальную модель, распознает это как более распространенное слово «Zen» (Initial Candidate Transcription).
Активация механизма: Candidate Transcription Expander использует местоположение (Маунтин-Вью) и обращается к Neighborhood Model. В модели присутствует n-грамма «Zanh» (так как она популярна локально).
Фонетический анализ: Система определяет, что «Zanh» фонетически похоже на «Zen», но отличается по написанию.
Генерация и Переоценка: «Zanh» добавляется как дополнительный кандидат. Система применяет сильный LMBoost, так как термин взят из Neighborhood Model (высокий Feature Score) и его локальная популярность высока.
Результат: ASR выбирает «Zanh» как финальную Representative Transcription, и поиск выполняется корректно.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов?

Напрямую нет. Патент описывает механизм автоматического распознавания речи (ASR) и транскрипции голосовых запросов, что относится к этапу Query Understanding. Однако он критически влияет на то, какой именно текстовый запрос будет передан системе ранжирования. Если название локального бизнеса распознано неверно, ранжирование по нему не произойдет.

Что такое иерархические региональные модели (Region Models) и зачем их несколько?

Это базы данных, содержащие термины (n-граммы), популярные в определенных географических областях. Они организованы иерархически: модель района (Neighborhood), субрегиона (Sub-locality) и региона (Locality). Иерархия позволяет приоритизировать наиболее специфичные локальные названия: совпадение в модели района получит больший вес (Feature Score), чем совпадение в модели страны.

Как Google определяет, какие термины включить в региональную модель?

Google анализирует логи запросов пользователей в офлайн-режиме. Ключевой критерий (Claim 4): локальная популярность термина должна превышать его глобальную популярность. Система сравнивает вероятность использования термина в данном регионе (P(n-gram|location)) с общей вероятностью (P(n-gram)). Это позволяет отсеять общеупотребительные слова.

Что такое Feature Score (FS) и как он используется?

Feature Score (FS) – это вес, присваиваемый уровню иерархии региональной модели. Модели района имеют более высокий FS, чем модели региона. FS используется в формуле LMBoost для усиления вероятности распознавания термина. Это техническая реализация принципа, что система отдает предпочтение наиболее локальным совпадениям.

Как этот патент помогает бороться с ошибками распознавания локальных названий?

Когда стандартный ASR ошибочно распознает локальное название как общеупотребительное слово, система проверяет Region Models на наличие фонетически похожих, но локально релевантных терминов. Если такой термин найден, система генерирует его как дополнительного кандидата и повышает его вероятность с помощью LMBoost, исправляя ошибку.

Что делать SEO-специалисту, чтобы улучшить распознавание названия своего локального бизнеса?

Ключевая задача – повысить локальную узнаваемость и частоту запросов к бренду в целевом регионе (как текстовых, так и голосовых). Это увеличивает шансы попадания названия в Region Models. Также критически важна консистентность NAP в GBP и других источниках, чтобы Google мог четко связать название с локацией.

Важно ли генерировать текстовые запросы к бренду, или достаточно голосовых?

Важно генерировать оба типа запросов. В патенте упоминается, что при построении Region Models система может отфильтровывать термины, которые появляются преимущественно в голосовых запросах. Это делается для того, чтобы не включать в модель системные ошибки распознавания.

Как система определяет фонетическое сходство?

Патент упоминает (Claim 9) сравнение волноформ (waveforms) аудиосигнала. Система сравнивает волноформы, связанные с исходной транскрипцией, и волноформы, ассоциированные с локальными n-граммами. Это позволяет определить, что два разных термина звучат достаточно похоже, чтобы считаться альтернативными вариантами транскрипции.

Использует ли система персональную историю поиска пользователя?

Да, патент упоминает (Claim 6), что кроме местоположения могут использоваться контекстные данные, такие как предыдущие запросы пользователя. Это добавляет слой персонализации к географическому контексту и может дополнительно помочь в распознавании терминов, релевантных для конкретного пользователя в данном месте.

Работает ли эта система, если у пользователя отключена геолокация?

Система требует данные о местоположении пользователя (Location Data) для активации нужных Region Models. Если точное местоположение недоступно, система может использовать приблизительное (например, по IP), но эффективность работы, особенно на уровне Neighborhood, значительно снизится. Без данных о локации механизм не активируется.