Google динамически корректирует базовую языковую модель распознавания речи, учитывая контекст пользователя в момент запроса. Система повышает вероятность распознавания слов и фраз, связанных с текущим местоположением пользователя, временем суток, погодой, актуальными новостями и поисковой активностью его социального круга. Это позволяет точнее преобразовывать голосовой ввод в текстовый запрос.
Описание
Какую задачу решает
Патент решает проблему низкой точности распознавания речи (Speech Recognition) при использовании стандартных, обобщенных языковых моделей (Base Language Model). Обобщенные модели плохо справляются со специфическими контекстами, так как присваивают низкие вероятности статистически редким фразам, таким как названия местных бизнесов, имена собственные или новые трендовые термины. Изобретение улучшает точность конвертации голосового ввода в текст путем адаптации языковой модели к текущему контексту пользователя.
Что запатентовано
Запатентована система динамической адаптации языковой модели для распознавания голосовых запросов. Система использует контекст запроса (Query Context) — местоположение, время, погоду, социальные связи пользователя или текущие события — для выбора или генерации кастомизированной языковой модели (Customized Language Model). В этой модели вероятности (probability values) определенных последовательностей слов корректируются относительно базовой модели, чтобы повысить шансы на правильное распознавание контекстуально релевантных фраз.
Как это работает
Система работает в несколько этапов:
- Получение контекста: При получении голосового запроса система анализирует его контекст (Query Context): геолокацию устройства, время, идентификатор пользователя.
- Кастомизация модели: Если контекст удовлетворяет определенным критериям, система получает Customized Language Model. Это может происходить путем выбора из заранее подготовленных моделей или путем динамической корректировки Base Language Model с помощью правил (например, Geographic LM Rules, Social Group LM Rules, Event LM Rules).
- Корректировка вероятностей: В кастомизированной модели повышаются вероятности фраз, связанных с контекстом (например, названия близлежащих объектов или актуальные новости).
- Преобразование речи в текст: Голосовой запрос конвертируется в текст с использованием этой кастомизированной, более точной модели.
Актуальность для SEO
Высокая. Голосовой поиск и персональные ассистенты являются ключевыми направлениями развития. Точность распознавания речи, особенно в локальном и персонализированном контексте, критически важна для пользовательского опыта. Описанные механизмы адаптации к окружающей пользователя среде лежат в основе современных систем распознавания речи.
Важность для SEO
(7/10). Влияние на SEO высокое, но косвенное, особенно критичное для локального поиска (Local SEO) и оптимизации под голосовой поиск (VSO). Патент не описывает алгоритмы ранжирования, но влияет на этап, предшествующий ему, — распознавание запроса. Если система не сможет правильно распознать название бренда или локации из голосового ввода, сайт не будет ранжироваться по этому запросу. Патент подчеркивает важность сильной ассоциации сущностей с контекстными сигналами (местоположением, событиями) для их успешного распознавания.
Детальный разбор
Термины и определения
- Base Language Model (Базовая языковая модель)
- Стандартная модель распознавания речи (например, N-gram модель), содержащая последовательности слов и их базовые вероятности (base probability value). Строится на основе большого корпуса данных, например, обезличенных поисковых логов (Search Logs).
- Customized Language Model (Кастомизированная языковая модель)
- Языковая модель, в которой базовые вероятности одной или нескольких последовательностей слов скорректированы (adjusted probability value) в соответствии с контекстом запроса. Может быть сгенерирована динамически или выбрана из заранее подготовленного набора.
- Query Context (Контекст запроса)
- Данные, описывающие обстоятельства голосового запроса. Включают местоположение устройства (GPS, IP-адрес), временную метку (timestamp), погоду, идентификатор пользователя и связанные с ним данные.
- Model Customization Module (Модуль кастомизации модели)
- Компонент системы распознавания речи, отвечающий за динамическую корректировку базовой модели. Может быть реализован как LM Selector (выбор готовой модели) или LM Modifier (модификация на лету).
- Geographic LM Rules (Правила географической языковой модели)
- Правила для изменения вероятностей слов, связанных с географическими объектами (features) в определенной местности. Используют данные из Geographic Data Store.
- Social Group LM Rules (Правила социальной языковой модели)
- Правила для корректировки вероятностей на основе активности (например, истории запросов) пользователей, входящих в социальную группу текущего пользователя. Используют данные из Social Group Data Store.
- Event LM Rules (Правила событийной языковой модели)
- Правила для корректировки вероятностей на основе текущих событий, времени суток, погоды или популярных тем в новостях. Используют данные из Event Data Store.
- Degree of Relationship (Степень связи/отношения)
- Метрика для определения величины корректировки. В географическом контексте — это расстояние до объекта (влияет на затухание/decay). В социальном контексте — это степень близости в социальном графе.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс использования динамических языковых моделей.
- Получение голосового поискового запроса от пользователя.
- Определение того, что для распознавания должна быть использована конкретная кастомизированная языковая модель (particular customized language model) из множества доступных. Каждая модель содержит скорректированные вероятности (adjusted probabilities) по сравнению с базовой моделью (base language model).
- Использование этой конкретной кастомизированной модели для генерации текстового поискового запроса из голосового ввода.
- Предоставление результатов поиска в ответ на текстовый запрос.
Claims 2, 3, 4, 5 (Зависимые): Детализируют кастомизацию на основе географии.
- Кастомизированные модели генерируются на основе конкретного географического местоположения (Claim 2). Выбор модели основан на местоположении устройства пользователя (Claim 3).
- Корректировка вероятности основана на степени связи (degree of relationship) между последовательностью слов и местоположением (Claim 4). Эта степень связи определяется расстоянием между объектом (feature), название которого содержится в последовательности слов, и устройством пользователя (Claim 5).
Claims 6, 7 (Зависимые): Детализируют кастомизацию на основе социальных связей.
- Определение использования модели основано на анализе встречаемости терминов у пользователей, состоящих в одной социальной группе (social group) с текущим пользователем (Claim 6).
- Корректировка основана на частоте встречаемости (frequency of occurrence) фразы в сохраненных логах запросов пользователей этой социальной группы (Claim 7).
Claim 8 (Зависимый): Детализирует кастомизацию на основе текущих событий.
- Определение использования модели основано на определении связи между запросом и одним или несколькими текущими событиями (current events).
Где и как применяется
Изобретение применяется на этапе преобразования речи в текст, что является частью глобального процесса понимания запроса.
QUNDERSTANDING – Понимание Запросов
Это основное место применения патента. Система распознавания речи (Speech Recognition Subsystem) анализирует голосовой ввод (voice search query) и его контекст (Query Context).
- Анализ контекста: Система получает данные о местоположении, времени, идентификаторе пользователя.
- Выбор/Генерация модели: Model Customization Module определяет, нужно ли использовать Base Language Model или Customized Language Model. Модель выбирается или генерируется на лету для соответствия контексту.
- Распознавание: Голосовой ввод преобразуется в текстовый запрос (text search query) с использованием выбранной модели, оптимизированной под контекст.
Входные данные:
- Голосовой запрос (аудиосигнал).
- Query Context (геолокация, время, идентификатор пользователя, погода).
- Base Language Model.
- Данные для кастомизации (Geographic Data Store, Social Group Data Store, Event Data Store, Search Logs).
Выходные данные:
- Текстовый поисковый запрос, который передается в систему ранжирования (Search Engine).
На что влияет
- Конкретные типы контента и Сущности: Наибольшее влияние оказывается на распознавание именованных сущностей (Entities), которые имеют сильную контекстную привязку: названия местных бизнесов, улиц, достопримечательностей, названия актуальных событий, термины, популярные в определенной социальной группе.
- Специфические запросы: Влияет на локальные запросы (например, название ресторана без указания города), актуальные запросы (связанные с новостями) и персонализированные запросы.
- Конкретные ниши: Критично для локального бизнеса, новостных ресурсов и сферы развлечений.
Когда применяется
Алгоритм применяется при обработке голосовых запросов.
- Триггеры активации: Когда контекст запроса (Query Context) удовлетворяет критериям, связанным с кастомизированной языковой моделью или правилами корректировки. Например:
- Пользователь находится в определенной географической зоне (virtual block).
- Запрос сделан в определенное время (например, обеденное время).
- Пользователь идентифицирован и принадлежит к определенной социальной группе (и дал разрешение на использование данных).
- Происходит значимое событие (тренд в новостях) или фиксируются специфические погодные условия.
Пошаговый алгоритм
Процесс обработки голосового запроса
- Прием запроса и контекста: Система получает голосовой поисковый запрос и связанный с ним Query Context (местоположение, время, идентификатор пользователя).
- Анализ контекста и Принятие решения: Система определяет, удовлетворяет ли контекст запроса критериям для использования кастомизированной языковой модели.
- Если НЕТ: Используется Base Language Model. Переход к шагу 5.
- Если ДА: Переход к шагу 3.
- Получение кастомизированной модели: Система получает Customized Language Model. Это может включать два варианта:
- А. Выбор модели (Selection): Выбор подходящей модели из заранее созданного набора на основе контекста (например, модель для конкретного географического блока).
- Б. Модификация модели (Modification): Динамическая корректировка базовой модели с использованием правил (LM Rules), соответствующих контексту.
- Применение корректировок (внутри модели): Вероятности слов корректируются на основе правил:
- Географическая корректировка: Повышение вероятности названий объектов рядом с пользователем. Применение фактора затухания (decay) в зависимости от расстояния (Degree of Relationship).
- Социальная корректировка: Повышение вероятности фраз, часто используемых социальной группой пользователя. Применение фактора затухания в зависимости от степени социальной связи (Degree of Relationship).
- Событийная корректировка: Повышение вероятности фраз, связанных с текущими новостями, временем суток или погодой.
- Конвертация (ASR): Преобразование голосового запроса в текстовый поисковый запрос с использованием полученной языковой модели и ее скорректированных вероятностей.
- Вывод результата: Передача текстового запроса в поисковую систему.
Какие данные и как использует
Данные на входе
Система использует разнообразные данные для определения контекста и выполнения кастомизации:
- Географические факторы:
- Местоположение устройства (GPS-координаты; IP-адрес; точка доступа Wi-Fi).
- Geographic Data Store: База данных географических объектов (бизнесы, достопримечательности, улицы) с их названиями и локациями.
- Пользовательские и Социальные факторы:
- Идентификатор пользователя (User Identifier).
- Social Group Data Store: Информация о социальных связях пользователя (контакт-листы, круги друзей) и степени связи между ними (при условии разрешения пользователей).
- Персональная информация и предпочтения пользователя.
- Временные факторы:
- Временная метка запроса (Timestamp), время суток, день недели.
- Поведенческие факторы (Логи):
- Search Logs: История запросов (глобальная, локальная или связанная с социальной группой). Используется для определения частоты использования фраз в разных контекстах.
- Внешние данные (События):
- Event Data Store: Информация о погоде, текущих новостях (News articles), популярных событиях.
Какие метрики используются и как они считаются
- Probability Value (Вероятность последовательности слов): Ключевая метрика языковой модели. В базовой модели (base probability value) рассчитывается на основе частоты встречаемости в корпусе данных. В кастомизированной модели она корректируется (adjusted probability value).
- Adjustment Factor (Фактор корректировки): Множитель, применяемый к базовой вероятности. Определяется правилами (LM Rules).
- Degree of Relationship (Степень связи/отношения):
- Географическая: Определяется на основе расстояния (например, Евклидово, Манхэттенское, время в пути) между пользователем и объектом. Используется для расчета затухания (decay) — чем дальше объект, тем меньше фактор корректировки.
- Социальная: Определяется на основе близости связи в социальном графе (например, прямой друг vs друг друга). Чем дальше связь, тем меньше фактор корректировки.
- Frequency of Occurrence (Частота встречаемости): Количество раз, когда фраза появлялась в логах запросов (в локации, в социальной группе, в новостях) за период времени. Используется для определения необходимости корректировки (сравнение с порогом) и ее величины.
Выводы
- Контекст критичен для распознавания голоса: Патент подтверждает, что Google не полагается на единую статическую модель для преобразования голоса в текст. Система активно использует контекст пользователя (локация, время, социальные связи, события) для динамической адаптации распознавания.
- Приоритет локальных сущностей в ASR: Система специально разработана для повышения вероятности распознавания названий географических объектов (geographic features), находящихся рядом с пользователем. Чем ближе объект, тем выше вероятность его правильного распознавания, даже если его название акустически похоже на более популярную фразу.
- Персонализация через социальный граф: История поиска и активность социальных связей пользователя (с его разрешения) используются для персонализации языковой модели. Если друзья пользователя часто ищут определенную тему, система с большей вероятностью распознает голосовой запрос пользователя как связанный с этой темой.
- Влияние текущих событий (Freshness/QDF для речи): Система учитывает актуальные события, новости и даже погоду для корректировки модели. Термины, набирающие популярность в новостях или релевантные текущему времени суток, получают бустинг при распознавании.
- SEO-фокус на распознаваемости (Recognizability): Для успеха в голосовом поиске критически важно не только ранжирование, но и то, чтобы система корректно распознала название бренда или продукта. Это требует четкой ассоциации сущности с ее контекстом (локацией, тематикой, аудиторией).
Практика
Best practices (это мы делаем)
- Усиление локальных сигналов (Local SEO): Для локального бизнеса критически важно обеспечить полноту и точность данных в Google Business Profile и других локальных каталогах (источниках для Geographic Data Store). Это напрямую обеспечивает данные для Geographic LM Rules, повышая вероятность того, что название бизнеса будет корректно распознано, когда пользователь находится рядом.
- Оптимизация сущностей (Entity Optimization) и Брендинг: Необходимо использовать четкие, узнаваемые и легко произносимые названия брендов и продуктов. Это повышает базовую вероятность их распознавания, которая затем может быть усилена контекстом.
- Работа с актуальным контентом и трендами: Создание контента, связанного с текущими событиями, новостями или сезонными трендами (Event LM Rules), повышает вероятность того, что связанные с этим контентом ключевые фразы будут корректно распознаны в голосовых запросах в этот период.
- Стимулирование естественного спроса в комьюнити: Хотя это сложно контролировать напрямую, активность и поисковый спрос вокруг бренда внутри определенных социальных групп или сообществ (Social Group LM Rules) может повысить точность распознавания названия бренда у участников этих групп.
Worst practices (это делать не надо)
- Использование неоднозначных или сложно произносимых названий: Названия, которые акустически похожи на популярные общие фразы или которые трудно произнести, имеют высокий риск быть неправильно распознанными. Динамическая модель помогает это исправить, но только если контекстные сигналы достаточно сильны.
- Игнорирование локального контекста и регистрации: Отсутствие регистрации бизнеса или неверные данные в локальных базах снижает эффективность голосового поиска, так как система не получит контекстных сигналов для активации Geographic LM Rules.
- Непоследовательность в NAP (Name, Address, Phone): Расхождения в названии бизнеса в разных источниках могут ухудшить способность системы связать название с конкретной локацией, что негативно скажется на корректировке вероятностей в Customized Language Model.
Стратегическое значение
Патент подчеркивает стратегическую важность контекста в современном поиске, особенно голосовом. Успешная SEO-стратегия должна учитывать не только ЧТО ищет пользователь, но и ГДЕ, КОГДА и в каком СОЦИАЛЬНОМ ОКРУЖЕНИИ он это делает. Это подтверждает необходимость комплексного подхода, объединяющего Local SEO, Entity Optimization и работу с трендами, для обеспечения максимальной видимости в голосовой выдаче. Системы становятся все более адаптивными к среде пользователя, и SEO-специалистам необходимо обеспечивать сигналы, которые позволят этой адаптации работать в пользу их проектов.
Практические примеры
Сценарий 1: Оптимизация распознавания локального ресторана
- Ситуация: В городе есть ресторан «The Phare» (маяк), но глобальная языковая модель часто распознает его как более частотную фразу «the fair» (ярмарка).
- Действие SEO: Обеспечение точных данных в Google Business Profile для ресторана «The Phare».
- Механизм (по патенту): Пользователь находится рядом с рестораном. Система использует его геолокацию (Query Context). Она обращается к Geographic Data Store и видит, что рядом есть объект «The Phare». Система применяет Geographic LM Rules и генерирует Customized Language Model, где вероятность «The Phare» значительно повышена.
- Результат: Когда пользователь говорит «Directions to The Phare», система корректно преобразует это в текст «Directions to The Phare», а не «Directions to the fair».
Сценарий 2: Влияние новостного тренда
- Ситуация: Вышел новый гаджет «Xylo». В базовой модели это слово чаще всего ассоциируется с «xylophone».
- Механизм (по патенту): В последние дни в новостях (Event Data Store) и в поисковых логах (Search Logs) наблюдается всплеск запросов о гаджете «Xylo». Система применяет Event LM Rules. В Customized Language Model вероятность распознавания аудиосигнала как «Xylo» повышается.
- Результат: Пользователь говорит «Buy Xylo», и система корректно распознает название гаджета, а не музыкального инструмента.
Вопросы и ответы
Влияет ли этот патент напрямую на алгоритмы ранжирования Google?
Нет, напрямую на ранжирование он не влияет. Патент описывает исключительно процесс распознавания речи (Speech Recognition) — преобразование аудиосигнала в текстовый запрос. Этот процесс происходит до того, как текстовый запрос отправляется в систему ранжирования. Однако его влияние на SEO критично: если система неправильно распознает голосовой запрос (например, спутает название вашего бренда), ваш сайт не попадет в выдачу по этому запросу.
Как этот патент связан с Local SEO?
Связь прямая и очень сильная. Основной механизм, описанный в патенте, — это повышение вероятности распознавания названий локальных объектов (бизнесов, улиц), когда пользователь находится рядом с ними (Geographic LM Rules). Для SEO это означает, что сильные локальные сигналы (например, через Google Business Profile) напрямую улучшают распознаваемость вашего бизнеса в голосовом поиске.
Как именно система понимает, что нужно повысить вероятность распознавания названия местного бизнеса?
Система анализирует контекст запроса (Query Context), в частности геолокацию пользователя. Если локация совпадает с зоной, для которой существуют Geographic LM Rules, система активирует кастомизированную модель. В этой модели вероятность распознавания названий близлежащих объектов (полученных из Geographic Data Store) повышается. Чем ближе объект, тем сильнее повышение.
Что такое «затухание» (decay) в контексте географических правил?
Затухание означает, что сила повышения вероятности распознавания уменьшается по мере удаления пользователя от объекта (Degree of Relationship). Если вы стоите прямо у входа в кафе, вероятность распознавания его названия максимальна. Если вы находитесь в нескольких кварталах от него, повышение будет слабее. Это гарантирует, что система отдает приоритет наиболее близким и релевантным объектам.
Как SEO-специалист может повлиять на социальные правила (Social Group LM Rules)?
Напрямую повлиять сложно, так как это зависит от поведения социальных связей пользователя и их настроек приватности. Однако это подчеркивает важность построения сильного бренда и комьюнити. Если ваш бренд или продукт активно обсуждается и ищется внутри определенных социальных групп, система научится лучше распознавать его название у участников этих групп, основываясь на частоте запросов (Frequency of Occurrence) в этой группе.
Как система использует текущие события или новости (Event LM Rules)?
Система анализирует внешние источники (новости, погоду) и тренды в Search Logs. Если определенный термин или название внезапно становится популярным, его вероятность в языковой модели временно повышается (Event LM Rules). Это помогает корректно распознавать запросы, связанные с трендами (аналог QDF для распознавания речи).
Система генерирует новую языковую модель для каждого запроса?
Патент описывает два варианта реализации. В первом варианте (LM Selector) система выбирает наиболее подходящую модель из заранее подготовленного набора кастомизированных моделей (например, модель для конкретного района города). Во втором варианте (LM Modifier) система может динамически корректировать базовую модель «на лету» в момент запроса, применяя соответствующие правила корректировки.
Что делать, если название моего бренда похоже на обычное слово?
Это классическая проблема, которую механизм этого патента призван решить. Вам необходимо максимально усилить ассоциацию вашего бренда с контекстом, в котором его должны искать. Для локального бренда — это сильные локальные сигналы. Для трендового продукта — активное присутствие в новостях. Чем сильнее контекстные сигналы, тем выше вероятность, что система применит кастомизированную модель и правильно распознает ваш бренд.
Влияет ли время суток или погода на распознавание речи?
Да, это часть Event LM Rules. Например, в обеденное время система может повысить вероятность распознавания фраз, связанных с ресторанами. Если начинается дождь, система может повысить вероятность распознавания слов, связанных с зонтами или такси. Если ваш бизнес зависит от времени или погоды, этот механизм поможет пользователям найти вас через голосовой поиск.
Использует ли Google мою персональную историю поиска для улучшения распознавания речи?
Да, патент упоминает, что система может анализировать прошлые запросы пользователя для настройки языковой модели, если пользователь дал на это разрешение (персонализированная информация). Если вы часто ищете определенный термин (голосом или текстом), вероятность его распознавания в будущем увеличивается.