Google обрабатывает голосовые запросы, генерируя несколько текстовых интерпретаций (гипотез). Начальные веса этим гипотезам присваиваются на основе исторических логов запросов. Система выполняет первичный поиск и затем итеративно уточняет веса, основываясь на полученных результатах (например, их количестве). Финальный поиск использует уточненные веса для обеспечения более точной выдачи.
Описание
Какую задачу решает
Патент решает проблему низкой точности распознавания речи в системах с большим словарным запасом, особенно при обработке коротких голосовых запросов, лишенных контекста или истории диалога. Цель — предоставить релевантные результаты поиска, несмотря на неизбежные ошибки и неопределенность при преобразовании голоса в текст, избегая использования медленных и неудобных голосовых меню.
Что запатентовано
Запатентована система итеративной обработки голосовых запросов. Суть изобретения заключается в генерации множественных текстовых интерпретаций (гипотез) голосового ввода и использовании двух источников для их оценки и валидации: исторических логов запросов (Search Query Log) и результатов первичного поиска. Система генерирует первый запрос, анализирует результаты, модифицирует веса гипотез на основе полученных данных и затем генерирует второй, уточненный запрос.
Как это работает
Система работает по итеративному принципу:
- Распознавание: Голосовой запрос преобразуется в несколько текстовых гипотез (Word Hypotheses).
- Начальное взвешивание: Система обращается к Search Query Log, чтобы определить начальные веса гипотез (например, на основе частоты запросов).
- Первый поиск: Генерируется первый запрос (например, Weighted Boolean Query), и выполняется поиск.
- Итеративное уточнение: Система анализирует первые результаты поиска (например, количество документов для каждой гипотезы) и модифицирует веса. Гипотезы без результатов могут быть отброшены.
- Второй поиск: Генерируется второй запрос с уточненными весами. Результаты предоставляются пользователю, причем финальные веса влияют на ранжирование.
Актуальность для SEO
Средняя. Патент является продолжением заявки с ранней датой приоритета (2001 год). Фундаментальная концепция обработки неопределенности в голосовом поиске, использование логов запросов для обучения языковых моделей и итеративное уточнение остаются критически важными. Однако конкретные технические реализации (например, явное использование взвешенных булевых запросов и статистических акустических моделей) значительно эволюционировали с развитием нейронных сетей.
Важность для SEO
Влияние на SEO низкое (3/10). Это преимущественно инфраструктурный патент, описывающий внутренние процессы Google на этапе понимания голосового ввода (Query Understanding). Он объясняет, как система пытается понять, что сказал пользователь, но не дает прямых рекомендаций по оптимизации контента для ранжирования. Значение для SEO заключается в понимании критической важности естественного языка и популярных формулировок запросов.
Детальный разбор
Термины и определения
- Acoustic Models (Акустические модели)
- Модели, обученные на аудиопримерах, используемые для сопоставления акустических признаков, извлеченных из аудиосигнала, с фонетическими единицами (звуками речи).
- Language Model (Языковая модель)
- Статистическая модель, используемая во время распознавания речи для присвоения вероятностей последовательностям слов. Строится на основе анализа частоты их появления в корпусе данных (например, в Query Logs).
- N-best Hypothesis List (Список N лучших гипотез)
- Список наиболее вероятных полных текстовых интерпретаций голосового запроса, часто с соответствующими весами или оценками уверенности.
- Phonetic Dictionary (Фонетический словарь)
- Сопоставление слов или словосочетаний с их возможными фонетическими произношениями.
- Query Logs / Search Query Log (Логи поисковых запросов)
- Исторические данные о ранее выполненных поисках. Используются для построения Language Models и определения начальных весов гипотез.
- Weighted Boolean Query (Взвешенный булев запрос)
- Поисковый запрос, сконструированный путем объединения различных гипотез или терминов с использованием булевых операторов (AND/OR) и присвоением весов для приоритизации определенных интерпретаций.
- Word Graph (Граф слов)
- Сложное представление возможных последовательностей слов и их весов, альтернатива N-best list.
- Word Hypotheses / Recognition Hypothesis (Словесные гипотезы)
- Возможные текстовые интерпретации голосового запроса, сгенерированные системой распознавания речи.
Ключевые утверждения (Анализ Claims)
Анализ сфокусирован на Claims патента US8768700B1, который фокусируется на итеративном процессе уточнения.
Claim 1 (Независимый пункт): Описывает итеративный метод уточнения результатов голосового поиска с использованием логов запросов и результатов первичного поиска для корректировки весов гипотез.
- Получение голосового запроса.
- Определение множества словесных гипотез (Word Hypotheses).
- Доступ к логу поисковых запросов (Search Query Log).
- Определение весов для гипотез на основе лога поисковых запросов.
- Генерация первого поискового запроса на основе этих весов.
- Получение первого набора результатов поиска.
- Модификация весов гипотез на основе первого набора результатов поиска.
- Генерация второго поискового запроса на основе модифицированных весов.
- Получение второго набора результатов поиска.
Ядром изобретения является итеративное уточнение весов гипотез с использованием двух разных источников информации: исторических логов запросов (определение априорной вероятности) и результатов начального поиска (сбор доказательств).
Априорная вероятность (Начальное взвешивание): Система проверяет Search Query Log, чтобы увидеть, насколько распространена каждая сгенерированная гипотеза. Более частые фразы получают более высокий начальный вес.
Доказательства (Итеративное уточнение): Система выполняет поиск и анализирует результаты. Если результаты явно предпочитают одну гипотезу (много результатов) и игнорируют другую (мало или нет результатов), система модифицирует веса, повышая первую и понижая вторую, перед выполнением второго поиска.
Claim 3 (Зависимый от 1): Детализирует механизм отбрасывания гипотез.
- Определение количества первых результатов поиска, связанных с конкретной гипотезой.
- Если количество не удовлетворяет пороговому значению (например, ноль), эта гипотеза удаляется.
Это шаг валидации. Если интерпретация голосового запроса не дает релевантных результатов на первой итерации, она считается неверной и удаляется.
Claim 4 (Зависимый от 1): Детализирует влияние весов на ранжирование.
- Модификация ранжирования второго набора результатов поиска на основе (модифицированных) весов для каждой гипотезы.
Веса, полученные в результате итеративного процесса, активно влияют на финальное ранжирование. Документ, соответствующий гипотезе с высоким весом, будет ранжироваться выше.
Где и как применяется
Этот патент в основном применяется на этапе QUNDERSTANDING – Понимание Запросов, фокусируясь на обработке ввода голосовых запросов.
QUNDERSTANDING (Обработка голосового ввода)
- Система получает сырой аудиосигнал.
- Выполняется распознавание речи с использованием Acoustic Models, Phonetic Dictionary и Language Models.
- На выходе получается набор гипотез (N-best list/Word Graph).
- Система использует Search Query Logs для определения начальных весов.
- Запускается итеративный процесс: Конструкция запроса → Начальный поиск (взаимодействие с этапом RANKING) → Модификация весов на основе результатов → Конструкция второго запроса.
RANKING / RERANKING
- Сгенерированный уточненный запрос отправляется на этап ранжирования.
- Веса, связанные с гипотезами, используются системой ранжирования для влияния на финальные оценки результатов поиска (Claim 4).
Офлайн-процессы (Связаны с INDEXING/Data Acquisition)
Система требует предварительной обработки Query Logs для создания Language Models и Acoustic Models офлайн.
Входные данные:
- Сырой голосовой запрос (аудио).
- Search Query Logs (исторические данные поиска).
- Акустические модели, Языковые модели, Фонетический словарь.
Выходные данные:
- Уточненный поисковый запрос (например, Weighted Boolean Query), отправляемый в поисковую систему.
- Набор результатов поиска, ранжированных в соответствии с весами гипотез.
На что влияет
- Специфические запросы: В первую очередь влияет на голосовые запросы. Особенно важно для акустически неоднозначных сигналов, коротких запросов или запросов, содержащих омофоны (слова, которые звучат похоже).
- Языковые ограничения: Система может использовать разные Language Models для разных языков или даже акцентов (например, английский с немецким акцентом), что влияет на точность распознавания.
Когда применяется
- Триггеры активации: Активируется при получении голосового поискового запроса. Итеративное уточнение (генерация второго запроса) происходит после анализа результатов первого запроса.
- Условия: Удаление гипотез активируется, если количество результатов по гипотезе ниже порога (Claim 3).
Пошаговый алгоритм
Фаза 1: Офлайн подготовка моделей
- Сбор данных: Получение логов запросов (аудио и/или текстовые транскрипции).
- Фильтрация: Фильтрация логов по языку, орфографическим ошибкам, качеству аудио.
- Статистический анализ: Анализ частотности слов и контекстов для построения Language Models и словаря (Vocabulary).
- Фонетическая транскрипция: Создание Phonetic Dictionary.
- Акустическое обучение: Обучение Acoustic Models с использованием записанных аудио образцов.
- Хранение: Сохранение моделей для использования в реальном времени.
Фаза 2: Обработка запроса в реальном времени (Итеративный процесс)
- Получение ввода: Получение голосового запроса и обработка сигнала.
- Извлечение признаков: Выполнение акустического извлечения признаков.
- Распознавание речи: Использование моделей (Акустической, Языковой, Фонетической) для генерации N-best Hypothesis List или Word Graph.
- Начальное взвешивание (Claim 1): Доступ к Search Query Log и определение начальных весов для гипотез на основе исторических данных (априорная вероятность).
- Конструкция первого запроса (Claim 1): Генерация первого поискового запроса (например, Weighted Boolean Query). Может включать удаление шумовых слов и обрезку гипотез.
- Первичный поиск (Claim 1): Выполнение первого поискового запроса и получение первого набора результатов.
- Анализ результатов и Модификация весов (Claim 1): Анализ первого набора результатов (сбор доказательств). Модификация весов гипотез (например, увеличение весов для гипотез, давших много результатов).
- Фильтрация гипотез (Claim 3): Если гипотеза дает результаты ниже порога, она удаляется.
- Конструкция второго запроса (Claim 1): Генерация второго, уточненного поискового запроса на основе оставшихся гипотез и модифицированных весов.
- Вторичный поиск и Ранжирование (Claim 1, 4): Выполнение второго поискового запроса. Ранжирование результатов зависит от финальных весов гипотез.
- Предоставление результатов: Предоставление результатов пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется на обработке ввода и не описывает факторы ранжирования контента.
- Поведенческие факторы (Исторические данные): Search Query Logs явно упоминаются как основной ввод. Они используются офлайн для построения Language Models и онлайн для определения начальных весов гипотез (Claim 1) на основе частоты встречаемости фраз.
- Пользовательские факторы: Голосовой аудиосигнал пользователя. В патенте упоминается возможность использования разных Language Models для разных групп пользователей (например, для разных акцентов).
- Системные данные: Акустические признаки, извлеченные из аудиосигнала. Оценки уверенности (confidence scores) от системы распознавания речи.
Какие метрики используются и как они считаются
- Веса гипотез (Hypothesis Weights): Определяются изначально на основе Search Query Log (Claim 1) и/или оценок уверенности ASR. Модифицируются итеративно на основе количества или содержания начальных результатов поиска (Claim 1).
- Количество результатов поиска на гипотезу: Используется как доказательство для модификации весов и как порог для отбрасывания гипотез (Claim 3).
- MinLen/MaxLen: Метрики длины самой короткой и самой длинной гипотезы, используемые при конструировании булева запроса (описано в патенте).
- Query Constraint Parameters (T, WordLimit, Proportion New Words): Предопределенные параметры для контроля сложности генерируемого булева запроса.
- Формулы: В описании патента приводится формула для выбора количества гипотез (k) для включения в булев запрос: k = 1 + (WordLimit — MaxLen) / (MaxLen * Proportion New Words).
Выводы
- Обработка неопределенности: Патент подчеркивает необходимость справляться с inherent неопределенностью распознавания голоса, рассматривая несколько интерпретаций (гипотез) одновременно, а не полагаясь на единственный вариант.
- Использование логов запросов (Априорная вероятность): Google в значительной степени полагается на исторические логи поисковых запросов для определения вероятности конкретной интерпретации. Если фраза часто ищется (популярна), она с большей вероятностью будет считаться правильной интерпретацией неоднозначного голосового ввода.
- Итеративное уточнение (Сбор доказательств): Система не просто полагается на априорные вероятности. Она выполняет начальный поиск и использует результаты (например, объем возвращенных документов для гипотезы) как доказательство для уточнения интерпретации и изменения весов перед финальным поиском.
- Влияние весов на ранжирование: Оценки уверенности или веса, присвоенные различным интерпретациям, напрямую влияют на финальное ранжирование результатов поиска (Claim 4).
- Инфраструктурный фокус: Этот патент сосредоточен на входном слое (Query Understanding). Он не предоставляет прямой информации о ключевых алгоритмах ранжирования или стратегиях оптимизации контента для SEO.
Практика
Best practices (это мы делаем)
- Оптимизация под естественные фразы (Natural Language Optimization): Поскольку система использует Language Models и Search Query Logs для распознавания и взвешивания гипотез, критически важно, чтобы контент соответствовал тому, как люди реально ищут и говорят. Используйте естественные, разговорные формулировки и фразы, которые имеют высокую частотность в вашей нише.
- Оптимизация под полные вопросы и Long-Tail запросы: Голосовой поиск склонен к более длинным и вопросительным конструкциям. Оптимизация контента (особенно FAQ) под естественные вопросы повышает вероятность соответствия высоковероятной гипотезе распознавания.
- Мониторинг популярных запросов: Анализируйте популярные запросы в вашей тематике (используя подсказки, блоки PAA). Высокая популярность запроса увеличивает его вес при распознавании голоса (Априорная вероятность), так как он чаще встречается в Search Query Logs.
Worst practices (это делать не надо)
- Оптимизация под неестественные или редкие формулировки: Использование «роботизированных» ключевых слов, неестественного порядка слов или очень редких фраз снижает вероятность их правильного распознавания и присвоения высокого веса, так как они плохо соответствуют Language Models.
- Игнорирование омонимов и двусмысленности: Если ваш бренд или ключевой продукт имеет омонимы (звучит похоже на другое слово), необходимо предоставлять четкий контекст на странице. В противном случае система может предпочесть более популярную (согласно логам запросов) интерпретацию звукового сигнала.
- Создание контента под несуществующие запросы: Попытки продвижения по фразам, которые никто не ищет (отсутствуют в логах) и которые не имеют смысла (не возвращают результатов), неэффективны. Описанная система отфильтрует такие запросы на этапе итеративной валидации.
Стратегическое значение
Патент подтверждает, что Google рассматривает обработку голосовых запросов как вероятностный процесс. Стратегически это означает, что для успеха в голосовом поиске контент должен соответствовать наиболее вероятным (популярным и естественным) интентам пользователей. Хотя конкретные методы из этого старого патента (например, булевы запросы) могут быть устаревшими, фундаментальный принцип использования исторических данных и итеративного уточнения остается актуальным.
Практические примеры
Сценарий: Разрешение двусмысленности в голосовом запросе (Write/Right)
- Голосовой запрос (Аудио): Пользователь произносит нечто, что звучит как /write optimization/.
- Гипотезы системы:
- H1: «write optimization» (оптимизация записи)
- H2: «right optimization» (правильная оптимизация)
- Начальное взвешивание (Априорная вероятность): Система проверяет Search Query Logs. Она обнаруживает, что H2 ищут значительно чаще, чем H1. H2 получает более высокий начальный вес.
- Первый поиск и уточнение (Доказательства): Система выполняет поиск по обеим гипотезам.
- Результаты по H1 малочисленны (например, относятся к базам данных).
- Результаты по H2 многочисленны (например, относятся к SEO).
- Модификация весов: Вес H2 значительно увеличивается, вес H1 уменьшается или отбрасывается.
- Результат для SEO: Если ваш контент посвящен «правильной оптимизации», использование этой популярной и естественной фразы увеличивает шансы, что Google правильно интерпретирует голосовой запрос (присвоит высокий вес H2) и покажет ваш сайт.
Вопросы и ответы
Как этот патент влияет на подбор ключевых слов для SEO?
Он подчеркивает важность использования естественных и популярных формулировок. Система использует Search Query Logs для определения вероятности того, что пользователь имел в виду именно эту фразу. Если вы оптимизируете контент под фразы, которые никто не ищет или которые звучат неестественно, система распознавания голоса с меньшей вероятностью присвоит им высокий вес при обработке голосового ввода.
Что такое итеративное уточнение, описанное в патенте?
Это процесс, при котором система не полагается только на первоначальное распознавание голоса. Она выполняет первый поиск, используя наиболее вероятные интерпретации (гипотезы), а затем анализирует полученные результаты. Если какая-то гипотеза дала много релевантных результатов, ее вес увеличивается. Если результатов нет, гипотеза может быть отброшена. Затем система выполняет второй, уточненный поиск.
Насколько актуальны методы из этого патента, учитывая его возраст (приоритет 2001 года)?
Конкретные методы, такие как использование Weighted Boolean Query и статистических акустических моделей, вероятно, устарели и заменены нейросетевыми подходами. Однако фундаментальные принципы — использование исторических данных (логов запросов) для оценки вероятности и итеративное уточнение на основе доказательств из индекса — остаются основой обработки голосового поиска.
Как система определяет начальные веса для гипотез распознавания?
Согласно Claim 1, начальные веса определяются на основе Search Query Log. Это означает, что система проверяет, как часто та или иная фраза искалась пользователями в прошлом (априорная вероятность). Более частые запросы получают более высокий начальный вес, так как они считаются более вероятной интерпретацией аудиосигнала.
Влияют ли эти веса гипотез на финальное ранжирование?
Да. В патенте (Claim 4) указано, что ранжирование финального (второго) набора результатов модифицируется на основе весов, присвоенных каждой гипотезе. Документы, соответствующие гипотезам с более высоким весом, получат преимущество в ранжировании по сравнению с документами, соответствующими менее вероятным интерпретациям.
Что происходит, если одна из гипотез не дает результатов поиска?
Патент описывает механизм (Claim 3), согласно которому, если количество результатов для конкретной гипотезы не удовлетворяет пороговому значению (например, равно нулю), эта гипотеза удаляется из рассмотрения перед выполнением второго, уточненного поиска. Это помогает отфильтровать неверные интерпретации аудио.
Как SEO-специалисту бороться с ситуацией, когда голосовой запрос по бренду распознается неверно?
Это сложная задача, если бренд звучит похоже на более популярный запрос. Необходимо работать над повышением частотности брендовых запросов, чтобы они чаще появлялись в Search Query Logs и имели больший вес в Language Model. Также важно создавать сильный контекст на сайте, чтобы при первичном поиске система нашла доказательства в пользу вашего бренда.
Что такое Language Model и как она используется?
Language Model — это статистическая модель, которая предсказывает вероятность появления определенной последовательности слов. Она строится на основе анализа больших объемов текста (например, логов запросов). В контексте патента она помогает системе распознавания речи выбрать наиболее естественно звучащую и вероятную последовательность слов из акустически похожих вариантов.
Описывает ли этот патент алгоритмы ранжирования контента?
Нет. Этот патент фокусируется исключительно на этапе Query Understanding — как преобразовать неоднозначный аудиосигнал в точный текстовый запрос. Он описывает инфраструктуру обработки ввода, а не то, как Google оценивает качество или релевантность контента на веб-страницах.
Какое главное знание для SEO можно извлечь из этого патента?
Главное знание — это критическая важность оптимизации под естественный язык (Natural Language Optimization). Чтобы быть успешным в голосовом поиске, ваш контент должен соответствовать реальным, популярным и естественно звучащим фразам, которые пользователи используют в поиске, поскольку именно эти данные определяют, как Google интерпретирует голосовой ввод.