Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует личную историю поиска и контекст пользователя для повышения точности распознавания голосовых запросов

    DISAMBIGUATION OF A SPOKEN QUERY TERM (Устранение неоднозначности произнесенного поискового термина)
    • US10210267B1
    • Google LLC
    • 2019-02-19
    • 2010-07-28
    2010 Патенты Google Персонализация

    Google использует механизм для повышения точности распознавания голосовых запросов. Система анализирует личную историю поиска пользователя и текущий контекст (время, местоположение, тип устройства), чтобы выбрать наиболее вероятную интерпретацию произнесенной фразы. Это позволяет отдавать предпочтение терминам, которые пользователь искал ранее в похожих обстоятельствах, даже если акустически они звучат неоднозначно.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточности и неоднозначности при автоматическом распознавании речи (Automatic Speech Recognition, ASR) для поисковых запросов. Стандартные системы могут ошибаться из-за фонового шума, акцентов, вариативности произношения или наличия омофонов (слов, звучащих похоже). Изобретение направлено на повышение точности преобразования устной речи в текст за счет использования персональных данных пользователя.

    Что запатентовано

    Запатентована система устранения неоднозначности (disambiguation) голосовых запросов, которая использует личную историю поиска пользователя (Search History) и его текущий контекст. Если система ASR предлагает несколько вариантов транскрипции, предпочтение отдается тому варианту, термины из которого чаще встречались в прошлых запросах пользователя, особенно если эти запросы были сделаны в схожем контексте (время, место, устройство).

    Как это работает

    Система работает на этапе обработки голосового ввода:

    • Получение ввода и контекста: Пользователь произносит запрос; система фиксирует аудиосигнал и контекстные данные (время, местоположение, тип устройства).
    • Генерация кандидатов: Speech Recognition Engine генерирует несколько текстовых кандидатов (Candidate Transcriptions) и присваивает им начальные оценки уверенности (Confidence Value).
    • Анализ истории и контекста: Система обращается к Search History пользователя. История может фильтроваться для выбора прошлых запросов, контекст которых совпадает с текущим.
    • Расчет частотности: Для терминов (N-grams) из каждого кандидата вычисляется частота их появления в отфильтрованной истории поиска.
    • Переоценка (Re-scoring): Исходная оценка уверенности ASR комбинируется с весовыми коэффициентами, основанными на частотности. Генерируется комбинированная оценка (Combined Value).
    • Выбор: Транскрипция с наивысшей Combined Value выбирается как предполагаемый запрос пользователя.

    Актуальность для SEO

    Высокая. Голосовой поиск и персонализация являются ключевыми направлениями развития Google (Google Assistant, мобильный поиск). Повышение точности распознавания ввода на основе личной истории пользователя и контекста — это фундаментальный метод, активно применяемый в современных системах распознавания речи.

    Важность для SEO

    Патент имеет низкое прямое влияние на традиционные SEO-стратегии (контент, ссылки, техническая оптимизация), так как он не описывает алгоритмы ранжирования. Он относится к этапу QUNDERSTANDING (распознавание ввода). Однако он имеет важное стратегическое значение для Voice Search Optimization (VSO). Он подчеркивает важность построения бренда: если пользователь часто ищет ваш бренд, Google с большей вероятностью правильно распознает его в будущих голосовых запросах, даже если он произнесен нечетко.

    Детальный разбор

    Термины и определения

    Audio Signal (Аудиосигнал)
    Цифровое представление произнесенного пользователем запроса.
    Candidate Transcription (Кандидат транскрипции)
    Один из возможных текстовых вариантов интерпретации аудиосигнала, предложенный системой ASR.
    Combined Value (Комбинированная оценка)
    Итоговая оценка кандидата, рассчитанная путем объединения Confidence Value и Weighting Value. Используется для выбора наилучшей транскрипции.
    Confidence Value / Score (Оценка уверенности)
    Начальная оценка, присваиваемая ASR-системой, отражающая вероятность акустического соответствия аудиосигналу. Может также учитывать общую популярность термина.
    Context Data (Контекстные данные)
    Информация, описывающая обстоятельства ввода запроса: время, дата, местоположение, тип устройства, состояние устройства (например, в док-станции/автомобиле — docked/holstered), фоновый шум.
    Frequency (Частотность)
    Количество раз, когда определенный N-gram встречается в истории поиска пользователя (или ее отфильтрованной части).
    N-gram (N-грамма)
    Последовательность из n элементов (слов, терминов, букв и т.д.), извлеченная из Candidate Transcription.
    Search History (История поиска)
    Записи о прошлых поисковых запросах пользователя (как голосовых, так и текстовых), включая сами термины и связанный с ними контекст.
    Weighting Value (Весовой коэффициент)
    Множитель или корректировка, основанная на частотности (Frequency) термина в истории поиска. Используется для повышения оценки кандидатов, которые пользователь искал ранее.

    Ключевые утверждения (Анализ Claims)

    Анализ основан на формуле изобретения (Claims), приведенной в конце документа.

    Claim 1 (Независимый пункт): Описывает основной метод распознавания речи с использованием истории прошлых произнесенных запросов.

    1. Система получает аудиоданные произнесенного высказывания (spoken utterance).
    2. Генерируются несколько кандидатов транскрипции.
    3. Выбирается конкретный кандидат.
    4. Определяется, включает ли этот кандидат термин, который встречается более заданного числа раз в транскрипциях высказываний, ранее произнесенных пользователем (previously spoken by the user).
    5. Если ДА, этот кандидат предоставляется как результат распознавания речи (speech recognition output).

    Ядро изобретения — использование частотности терминов из прошлых голосовых взаимодействий для валидации и выбора текущей транскрипции.

    Claim 2 (Зависимый от 1): Добавляет использование контекста.

    1. При получении аудиоданных определяются контекстные данные (context data) устройства.
    2. Выбор конкретного кандидата основывается также на этих контекстных данных.

    Claims 3-9 (Зависимые): Детализируют типы контекста, который может использоваться: время/дату, тип устройства, тип аудиоподсистемы, статус подключения (plugged in), местоположение и окружающий шум.

    Claim 15 (Зависимый от 14): Описывает механизм взвешивания.

    1. Определяется частота (frequency), с которой термин появляется в ранее произнесенных высказываниях.
    2. На основе этой частоты производится взвешивание (weighting) оценки уверенности (confidence score).
    3. Итоговый выбор основывается на взвешенных оценках.

    Claim 16 (Зависимый от 1): Описывает возможность предпочтения персонализированного результата над акустическим.

    1. Система определяет оценки уверенности с помощью акустической модели.
    2. Система может пропустить (bypassing providing) кандидата с наивысшей акустической оценкой уверенности.
    3. Выбор конкретного кандидата (предпочтительного на основе истории) происходит после того, как лучший акустический вариант был пропущен.

    Это ключевой пункт, показывающий, что система может предпочесть термин из истории поиска, даже если он акустически подходит хуже.

    Где и как применяется

    Изобретение применяется исключительно на этапе обработки ввода пользователя, до начала основного процесса поиска и ранжирования.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Система используется в компоненте автоматического распознавания речи (ASR). Ее задача — преобразовать аудиосигнал в наиболее вероятный текстовый запрос, используя персонализацию и контекст.

    • Взаимодействие: Система ASR взаимодействует с базой данных истории поиска пользователя (User Search History) и использует данные от сенсоров устройства для определения контекста (Context Data).
    • Входные данные:
      • Аудиосигнал (Audio Signal) произнесенного запроса.
      • Контекстные данные (время, местоположение, тип устройства и т.д.).
      • Идентификатор пользователя (для доступа к истории).
    • Выходные данные: Единый текстовый запрос (intended query term), который передается далее в систему ранжирования.

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на голосовые запросы, содержащие омофоны, редкие термины, имена собственные или названия брендов, которые пользователь уже искал ранее. Система помогает корректно распознать их, опираясь на историю.
    • Ниши и Тематики: Не влияет на конкретные ниши напрямую, так как это механизм распознавания ввода. Однако он особенно важен для локального поиска, так как местоположение является ключевым элементом контекста.
    • Географические факторы: Механизм сильно зависит от контекста местоположения. История поиска может фильтроваться по географическому признаку для повышения точности локальных запросов.

    Когда применяется

    • Условия работы: Алгоритм применяется при обработке голосовых запросов (spoken query term).
    • Триггеры активации: Активируется, когда система ASR идентифицирует несколько правдоподобных вариантов транскрипции и нуждается в дополнительном сигнале для устранения неоднозначности.
    • Ограничения: Требует наличия доступа к истории поиска пользователя. Если пользователь отключил сохранение истории или использует режим инкогнито, механизм персонализации не применяется.

    Пошаговый алгоритм

    Этап 1: Сбор данных и первичное распознавание

    1. Получение ввода: Система получает аудиосигнал и сопутствующие текущие контекстные данные (время, местоположение, устройство).
    2. Генерация кандидатов: Speech Recognition Engine обрабатывает аудиосигнал и генерирует несколько Candidate Transcriptions.
    3. Начальная оценка: Каждому кандидату присваивается Confidence Value, основанная на акустическом совпадении и, возможно, общей популярности термина.

    Этап 2: Анализ истории поиска

    1. Получение истории: Система извлекает Search History пользователя.
    2. Фильтрация истории (Опционально): История фильтруется для отбора прошлых запросов, контекст которых схож с текущим (например, запросы, сделанные в автомобиле или в то же время суток).
    3. Генерация N-грамм: Из каждого кандидата транскрипции извлекаются N-grams (слова, фразы).
    4. Определение частотности: Для каждой N-граммы вычисляется частота (Frequency), с которой она встречается в (отфильтрованной) истории поиска.

    Этап 3: Переоценка и выбор

    1. Расчет весовых коэффициентов: На основе частотности рассчитываются весовые коэффициенты (Weighting Values). Чем выше частотность, тем выше коэффициент.
    2. Генерация комбинированных оценок: Для каждого кандидата рассчитывается Combined Value путем объединения Confidence Value и Weighting Values.
    3. Выбор итогового запроса: Выбирается кандидат с наивысшей Combined Value. Система может игнорировать лучший акустический результат в пользу исторически релевантного (согласно Claim 16).
    4. Выполнение поиска: Выбранный текстовый запрос отправляется в поисковую систему.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на использовании контекстных и исторических данных для улучшения ASR.

    • Поведенческие факторы:
      • Search History (история прошлых поисковых запросов) — как текстовых (в описании), так и голосовых (в Claims).
      • История выбора пользователем результатов поиска (сигнал удовлетворенности, упомянутый в описании).
    • Пользовательские факторы (Контекст устройства):
      • Тип устройства (мобильный, десктоп).
      • Состояние устройства — находится ли оно в док-станции или автомобильном держателе (docked or holstered).
      • Тип аудиоподсистемы.
    • Временные факторы:
      • Время и дата ввода запроса (используется для фильтрации по контексту: время суток, день недели, будни/выходные).
    • Географические факторы:
      • Местоположение пользователя в момент запроса и в прошлом.
    • Технические факторы (Аудио):
      • Аудиосигнал (audio signal) текущего запроса, данные об окружающем шуме.

    Какие метрики используются и как они считаются

    • Speech Recognition Confidence Value: Оценка акустического и языкового соответствия, генерируемая ASR-движком.
    • Context Similarity (Схожесть контекста): Метрика, используемая для фильтрации истории. Определяет, насколько контекст прошлого запроса совпадает с текущим.
    • Frequency (Частотность N-грамм): Подсчет количества вхождений термина в (отфильтрованную) историю поиска.
    • Weighting Value (Весовой коэффициент): Значение, производное от Frequency. В патенте упоминаются как линейные (например, (frequency count+2)/2 + 1 в описании, Equation 1), так и нелинейные способы расчета. Может быть выражено в виде множителя (например, 1.5x, 200%).
    • Combined Value (Комбинированная оценка): Итоговая метрика для ранжирования кандидатов. Рассчитывается путем комбинации Confidence Value и Weighting Value. Могут использоваться методы машинного обучения (наивный Байес, логистическая регрессия) или простые формулы (например, SUM OF SCORE X FREQUENCIES).

    Выводы

    1. Персонализация начинается с распознавания: Google персонализирует интерпретацию голосового ввода задолго до этапа ранжирования. Одна и та же произнесенная фраза может быть интерпретирована по-разному для разных пользователей в зависимости от их личной истории.
    2. Приоритет истории над акустикой: Система может предпочесть вариант транскрипции, который акустически подходит хуже, если персональная история поиска сильно указывает на этот вариант (Claim 16).
    3. Контекст определяет релевантную историю: Система не просто смотрит на всю историю поиска, но активно фильтрует ее, используя текущий контекст (время, местоположение, устройство). То, что пользователь искал на десктопе, может не использоваться для уточнения запроса, сделанного в машине.
    4. Повторение формирует распознавание: Чем чаще пользователь ищет определенный термин (бренд, продукт), тем выше вероятность, что система распознает его корректно в будущих голосовых запросах, даже если произношение неоднозначно.
    5. Усиление через обратную связь: Успешные прошлые поиски (те, где пользователь кликнул на результат, как указано в описании) усиливают вероятность правильного распознавания этих же терминов в будущем.

    Практика

    Best practices (это мы делаем)

    Поскольку патент не описывает механизмы ранжирования, прямых тактических действий для SEO немного. Однако он дает важное стратегическое понимание для Voice Search Optimization (VSO).

    • Стимулирование повторных брендовых запросов: Ключевая стратегия — формирование узнаваемости бренда и стимулирование пользователей регулярно искать ваш бренд или продукты. Это буквально обучает персонализированную модель ASR пользователя правильно распознавать ваши термины при голосовом поиске, снижая риск ошибок.
    • Использование четкой и последовательной терминологии: Используйте консистентные названия брендов и продуктов. Это помогает пользователям находить вас повторно и закрепляет термины в их истории, что облегчает будущее голосовое распознавание.
    • Укрепление локальных сигналов (Local SEO): Поскольку местоположение является важным контекстным сигналом для фильтрации истории, сильные локальные SEO-сигналы критичны. Если пользователь часто ищет вашу компанию в определенном районе, система с большей вероятностью правильно распознает голосовой запрос о вас, сделанный в этом же районе.
    • Оптимизация под контекст и сценарии использования: Понимайте, в каком контексте пользователи ищут вашу информацию голосом (например, в пути, дома). Оптимизируйте контент под эти сценарии. Это повышает вероятность успешного взаимодействия, которое затем усиливает точность распознавания.

    Worst practices (это делать не надо)

    • Использование сложных или неоднозначных названий (Омофонов): Создание брендов или продуктов с названиями, которые трудно произнести или которые похожи на другие популярные термины. Это увеличивает вероятность ошибки распознавания, которую даже механизм персонализации не всегда сможет исправить.
    • Предположение об универсальности интерпретации запросов: Ошибочно полагать, что Google интерпретирует одну и ту же произнесенную фразу одинаково для всех пользователей. Игнорирование фактора персонализации при анализе ключевых слов для голосового поиска приведет к неточным данным.
    • Игнорирование мобильного и локального контекста: Недооценка важности контекста. Патент показывает, что контекст используется для фильтрации релевантной истории, что критично для мобильного и локального поиска.

    Стратегическое значение

    Патент подтверждает стратегический курс Google на глубокую персонализацию и контекстуальный поиск. Для Senior SEO-специалистов это означает, что интерпретация запроса может отличаться у разных пользователей, даже если они произносят одно и то же. Стратегически, работа над построением долгосрочных отношений с пользователем и стимулирование повторного взаимодействия с брендом через поиск становятся факторами, влияющими даже на корректность распознавания запросов о вас.

    Практические примеры

    Сценарий: Распознавание неоднозначного названия местного бизнеса в контексте

    1. Ситуация: Пользователь находится в автомобиле (устройство в холстере — holstered) и хочет найти дорогу в местное кафе с названием «Лис и Лес» (которое может звучать похоже на «Лиссабон»).
    2. Голосовой запрос: Пользователь говорит: «Маршрут до Лис и Лес».
    3. Обработка ASR: Система генерирует кандидатов: А) «Маршрут до Лиссабон» (высокая акустическая вероятность), Б) «Маршрут до Лис и Лес» (средняя акустическая вероятность).
    4. Анализ истории и контекста: Система фильтрует историю поиска, ища запросы, сделанные ранее в автомобиле (контекст совпадает).
    5. Результат (С историей): Если пользователь на прошлой неделе искал «Лис и Лес кафе часы работы» в схожем контексте, система обнаружит высокую частоту N-граммы «Лис и Лес» в релевантной истории.
    6. Переоценка: Кандидат Б получает значительное повышение (Weighting Value). Его Combined Value превышает оценку кандидата А.
    7. Итог: Система корректно распознает запрос как «Маршрут до Лис и Лес» и запускает поиск, игнорируя акустически более вероятный вариант «Лиссабон».

    Вопросы и ответы

    Влияет ли этот патент напрямую на алгоритмы ранжирования?

    Нет, напрямую не влияет. Патент описывает исключительно процесс улучшения точности распознавания голосового ввода (ASR). Он помогает системе лучше понять, какой текст имел в виду пользователь, до того как этот текст будет передан в систему ранжирования. Однако точное понимание запроса является необходимым условием для предоставления релевантных результатов.

    Как система использует контекст пользователя?

    Контекст (время, местоположение, тип устройства, состояние «в автомобиле») используется для фильтрации истории поиска пользователя. Система ищет совпадения не во всей истории, а в той ее части, которая была сформирована в аналогичных обстоятельствах. Например, если вы сейчас в машине, система будет в первую очередь проверять, что вы искали в машине ранее.

    Что это значит для брендов с труднопроизносимыми или неоднозначными названиями?

    Это подчеркивает важность закрепления бренда в истории поиска пользователя. Если пользователь однажды успешно нашел ваш бренд, система с большей вероятностью правильно распознает его название в будущем при голосовом вводе, даже если оно сложное. Стимулирование повторных брендовых запросов становится важной задачей маркетинга.

    Используется ли история текстовых (клавиатурных) запросов для уточнения голосовых запросов?

    Да, описание патента предполагает использование общей истории поиска, включая текстовые запросы. Однако, финальная формула изобретения (Claims 1) в этом документе делает акцент на использовании истории ранее произнесенных (previously spoken) высказываний. Вероятно, система использует оба источника, но голосовая история может иметь приоритет.

    Может ли система выбрать вариант, который акустически звучит хуже?

    Да. В патенте (Claim 16) явно описан механизм, позволяющий системе проигнорировать кандидата с наилучшим акустическим соответствием и выбрать другой вариант, если он лучше подтверждается персональной историей поиска пользователя. Персонализация здесь приоритетнее базовой акустики.

    Как Google определяет, что прошлый поиск был успешным?

    Патент упоминает в описании использование сигналов удовлетворенности. На практике это означает отслеживание того, выбирал ли пользователь какие-либо результаты поиска после отправки запроса (Result Selected?). Успешные прошлые запросы получают больший вес при анализе текущего ввода.

    Применяется ли этот механизм, если у пользователя отключена история поиска?

    Нет. Весь механизм основан на анализе User Search History. Если история недоступна (пользователь не авторизован или отключил сохранение), система будет полагаться только на стандартные акустические модели и модели общей популярности терминов, без персонализации.

    Что такое категоризация истории поиска, упомянутая в патенте (FIG. 6)?

    В одном из вариантов реализации описан альтернативный подход. Вместо поиска точных совпадений терминов система определяет категории кандидатов (например, «Бизнес», «Место», «Имя») и проверяет, насколько часто эти категории встречаются в истории поиска пользователя. Это позволяет учитывать семантическое сходство, а не только текстовое.

    Как SEO-специалист может использовать эти знания на практике?

    Основное применение — в стратегическом планировании VSO. Необходимо фокусироваться на построении сильного бренда и стимулировании повторного взаимодействия. Рекламные кампании (даже офлайн), направленные на повышение частоты брендовых запросов, косвенно улучшают точность распознавания вашего бренда в голосовом поиске Google для этих пользователей.

    Имеет ли это значение для локального SEO?

    Да, особенно в сочетании с контекстом местоположения и состояния «в автомобиле» (docked/holstered). Пользователи часто используют голосовой поиск для навигации. Если пользователь регулярно ищет ваш бизнес в определенном контексте, система научится точно распознавать этот запрос именно в этом контексте.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.