Патент Google, описывающий механизм интеллектуального исправления ошибок голосового поиска. Система позволяет пользователю исправить неверно распознанный запрос, предоставив контекстную подсказку (например, «Я имел в виду футболиста»). Google использует анализ сущностей, чтобы выбрать правильную интерпретацию из первоначальных гипотез распознавания.
Описание
Какую задачу решает
Патент решает проблему неэффективности и неудобства исправления ошибок автоматического распознавания речи (ASR) во время голосового поиска. Он улучшает пользовательский опыт (UX), позволяя исправлять ошибки более интуитивным способом, часто без необходимости повторять весь запрос целиком или исправлять текст вручную. Система направлена на более точную интерпретацию намерения пользователя, когда исходный голосовой ввод был неоднозначным.
Что запатентовано
Запатентована система для интеллектуальной коррекции голосовых запросов. Она генерирует несколько потенциальных интерпретаций (multiple potential texts) исходной речи и связывает их с сущностями (Entities). При получении коррекции от пользователя (например, контекстной подсказки) система анализирует этот контекст и использует его для выбора правильной интерпретации из ранее сгенерированных вариантов, основываясь на совпадении сущностей.
Как это работает
Система работает следующим образом:
- Множественная интерпретация: При получении исходного голосового запроса (First Speech) система генерирует несколько вариантов текста и ассоциирует с ними сущности.
- Отображение: Наиболее вероятный вариант отображается пользователю.
- Коррекция контекстом: Пользователь предоставляет уточнение (Speech Correction Indication / Second Speech), например, «Я имел в виду актера», не повторяя исходное слово.
- Анализ сущностей: Система извлекает сущности из уточнения («актер»).
- Disambiguation: Система выбирает тот из ранее сгенерированных вариантов текста, чьи сущности совпадают с сущностями уточнения.
- Обновление запроса: Отображается исправленный запрос (Revised Search Query).
Актуальность для SEO
Высокая. Технологии голосового ввода, распознавания речи (ASR) и понимания естественного языка (NLU) являются ключевыми направлениями развития Google, особенно в контексте мобильного поиска и голосовых ассистентов. Удобство и точность обработки голосовых команд критичны для пользовательского опыта.
Важность для SEO
Минимальное влияние (1/10). Патент описывает внутренние процессы Google, связанные с технологиями распознавания речи и пользовательским интерфейсом (UX/UI). Он не содержит информации об алгоритмах ранжирования, индексирования или факторах оценки качества сайтов. Этот патент не требует изменений в стратегиях SEO-оптимизации контента.
Детальный разбор
Термины и определения
- Combined text (Комбинированный текст)
- Итоговый текст, полученный после замены ошибочной части исходного текста на исправленный вариант. Используется как Revised search query.
- Entities (Сущности)
- Именованные объекты (люди, места, организации, концепции), извлеченные из текста или речи. Используются для понимания контекста и disambiguation (устранения неоднозначности).
- First speech (Первая речь)
- Исходный голосовой ввод пользователя.
- First speech recognition engine (Первый движок распознавания речи)
- Система ASR, используемая для первичной обработки First speech и генерации Multiple potential texts.
- Multiple potential texts (Множественные потенциальные тексты)
- Набор альтернативных текстовых интерпретаций (гипотез), сгенерированных из First speech.
- Second speech (Вторая речь)
- Голосовой ввод пользователя, предоставляемый для коррекции ошибки. Может содержать контекстуальные подсказки.
- Second speech recognition engine (Второй движок распознавания речи)
- Система ASR, используемая для обработки исправления. В описании патента указано, что он может отличаться от первого (например, быть более точным/сложным).
- Speech correction indication (Индикация коррекции речи)
- Сигнал от пользователя, инициирующий процесс исправления. Включает Second speech и предоставляет контекст для выбора части текста и способа ее исправления.
Ключевые утверждения (Анализ Claims)
Анализ патента показывает, что хотя в общем описании (Description) упоминается простой механизм выборочного повторного произнесения (selective re-speak) и использование разных движков ASR, Формула изобретения (Claims) защищает гораздо более сложный механизм, основанный на контексте и сущностях.
Claim 1 (Независимый пункт): Определяет ядро изобретения как метод интеллектуальной коррекции на основе контекста.
- Система предоставляет первый текст, полученный из первой речи. Процесс генерации включал создание множественных потенциальных текстов и ассоциацию сущностей (Entities) с каждым из них. Запрос отображается до его выполнения.
- Система получает Speech correction indication (включая вторую речь). Ключевые условия для этой индикации: (i) инициирует коррекцию, (ii) предоставляет контекст для выбора части текста без явного указания этой части и без повторения первой речи, (iii) предоставляет контекст для выбора коррекции без явного произнесения этого исправления. (Например, пользователь говорит: «Я имел в виду футболиста»).
- Система обрабатывает индикацию, чтобы определить одновременно (i) часть текста для исправления и (ii) второй текст (коррекцию).
- Определение коррекции происходит путем ассоциации сущностей со второй речью и выбора того из исходных множественных потенциальных текстов, чьи сущности лучше всего совпадают (best matches) с сущностями второй речи.
- Система заменяет часть первого текста вторым текстом и предоставляет пересмотренный запрос.
Запатентован механизм disambiguation, где пользователь дает контекстуальную подсказку, и система использует эту подсказку для выбора правильной интерпретации из списка ранее сгенерированных вариантов.
Где и как применяется
Изобретение применяется на этапе взаимодействия с пользователем и предобработки ввода перед передачей запроса в основные системы поиска.
QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Система обрабатывает голосовой ввод, интерпретирует его и обрабатывает коррекции к этому вводу. Описанный механизм является сложной частью системы понимания запросов, которая отвечает за преобразование неоднозначной речи в точный текстовый запрос с использованием контекста и сущностей.
Входные данные:
- Аудиоданные первой речи (First speech).
- Аудиоданные второй речи (Second speech / Speech correction indication).
- Данные о сущностях (вероятно, из Knowledge Graph, который упоминается в Description).
Выходные данные:
- Финальный текстовый запрос (Combined Text / Revised search query), готовый для передачи в систему ранжирования.
На что влияет
- Специфические запросы: Влияет исключительно на обработку голосовых запросов (Voice Search). Особенно полезно для запросов, содержащих имена собственные, омонимы или термины, которые сложно распознать без контекста (например, «Maradona» vs «Madonna»).
- Патент не описывает влияния на конкретные типы контента, ниши или форматы, так как он касается механизма ввода и его интерпретации.
Когда применяется
- Триггеры активации: Алгоритм активируется, когда пользователь инициирует коррекцию распознанного голосового запроса, предоставляя Speech correction indication.
- Условия работы: Применяется, когда система смогла сгенерировать несколько жизнеспособных интерпретаций (Multiple potential texts) для исходной речи и может извлечь релевантные сущности как из этих интерпретаций, так и из корректирующей речи пользователя.
Пошаговый алгоритм
Процесс работы системы по интеллектуальному исправлению голосового запроса (согласно Claim 1):
- Получение ввода: Система получает первую речь (First speech) от пользователя.
- Генерация гипотез: Первый движок распознавания речи обрабатывает аудио и генерирует набор Multiple potential texts (например, Гипотеза А: «Madonna», Гипотеза Б: «Maradona»).
- Анализ сущностей гипотез: Система ассоциирует сущности (Entities) с каждой гипотезой (например, Гипотеза А: Певица; Гипотеза Б: Футболист).
- Выбор и отображение: Система выбирает наиболее вероятную гипотезу (First text) и отображает ее пользователю.
- Получение коррекции: Пользователь замечает ошибку и предоставляет вторую речь (Second speech) в качестве Speech correction indication (например, «Я имел в виду футболиста»).
- Анализ сущностей коррекции: Система анализирует вторую речь и извлекает из нее ключевые сущности (например, «Футболист»).
- Сопоставление и выбор (Disambiguation): Система сравнивает сущности второй речи с сущностями ранее сгенерированных гипотез. Выбирается гипотеза, чьи сущности совпадают (Гипотеза Б). Эта гипотеза становится Second text.
- Генерация финального запроса: Система формирует Combined text, заменяя ошибочную часть на Second text.
- Выполнение поиска: Combined text используется как Revised search query для поиска результатов.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Аудиоданные (First speech, Second speech). Это основной тип данных, который обрабатывается системой.
- Структурные данные (Косвенно): В описании патента упоминается, что данные о сущностях могут храниться как структурированные данные в Knowledge Graph. Эти данные используются для ассоциации и сопоставления сущностей.
Какие метрики используются и как они считаются
Патент фокусируется на механизме коррекции, а не на расчете стандартных метрик ранжирования.
- Confidence scores (Оценки уверенности): В Description упоминается, что система выбирает исходный First text из набора Multiple potential texts на основе оценок уверенности (выбирается текст с наивысшей оценкой).
- Entity Matching (Сопоставление сущностей): Это ключевой механизм, описанный в Claims. Система определяет успешность коррекции на основе совпадения сущностей, извлеченных из второй речи, с сущностями, ассоциированными с гипотезами распознавания первой речи. Алгоритм выбора основан на том, какая гипотеза «лучше всего совпадает» (best matches) по сущностям.
Выводы
- Фокус на интеллектуальной коррекции и UX: Патент описывает не просто повторное распознавание речи, а сложный механизм использования контекста для исправления ошибок. Google стремится сделать голосовой ввод более интуитивным и удобным для пользователя.
- Disambiguation через сущности: Ключевым элементом изобретения является использование сущностей (Entities) для устранения неоднозначности. Система полагается на способность пользователя предоставить контекст (например, категорию), чтобы выбрать правильную интерпретацию.
- Предварительная генерация гипотез: Система работает эффективно, потому что она заранее генерирует и анализирует несколько вариантов распознавания (Multiple potential texts) и сохраняет их для возможной коррекции.
- Использование разных движков ASR: В описании патента (хотя и не в Claims) вводится концепция использования разных движков для первоначального ввода (оптимизированного для скорости) и для исправления (оптимизированного для точности).
- Отсутствие прямых SEO-рекомендаций: Патент является чисто техническим и инфраструктурным, связанным с технологиями Speech Recognition и NLU. Он не дает практических выводов или рекомендаций для SEO-специалистов по оптимизации сайтов.
Практика
ВАЖНО: Патент описывает внутренние процессы Google, связанные с распознаванием речи и пользовательским интерфейсом, без прямых рекомендаций для SEO.
Best practices (это мы делаем)
Хотя прямое влияние на SEO минимально, патент дает важный контекст для понимания роли сущностей.
- Усиление ассоциации с сущностями (Entity Optimization): Патент демонстрирует, насколько глубоко анализ сущностей интегрирован в процесс понимания запросов, даже на этапе исправления ошибок ввода. Это подтверждает важность работы над четкой ассоциацией вашего контента, бренда и авторов с конкретными сущностями в Knowledge Graph (используя разметку Schema.org, качественный контент). Чем лучше Google понимает ваши сущности, тем выше вероятность корректной обработки связанных с ними запросов.
Worst practices (это делать не надо)
Патент не делает неэффективными или опасными какие-либо конкретные SEO-тактики, поскольку он не касается ранжирования или борьбы со спамом.
Стратегическое значение
Стратегическое значение патента заключается в подтверждении двух ключевых направлений развития Google:
- Улучшение голосового поиска (Voice Search): Google активно инвестирует в то, чтобы сделать голосовой ввод надежным способом взаимодействия. Улучшение механизма коррекции ошибок критично для принятия этой технологии пользователями.
- Роль сущностей (Entities) в понимании запросов: Патент демонстрирует, что способность системы связывать запросы с конкретными объектами реального мира используется даже на этапе исправления ошибок ввода для точного понимания интента пользователя. Это еще одно подтверждение важности Entity-Oriented SEO.
Практические примеры
Практических примеров применения для SEO нет. Ниже приведен пример работы механизма с точки зрения пользователя (UX), описанный в патенте.
Сценарий: Устранение неоднозначности имени собственного (Disambiguation)
- Первая речь (First speech): Пользователь говорит: «Покажи фото Марадоны».
- Генерация гипотез и сущностей: Система генерирует:
Гипотеза А: «Madonna» (Сущности: Певица, Музыкант).
Гипотеза Б: «Maradona» (Сущности: Футболист, Спортсмен). - Отображение (First text): Система ошибочно выбирает Гипотезу А и показывает: «Покажи фото Madonna».
- Вторая речь (Second speech): Пользователь говорит: «Я имел в виду футболиста».
- Анализ коррекции: Система извлекает сущность «Футболист».
- Сопоставление: Система видит, что сущность «Футболист» совпадает с Гипотезой Б.
- Результат (Combined text): Запрос исправляется на: «Покажи фото Maradona».
Вопросы и ответы
Влияет ли этот патент на ранжирование сайтов?
Нет, этот патент не влияет на алгоритмы ранжирования. Он описывает исключительно процесс обработки и коррекции голосового ввода пользователя до того, как финальный текстовый запрос будет отправлен в систему ранжирования. Он направлен на улучшение точности распознавания речи и пользовательского опыта.
Как работает исправление на основе контекста и сущностей (Entities), описанное в Claims?
Это ключевой механизм патента. Когда пользователь произносит исходную фразу, система генерирует несколько вариантов распознавания и связывает их с сущностями. Если пользователь затем говорит что-то вроде «Я имел в виду [категория]», система ищет эту категорию среди сущностей, связанных с вариантами. Тот вариант, который совпадает с категорией, выбирается как правильный.
В описании патента упоминается использование двух разных движков распознавания речи. Зачем это нужно?
В Description (но не в финальных Claims) упоминается, что первый движок может быть быстрым и менее ресурсоемким для первичного распознавания. Второй движок, используемый для коррекции, может быть более сложным и точным. Поскольку он обрабатывает только короткий фрагмент (коррекцию), он может обеспечить более высокую точность без значительного увеличения задержки или нагрузки.
Означает ли этот патент, что мне нужно как-то по-особому оптимизировать сайт под голосовой поиск?
Нет, этот патент не вводит новых требований к оптимизации сайтов. Он лишь улучшает способность Google точно транскрибировать то, что сказал пользователь. Общие рекомендации по голосовому поиску (оптимизация под естественный язык, ответы на вопросы) остаются актуальными, но этот патент их не меняет.
Что такое «Speech correction indication»?
Это сигнал от пользователя, который запускает процесс исправления. Согласно Claims, это не просто указание на ошибку, а предоставление голосового контекста (второй речи), который помогает системе понять, что именно было сказано неверно и как это исправить, даже без явного указания на конкретное слово.
Нужно ли пользователю обязательно выделять слово для его исправления?
Нет. Хотя описание патента включает примеры с выделением слова (Selective Re-speak), основной пункт формулы изобретения (Claim 1) описывает механизм, который определяет часть для исправления на основе контекста уточняющей фразы без явного выделения пользователем.
Используется ли Knowledge Graph в этом процессе?
Да, в описании патента (Description) прямо упоминается, что Knowledge Graph может использоваться как хранилище структурированных данных о сущностях. Это позволяет системе ассоциировать варианты распознавания речи с реальными объектами и их свойствами для последующего устранения неоднозначности.
Что такое «Selective Re-speak», упоминаемое в названии?
В общем описании патента (Description) этот термин относится к возможности пользователя исправить ошибку, повторно произнеся только часть фразы, а не весь запрос целиком. Это делает процесс коррекции быстрее и удобнее для пользователя. Однако финальная версия Claims фокусируется больше на контекстной коррекции.
Какова основная польза этого изобретения для Google?
Основная польза — повышение точности голосового ввода и значительное улучшение пользовательского опыта (UX). Если пользователи могут легко и интуитивно исправлять ошибки распознавания, они будут больше доверять голосовому поиску и чаще его использовать, что увеличивает вовлеченность в экосистему Google.
Какое значение этот патент имеет для SEO-стратегии?
Стратегически он указывает на рост значимости голосового поиска и критическую важность сущностей (Entities). SEO-специалистам необходимо учитывать это в долгосрочной стратегии, фокусируясь на естественном языке и оптимизации, ориентированной на сущности (Entity-Oriented SEO), чтобы обеспечить правильное понимание контента системами Google.