Яндекс патентует метод повышения точности распознавания речи (ASR), например, для Алисы. Система не просто выбирает наиболее вероятную текстовую интерпретацию. Она дополнительно учитывает персональные интересы пользователя (из истории поиска и браузера), демографические данные, а также акустические характеристики голоса и окружающей среды, чтобы точнее понять смысл команды.
Описание
Какую задачу решает
Патент решает задачу повышения точности автоматического распознавания речи (ASR). Традиционные системы ASR сталкиваются с трудностями из-за акустического шума окружающей среды, изменений тона голоса пользователя, а также индивидуальных особенностей говорящего (тембр, возраст, пол). Изобретение улучшает качество распознавания за счет интеграции в процесс принятия решения характеристик пользователя и акустических свойств фрагмента речи.
Что запатентовано
Запатентованы способ и система для формирования текстового представления устной речи. Суть изобретения заключается в многоступенчатом ранжировании гипотез ASR. Система использует (1) попарный классификатор для сравнения гипотез на основе их контекстуальной релевантности и (2) финальный алгоритм ранжирования, который объединяет результаты попарного сравнения с признаками фрагмента речи, включающими персонализированные данные о пользователе и акустические характеристики аудиосигнала.
Как это работает
Система получает аудиофрагмент и генерирует несколько текстовых гипотез. Параллельно запускаются два процесса. Во-первых, гипотезы сравниваются попарно с помощью классификатора, который оценивает их вероятность на основе контекстно-зависимых моделей (например, музыка, карты, кулинария). Во-вторых, система анализирует характерные для пользователя признаки (извлекаемые из его истории в сервисах Яндекса) и акустические признаки аудиозаписи. Затем алгоритм ранжирования (например, нейронная сеть) объединяет результаты попарного сравнения и извлеченные признаки, чтобы выбрать наиболее точную интерпретацию команды.
Актуальность для SEO
Высокая. Технологии распознавания речи и голосовые помощники (Алиса) являются стратегическим направлением Яндекса. Персонализация, использование кросс-сервисных данных и адаптация к пользователю и среде критически важны для качества работы современных систем ASR.
Важность для SEO
Влияние на традиционное SEO минимальное (3/10). Патент описывает внутренние процессы Яндекса по обработке голосовых команд (ASR/NLU), а не ранжирование веб-документов. Однако он имеет стратегическое значение для VSO (Voice Search Optimization). Точное распознавание запроса — это первый шаг к релевантной выдаче в голосовом поиске. Патент подтверждает, насколько глубоко Яндекс интегрирует данные о поведении пользователей из всей своей экосистемы для персонализации и понимания контекста.
Детальный разбор
Термины и определения
- ASR (Automatic Speech Recognition) / Приложение ASR
- Система автоматического распознавания речи. Основной компонент, реализующий запатентованный метод.
- Гипотеза (Hypothesis)
- Возможное текстовое представление фрагмента устной речи пользователя, сгенерированное системой ASR.
- Контекстно-зависимые модели (Context-dependent models)
- Модели, обученные на конкретных темах (например, музыка, карты, кулинария). Используются для оценки того, насколько гипотеза соответствует этому контексту.
- Алгоритм Ранжирования (Ranking Algorithm / MLA)
- Финальный алгоритм машинного обучения (например, нейронная сеть), который ранжирует гипотезы на основе парных оценок и признаков фрагмента речи.
- Попарный классификатор (Pairwise Classifier)
- Алгоритм (упоминается PKPD), который сравнивает две гипотезы на основе их профилей и определяет их относительную вероятность быть верным представлением речи.
- Парная оценка (Pairwise Score)
- Результат работы попарного классификатора. Указывает относительную вероятность того, что Гипотеза А лучше Гипотезы Б, и наоборот.
- Профиль гипотезы (Hypothesis Profile)
- Набор векторов, представляющих контекстно-зависимые характеристики гипотезы. Формируется путем анализа гипотезы с помощью контекстно-зависимых моделей.
- Признаки фрагмента речи (Speech Fragment Features)
- Набор характеристик, связанных с конкретным фрагментом речи. Включает две категории:
- Характерные для пользователя признаки (User-Specific Features): Возраст, пол, профиль интересов пользователя.
- Акустические признаки (Acoustic Features): Тембр, тон голоса, отношение сигнал-шум (SNR).
- Объединенный профиль пользователя (Unified User Profile)
- Профиль, агрегирующий данные о пользователе из различных сервисов Яндекса (Браузер, Маркет и т.д.) на основе уникальных идентификаторов.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на методе выбора наилучшей текстовой интерпретации из множества гипотез, сгенерированных системой распознавания речи, путем интеграции контекстного анализа, персонализации и акустических данных.
Claim 1 (Независимый пункт): Описывает основной механизм ранжирования гипотез ASR.
- Система принимает фрагмент устной речи.
- Генерируется несколько гипотез (например, H1 и H2).
- Формируются пары гипотез.
- Попарный классификатор определяет Парную оценку для пары, указывающую на относительную вероятность верности каждой гипотезы.
- Формируется набор Признаков фрагмента речи.
- Алгоритм ранжирования определяет финальный ранг гипотез, используя КАК Парную оценку, ТАК И Признаки фрагмента речи.
- Выбирается гипотеза с наибольшим рангом.
Claim 5 и 7 (Зависимые пункты): Уточняют, как работает попарный классификатор и формируются профили.
Для каждой гипотезы формируется Профиль гипотезы путем анализа с помощью контекстно-зависимых моделей (Claim 7). Каждая модель оценивает долю контекстно-зависимых слов в гипотезе. Попарный классификатор использует эти профили для формирования парной оценки (Claim 5).
Claims 8, 9 и 11 (Зависимые пункты): Уточняют состав Признаков фрагмента речи.
- Claim 8: Признаки включают характерные для пользователя данные (возраст, пол, профиль интересов).
- Claim 9: Эти данные формируются на основе истории просмотра и/или истории поиска пользователя.
- Claim 11: Признаки включают акустические характеристики (тембр, тон, отношение сигнал-шум).
Claim 14 (Независимый пункт): Описывает альтернативный вариант реализации.
Система ранжирует множество гипотез, используя весь набор оценок от попарного классификатора. Этот пункт защищает метод, даже если внешние пользовательские/акустические признаки не используются (как указано в), фокусируясь на агрегации результатов попарных сравнений.
Где и как применяется
Изобретение применяется на этапе преобразования голосового ввода в текст. В контексте поисковой архитектуры это инфраструктурный механизм (ASR), который обеспечивает ввод данных для слоя QUERY PROCESSING – Понимание Запросов.
Система ASR (Автоматическое Распознавание Речи)
Система может выполняться на сервере Яндекса (Сервер 120) или локально на устройстве пользователя (Электронное устройство 102), обслуживая приложения виртуальных помощников (например, Алиса).
Взаимодействие с компонентами:
- Приложение виртуального помощника (108): Принимает аудиосигнал, передает его в ASR вместе с идентификатором устройства (114) и историей недавних взаимодействий (318).
- База данных пользовательских профилей (128): Система ASR запрашивает Объединенный профиль пользователя для извлечения персонализированных признаков. Этот профиль агрегирует данные из разных сервисов Яндекса (Браузер, Маркет и т.д.).
- Контекстно-зависимые модели (410): Используются для оценки тематической принадлежности сгенерированных текстовых гипотез.
Входные данные: Фрагмент устной речи (аудио), Идентификатор устройства, История взаимодействий устройства.
Выходные данные: Единственное текстовое представление (наиболее вероятная гипотеза).
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные голосовые команды (омофоны), где выбор правильной интерпретации зависит от контекста или интересов пользователя. Например, различие между «Play Korn» (музыка) и «Play corn» (кукуруза).
- Сценарии использования: Влияет на точность работы голосовых помощников (Алиса), навигации, умных колонок (Яндекс.Станция).
- Условия среды: Повышает точность распознавания в шумной обстановке за счет анализа отношения сигнал-шум (SNR) и адаптации к изменениям тона голоса.
Когда применяется
Алгоритм применяется при обработке любого фрагмента устной речи, поступающего в систему ASR Яндекса.
- Триггеры активации: Получение голосовой команды пользователем.
- Условия работы: Механизм персонализации (использование признаков пользователя) активируется, если система может получить доступ к Объединенному профилю пользователя. Акустический анализ и попарное сравнение применяются всегда.
Пошаговый алгоритм
Процесс работы системы ASR для формирования текстового представления речи.
- Прием данных (702): Система получает аудиофрагмент речи, идентификатор устройства и недавнюю историю взаимодействий.
- Генерация гипотез (704) (Параллельный процесс А):
- Модуль преобразования речи в текст генерирует множество текстовых гипотез (H1, H2, H3).
- Формирование Профилей Гипотез: Каждая гипотеза анализируется контекстно-зависимыми моделями. Формируется Профиль гипотезы (набор векторов).
- Формирование признаков фрагмента речи (710) (Параллельный процесс Б):
- Извлечение акустических признаков: Анализ аудиосигнала для определения тембра, тона и SNR.
- Извлечение пользовательских признаков: Запрос к базе данных для получения Объединенного профиля пользователя (возраст, пол, интересы). Обновление профиля на основе недавней истории взаимодействий.
- Попарное объединение (706): Формируются все возможные пары гипотез (H1-H2, H1-H3, H2-H3).
- Попарная классификация (708): Попарный классификатор сравнивает профили гипотез в каждой паре и рассчитывает Парную оценку (относительную вероятность).
- Нормализация (Скрытый этап): Парные оценки нормализуются (например, чтобы сумма вероятностей P(H1>H2) и P(H2>H1) была равна 100%).
- Ранжирование (712): Финальный Алгоритм ранжирования (MLA, например, нейронная сеть) принимает на вход:
- Набор нормализованных парных оценок (из Процесса А).
- Набор Признаков фрагмента речи (из Процесса Б).
Алгоритм рассчитывает итоговую рейтинговую оценку для каждой гипотезы.
- Выбор и Выдача (714): Гипотеза с наибольшей рейтинговой оценкой выбирается как финальное текстовое представление.
Какие данные и как использует
Данные на входе
- Поведенческие и Пользовательские факторы (User-Specific Features):
- История просмотра (журналы браузера) и История поиска (журналы поиска). Используются для формирования долгосрочного Профиля интересов.
- История взаимодействий устройства (недавняя активность). Используется для обновления профиля интересов в реальном времени.
- Возраст и Пол пользователя (если известны из профиля).
- Контентные факторы (Текстовые): Тексты сгенерированных гипотез анализируются для определения их контекстуальной принадлежности с помощью моделей, обученных на контекстно-зависимых словах.
- Мультимедиа факторы (Акустические признаки): Аудиосигнал используется для извлечения тембра, тона и отношения сигнал-шум (SNR).
Какие метрики используются и как они считаются
- Контекстно-зависимая оценка: Вектор, представляющий долю контекстно-зависимых слов (например, связанных с музыкой) в гипотезе к общему количеству слов.
- Профиль гипотезы: Набор векторов, объединяющий контекстно-зависимые оценки от разных моделей.
- Оценка различия профилей и Совокупная оценка профилей: Разность и произведение (или частное) векторов профилей двух сравниваемых гипотез. Используются для обучения и работы Попарного классификатора.
- Парная оценка (Pairwise Score): Относительная вероятность того, что одна гипотеза лучше другой. Рассчитывается Попарным классификатором.
- Рейтинговая оценка: Финальная оценка вероятности гипотезы. Рассчитывается Алгоритмом ранжирования (MLA).
Алгоритмы машинного обучения:
- Попарный классификатор: Упоминается алгоритм PKPD (Прайса, Кнера, Персоназа и Дрейфуса).
- Алгоритм ранжирования (MLA): Упоминается нейронная сеть.
Выводы
- ASR Яндекса глубоко персонализирован: Ключевая особенность системы — использование персональных данных пользователя (интересы, история поиска, демография) для разрешения неоднозначностей при распознавании речи. Система адаптирует интерпретацию под контекст конкретного пользователя.
- Интеграция данных из экосистемы: Для персонализации Яндекс агрегирует данные из разных сервисов (Браузер, Маркет, Поиск) в Объединенный профиль пользователя. Активность в одном сервисе напрямую влияет на точность распознавания речи в другом.
- Многофакторное ранжирование гипотез: Финальное решение комбинирует три типа данных: контекстуальную релевантность гипотез (через попарное сравнение), персональные признаки пользователя и акустические характеристики записи.
- Контекст и тематики: Система использует предобученные контекстно-зависимые модели (музыка, карты и т.д.) для оценки тематики гипотез, что подчеркивает важность понимания тематической классификации информации в Яндексе.
- Технический фокус на ASR: Патент описывает инфраструктуру распознавания речи и не имеет прямого отношения к алгоритмам ранжирования веб-документов в основном поиске.
Практика
Best practices (это мы делаем)
Хотя патент не дает прямых рекомендаций для SEO веб-страниц, он предоставляет стратегические инсайты для VSO (Voice Search Optimization) и понимания экосистемы Яндекса.
- Учитывать персонализацию в стратегии: Понимать, что Яндекс стремится максимально персонализировать любое взаимодействие, включая голосовой поиск. Это подтверждает важность построения лояльной аудитории и генерации позитивных поведенческих сигналов в рамках всей экосистемы Яндекса (Браузер, Поиск, Маркет), так как это формирует Профиль интересов.
- Оптимизация под естественный язык (VSO): Создавать контент, который соответствует естественным речевым оборотам. Высокая точность ASR Яндекса делает VSO более актуальным каналом.
- Развитие тематической авторитетности и контекстной ясности: Система использует контекстно-зависимые модели для классификации запросов. Развитие сайта в рамках четко определенной тематики и использование ясной терминологии помогает системе правильно интерпретировать голосовые запросы, связанные с вашей нишей или брендом.
Worst practices (это делать не надо)
- Использование неоднозначных названий брендов/продуктов: Выбор названий, которые фонетически схожи с общими словами в других контекстах. Система будет использовать персонализацию для разрешения неоднозначности, но если у пользователя нет истории взаимодействия с вашим брендом, риск ошибки распознавания возрастает.
- Игнорирование голосового поиска: Пренебрежение оптимизацией под голосовые интерфейсы, учитывая инвестиции Яндекса в точность их работы.
Стратегическое значение
Стратегическое значение патента заключается в демонстрации того, насколько критична для Яндекса интеграция данных между сервисами и построение детального Объединенного профиля пользователя. Персонализация является фундаментом продуктов Яндекса, начиная с самого первого этапа взаимодействия — распознавания голоса. Для SEO это означает, что долгосрочная стратегия должна учитывать всю экосистему Яндекса, а не только веб-поиск.
Практические примеры
Практических примеров для применения в SEO нет, так как патент описывает внутренний механизм работы ASR. Приведем пример работы самого механизма, основанный на описании в патенте,.
Сценарий: Разрешение неоднозначности с помощью персонализации
- Пользователь: Активный меломан, часто ищет рок-группы в Яндексе.
- Голосовая команда: Пользователь произносит фразу, которая звучит неоднозначно.
- Генерация гипотез (ASR):
- H1: «Play Korn» (Играть группу Korn)
- H2: «Play corn» (Играть кукурузу)
- Процесс А (Попарное сравнение):
- Профиль H1: Высокая оценка от контекстной модели «Музыка».
- Профиль H2: Высокая оценка от модели «Кулинария» или низкая от всех.
- Парная оценка: Классификатор определяет относительные вероятности.
- Процесс Б (Анализ фрагмента речи):
- Пользовательские признаки: Из Объединенного профиля извлекается признак «Интерес к рок-музыке».
- Ранжирование (MLA): Алгоритм учитывает парные оценки (из Процесса А) И тот факт, что пользователь интересуется музыкой (из Процесса Б).
- Результат: H1 («Play Korn») получает значительно более высокий ранг благодаря совпадению контекста гипотезы и интересов пользователя, и выбирается системой.
Вопросы и ответы
Описывает ли этот патент алгоритмы ранжирования в основном поиске Яндекса?
Нет, этот патент не описывает, как Яндекс ранжирует веб-документы. Он посвящен исключительно технологии Автоматического Распознавания Речи (ASR) — процессу преобразования голоса в текст. Это инфраструктурная технология, обеспечивающая работу голосового поиска и виртуального помощника Алиса.
Какое значение этот патент имеет для SEO-специалистов?
Прямое влияние на тактики SEO минимально. Однако патент имеет стратегическое значение для VSO (Voice Search Optimization). Он демонстрирует, насколько глубоко Яндекс интегрирует данные о пользователе из всех своих сервисов для персонализации. Это подтверждает тренд на усиление роли поведенческих факторов и понимания контекста пользователя в экосистеме Яндекса.
Как Яндекс использует мою историю поиска для распознавания речи?
История поиска и просмотра используется для формирования вашего «Профиля интересов». Если голосовая команда неоднозначна (например, звучит одинаково, но имеет разный смысл), система использует этот профиль для выбора наиболее вероятной интерпретации. Если вы часто ищете музыку, система с большей вероятностью распознает название группы, а не похожее по звучанию слово из другой области.
Что такое «Признаки фрагмента речи» и из чего они состоят?
Это ключевой элемент патента. Они делятся на две группы. Первая — «Характерные для пользователя признаки» (возраст, пол, интересы). Вторая — «Акустические признаки» (тембр голоса, тон, уровень окружающего шума). Их использование позволяет системе адаптироваться к конкретному пользователю и текущей акустической обстановке.
Что такое «Попарный классификатор» в контексте этого патента?
Это алгоритм, который сравнивает две возможные текстовые гипотезы (например, H1 и H2). Он анализирует их «Профили гипотез», которые показывают, насколько текст соответствует разным контекстам (музыка, кулинария и т.д.). Классификатор выдает относительную вероятность того, какая из двух гипотез лучше (например, P(H1>H2)).
Как комбинируются результаты попарного сравнения и персональные признаки?
Они объединяются на финальном этапе с помощью Алгоритма Ранжирования (MLA), в патенте упоминается возможность использования нейронной сети. Этот алгоритм принимает на вход нормализованные парные оценки и все признаки фрагмента речи (персональные + акустические), чтобы рассчитать итоговый ранг для каждой гипотезы.
Что такое «Объединенный профиль пользователя»?
Это профиль, который Яндекс создает путем агрегации данных о действиях пользователя в различных сервисах (например, Яндекс.Браузер, Яндекс.Маркет, Поиск). Он связывает разные идентификаторы (ID устройства, email) и формирует полное представление об интересах и характеристиках пользователя для использования в персонализации.
Влияет ли этот патент на распознавание названий брендов?
Да, значительно. Если название бренда неоднозначно или похоже на обычное слово, система использует контекст и профиль пользователя для корректного распознавания. Если пользователь ранее интересовался вашим брендом или тематикой (и это отражено в его истории), вероятность правильного распознавания названия при голосовом вводе повышается.
Может ли система обновлять профиль интересов в реальном времени?
Да, патент предусматривает такую возможность. Система может принимать не только долгосрочный профиль из базы данных, но и недавнюю «Историю взаимодействий устройства» непосредственно перед голосовой командой. Это позволяет учитывать краткосрочный контекст сессии для более точного распознавания.
Какие методы машинного обучения упоминаются?
Для попарной классификации упоминается алгоритм PKPD (Прайса, Кнера, Персоназа и Дрейфуса). Для финального этапа ранжирования (Алгоритм Ранжирования MLA) предлагается использовать Нейронную Сеть, обученную интегрировать все доступные признаки.