Яндекс использует метод повышения точности распознавания речи (ASR), интегрируя глубокую персонализацию. Система анализирует не только акустику голоса, но и учитывает профиль интересов пользователя, историю поиска и браузера, возраст и пол. Это позволяет точнее интерпретировать неоднозначные голосовые команды, адаптируя транскрипцию под контекст конкретного пользователя еще до этапа поиска.
Описание
Какую задачу решает
Патент решает задачу повышения точности систем автоматического распознавания речи (ASR), которые критически важны для голосовых помощников (например, Алиса) и голосового поиска. Традиционные ASR-системы часто ошибаются в сложных акустических условиях или при интерпретации неоднозначных фраз (омофонов). Изобретение улучшает выбор правильной текстовой транскрипции за счет учета персонального контекста пользователя и акустических характеристик конкретной сессии.
Что запатентовано
Запатентована система выбора оптимальной текстовой гипотезы из нескольких вариантов, сгенерированных движком ASR. Суть изобретения заключается в гибридном подходе к ранжированию гипотез, который комбинирует (1) попарное сравнение гипотез (Pairwise Classification) на основе их контекста и (2) анализ Utterance Features (признаков произнесения). Эти признаки включают акустические данные и, что критически важно, User-Specific Features (персональные данные: интересы, история поиска, демография).
Как это работает
Когда пользователь произносит фразу, система генерирует несколько текстовых гипотез. Сначала они сравниваются попарно на основе их тематического контекста (музыка, карты и т.д.). Параллельно система анализирует Utterance Features: акустику (шум, тон голоса) и профиль пользователя (его недавние поиски, история в браузере, интересы, агрегированные из сервисов Яндекса). Финальный алгоритм ранжирования (например, нейронная сеть) объединяет результаты попарного сравнения и эти признаки, чтобы выбрать наиболее точную интерпретацию. Например, если пользователь часто слушает музыку, система предпочтет интерпретацию, связанную с музыкальным контекстом.
Актуальность для SEO
Высокая. Голосовые интерфейсы являются стратегическим направлением для Яндекса. Повышение точности распознавания речи, особенно через глубокую персонализацию и адаптацию к контексту пользователя, критически важно для качества работы виртуальных ассистентов (Алиса) и голосового поиска в 2025 году.
Важность для SEO
Влияние на SEO значительно для оптимизации под голосовой поиск (6/10). Патент не описывает алгоритмы ранжирования веб-страниц, но он критически важен для понимания того, как формируется текстовый запрос из голосовой команды. Ключевое значение для SEO заключается в том, что интерпретация голоса глубоко персонализирована. Одна и та же произнесенная фраза может превратиться в разные текстовые запросы у разных пользователей в зависимости от их истории и интересов. Понимание этого механизма необходимо для стратегии Voice Search Optimization (VSO).
Детальный разбор
Термины и определения
- Acoustic Features (Акустические признаки)
- Характеристики аудиосигнала произнесенной фразы. Включают тон (tone), высоту голоса (pitch) и соотношение сигнал/шум (noise-to-signal ratio).
- ASR (Automatic Speech Recognition) Application
- Приложение автоматического распознавания речи. Система, конвертирующая аудиосигнал (речь) в текст.
- Context-Specific Models (Контекстно-зависимые модели)
- Модели, обученные на словах, связанных с определенной темой (например, музыка, карты, кулинария). Используются для оценки релевантности гипотезы данной теме.
- Hypothesis (Гипотеза)
- Один из возможных вариантов текстовой интерпретации произнесенной пользователем фразы.
- Hypothesis Profile (Профиль гипотезы)
- Числовое представление (набор векторных значений) гипотезы, отражающее ее контекстно-зависимые характеристики. Строится на основе анализа гипотезы с помощью Context-Specific Models.
- Pair Score (Парная оценка)
- Результат работы Pairwise Classifier. Указывает относительную вероятность правильности каждой гипотезы в паре (например, P(A>B) и P(B>A)).
- Pairwise Classifier (Попарный классификатор)
- Алгоритм, который сравнивает две гипотезы (A и B) и определяет, какая из них с большей вероятностью является правильной. В патенте упоминается алгоритм PKPD.
- PKPD Algorithm (Алгоритм Прайса, Кнера, Персонназа и Дрейфуса)
- Специфический алгоритм, указанный в патенте для реализации Pairwise Classifier.
- Ranking Algorithm (Алгоритм ранжирования)
- Финальный алгоритм (например, MLA или нейронная сеть), который использует Pair Scores и Utterance Features для определения итогового рейтинга всех гипотез.
- User-Specific Features (Пользовательские признаки)
- Данные о пользователе: возраст, пол, профиль интересов (Interest Profile), история браузера (browsing log), история поиска (search log), история взаимодействий с устройством (device interaction history).
- Utterance Features (Признаки произнесения/фразы)
- Общий набор характеристик, связанных с сессией произнесения фразы. Включает User-Specific Features и Acoustic Features.
Ключевые утверждения (Анализ Claims)
Патент защищает метод выбора наилучшей текстовой интерпретации речи, который комбинирует попарное сравнение гипотез с анализом характеристик пользователя и акустики.
Claim 1 (Независимый пункт): Описывает основной процесс работы системы и требования к обучению классификатора.
- Получение произнесенной фразы.
- Генерация как минимум двух текстовых гипотез и формирование пар.
- Генерация Hypothesis Profile (вектора контекстных характеристик) для каждой гипотезы.
- Вычисление Pair Score с помощью Pairwise Classifier (конкретно алгоритм PKPD). Оценка базируется на сравнении профилей гипотез.
- Критически важно: Классификатор PKPD предварительно обучается на данных, включающих разницу профилей (difference-in-profile score) и агрегированную оценку профилей (aggregated profile score).
- Генерация набора Utterance Features.
- Ранжирование гипотез с помощью Ranking Algorithm, который учитывает как Pair Score, так И Utterance Features.
- Выбор гипотезы с наивысшим рангом.
Claims 6, 7, 9 (Зависимые пункты): Детализируют состав Utterance Features.
- Они включают User-Specific Features: возраст, пол и профиль интересов пользователя (Claim 6).
- Эти признаки генерируются на основе истории браузера и/или истории поиска (Claim 7).
- Они также включают Acoustic Features: тон, высоту голоса и соотношение сигнал/шум (Claim 9).
Claim 12 (Независимый пункт): Описывает альтернативный вариант реализации.
В этом варианте система ранжирует гипотезы на основе всей совокупности (entirety) набора Pair Scores, полученных от Pairwise Classifier (PKPD). В этом пункте Utterance Features (персонализация и акустика) явно не упоминаются как обязательный вход для финального ранжирования, что предполагает возможность работы системы без персонализации.
Где и как применяется
Изобретение применяется в инфраструктуре обработки голосовых команд, например, в виртуальных ассистентах (Яндекс Алиса) на мобильных устройствах или умных колонках (Яндекс Станция). Это уровень предобработки ввода.
QUERY PROCESSING – Понимание Запросов
Патент полностью относится к этому слою, конкретно к подсистеме автоматического распознавания речи (ASR). Он описывает механизм формирования текста из аудиосигнала, что является первым шагом в понимании запроса.
- Взаимодействие с компонентами:
- Система взаимодействует с базой данных пользовательских профилей (Database) для получения агрегированных данных о пользователе (история поиска, интересы из разных сервисов Яндекса, таких как Браузер или Маркет) на основе идентификатора устройства (User Device ID).
- Использует базовый движок ASR для генерации первичных гипотез.
- Использует специализированные Context-Specific Models для анализа семантики гипотез.
- Входные данные: Аудиосигнал (произнесенная фраза), User Device ID, история недавних взаимодействий с устройством (Device Interaction History).
- Выходные данные: Единственная, наиболее вероятная текстовая интерпретация фразы, которая затем поступает на следующие этапы поиска или выполнения команды.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные голосовые команды (омофоны или близкие по звучанию фразы), где требуется контекст для правильной интерпретации.
- Персонализация: Система напрямую влияет на то, как персонализация интегрируется в понимание запроса. Запрос становится персонализированным еще до этапа ранжирования выдачи.
- Условия использования: Повышает качество распознавания в шумной обстановке или при особенностях речи пользователя (за счет Acoustic Features).
Когда применяется
Алгоритм применяется при обработке любой голосовой фразы, поступающей в систему.
- Триггеры активации: Получение голосового ввода и генерация более одной текстовой гипотезы базовой ASR-системой.
- Условия работы: Для полноценной работы (согласно Claim 1) требуется доступ к профилю пользователя. Если профиль недоступен, система может опираться только на акустические признаки и контекстуальное сравнение гипотез или использовать альтернативный метод (согласно Claim 12), опираясь только на Pair Scores.
Пошаговый алгоритм
Процесс выбора оптимальной текстовой интерпретации голосовой команды.
- Получение данных: Система получает от устройства пользователя аудиозапись фразы, идентификатор устройства (User Device ID) и историю недавних взаимодействий (Device Interaction History).
- Генерация гипотез (ASR): Базовый движок распознавания речи генерирует набор возможных текстовых интерпретаций (Гипотезы A, B, C…).
- Создание профилей гипотез: Каждая гипотеза анализируется набором Context-Specific Models (например, модель музыки, модель карт). Для каждой гипотезы создается Hypothesis Profile — вектор, показывающий ее релевантность разным темам.
- Генерация признаков фразы (Utterance Features) (Параллельный процесс):
- Акустический анализ: Оценка тона, высоты голоса, уровня шума (Acoustic Features).
- Анализ пользователя: Запрос агрегированного профиля пользователя из базы данных по User Device ID (возраст, пол, долгосрочные интересы, история поиска/браузера). Обновление профиля данными из недавней истории взаимодействий. Формирование User-Specific Features.
- Формирование пар: Система создает все возможные пары из сгенерированных гипотез (A-B, A-C, B-C…).
- Попарная классификация: Pairwise Classifier (например, PKPD) оценивает каждую пару на основе сравнения их Hypothesis Profiles. Результатом является набор Pair Scores (например, P(A>B), P(B>A)).
- Нормализация: Pair Scores нормализуются (например, так, чтобы P(A>B) + P(B>A) = 100%).
- Финальное ранжирование: Ranking Algorithm (например, нейронная сеть) принимает на вход все нормализованные Pair Scores и все Utterance Features (акустические и пользовательские). Алгоритм вычисляет итоговый абсолютный рейтинг для каждой гипотезы.
- Выбор результата: Гипотеза с наивысшим рейтингом выбирается как финальное текстовое представление фразы.
Какие данные и как использует
Данные на входе
Система использует разнообразные данные для принятия решения о правильной интерпретации речи.
- Поведенческие факторы (История пользователя): Критически важные данные для персонализации. Используются агрегированные данные из логов различных сервисов Яндекса (упомянуты Браузер, Маркет): история поиска (search logs), история посещенных страниц (browsing logs). Формируют профиль интересов (Interest Profile).
- Пользовательские факторы (Демография и Активность):
- Возраст, пол (если известны).
- User Device ID (для идентификации профиля).
- История недавних взаимодействий с устройством (Device Interaction History) — для учета краткосрочного контекста.
- Мультимедиа факторы (Acoustic Features): Характеристики входящего аудиосигнала:
- Тон (Tone).
- Высота голоса (Pitch).
- Соотношение сигнал/шум (Noise-to-signal ratio).
- Контентные факторы (Текстовые): Тексты самих гипотез, которые анализируются для определения их тематического контекста.
Какие метрики используются и как они считаются
- Context-Specific Score: Векторное значение, генерируемое тематическими моделями. Может рассчитываться как пропорция (ratio/proportion) слов, специфичных для данного контекста, к общему числу слов в гипотезе.
- Hypothesis Profile: Агрегация (например, сумма) контекстных оценок от всех тематических моделей.
- Difference-in-Profile Score и Aggregated Profile Score: Метрики, используемые для обучения Pairwise Classifier. Рассчитываются как разница и произведение/частное (quotient/product) векторов профилей двух гипотез соответственно.
- Pair Score: Вероятностная оценка превосходства одной гипотезы над другой. Вычисляется Pairwise Classifier (PKPD).
- Normalized Score: Нормализованная парная оценка, где сумма вероятностей для пары равна 100%.
Алгоритмы машинного обучения:
- PKPD Algorithm: Явно указан для реализации Pairwise Classifier.
- Нейронная сеть (Neural Network) / MLA: Упоминается как возможная реализация финального Ranking Algorithm.
Выводы
- Глубокая персонализация голосового ввода: Ключевой вывод — Яндекс использует персональные данные (демографию, историю поиска, интересы, активность в браузере) для повышения точности распознавания речи. Персонализация происходит не только на этапе ранжирования выдачи, но и на самом первом этапе интерпретации голосовой команды.
- Контекст определяет интерпретацию: Система активно использует как долгосрочный контекст (профиль интересов), так и краткосрочный контекст (недавние взаимодействия с устройством) и акустический контекст (шум, тон голоса), чтобы разрешить неоднозначности в речи.
- Многофакторная модель выбора гипотезы: Выбор правильной транскрипции — это сложный процесс, включающий семантический анализ текста гипотезы (через Context-Specific Models), анализ акустики и анализ профиля пользователя.
- Двухэтапное ранжирование гипотез: Используется сложная схема: этап попарного сравнения (относительная оценка на основе контекста) и этап финального ранжирования (абсолютная оценка с учетом персонализации и акустики).
- Инфраструктура агрегации данных: Патент подтверждает наличие у Яндекса инфраструктуры для сбора и агрегации данных о пользователях из разных сервисов (Браузер, Маркет, Поиск) для сквозного использования в улучшении качества продуктов, включая ASR.
Практика
Best practices (это мы делаем)
Хотя патент описывает ASR, а не ранжирование, он дает важные инсайты для стратегии голосового поиска (VSO).
- Усиление тематической ассоциации и присутствия в экосистеме Яндекса: Система предпочитает транскрипции, соответствующие профилю интересов пользователя (Interest Profile), который строится на основе активности в сервисах Яндекса. SEO-стратегия должна быть направлена на построение сильной связи между вашим брендом/тематикой и интересами пользователей. Чем чаще пользователь ищет вас или вашу тематику, тем выше вероятность корректного распознавания связанных голосовых запросов.
- Оптимизация под четкие контексты: Создавайте контент, который четко соответствует определенным тематикам. Это поможет Context-Specific Models Яндекса правильно классифицировать связанные голосовые запросы. Используйте ясную и общепринятую терминологию вашей ниши.
- Работа над узнаваемостью и произношением бренда (VSO): Для брендов с неоднозначным или сложным названием критически важно работать над тем, чтобы пользователи четко ассоциировали название с конкретным написанием и тематикой. Развитие навыков для Алисы может помочь в этом.
- Анализ пути пользователя (User Journey): Учитывайте, что недавняя активность пользователя (поиск, просмотр сайтов) напрямую влияет на то, как будет интерпретирован его следующий голосовой запрос (учет краткосрочного контекста).
Worst practices (это делать не надо)
- Использование неестественных или сложных для произношения названий: Выбор названий для продуктов или брендов, которые сложно произнести или которые звучат похоже на популярные термины из другой области (омофоны), увеличивает риск неправильной интерпретации системой ASR, особенно если у пользователя нет истории взаимодействия с вашим брендом.
- Игнорирование фактора персонализации в голосовом поиске: Рассматривать голосовой поиск как идентичный текстовому — ошибка. Нельзя предполагать, что голосовой запрос всегда будет транскрибирован одинаково для всех пользователей.
Стратегическое значение
Патент подтверждает стратегическую важность экосистемы и агрегации пользовательских данных для Яндекса. Качество голосового интерфейса напрямую зависит от объема данных, которые Яндекс знает о пользователе. Для SEO это означает, что успех в голосовом поиске зависит не только от качества контента, но и от того, насколько сильно бренд или тематика представлены в истории взаимодействия пользователя с Яндексом. Персонализация влияет не только на то, ЧТО пользователь увидит в выдаче, но и на то, КАК Яндекс поймет его запрос с голоса.
Практические примеры
Сценарий 1: Разрешение неоднозначности на основе интересов пользователя
- Ситуация: Пользователь 1 (Интерес: Музыка) и Пользователь 2 (Интерес: Финансы) произносят одну и ту же фразу, которая звучит как.
- Генерация гипотез: ASR генерирует два варианта: H1=»Play Korn» (группа), H2=»Pay corn» (платить за кукурузу).
- Действие системы (Анализ пользователя): Система извлекает User-Specific Features (профили интересов) для обоих пользователей.
- Ранжирование:
- Для Пользователя 1 (Музыка): Ranking Algorithm значительно повышает ранг H1 из-за соответствия профилю интересов. Результат: «Play Korn».
- Для Пользователя 2 (Финансы): Ranking Algorithm может отдать предпочтение H2 или не получит сильного сигнала в пользу H1. Результат может быть «Pay corn».
- SEO-вывод: Если вы продвигаете музыкальный контент (или любой другой), ваша работа по привлечению и удержанию тематической аудитории косвенно улучшает распознаваемость связанных с вами запросов в голосовом поиске у этой аудитории.
Сценарий 2: Разрешение неоднозначности на основе истории поиска
- Ситуация: Пользователь говорит умной колонке фразу, которая звучит как «Найди». Гипотезы: A=»Найди Марс» (планета), B=»Найди Mars» (шоколад).
- Действие системы: Система анализирует User-Specific Features. Она видит, что пользователь интересуется астрономией (данные из Search History) и недавно читал новости о космосе (Browsing History).
- Ранжирование: Гипотеза A получает значительное повышение в ранге из-за соответствия профилю интересов.
- Результат: Система выбирает интерпретацию «Найди Марс» (планета).
Вопросы и ответы
Влияет ли этот патент на ранжирование сайтов в поиске Яндекса?
Напрямую нет. Патент описывает систему автоматического распознавания речи (ASR), то есть процесс преобразования аудио в текст. Он не затрагивает алгоритмы, которые определяют порядок сайтов в выдаче. Однако он критически влияет на то, КАКОЙ именно текстовый запрос будет в итоге отправлен в систему ранжирования после голосовой команды пользователя.
Что такое User-Specific Features и почему они так важны в этом патенте?
User-Specific Features — это персональные данные о пользователе. Патент явно указывает, что система использует возраст, пол, профиль интересов, историю поиска и историю браузера. Это важно, потому что Яндекс использует эти данные для разрешения неоднозначностей в речи. Если фраза может быть интерпретирована по-разному, система выберет тот вариант, который наиболее соответствует интересам и недавним действиям пользователя.
Означает ли это, что голосовой поиск полностью персонализирован?
Да, причем персонализация происходит на двух уровнях. Первый уровень описан в этом патенте: сама интерпретация голоса в текст персонализирована на основе истории пользователя. Второй уровень — это стандартная персонализация поисковой выдачи, которая применяется уже после того, как текстовый запрос сформирован. Это обеспечивает исключительно глубокую адаптацию результатов.
Как SEO-специалист может использовать информацию из этого патента?
Ключевое применение — это понимание важности формирования четких тематических ассоциаций у аудитории (Topical Authority). Если ваша аудитория часто ищет информацию в вашей нише, это формирует их профиль интересов в Яндексе. Впоследствии это повышает вероятность того, что неоднозначные голосовые запросы будут интерпретированы в контексте вашей тематики или бренда.
Что такое попарная классификация (Pairwise Classification) в контексте ASR?
Это метод оценки качества гипотез. Вместо того чтобы сразу определять абсолютную вероятность правильности каждой гипотезы, система сначала сравнивает их попарно (Какая лучше: A или B? A или C?). Это позволяет более точно оценить относительные преимущества гипотез на основе их контекста. Затем эти попарные оценки используются финальным алгоритмом для определения лучшего варианта.
Учитывает ли система акустику или только историю пользователя?
Система учитывает оба фактора. В патенте они объединены под термином Utterance Features, который включает как User-Specific Features (история, интересы), так и Acoustic Features (тон, высота голоса, уровень шума). Финальное решение принимается на основе комбинации этих признаков и результатов попарного сравнения гипотез.
Применяется ли этот механизм в Яндекс Алисе?
Хотя патент прямо не упоминает Алису, он описывает фундаментальную технологию генерации текстового представления произнесенной фразы, разработанную Яндексом. Учитывая, что Алиса является основным голосовым интерфейсом Яндекса и использует данные из его экосистемы, высоковероятно, что описанные механизмы персонализированного распознавания речи применяются именно в ней и других голосовых продуктах компании.
Может ли этот механизм навредить моему бренду?
Да, если название вашего бренда звучит похоже на популярный термин из другой области (омофон), а у пользователя нет истории взаимодействия с вашим брендом. Например, если ваш новый магазин называется так же, как известная музыкальная группа. У пользователя, интересующегося музыкой, голосовой запрос будет интерпретирован в пользу группы. Вам необходимо активно формировать ассоциацию вашего названия с нужным контекстом.
Откуда Яндекс берет данные об интересах пользователя для этой системы?
Патент указывает, что данные собираются из различных источников и агрегируются в единый профиль пользователя, привязанный к идентификатору устройства. Источниками являются логи поиска (Search log), логи браузера (Browsing log из Yandex.Browser), а также информация из других сервисов (например, Yandex.Market). Это подтверждает сквозное использование данных между разными сервисами Яндекса.
Будет ли система работать, если пользователь не авторизован или у него нет истории поиска?
Да, система будет работать, но без персонализации. Если User-specific features недоступны, алгоритм будет опираться только на Acoustic Features и результаты попарного сравнения гипотез. Кроме того, в патенте (Claim 12) описан альтернативный вариант работы, который полагается исключительно на попарное сравнение, без обязательного использования Utterance Features.