Как Яндекс использует глубокую персонализацию (историю поиска, интересы) и акустику для повышения точности распознавания речи (ASR)

Яндекс патентует метод улучшения распознавания речи (ASR), критически важный для голосового поиска и ассистентов (например, Алисы). Система использует многоступенчатое ранжирование гипотез, учитывая не только лингвистический контекст, но и акустические характеристики речи, а также персональный профиль пользователя (историю поиска, браузинга, демографию). Это позволяет точнее интерпретировать неоднозначные голосовые запросы.

Описание

Какую задачу решает

Патент решает задачу повышения точности автоматического распознавания речи (ASR). Традиционные системы ASR могут ошибаться из-за фонового шума, вариативности произношения (тон, высота голоса) или индивидуальных характеристик говорящего (возраст, пол). Изобретение направлено на улучшение качества распознавания за счет интеграции дополнительных сигналов — акустических и персонализированных, — которые часто игнорируются стандартными моделями, фокусирующимися только на базовых лингвистических признаках.

Что запатентовано

Запатентована система выбора наилучшей текстовой транскрипции для голосового высказывания. Суть изобретения заключается в гибридном подходе к ранжированию гипотез ASR. Он комбинирует (1) парную классификацию текстовых гипотез, основанную на их контекстуальной релевантности, и (2) финальное ранжирование, которое учитывает результаты парного сравнения вместе с Признаками высказывания (Utterance Features), включающими акустические данные и персональный профиль пользователя.

Как это работает

Система получает голосовой ввод и генерирует несколько текстовых гипотез. Парный классификатор (Pairwise Classifier) сравнивает их попарно, оценивая контекстуальную релевантность (например, относится ли текст к музыке или картам). Одновременно система извлекает Признаки высказывания: акустические данные (тон, шум) и пользовательские данные (интересы, история поиска/браузера). Финальный Алгоритм ранжирования (Ranking Algorithm) (например, нейронная сеть) объединяет парные оценки и признаки высказывания, чтобы выбрать наиболее точную транскрипцию.

Актуальность для SEO

Высокая. Голосовой поиск и виртуальные ассистенты (например, Алиса) являются ключевыми компонентами экосистемы Яндекса. Точность ASR фундаментальна для их работы. Использование глубокой персонализации и контекста для распознавания речи полностью соответствует современным трендам развития ASR-технологий в 2025 году.

Важность для SEO

Влияние на SEO среднее (6/10). Это не патент о ранжировании сайтов, а об обработке входных данных (ASR). Однако он имеет критическое стратегическое значение для Voice Search Optimization (VSO). Патент раскрывает, что персонализация и исторический контекст пользователя напрямую влияют на то, как Яндекс интерпретирует голосовой запрос еще до начала ранжирования. Это подчеркивает важность построения сильного тематического авторитета и вовлечения пользователей для соответствия их профилям интересов.

Детальный разбор

Термины и определения

Acoustic Features (Акустические признаки): Характеристики аудиосигнала голосового высказывания. В патенте упоминаются тон (Tone), высота голоса (Pitch) и соотношение сигнал/шум (Noise-to-signal ratio).
ASR (Automated Speech Recognition) Application: Приложение автоматического распознавания речи. Система, конвертирующая речь в текст.
Context-Specific Models (Контекстно-зависимые модели): Модели, обученные на словах, специфичных для определенного контекста или темы (например, музыка, карты, кулинария). Используются для оценки контекстуальной релевантности гипотезы.
Hypothesis (Гипотеза): Один из возможных вариантов текстовой транскрипции голосового высказывания, сгенерированный ASR.
Hypothesis Profile (Профиль гипотезы): Вектор значений, представляющий контекстно-зависимые характеристики гипотезы. Формируется на основе оценок от Context-Specific Models.
Pair Score (Парная оценка): Оценка, генерируемая Pairwise Classifier для пары гипотез. Указывает на относительную вероятность того, что каждая из гипотез является правильной транскрипцией по сравнению с другой (например, P(A>B) и P(B>A)).
Pairwise Classifier (Парный классификатор): Алгоритм, который принимает на вход пару гипотез (и их профили) и определяет Pair Score. В патенте упоминается алгоритм PKPD.
PKPD (Price, Kner, Personnaz, and Dreyfus) algorithm: Алгоритм парной классификации, упомянутый в патенте как возможная реализация Pairwise Classifier.
Ranking Algorithm (Алгоритм ранжирования): Финальный алгоритм (например, нейронная сеть), который ранжирует все гипотезы на основе Pair Scores и Utterance Features для выбора наилучшей транскрипции.
User-Specific Features (Пользовательские признаки): Характеристики пользователя. Включают демографию (возраст, пол) и профиль интересов (Interest Profile), построенный на основе истории поиска (Search log), браузинга (Browsing log) и взаимодействий с устройством.
Utterance Features (Признаки высказывания): Общий термин для характеристик, связанных с голосовым высказыванием. Включает Acoustic Features и User-Specific Features.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе выбора наилучшей гипотезы транскрипции путем интеграции результатов парного сравнения с внешними признаками высказывания (акустикой и данными пользователя).

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Получение голосового высказывания пользователя.
Генерация как минимум двух текстовых гипотез.
Создание набора парных гипотез (например, Гипотеза 1 и Гипотеза 2).
Определение Pair Score для пары с помощью Pairwise Classifier. Оценка показывает вероятность корректности каждой гипотезы относительно другой.
Генерация набора Utterance Features (характеристик, связанных с высказыванием).
Ранжирование гипотез с помощью Ranking Algorithm. Ключевой момент: ранжирование основано как минимум на Pair Score И Utterance Features.
Выбор гипотезы с наивысшим рангом как финальной транскрипции.

Claim 5 (Зависимый от 1): Детализирует механизм генерации Pair Score.

Для каждой гипотезы генерируется Hypothesis Profile (вектор контекстно-зависимых характеристик). Pair Score генерируется на основе сравнения этих профилей. Система анализирует текст гипотез на предмет контекстуальной релевантности.

Claims 8 и 11 (Зависимые от 1): Определяют состав Utterance Features.

Claim 8: Включает User-Specific Features (возраст, пол, профиль интересов). Персонализация явно используется на этапе ASR.
Claim 11: Включает Acoustic Features (тон, высота голоса, соотношение сигнал/шум).

Claims 9 и 10 (Зависимые от 8): Указывают источники данных для User-Specific Features.

Они генерируются на основе истории браузера (browsing history), истории поиска (search history) или предыдущих взаимодействий пользователя с устройством. Яндекс использует активность пользователя в своей экосистеме для ASR.

Claim 14 (Независимый пункт): Описывает альтернативный вариант реализации (embodiment). Этот метод может работать без Utterance Features, фокусируясь исключительно на агрегации попарных сравнений.

Получение высказывания и генерация гипотез.
Создание полного набора парных гипотез (каждая с каждой).
Определение набора Pair Scores для всех пар.
Ранжирование всех гипотез с помощью Ranking Algorithm, который основывается на ВСЕЙ совокупности (entirety) набора Pair Scores.

Где и как применяется

Изобретение применяется в инфраструктуре обработки голосовых команд, например, в виртуальных ассистентах Яндекса (Алиса) или при голосовом вводе в Поиске.

QUERY PROCESSING – Понимание Запросов
Этот механизм является самым первым шагом в обработке голосового запроса. Система ASR конвертирует аудио в текст. Описанный алгоритм отвечает за точность этой конвертации. Выход этого алгоритма (текстовая транскрипция) затем поступает на дальнейшие этапы Query Understanding (семантический анализ, векторизация и т.д.).

Взаимодействие с компонентами:

Virtual Assistant Application (e.g., Alice): Получает аудиовход и идентификатор пользователя (User Device ID) от клиента. Возвращает распознанный текст.
ASR Application: Центральный компонент, реализующий логику патента.
Database (User Profiles): Система взаимодействует с базой данных агрегированных профилей пользователей (составленных из логов поиска, браузера и других сервисов Яндекса) для извлечения User-Specific Features.

Входные и выходные данные:

На входе: Аудиосигнал (голосовое высказывание), ID устройства пользователя, история недавних взаимодействий с устройством.
На выходе: Единственная, наиболее точная текстовая транскрипция высказывания.

На что влияет

Типы запросов: Влияет на все голосовые запросы, обрабатываемые системами Яндекса.
Неоднозначные запросы: Наибольшее влияние оказывается на запросы, где произношение схоже, но контекст отличается (омофоны и близкие по звучанию фразы). В патенте приводится пример «Play Korn» (группа) против «Pay corn».
Брендовые и продуктовые запросы: Влияет на точность распознавания названий брендов или специфической терминологии. Точность выше, если эти термины соответствуют известным интересам пользователя (профилю интересов).
Среда использования: Влияет на стабильность распознавания в шумных условиях благодаря учету акустических признаков (Noise-to-signal ratio).

Когда применяется

Триггеры активации: Каждый раз, когда пользователь обращается к виртуальному ассистенту Яндекса с голосовой командой или запросом.
Условия работы: Алгоритм особенно важен, когда базовый механизм ASR генерирует несколько правдоподобных гипотез, требующих разрешения неоднозначности (disambiguation) с помощью дополнительного контекста (персонализации и акустики).

Пошаговый алгоритм

Процесс выбора наилучшей текстовой интерпретации устной фразы.

Получение данных: Система получает аудиосигнал (высказывание), ID пользователя и историю недавних взаимодействий с устройства.
Генерация гипотез (ASR): Стандартный модуль ASR обрабатывает аудио и генерирует несколько вариантов текстовой транскрипции (гипотез A, B, C).
Создание профилей гипотез (Hypothesis Profile): Для каждой гипотезы создается профиль (вектор). Он формируется путем анализа текста гипотезы с помощью Context-Specific Models (например, модель для музыки, карт, кулинарии). Профиль отражает релевантность гипотезы разным контекстам.
Парное сравнение и Оценка:
- Гипотезы объединяются во все возможные пары (A-B, A-C, B-C).
- Pairwise Classifier (например, PKPD) сравнивает профили гипотез в каждой паре. Для этого он использует сами профили, а также производные признаки: разницу профилей (difference-in-profile score) и агрегированную оценку профилей (например, произведение или частное — aggregated profile score).
- Вычисляется Pair Score (вероятность того, что A лучше B, и наоборот).
- Парные оценки нормализуются (например, чтобы P(A>B) + P(B>A) = 100%).
Извлечение признаков высказывания (Utterance Features) (Параллельный процесс):
- Пользовательские признаки: Система запрашивает агрегированный профиль пользователя из базы данных (интересы, история поиска, демография) и может обновлять его текущей историей взаимодействий.
- Акустические признаки: Анализирует аудиосигнал (тон, высота голоса, соотношение сигнал/шум).
Финальное ранжирование: Ranking Algorithm (например, нейронная сеть) принимает на вход: (i) Нормализованные парные оценки И (ii) Признаки высказывания (пользовательские + акустические).
Выбор: Гипотеза с наивысшим рангом выбирается как финальная текстовая транскрипция и передается для дальнейшей обработки.

Какие данные и как использует

Данные на входе

Поведенческие факторы (как часть User-Specific Features): История поиска (Search logs), история браузера (Browsing logs), история взаимодействия с приложениями и сервисами Яндекса (Device interaction history). Эти данные используются для построения и обновления профиля интересов пользователя (Interest Profile).
Пользовательские факторы: Идентификатор устройства (User Device ID). Демографические данные (Возраст, Пол), если они известны из агрегированного профиля пользователя.
Контентные факторы (Текстовые): Текст сгенерированных гипотез транскрипции. Анализируется на предмет наличия контекстно-зависимых слов с помощью Context-Specific Models.
Акустические данные (Acoustic Features): Характеристики исходного аудиосигнала: Тон (Tone), Высота голоса (Pitch), Соотношение сигнал/шум (Noise-to-signal ratio).

Какие метрики используются и как они считаются

Hypothesis Profile: Вектор значений. Каждое значение — это контекстно-зависимая оценка (Context-specific score), рассчитанная как пропорция контекстно-зависимых слов в гипотезе.
Difference-in-profile score: Разница между векторами профилей двух гипотез в паре. Используется для обучения и работы Pairwise Classifier.
Aggregated profile score: Агрегированная метрика профилей двух гипотез (например, произведение или частное векторов). Также используется Pairwise Classifier.
Pair Score: Оценка, генерируемая Pairwise Classifier. Показывает относительную вероятность превосходства одной гипотезы над другой (например, P(A>B)=0.4, P(B>A)=0.1).
Normalized Score: Нормализованная парная оценка, где сумма вероятностей в паре равна предопределенному значению (например, 100%). P(A>B)=80%, P(B>A)=20%.
Алгоритмы машинного обучения: Используются Pairwise Classifier (упомянут PKPD algorithm) и финальный Ranking Algorithm (упомянута Neural Network).

Выводы

Персонализация начинается с распознавания речи: Яндекс интегрирует данные о пользователе (интересы, история поиска, демография) не только в ранжирование результатов, но и на самом раннем этапе — при интерпретации голосового ввода. То, как Яндекс «слышит» запрос, зависит от того, кто его задает.
Контекст критичен для ASR: Система активно использует специализированные Context-Specific Models (музыка, карты и т.д.). Вероятность правильного распознавания термина напрямую зависит от его релевантности определенному контексту и соответствия этого контекста интересам пользователя.
Гибридный подход к ранжированию гипотез: Финальный выбор транскрипции основан на сложной комбинации трех типов сигналов: контекстуальной вероятности текста (Pair Scores), акустических характеристик речи (Acoustic Features) и персональных данных пользователя (User-Specific Features).
Значимость экосистемных данных: Точность распознавания речи Яндекса зависит от объема данных, собранных о пользователе через другие сервисы (Браузер, Поиск, Маркет и т.д.), которые формируют агрегированный профиль интересов.

Практика

Best practices (это мы делаем)

Этот патент в основном инфраструктурный и описывает внутренние процессы ASR. Прямых рекомендаций для традиционного SEO (оптимизация сайта) он не дает, но он критически важен для понимания стратегии оптимизации под голосовой поиск (VSO).

Укрепление Topical Authority и четкое позиционирование: Поскольку система использует контекстные модели для распознавания слов, важно, чтобы ваш бренд и контент четко ассоциировались с определенными темами (контекстами). Это повышает вероятность того, что связанные с вашей тематикой термины и названия будут правильно распознаны в голосовых запросах.
Стимулирование вовлеченности и формирование профиля интересов: Система использует историю поиска и браузинга пользователя (User-Specific Features) для разрешения неоднозначностей. SEO-стратегия должна быть направлена на регулярное взаимодействие пользователя с вашим контентом и брендом. Чем активнее пользователь в вашей нише (и это отражено в его истории), тем точнее Яндекс будет интерпретировать его голосовые запросы по этой теме.
Анализ VSO и естественного языка: Убедитесь, что ключевые термины, названия брендов и продуктов интегрированы в контент в естественной форме, соответствующей тому, как пользователи формулируют голосовые запросы в релевантных контекстах.

Worst practices (это делать не надо)

Игнорирование голосового поиска (VSO): Рассматривать голосовой поиск как незначительный канал неверно, учитывая инвестиции Яндекса в сложные и персонализированные технологии ASR.
Фокус на универсальной релевантности без учета персонализации: Игнорирование того факта, что интерпретация запроса (особенно голосового) может кардинально меняться в зависимости от истории и интересов конкретного пользователя.
Создание контента с размытым интентом: Контент, который сложно отнести к определенному контексту, может проигрывать, так как система ASR стремится к четкой контекстуализации запроса с помощью Context-Specific Models.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на глубокую персонализацию на всех этапах взаимодействия с пользователем, начиная с момента ввода запроса. Для SEO это означает, что успех в голосовом поиске сильно зависит не только от релевантности контента, но и от узнаваемости бренда и его соответствия сформированному профилю интересов целевой аудитории. Использование экосистемных данных дает Яндексу преимущество в точности интерпретации интента.

Практические примеры

Сценарий 1: Дисамбигуация брендового запроса с помощью персонализации

Ситуация: Пользователь А часто ищет информацию о смартфонах Samsung. Пользователь Б часто ищет рецепты.
Голосовой ввод: Оба пользователя произносят фразу, которая звучит как «Самса».
Генерация гипотез: ASR генерирует две близкие по звучанию гипотезы: (A) «Самсунг», (B) «Самса» (блюдо).
Анализ Utterance Features (Пользователь А): Система проверяет User-Specific Features. Пользователь А интересуется электроникой.
Ранжирование (Пользователь А): Ranking Algorithm повышает ранг гипотезы (A) «Самсунг», так как она соответствует профилю интересов.
Ранжирование (Пользователь Б): Алгоритм повышает ранг гипотезы (B) «Самса», так как она соответствует профилю интересов (Кулинария).
Вывод для SEO: Для бренда (Самсунг) важно формировать устойчивый интерес у ЦА через контент-маркетинг и поиск, чтобы закрепиться в профилях интересов и обеспечить правильное распознавание бренда в голосе.

Сценарий 2: Использование контекстных моделей (Пример из патента)

Голосовой ввод: Пользователь говорит: «Play Korn».
Генерация гипотез: (A) «Play Korn» (группа), (B) «Pay corn» (платить за кукурузу).
Анализ профилей гипотез: Context-Specific Model «Музыка» дает высокий скор гипотезе A (слова «Play» и «Korn»). Модель «Кулинария» дает умеренный скор гипотезе B (слово «corn»).
Парное сравнение: Pairwise Classifier определяет, что P(A>B) выше, чем P(B>A), основываясь на силе контекстуальных связей.
Результат: Если нет сильных противоречащих сигналов от Utterance Features, система выбирает гипотезу A.

Вопросы и ответы

Является ли этот патент патентом о ранжировании сайтов?

Нет, это патент об автоматическом распознавании речи (ASR). Он описывает технологию, которую Яндекс использует для преобразования аудиосигнала (голоса пользователя) в текст. Этот процесс происходит до того, как поисковая система начнет ранжировать результаты по полученному текстовому запросу.

Какое значение этот патент имеет для SEO, если он не о ранжировании?

Он имеет критическое значение для Voice Search Optimization (VSO). Патент показывает, что интерпретация голосового запроса сильно зависит от персонализации и контекста. Если система неправильно распознает название вашего бренда или ключевой термин из-за того, что он не соответствует интересам пользователя или контексту, ваш сайт даже не попадет в ранжирование по этому запросу.

Что такое «Utterance Features» и почему они важны?

Utterance Features (Признаки высказывания) — это признаки, извлекаемые из самого акта высказывания. Они делятся на две группы: Акустические (тон, высота голоса, шум) и Пользовательские (интересы, история поиска, демография). Их важность в том, что Яндекс использует их наравне с лингвистической вероятностью текста для определения того, что именно сказал пользователь.

Как Яндекс определяет интересы пользователя для ASR?

Патент указывает, что система агрегирует данные из различных источников экосистемы Яндекса: истории браузера (browsing log), истории поиска (search log) и истории взаимодействий с приложениями. На основе этих данных строится профиль интересов (Interest Profile), который затем используется как User-Specific Feature при распознавании речи.

Что такое «Context-Specific Models»?

Это специализированные модели, обученные на лексике определенной тематики (например, музыка, карты, кулинария). Они анализируют текст гипотезы транскрипции и определяют, насколько он релевантен данному контексту. Например, модель «Музыка» распознает названия групп и соответствующие глаголы (например, «Play»).

Как работает парное сравнение (Pairwise Classification) в этом патенте?

Система берет все сгенерированные гипотезы (A, B, C) и сравнивает их попарно (A vs B, A vs C, B vs C). Для каждой пары она использует Context-Specific Models, чтобы определить, какая гипотеза контекстуально более вероятна. Результатом является Pair Score, например, вероятность того, что A лучше B.

Как я могу повлиять на то, чтобы Яндекс правильно распознавал мой бренд в голосовом поиске?

Ключевой механизм влияния — это формирование профиля интересов вашей целевой аудитории. Необходимо стимулировать пользователей искать ваш бренд и взаимодействовать с контентом в вашей тематике через сервисы Яндекса. Чем чаще ваш бренд появляется в истории пользователя, тем выше вероятность его правильного распознавания в голосовых запросах этого пользователя.

Может ли система распознать запрос по-разному для двух разных людей?

Да, абсолютно. Если два человека с разными профилями интересов произнесут одну и ту же акустически неоднозначную фразу, система может интерпретировать ее по-разному. Например, у фаната электроники фраза будет распознана как название бренда, а у кулинара — как название блюда, благодаря использованию User-specific features.

Что такое алгоритм PKPD?

PKPD (Price, Kner, Personnaz, and Dreyfus) — это алгоритм, используемый в патенте в качестве Pairwise Classifier. Его задача — обучиться на основе сравнения профилей гипотез (Hypothesis Profiles) предсказывать, какая из двух гипотез в паре является более точной транскрипцией.

Используется ли машинное обучение в этой системе?

Да, активно. Используются Context-Specific Models для анализа текста. Pairwise Classifier (PKPD) обучается предсказывать лучшие гипотезы. И финальный Ranking Algorithm (упоминается как нейронная сеть) также обучается комбинировать парные оценки и признаки высказывания для принятия окончательного решения.