Как Яндекс использует систему арбитража между специализированными моделями для понимания голосовых команд в Ассистенте

Яндекс патентует механизм для повышения точности распознавания интента в голосовых ассистентах (например, Алиса). Система использует несколько специализированных моделей (Сценариев), обученных на разных данных (например, такси, музыка, умный дом). При получении команды все модели генерируют гипотезы. Затем главный алгоритм машинного обучения (Арбитр) оценивает эти гипотезы и выбирает наиболее вероятный сценарий или комбинацию сценариев для выполнения.

Описание

Какую задачу решает

Патент решает задачу повышения точности интерпретации голосовых команд (user spoken utterance) виртуальными ассистентами. Основная проблема — это неоднозначность естественного языка и сложность выбора правильного действия (интента), когда команда может относиться к разным доменам (например, музыка, навигация, умный дом) или содержать несколько интентов одновременно. Изобретение улучшает способность системы выбирать наиболее релевантный сценарий действия среди нескольких конкурирующих интерпретаций.

Что запатентовано

Запатентована система обработки голосовых команд, использующая многоуровневую архитектуру распознавания интента. Суть изобретения заключается в использовании нескольких Trained Scenario Models (Обученных Сценарных Моделей), каждая из которых специализирована на своем домене и обучена на собственном корпусе текстов. Для арбитража между этими моделями используется вышестоящий Machine Learning Algorithm (MLA), который оценивает гипотезы от всех сценарных моделей и определяет победителя (Winning Scenario) на основе оценки уверенности (Confidence Score).

Как это работает

Система получает голосовую команду и преобразует ее в текстовую гипотезу. Этот текст одновременно подается на вход нескольким специализированным сценарным моделям (например, модель для такси, модель для умного дома). Каждая модель генерирует свою гипотезу сценария (Scenario Hypothesis) — например, «заказать такси» или «включить свет». Затем эти гипотезы анализируются центральным MLA (Арбитром). Этот MLA обучен (с использованием размеченных данных от асессоров) оценивать, какая из гипотез наиболее вероятна в данном контексте. На основе наивысшей оценки уверенности система выбирает Winning Scenario и выполняет соответствующее действие.

Актуальность для SEO

Высокая. Патент описывает актуальную архитектуру современных голосовых ассистентов (включая Яндекс Алису), где необходимо управлять множеством нативных функций и сторонних навыков (skills). Механизм арбитража между различными доменами и обработка сложных (многоинтентных) команд являются ключевыми задачами в развитии NLU-систем.

Важность для SEO

Влияние на традиционное SEO (ранжирование веб-страниц в поиске) минимально (2/10). Патент описывает внутренние механизмы работы Голосового Ассистента (Voice Assistant Technology), а не алгоритмы ранжирования веб-поиска. Однако он имеет значение для специалистов, занимающихся Voice Search Optimization (VSO) и разработкой навыков для Алисы (например, через Yandex Dialogs). Патент раскрывает механизм, по которому Ассистент выбирает, какой навык или источник ответа использовать для реакции на команду пользователя.

Детальный разбор

Термины и определения

ASR (Automated Speech Recognition): Автоматическое распознавание речи. Приложение, которое преобразует голосовой сигнал в текст.
Confidence Score (Оценка уверенности): Метрика, генерируемая MLA, указывающая на вероятность того, что данная гипотеза сценария является правильной интерпретацией команды пользователя.
Corpus of Texts (Корпус текстов): Набор текстовых данных, используемый для обучения конкретной сценарной модели. В патенте подчеркивается, что разные модели обучаются на разных корпусах.
Machine Learning Algorithm (MLA) (Алгоритм машинного обучения): В контексте патента — это алгоритм-арбитр (например, классификатор, использующий деревья решений), который анализирует гипотезы от сценарных моделей и определяет победителя. Он обучается на размеченных данных.
Scenario Hypothesis (Гипотеза сценария): Интерпретация команды пользователя, сгенерированная одной из сценарных моделей. Может быть одного из типов: ответ (answer-based), выполнение действия (commit), отложенный ответ (postponed) или нулевой (null).
Text Representation Hypothesis (Гипотеза текстового представления): Результат работы ASR/NLP алгоритма; текстовая версия того, что сказал пользователь.
Trained Scenario Model (Обученная Сценарная Модель): Модель, обученная распознавать интенты в рамках определенного домена (например, музыка, такси, погода) и заполнять соответствующие поля (слоты).
User Spoken Utterance (Голосовое высказывание пользователя): Голосовая команда, полученная от пользователя.
Winning Scenario (Победивший сценарий): Гипотеза сценария, которая получила наивысшую оценку уверенности от MLA.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе выбора правильного действия путем арбитража между несколькими специализированными моделями интерпретации.

Claim 1 (Независимый пункт): Описывает полный жизненный цикл системы, включающий фазу обучения MLA и фазу применения.

Фаза Обучения (Training Phase):

Генерация обучающего набора данных. Каждый объект включает: (i) обучающее голосовое высказывание; (ii) гипотезы сценариев, сгенерированные первой и второй сценарными моделями (обученными на разных корпусах текстов); (iii) метку (label), указывающую правильное действие для этого высказывания.
Подача этих объектов в MLA для обучения. Цель обучения — научить MLA предсказывать уровень уверенности (confidence level) для гипотез в реальных условиях.

Фаза Применения (In-use Phase):

Получение голосового высказывания пользователя.
Генерация текстового представления.
Обработка текста первой и второй обученными сценарными моделями для генерации первой и второй гипотез сценария.
Выполнение обученного MLA для генерации оценок уверенности (confidence scores) для обеих гипотез.
Определение победившего сценария (Winning Scenario) — того, у которого оценка уверенности выше.
Определение действия на основе победившего сценария.
Выполнение этого действия электронным устройством.

Claim 17 (Зависимый от 1): Уточняет, что метка (label) для обучения MLA получается от человека-асессора (human assessor).

Ядро изобретения — это создание и обучение специализированного MLA-арбитра, который принимает решения на основе выходов различных доменных моделей, используя человеческую разметку как эталон.

Где и как применяется

Этот патент не описывает механизмы ранжирования веб-поиска Яндекса. Он описывает архитектуру системы Virtual Assistant (например, Яндекс Алиса), которая функционирует на устройствах пользователя (смартфоны, умные колонки Yandex.Station).

QUERY PROCESSING – Понимание Запросов
В контексте голосового ассистента весь процесс, описанный в патенте, относится к этапу понимания запроса и выбора действия (Intent Recognition and Execution).

ASR (Автоматическое распознавание речи): Преобразование голоса в Text Representation Hypothesis.
NLU (Понимание естественного языка): Входной текст анализируется параллельно несколькими специализированными Trained Scenario Models. Каждая модель извлекает сущности и намерения, релевантные для ее домена.
Оркестрация (MLA): MLA выступает в роли арбитра. Он получает на вход гипотезы от всех моделей и, возможно, контекстуальные данные (состояние устройства, запущенные приложения). На выходе он выдает ранжированный список гипотез с Confidence Scores.
Выполнение действия: Система выбирает Winning Scenario и инициирует действие (например, запускает приложение такси, управляет умным устройством или генерирует ответ).

BLENDER – Метапоиск и Смешивание
Хотя механизм напоминает работу Блендера в метапоиске (арбитраж между источниками), в данном контексте это скорее механизм выбора интента и выполнения задачи, а не смешивания результатов поиска из разных вертикалей.

На что влияет

Специфические запросы: Влияет на обработку голосовых команд, направленных на выполнение действий (Action Queries) или получение прямых ответов (Direct Answers) через ассистента.
Сложные запросы: Система разработана для обработки неоднозначных запросов (которые могут быть интерпретированы в разных доменах) и многоинтентных запросов (например, «Включи музыку и погаси свет»).
Навыки Ассистента (Skills): Влияет на то, как Ассистент выбирает между нативными функциями и сторонними навыками (например, разработанными через Yandex Dialogs), если они отвечают на схожие команды.

Когда применяется

Алгоритм применяется при обработке каждой голосовой команды, поступающей виртуальному ассистенту.

Триггеры активации: Получение голосового высказывания пользователем после активации ассистента (например, по ключевому слову).
Условия работы: Наличие нескольких сценарных моделей, способных обработать запрос, и необходимость выбора между их интерпретациями.

Пошаговый алгоритм

Процесс А: Обучение MLA (Офлайн)

Сбор данных: Получение обучающих голосовых высказываний.
Генерация гипотез: Обработка высказываний различными сценарными моделями для получения набора гипотез для каждого высказывания.
Сбор контекста: Получение контекстуальных признаков устройства, на котором было получено высказывание (например, запущенные приложения, состояние устройства).
Разметка (Labeling): Получение меток от асессоров, указывающих, какая гипотеза является правильным ответом на высказывание. Метки могут быть бинарными (да/нет) или числовыми (степень соответствия).
Обучение MLA: Обучение алгоритма-арбитра (например, классификатора на деревьях решений) на собранных данных (высказывание, контекст, гипотезы, метки).

Процесс Б: Обработка команды (Онлайн)

Получение команды: Электронное устройство получает голосовое высказывание пользователя.
Генерация текста: Высказывание преобразуется в гипотезу текстового представления с помощью ASR и NLP алгоритмов.
Генерация гипотез сценариев: Текстовое представление отправляется одновременно нескольким обученным сценарным моделям (например, модель такси, модель музыки). Каждая модель генерирует свою гипотезу (например, commit response, null response).
Арбитраж (MLA): Гипотезы сценариев анализируются обученным MLA. MLA присваивает каждой гипотезе оценку уверенности (Confidence Score), используя текст команды и контекстуальные признаки устройства.
Выбор победителя: Определение Winning Scenario. Это может быть сценарий с наивысшей оценкой, сценарии, превысившие порог уверенности, или Топ-N сценариев, если команда содержит несколько интентов.
Генерация инструкций: Победивший сценарий (или сценарии) отправляется обратно в соответствующую сценарную модель для генерации конкретных инструкций к выполнению (например, API вызов).
Выполнение действия: Электронное устройство выполняет полученные инструкции (например, запускает приложение, управляет умным домом, предоставляет ответ).

Какие данные и как использует

Данные на входе

Аудио данные: Голосовое высказывание пользователя (User Spoken Utterance).
Контентные факторы (Текстовые): Гипотеза текстового представления (Text Representation Hypothesis), сгенерированная из аудио.
Контекстуальные факторы (Contextual Features): Данные о состоянии устройства и окружении. В патенте упоминаются: тип запущенных приложений, текущее состояние устройства (например, уровень громкости), статус подключенных вторичных устройств.
Данные для обучения (Training Data):
- Обучающие высказывания (Training Utterance).
- Метки (Labels) от асессоров, указывающие правильность гипотез.
- Корпуса текстов (Corpus of Texts) для обучения сценарных моделей.

Какие метрики используются и как они считаются

Confidence Score (Оценка уверенности): Основная метрика, рассчитываемая MLA. Представляет собой вероятность (например, в процентах или от 0 до 1) того, что данная гипотеза является корректной интерпретацией команды.
Алгоритмы машинного обучения:
- Для MLA (Арбитра): В патенте упоминается классификатор, реализующий алгоритм типа дерева решений (decision-tree type algorithm).
- Для NLP: Упоминаются LSA, PLSA, Word2vec, GloVe, LDA как примеры алгоритмов для обработки текста.
Пороговые значения: Система может использовать предопределенный порог (predetermined threshold) для Confidence Score (например, 90%), чтобы выбрать победившие сценарии.

Выводы

Специализация моделей по доменам: Яндекс использует архитектуру, в которой за разные интенты (такси, музыка, умный дом и т.д.) отвечают отдельные Scenario Models, обученные на специализированных наборах данных.
MLA как мета-арбитр: Ключевым элементом системы является вышестоящий алгоритм машинного обучения (MLA), который выполняет роль арбитра. Он оценивает выходы всех специализированных моделей и принимает финальное решение о том, как интерпретировать команду.
Обучение на человеческих оценках: MLA-арбитр обучается с использованием данных, размеченных асессорами (human assessors). Человеческая оценка определяет, какая интерпретация команды является правильной в конкретном контексте.
Важность контекста: При обучении и применении MLA учитываются контекстуальные признаки (Contextual Features) устройства (например, активные приложения), что повышает точность интерпретации.
Обработка сложных команд: Архитектура позволяет обрабатывать многоинтентные команды (например, «Сделай X и Y»), выбирая несколько победивших сценариев, если их Confidence Score превышает порог.
Отсутствие связи с веб-поиском: Патент описывает исключительно технологии голосовых ассистентов и не содержит информации об алгоритмах ранжирования веб-документов в поиске Яндекса.

Практика

Best practices (это мы делаем)

Патент не дает прямых рекомендаций для SEO веб-сайтов. Однако он предоставляет важные инсайты для специалистов, занимающихся оптимизацией под голосовые ассистенты (VSO) и разработкой навыков для Алисы (Yandex Dialogs).

Разработка специализированных навыков (Skills): Создавайте навыки с четко определенным доменом и интентом. Это соответствует архитектуре Яндекса, использующей специализированные Scenario Models. Чем точнее навык соответствует своему домену, тем выше вероятность его корректной активации.
Обеспечение высокого качества ответов навыка: Качество работы навыка критически важно. Если пользователи часто недовольны ответами или прерывают работу навыка, это может повлиять на его оценку в будущем (хотя патент явно не описывает механизм обратной связи от пользователей к MLA, он полагается на асессорские оценки, которые могут учитывать общее качество).
Понимание конкуренции между навыками: Осознавайте, что ваш навык конкурирует с другими навыками и нативными функциями Ассистента. MLA-арбитр выберет тот вариант, который имеет наивысший Confidence Score. Необходимо максимизировать релевантность активационных фраз.

Worst practices (это делать не надо)

Создание слишком общих навыков (Skill Squatting): Попытка создать навык, который пытается отвечать на слишком широкий спектр команд или мимикрировать под популярные запросы вне своего домена, вероятно, будет неэффективной. Специализированные модели и арбитраж MLA направлены на выбор наиболее релевантного сценария.
Игнорирование контекста: Разработка навыков без учета контекста, в котором они могут быть вызваны. MLA учитывает контекст устройства, поэтому важно тестировать навыки в различных сценариях использования.

Стратегическое значение

Патент подтверждает стратегическую важность развития экосистемы голосовых ассистентов для Яндекса. Он демонстрирует сложность используемых NLU-технологий и подход к масштабированию функциональности через комбинацию специализированных моделей и централизованного арбитража. Для бизнеса это подчеркивает необходимость интеграции с голосовыми платформами (такими как Алиса) как одним из каналов взаимодействия с пользователями. Понимание механизма выбора сценариев позволяет более эффективно проектировать эти интеграции.

Практические примеры

Сценарий: Разработка навыка заказа пиццы для Алисы

Задача: Создать навык, который активируется по команде «Алиса, закажи пиццу».
Конкуренция (на основе патента): Пользователь говорит «Закажи пиццу». Ассистент генерирует гипотезы:
- Гипотеза 1 (Нативная модель Еды): Запустить Яндекс Еду.
- Гипотеза 2 (Ваш навык): Запустить навык «Пицца Бренд X».
- Гипотеза 3 (Модель Поиска): Показать результаты поиска «заказать пиццу».
Арбитраж (MLA): MLA оценивает эти гипотезы. Если ваш навык хорошо проработан и ранее получал высокие оценки (при обучении/тестировании), MLA может присвоить ему высокий Confidence Score.
Действие SEO/Разработчика: Максимально четко проработать активационные фразы и сценарии диалога внутри навыка, чтобы повысить его шансы на победу в арбитраже по сравнению с более общими альтернативами. Тестировать вызов навыка при разных контекстах (например, когда играет музыка).

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования Яндекса?

Нет, этот патент не имеет прямого отношения к ранжированию веб-документов в поиске Яндекса. Он описывает исключительно внутреннюю архитектуру и методы обработки голосовых команд в виртуальных ассистентах Яндекса (например, в Алисе). Патент фокусируется на том, как система выбирает правильное действие (навык, скилл) в ответ на команду пользователя, а не на том, как она ищет и ранжирует документы в интернете.

Что такое «Сценарная модель» (Trained Scenario Model) в контексте этого патента?

Trained Scenario Model — это специализированная модель машинного обучения, которая «заточена» под конкретный домен или задачу (например, заказ такси, управление музыкой, умный дом). Каждая такая модель обучается на своем собственном наборе данных (корпусе текстов), релевантном для ее домена. Ее задача — получить на вход текст команды и предложить конкретное действие (гипотезу сценария), если команда относится к ее компетенции.

Какую роль выполняет MLA (Machine Learning Algorithm)?

MLA в этом патенте играет роль центрального оркестратора или арбитра. Когда несколько сценарных моделей предлагают разные действия в ответ на один и тот же запрос, MLA анализирует все предложенные гипотезы, оценивает их релевантность и контекст, и присваивает им оценки уверенности (Confidence Scores). Именно MLA принимает финальное решение о том, какой сценарий будет выполнен.

Как Яндекс решает, что делать, если команда неоднозначна?

Неоднозначность разрешается за счет механизма оркестрации. Например, если запрос может быть интерпретирован и как музыкальный трек, и как фильм, то и модель «Музыка», и модель «Видео» предложат свои гипотезы. MLA оценит обе гипотезы и выберет ту, у которой выше Confidence Score, возможно, используя дополнительный контекст о пользователе или устройстве для принятия решения.

Может ли система выполнить несколько действий одновременно?

Да, патент предусматривает такую возможность. Если пользователь дает составную команду (например, «Вызови такси и выключи свет»), и несколько сценарных моделей генерируют гипотезы с высокими оценками уверенности (выше установленного порога), система может выбрать несколько «победивших сценариев» и выполнить их одновременно или последовательно.

Какие данные используются для обучения MLA (оркестратора)?

MLA обучается на размеченных данных. Обучающий набор включает тренировочные запросы, гипотезы, сгенерированные сценарными моделями, контекстуальные признаки (например, тип устройства, активные приложения) и метки (Labels). Эти метки, указывающие правильную интерпретацию запроса, часто предоставляются людьми-асессорами.

Влияет ли этот патент на оптимизацию сайта под голосовой поиск (VSEO)?

Влияние минимально. Оптимизация под голосовой поиск обычно подразумевает создание контента, который может быть использован поисковой системой для формирования быстрого ответа на информационный запрос. Этот патент же описывает обработку командных запросов для выполнения действий. Он не дает инсайтов о том, как Яндекс выбирает источники для голосовых ответов из веба.

Что означает, что модели обучены на «различающихся корпусах текстов»?

Это означает, что каждая модель специализирована. Модель для такси обучалась на запросах, связанных с транспортом и адресами, а модель для умного дома — на командах управления устройствами (свет, температура и т.д.). Такая специализация позволяет достигать более высокого качества в каждом отдельном домене, а MLA затем объединяет их результаты.

Что такое «Commit response» и «Postponed response»?

Commit response — это гипотеза, предполагающая немедленное выполнение действия (например, включить свет или поставить таймер). Postponed response — это отложенный ответ, который генерируется, когда для обработки запроса необходимо запустить стороннее приложение или навык (например, диалоговый навык или игру), и обработка продолжается уже внутри этого приложения.

Какое практическое применение у этого патента для владельцев бизнеса?

Для владельцев бизнеса, не связанных с разработкой навыков для Алисы, практическое применение отсутствует. Для компаний, интегрирующих свои сервисы с Алисой (например, службы доставки, такси, умные устройства), патент раскрывает механизм, по которому Алиса выбирает, какой сервис активировать. Понимание этой архитектуры может помочь в разработке более эффективных интеграций и навыков.