Как Яндекс определяет интент пользователя в диалоговом поиске, учитывая контекст предыдущих запросов

Яндекс патентует метод для улучшения понимания запросов в диалоговых системах (например, Алиса). Система определяет текущий интент, комбинируя вероятность связи запроса с интентом и вероятность перехода от предыдущего интента к текущему. Это позволяет точно интерпретировать неоднозначные или контекстно-зависимые последующие запросы в рамках одной сессии.

Описание

Какую задачу решает

Патент решает проблему определения намерения пользователя (user intent) в рамках систем интеллектуальных персональных ассистентов (Intelligent Personal Assistant (IPA) systems), таких как голосовые помощники или чат-боты. Основная сложность заключается в обработке неоднозначных или последующих (follow-up) запросов, интент которых зависит от контекста предыдущего диалога. Например, запрос «А в Лондоне?» не имеет смысла в изоляции, но приобретает его, если предыдущий запрос касался погоды. Система улучшает точность интерпретации таких контекстно-зависимых запросов.

Что запатентовано

Запатентован метод определения текущего интента (Current Intent) запроса путем учета предыдущего интента (Preceding Intent). Суть изобретения заключается в комбинировании двух ключевых параметров: вероятности ассоциации текущего запроса с определенным интентом (Intent-Association Parameter) и вероятности перехода от предыдущего интента к этому определенному интенту (Intent-Transition Parameter). Итоговая оценка рассчитывается как произведение этих двух параметров.

Как это работает

Система работает в рамках диалоговой сессии. При получении текущего запроса система учитывает интент предыдущего запроса. Для каждого потенциального интента рассчитываются два параметра. Первый MLA (Machine Learning Algorithm) оценивает, насколько сам текст текущего запроса соответствует интенту (Параметр Ассоциации). Второй MLA (или эвристика) оценивает вероятность того, что пользователь переключится с предыдущего интента на этот потенциальный интент (Параметр Перехода). Эти параметры перемножаются для получения скорректированной оценки (Adjusted Intent-Association Parameter). Интент с наивысшей оценкой выбирается как текущий. Затем Третий MLA извлекает сущности из запроса для генерации ответа.

Актуальность для SEO

Высокая. Понимание контекста и ведение диалога являются критически важными направлениями развития поисковых интерфейсов, особенно с учетом роста популярности голосовых помощников (например, Алиса) и чат-ботов. Описанный механизм учета последовательности интентов актуален для всех современных диалоговых систем.

Важность для SEO

Влияние на традиционное SEO умеренное (4/10). Патент напрямую не описывает алгоритмы ранжирования веб-документов. Он фокусируется на работе диалоговых систем (IPA). Однако он имеет значение для оптимизации под голосовой поиск (VSO) и блоки с готовыми ответами (Wizards/Колдунщики), которые часто являются результатом работы таких систем. Патент подчеркивает важность понимания не изолированных запросов, а последовательности действий пользователя (User Journey) и смены его намерений в ходе поиска.

Детальный разбор

Термины и определения

Adjusted Intent-Association Parameter (Скорректированный параметр ассоциации с интентом)

Итоговая оценка вероятности для потенциального интента. Рассчитывается как произведение Intent-Association Parameter и Intent-Transition Parameter.

Digital-Form (Цифровая форма)

Структура данных или алгоритм, связанный с конкретным интентом, используемый для генерации ответа. Содержит поля (Form-Fields), которые необходимо заполнить значениями (Form-Values). Например, форма для интента «Погода» имеет поля «Локация» и «Время».

Intelligent Personal Assistant (IPA) (Интеллектуальный персональный ассистент)

Диалоговая система, чат-бот или голосовой помощник (например, Алиса), обрабатывающий запросы на естественном языке.

Intent-Association Parameter (Параметр ассоциации с интентом)

Вероятность того, что текущий запрос связан с определенным потенциальным интентом, рассчитанная на основе анализа самого запроса (в изоляции от контекста).

Intent-Transition Parameter (Параметр перехода между интентами)

Вероятность того, что пользователь сменит предыдущий интент (Preceding Intent) на определенный потенциальный интент. Отражает логику развития диалога.

MLA (Machine Learning Algorithm) (Алгоритм машинного обучения)

В патенте используются три типа MLA:

First MLA: Определяет Intent-Association Parameter.
Second MLA: Определяет Intent-Transition Parameter (может быть заменен эвристиками).
Third MLA: Отвечает за заполнение слотов (Slot Filling) — извлечение Form-Values из запроса для заполнения Digital-Form.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является механизм корректировки вероятности интента с учетом контекста предыдущего диалога.

Claim 1 (Независимый пункт): Описывает основной метод определения текущего интента.

Система получает текущий запрос и знает предыдущий интент.
Для каждого потенциального интента определяется Intent-Association Parameter.
Для каждого потенциального интента определяется Intent-Transition Parameter.
Для каждого потенциального интента рассчитывается Adjusted Intent-Association Parameter путем ПЕРЕМНОЖЕНИЯ Параметра Ассоциации и Параметра Перехода.
Один из потенциальных интентов выбирается как текущий интент на основе скорректированных параметров (обычно тот, у которого параметр максимален).
Выполняется поиск ответа на основе выбранного текущего интента.

Claim 2 (Зависимый от 1): Уточняет, как определяется Параметр Ассоциации.

Он определяется с помощью First MLA. Этот алгоритм обучается на основе прошлых запросов и связанных с ними интентов (размеченных асессорами), чтобы предсказывать вероятность связи нового запроса с интентом.

Claim 3 и 4 (Зависимые от 2): Уточняют, как определяется Параметр Перехода. Есть два варианта:

(Claim 3) С помощью эвристической процедуры (heuristic-based routine) на основе заранее определенных правил.
(Claim 4) С помощью Second MLA. Этот алгоритм обучается на основе пар последовательных прошлых запросов и соответствующих им пар последовательных интентов. Цель — предсказать вероятность смены интента от первого ко второму.

Claim 10 (Зависимый от 8): Описывает механизм заполнения слотов (Slot Filling).

После определения текущего интента система должна заполнить поля (Form-Fields) связанной с ним формы (Digital-Form). Это выполняется с помощью Third MLA. Этот алгоритм обучен извлекать значения (Form-Values) из текущего запроса.

Где и как применяется

Изобретение применяется в инфраструктуре обработки диалоговых запросов (IPA systems), например, в Яндекс Алисе, а не в основном конвейере ранжирования веб-поиска.

QUERY PROCESSING – Понимание Запросов
На этом этапе система анализирует входящий запрос в контексте текущей диалоговой сессии. Ключевой задачей является определение интента. Вместо того чтобы анализировать запрос в изоляции, система применяет описанный механизм: извлекает предыдущий интент и использует First MLA и Second MLA для расчета скорректированной вероятности текущего интента.

BLENDER – Метапоиск и Смешивание (Система Wizards/Колдунщики)
Механизмы определения интента и заполнения форм (Third MLA) тесно связаны с работой системы Колдунщиков. После точного определения интента и заполнения слотов система генерирует специфичный для интента ответ (intent-specific response), который может быть показан пользователю напрямую в интерфейсе помощника или как Колдунщик на SERP.

Входные данные: Текущий запрос (Current Query), Предыдущий интент (Preceding Intent).

Выходные данные: Определенный текущий интент (Current Intent), извлеченные значения для заполнения слотов (Form-Values).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, короткие запросы и последующие (follow-up) запросы в рамках одной сессии. Например, запрос «Цена?» будет интерпретирован по-разному в зависимости от того, обсуждались ли ранее авиабилеты или бронирование отеля.
Типы контента: Влияет на генерацию прямых ответов, выполнение задач (навигация, погода) и информационный поиск в рамках диалоговых интерфейсов.

Когда применяется

Алгоритм активируется в рамках активной диалоговой сессии, когда система идентифицирует наличие предыдущего контекста.

Триггер активации: Получение запроса при наличии известного Preceding Intent.
Пороговые значения: В патенте упоминается (Claim 6), что если все скорректированные параметры ассоциации ниже определенного порога значимости (association-significance threshold), система может сгенерировать запасной ответ (fallback response).

Пошаговый алгоритм

Процесс определения интента и генерации ответа:

Получение данных: Система получает текущий запрос от пользователя и извлекает из истории сессии предыдущий интент.
Расчет Ассоциации (First MLA): Текущий запрос подается на вход First MLA. На выходе формируется набор Intent-Association Parameters ($P_{assoc}$) — вероятностей связи запроса с каждым из потенциальных интентов (например, Интент А: 0.6, Интент Б: 0.3).
Расчет Перехода (Second MLA или эвристика): Система рассчитывает Intent-Transition Parameters ($P_{trans}$) — вероятности перехода от предыдущего интента к каждому из потенциальных интентов (например, Переход к Интенту А: 0.8, Переход к Интенту Б: 0.1).
Корректировка оценок: Система рассчитывает Adjusted Intent-Association Parameters ($P_{adj}$) путем перемножения соответствующих параметров Ассоциации и Перехода:
$$P_{adj} = P_{assoc} \times P_{trans}$$
(например, Интент А: 0.6 * 0.8 = 0.48; Интент Б: 0.3 * 0.1 = 0.03).
Выбор интента: Выбирается интент с максимальным скорректированным параметром (в примере — Интент А).
Заполнение слотов (Third MLA): После выбора интента активируется Third MLA для извлечения сущностей (Form-Values) из запросов для заполнения необходимых полей (Form-Fields) связанной с интентом формы (Digital-Form).
Генерация ответа: Система исполняет заполненную цифровую форму для генерации финального ответа пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Текст текущего запроса (используется First MLA и Third MLA). Текст предыдущего запроса (может использоваться Second MLA и Third MLA).
Пользовательские/Сессионные факторы: История диалога в рамках сессии, в частности, идентифицированный интент предыдущего запроса (Preceding Intent) (используется Second MLA).
Данные для обучения (Офлайн): Большой корпус прошлых диалогов (past conversations). Разметка асессоров (human-assessor), указывающая правильный интент для каждого запроса и разметку сущностей (Form-Values) в этих диалогах.

Какие метрики используются и как они считаются

Система использует вероятностные метрики, генерируемые моделями машинного обучения.

Intent-Association Parameter: Вероятностная оценка $P(Intent | CurrentQuery)$. Генерируется First MLA.
Intent-Transition Parameter: Вероятностная оценка $P(CurrentIntent | PrecedingIntent)$. Генерируется Second MLA или определяется эвристически.
Adjusted Intent-Association Parameter: Рассчитывается по формуле, указанной в блоке «Пошаговый алгоритм» (произведение двух предыдущих параметров).
Алгоритмы машинного обучения: В патенте упоминается, что MLA могут быть реализованы как модели на основе решающих деревьев (decision tree model). Однако реализация не ограничена этим и может включать современные нейросетевые подходы для NLP.

Выводы

Приоритет контекста в диалоге: В диалоговых системах Яндекс определение интента сильно зависит от непосредственного контекста (предыдущего интента). Вероятность сохранения или смены интента (Intent-Transition Parameter) может перевесить даже сильные текстовые сигналы в запросе (Intent-Association Parameter).
Модульный подход к пониманию запроса: Яндекс использует разделение задач на три отдельных MLA: понимание запроса в изоляции (MLA 1), анализ логики диалога и переходов (MLA 2), и извлечение конкретных сущностей/заполнение слотов (MLA 3).
Зависимость от размеченных данных: Эффективность всей системы критически зависит от качества и объема обучающих данных, размеченных асессорами (определение интентов и разметка сущностей).
Фокус на IPA, а не на веб-поиске: Патент описывает внутренние механизмы работы интеллектуальных ассистентов или чат-ботов. Он не дает прямых рекомендаций по ранжированию сайтов в основном поиске.
Важность извлечения сущностей (MLA 3) и Digital Forms: Для генерации полезного ответа системе необходимо не только понять интент, но и точно извлечь ключевые сущности (локации, даты, имена) для заполнения предопределенных форм. Это подчеркивает важность структурирования информации.

Практика

Best practices (это мы делаем)

Хотя патент не относится напрямую к ранжированию веб-страниц, он дает важное понимание того, как Яндекс обрабатывает намерения пользователей и извлекает данные, что критично для голосового поиска (VSO) и блоков с ответами.

Проектирование контента с учетом User Journey (Цепочки Интентов): Анализируйте не только изолированные запросы, но и то, как пользователи ищут информацию последовательно. Понимайте вероятные переходы интентов (Intent-Transition). Создавайте контент, который логически отвечает на возможные последующие (follow-up) вопросы в рамках одной темы.
Улучшение извлекаемости сущностей (для Third MLA): Third MLA отвечает за извлечение фактов (Form-Values). Чтобы помочь системе, используйте микроразметку (Schema.org) для явного указания ключевых сущностей (цены, локации, даты, имена). Это повышает шансы использования вашего контента в качестве источника для голосового ответа или Колдунщика.
Оптимизация под структурированные ответы (Wizards/Featured Snippets): Поскольку IPA системы стремятся дать прямой ответ, используя Digital-Forms, необходимо оптимизировать контент для попадания в блоки с ответами. Используйте четкую структуру (FAQ, списки, таблицы).
Локальное SEO и Голосовой поиск: Многие диалоговые запросы связаны с локальными интентами. Убедитесь, что локальная информация полна и актуальна (например, в Яндекс.Бизнес), так как она часто используется IPA системами для заполнения слотов локации.

Worst practices (это делать не надо)

Оптимизация под отдельные ключевые слова без учета контекста: Игнорирование того, как запрос вписывается в более широкую сессию пользователя, снижает эффективность стратегии, особенно в голосовом поиске.
Предоставление неструктурированной информации: Сплошной текст без явного выделения сущностей затрудняет работу Third MLA по извлечению конкретных фактов для генерации ответа.

Стратегическое значение

Патент подтверждает стратегическую важность развития диалоговых интерфейсов (Conversational AI) для Яндекса. Для SEO это сигнал о том, что поиск становится более интерактивным и контекстуальным. Понимание последовательности интентов (Intent Flow) становится важнее, чем анализ отдельных ключевых слов. Долгосрочная стратегия должна учитывать оптимизацию под голосовой поиск и обеспечение максимальной структурированности данных для их легкого извлечения системами типа Third MLA.

Практические примеры

Сценарий 1: Улучшение извлечения данных для Third MLA (Локальный бизнес)

Задача: Голосовой ассистент должен корректно отвечать на вопросы о часах работы и адресе ресторана.
Применение патента системой: Система определяет интент (например, «Часы работы») и использует Third MLA для заполнения Digital-Form значениями из надежных источников.
Действия SEO: Внедрить на сайте максимально полную разметку LocalBusiness, включая Address и OpeningHoursSpecification. Поддерживать актуальность данных в Яндекс Бизнесе.
Результат: Упрощается извлечение структурированных данных, что повышает вероятность корректного ответа ассистента с использованием информации о компании.

Сценарий 2: Проектирование контента с учетом переходов интентов

Задача: Создать контент для сайта электроники, поддерживающий естественный путь пользователя.
Анализ User Journey: Пользователи часто переходят от интента «Обзор модели» к «Сравнение характеристик» и затем к «Поиск цены». Система (Second MLA) будет оценивать эти переходы как высоковероятные.
Действия SEO: Создать страницу обзора, которая логически включает блок сравнения с конкурентами и актуальные цены (с разметкой Offer).
Результат: Контент лучше соответствует естественной последовательности запросов. Это улучшает поведенческие факторы и увеличивает вероятность использования контента для ответов на серию связанных вопросов в диалоговой системе.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в основной веб-выдаче (10 синих ссылок)?

Напрямую нет. Патент описывает метод определения интента в рамках интеллектуальных персональных ассистентов (IPA), таких как голосовые помощники (Алиса) или чат-боты. Он не касается алгоритмов ранжирования веб-документов. Его влияние на SEO косвенное и связано в основном с голосовым поиском и генерацией прямых ответов (Колдунщиков).

В чем разница между Intent-Association Parameter и Intent-Transition Parameter?

Intent-Association Parameter (Параметр Ассоциации) — это вероятность того, что запрос соответствует определенному интенту, если анализировать этот запрос в изоляции, без контекста (рассчитывается First MLA). Intent-Transition Parameter (Параметр Перехода) — это вероятность того, что пользователь переключился с предыдущего интента на этот определенный интент (рассчитывается Second MLA или эвристиками). Итоговая оценка является произведением этих двух параметров.

Как этот патент влияет на стратегию оптимизации под голосовой поиск (VSO)?

Он имеет критическое значение для VSO, поскольку голосовые взаимодействия часто носят диалоговый и последовательный характер. Патент показывает, что система активно пытается сохранить контекст разговора. Для SEO это означает необходимость оптимизации контента таким образом, чтобы он мог отвечать на серию связанных вопросов (поддерживать User Journey) и был хорошо структурирован для извлечения ответов.

Что такое «Third MLA» и почему он важен для SEO?

Third MLA отвечает за заполнение слотов (Slot Filling) или извлечение сущностей. После того как система определила интент (например, «Рецепт»), Third MLA извлекает необходимые детали из запроса (например, «Шарлотка» для слота «Блюдо»). Для SEO это важно, так как хорошо структурированный контент и микроразметка (Schema.org) помогают Third MLA точно извлекать факты с вашего сайта для формирования прямых ответов.

Как система понимает, что пользователь полностью сменил тему разговора?

Если новый запрос имеет очень высокий Intent-Association Parameter для нового интента, и при этом Second MLA определяет высокую (или приемлемую) вероятность перехода (Intent-Transition Parameter) от старого интента к новому, система сменит контекст. Если же вероятность перехода крайне низкая, система будет склонна интерпретировать новый запрос в рамках старого интента, даже если текст запроса не идеально ему соответствует.

Использует ли система только предыдущий запрос для определения контекста?

Патент фокусируется в первую очередь на непосредственном контексте: предыдущем запросе (Preceding Query) и, что более важно, предыдущем интенте (Preceding Intent). Хотя система может хранить историю всего диалога, ключевой механизм корректировки, описанный в Claim 1, основан именно на последнем шаге (переходе от предыдущего интента к текущему).

Что произойдет, если система не сможет уверенно определить интент?

В патенте (Claim 6) упоминается порог значимости (association-significance threshold). Если скорректированный параметр (Adjusted Intent-Association Parameter) для всех потенциальных интентов ниже этого порога, система может сгенерировать резервный ответ (fallback response) вместо специфичного для интента ответа (например, попросить уточнить запрос).

Может ли система использовать эвристики вместо Second MLA для определения вероятности перехода?

Да, патент явно предусматривает такую возможность (Claim 3). Вместо использования машинного обучения для определения Intent-Transition Parameter система может использовать набор заранее определенных правил (heuristic-based routine), созданных оператором. Например, правило может гласить, что переход от интента «Погода» к интенту «Заказ такси» маловероятен.

Как этот патент связан с концепцией User Journey в SEO?

Патент технически реализует отслеживание User Journey на микроуровне — в рамках одной диалоговой сессии. Он показывает, как Яндекс моделирует последовательность намерений пользователя. Для SEO это подтверждает необходимость анализа того, как пользователи переходят от одной темы к другой (Intent Flow), и создания контентных хабов, поддерживающих эти переходы.

Применяется ли этот механизм для первого запроса в сессии?

Для первого запроса механизм перехода (Intent-Transition) не активен, так как нет предыдущего интента. В этом случае интент определяется исключительно на основе анализа самого запроса (Intent-Association Parameter), генерируемого First MLA.