Как Яндекс автоматически генерирует негативные примеры для обучения ранжирования, анализируя уточнения запросов в поисковой сессии

Яндекс использует сессии, в которых пользователь переформулирует свой запрос, для автоматического создания негативных обучающих примеров. Если пользователь вводит новый запрос (Q2) сразу после предыдущего (Q1), система помечает результаты из первой выдачи как нерелевантные для уточненного запроса (Q2), особенно если взаимодействие с ними было коротким (например, менее 30 секунд). Это позволяет обучать алгоритмы ранжирования более точно понимать истинный интент пользователя.

Описание

Какую задачу решает

Патент решает фундаментальную проблему обучения моделей ранжирования (MLA) — необходимость наличия большого объема качественных обучающих данных, в частности, отрицательных обучающих примеров (negative training examples). Ручной сбор таких данных (асессорами) дорог и плохо масштабируется. Изобретение предлагает метод автоматического извлечения неявной негативной обратной связи из поведения пользователей, а именно из факта переформулировки или уточнения запроса в рамках одной поисковой сессии.

Что запатентовано

Запатентован способ автоматического формирования обучающего набора для MLA. Суть изобретения заключается в интерпретации последовательности разных запросов (Q1, затем Q2) в рамках одной сессии поиска как сигнала о том, что результаты по первому запросу (SERP1) не удовлетворили потребность пользователя, которая была точнее выражена вторым запросом (Q2). На основе этого формируются отрицательные обучающие примеры путем связывания второго запроса с результатами из первой выдачи.

Как это работает

Система анализирует журналы поиска. Если пользователь отправляет Первый Запрос (Q1) и получает Первую SERP (SERP1), а затем в той же сессии (определяемой по времени и/или семантической связи) отправляет Второй Запрос (Q2), система интерпретирует это как уточнение интента. Делается вывод, что результаты из SERP1 не были достаточно релевантны истинному намерению пользователя, выраженному в Q2. Система формирует обучающую пару: (Второй Запрос Q2 + Результат из Первой SERP1) и помечает эту пару как отрицательный пример для обучения MLA. Дополнительно может проверяться, что взаимодействие с результатом из SERP1 было ниже определенного порога (например, 30 секунд).

Актуальность для SEO

Высокая. Автоматическая генерация обучающих выборок на основе неявной обратной связи (implicit feedback) из логов поведения пользователей является стандартом индустрии и критически важным компонентом для масштабирования машинного обучения в современных поисковых системах.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент описывает внутренний процесс генерации данных для обучения, а не сам алгоритм ранжирования, он дает критически важное понимание того, как Яндекс интерпретирует неудовлетворенность пользователя. Если сайт не решает задачу пользователя и вынуждает его вернуться в поиск и переформулировать запрос (особенно после короткого клика), этот сайт становится источником отрицательных обучающих примеров. Это подчеркивает абсолютную необходимость максимального удовлетворения интента пользователя с первого клика.

Детальный разбор

Термины и определения

Алгоритм машинного обучения (MLA): Основной алгоритм ранжирования поисковой системы (например, CatBoost/YATI), который обучается на подготовленных данных для определения порядка результатов в выдаче.
База данных журнала поиска (Search Log Database): Хранилище, содержащее историю запросов, показанных SERP и взаимодействий пользователей с ними.
Отрицательные обучающие примеры (Negative Training Examples): Данные, используемые для обучения MLA, которые указывают на нерелевантность документа запросу. В контексте патента это пара (Второй запрос + Результат из Первой SERP).
Первый запрос (Q1) / Второй запрос (Q2): Последовательность запросов, отправленных пользователем в рамках одной сессии поиска, где Второй запрос следует за Первым и отличается от него.
Сеанс поиска (Search Session): Последовательность действий пользователя, объединенных одной задачей поиска. Определяется на основе временной близости и/или семантической связи (степени совпадения) запросов.
Страница результатов поисковой системы (SERP): Страница, содержащая набор результатов поиска, сформированная в ответ на запрос.
Параметры взаимодействия с пользователем: Метрики, указывающие на активность пользователя на SERP. В патенте упоминаются событие «клика» (click event) и время наведения (dwell time).
Порог взаимодействия: Заранее заданное значение для оценки взаимодействия. В патенте упоминается пример в тридцать секунд. Используется для подтверждения нерелевантности результата.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии создания обучающей выборки, а не на самом процессе ранжирования.

Claim 1 (Независимый пункт): Описывает базовый механизм изобретения.

Извлечение из логов: (а) Первого запроса (Q1), (б) Первой SERP (SERP1), (в) Второго запроса (Q2), отправленного после Q1, и (г) Второй SERP (SERP2).
Условие: Q1 и Q2 отправлены одним устройством в одном сеансе поиска.
Действие: Формирование обучающего набора для использования в качестве отрицательных обучающих примеров для MLA.
Состав набора: Второй запрос (Q2) в паре с заранее заданным результатом поиска из Первой SERP1.

Если пользователь уточнил запрос с Q1 до Q2, то результаты, показанные по Q1, считаются нерелевантными для интента, выраженного в Q2. Это позволяет автоматически генерировать негативные примеры.

Claims 2, 3, 4: Уточняют определение сеанса поиска по времени.

Определение сеанса включает анализ разницы во времени между отправкой Q1 и Q2 (Claim 3).
Запросы считаются частью одной сессии, если разница во времени меньше заранее заданного порогового значения (Claim 4).

Claims 5, 6, 7, 8: Добавляют критерии схожести запросов для определения сеанса (опционально).

Анализ Q1 и Q2 для выявления некоторой степени совпадения (Claim 6).
Формирование обучающего набора может выполняться только при наличии такой степени совпадения.
Совпадение выявляется при наличии по меньшей мере одного общего условия поиска (термина) у Q1 и Q2 (Claim 7).

Система может проверять, что Q2 является уточнением Q1, а не началом новой поисковой задачи. Это позволяет генерировать более качественные, «трудные» негативные примеры (hard negatives), где запросы семантически близки.

Claims 9, 10, 11, 12: Описывают механизм выбора конкретного результата из Первой SERP для использования в качестве отрицательного примера (эвристика контрастного обучения).

Извлечение параметров взаимодействия пользователя со Второй SERP (например, клики, время наведения) (Claim 9).
Выбор результата из Второй SERP с наибольшим значением параметра взаимодействия («успешный» результат) (Claim 10).
Выбор отрицательного примера из Первой SERP на основе позиции этого успешного результата на Второй SERP (Claim 10).
Отрицательный пример может соответствовать результату на той же позиции на Первой SERP, или на позиции выше/ниже (Claim 11). Может использоваться случайный выбор из этих позиций (Claim 12).

Система находит, что удовлетворило пользователя на Второй SERP, а затем выбирает результат на аналогичной позиции на Первой SERP, который пользователь проигнорировал или отверг. Это создает контрастную пару (хороший результат vs плохой результат на той же позиции) для обучения MLA.

Claims 13, 14: Добавляют критически важный фильтр по взаимодействию с Первой SERP (опционально).

Анализ взаимодействия пользователя с выбранным отрицательным примером из Первой SERP.
Формирование набора выполняется, только если это взаимодействие ниже заранее заданного порога взаимодействия (Claim 13).
Порог может составлять тридцать секунд (Claim 14).

Это подтверждение того, что результат действительно был нерелевантен (верификация неудачи). Если пользователь провел на нем много времени (например, >30 сек), его нельзя использовать как надежный отрицательный пример.

Где и как применяется

Изобретение описывает офлайн-процесс подготовки данных и обучения моделей. Оно не применяется в реальном времени во время обработки запроса пользователя (Query Processing, Ranking, Blender).

Сбор данных и Офлайн-обработка (DATA ACQUISITION / ML Training Pipeline)
Система использует данные из Базы данных журнала поиска. Это логи, содержащие историю запросов, сформированные SERP и все зарегистрированные взаимодействия пользователей.

Процесс происходит на этапе подготовки к обучению моделей ранжирования (RANKING LAYER):

Обработка логов: Система анализирует логи для идентификации паттернов уточнения запросов в рамках сессий.
Генерация обучающего набора: Формируется набор данных, содержащий отрицательные обучающие примеры по описанной методике.
Обучение MLA: Сгенерированный набор используется для обучения основного алгоритма ранжирования (MLA). Цель обучения — научить модель не показывать документы, помеченные как отрицательные примеры, по соответствующим запросам.

Входные данные: Запросы (Q1, Q2), Состав SERP (SERP1, SERP2), Временные метки запросов, Параметры взаимодействия (клики, время наведения).

Выходные данные: Обучающий набор (Training Set) с размеченными отрицательными примерами.

На что влияет

Качество моделей ранжирования: Основное влияние — повышение точности (Precision) моделей ранжирования за счет предоставления качественных отрицательных примеров. Это помогает системе лучше различать нюансы интента.
Специфические запросы: Наибольшее влияние оказывается на неоднозначные или широкие запросы, которые часто переформулируются или уточняются пользователями (например, сложные информационные или многоэтапные коммерческие запросы).
Типы контента: Влияет на контент, который часто показывается по широким запросам, но не соответствует более узким интентам, следующим за ними. Система учится лучше дифференцировать релевантность.

Когда применяется

Алгоритм применяется в рамках регулярных офлайн-процессов обработки логов и переобучения моделей ранжирования.

Триггеры активации и условия для анализа конкретной сессии:

Последовательность запросов: Наличие двух или более различных запросов от одного пользователя.
Временная близость: Разница во времени между запросами меньше установленного порога (Claim 4).
Семантическая связь (Опционально): Наличие общих условий поиска (терминов) в последовательных запросах (Claim 7).
Паттерн взаимодействия (Опционально): Низкий уровень взаимодействия с Первой SERP (например, время меньше 30 секунд) (Claim 14) и/или наличие успешного взаимодействия (клика) на Второй SERP (Claim 10).

Пошаговый алгоритм

Процесс формирования обучающего набора:

Извлечение данных: Загрузка данных из базы данных журнала поиска (запросы, SERP, взаимодействия).
Идентификация сессий: Группировка последовательных запросов (Q1, Q2…) по пользователю.
Фильтрация сессий (Определение уточнений): Отбор сессий, где запросы Q1 и Q2 отправлены в пределах заданного временного порога.
Проверка совпадения (Опционально): Проверка, имеют ли Q1 и Q2 общие условия поиска (степень совпадения).
Анализ взаимодействий на Второй SERP (Опционально): Идентификация результата на SERP2, с которым пользователь успешно взаимодействовал (например, по наибольшему значению клика или времени наведения). Определение его позиции (Pos2).
Выбор отрицательного примера (SERP1): Выбор результата из SERP1. Может выбираться результат, находящийся на той же (Pos1=Pos2) или близкой позиции к успешному результату на SERP2.
Верификация взаимодействия (Опционально): Проверка взаимодействий с выбранным результатом на SERP1. Условие: взаимодействие должно быть ниже порога (например, 30 секунд).
Формирование обучающего набора: Создание пары (Второй Запрос Q2 + Выбранный результат из SERP1). Эта пара помечается как отрицательный обучающий пример.
Обучение: Использование сформированного набора для обучения MLA.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные для работы алгоритма.
- Последовательность запросов пользователя.
- Событие «клика» (Click event) (используется для идентификации успешного результата на Второй SERP).
- Время наведения (Dwell time) (используется для идентификации успешного результата и для фильтрации неуспешных взаимодействий на Первой SERP).
Временные факторы: Моменты времени отправки Q1 и Q2. Используются для определения границ сессии.
Контентные факторы (Текстовые): Тексты Первого и Второго запросов используются для анализа степени совпадения (наличия общих условий поиска).
Системные данные: Состав Первой и Второй SERP, позиции результатов на этих страницах.

Какие метрики используются и как они считаются

Разница во времени: Метрика для определения границ сеанса поиска. Сравнивается с заранее заданным пороговым значением.
Степень совпадения запросов: Метрика, определяющая семантическую связь между запросами. В патенте описана как наличие по меньшей мере одного общего условия поиска (термина).
Параметр взаимодействия с пользователем: Количественная оценка взаимодействия (например, значение dwell time). Используется для выбора «успешного» результата на SERP2 (максимальное значение) и верификации «неуспешного» на SERP1 (сравнение с порогом).
Заранее заданный порог взаимодействия: Пороговое значение для фильтрации отрицательных примеров. В патенте явно указан пример в тридцать секунд (Claim 14). Если взаимодействие с результатом на Первой SERP превышает этот порог, он может не использоваться как отрицательный пример.

Выводы

Уточнение запроса = Неявный негативный фидбек: Яндекс интерпретирует переформулирование запроса пользователем в рамках одной сессии как сильный сигнал о том, что предыдущая выдача не удовлетворила его потребность (истинный интент).
Автоматизация обучения ранжирования: Этот механизм позволяет Яндексу масштабируемо и без затрат на асессоров собирать отрицательные обучающие примеры. Это критически важно для повышения точности моделей ранжирования.
Критичность быстрого возврата на выдачу (Dwell Time): Патент явно указывает порог в 30 секунд как пример фильтра (Claim 14). Если пользователь кликнул на результат, вернулся на выдачу менее чем через 30 секунд и уточнил запрос, этот результат с высокой вероятностью станет отрицательным обучающим примером.
Сложная логика определения «неудачи» (Контрастное обучение): Система использует эвристику, основанную на позициях. Она может целенаправленно искать «плохой» результат на Первой SERP, который находился на той же позиции, что и «хороший» (успешный) результат на Второй SERP. Это помогает MLA научиться различать релевантные и нерелевантные документы в схожих условиях показа.
Генерация «трудных» негативных примеров (Hard Negatives): Использование критерия семантического совпадения (Claims 6-8) помогает генерировать примеры, где документ семантически близок к запросу, но не отвечает на конкретный интент. Это эффективно для обучения моделей.

Практика

Best practices (это мы делаем)

Максимизация удовлетворения интента (Intent Satisfaction): Главная задача — решить проблему пользователя быстро и полностью, чтобы у него не было необходимости возвращаться в поиск (предотвращение pogo-sticking) и переформулировать запрос. Это напрямую предотвращает генерацию негативных обучающих примеров, связанных с вашим сайтом.
Работа над вовлеченностью (Dwell Time): Необходимо удерживать пользователя на странице дольше критического порога (упомянуты 30 секунд), предоставляя ценный контент с первых секунд загрузки. Длительное взаимодействие снижает риск срабатывания механизма по Claim 13 (фильтрация по порогу взаимодействия).
Точное соответствие сниппетов и заголовков контенту: Убедитесь, что Title и Description максимально точно отражают содержание страницы. Это минимизирует случайные клики, которые приводят к быстрому возврату в SERP из-за неоправданных ожиданий.
Анализ поведенческих метрик: Отслеживайте запросы, по которым наблюдается низкое время на сайте (особенно <30 секунд) и высокий показатель возвратов на выдачу. Это кандидаты на то, чтобы стать источником негативных обучающих примеров.

Worst practices (это делать не надо)

Кликбейт и вводящие в заблуждение сниппеты: Привлечение трафика с помощью заголовков, не соответствующих содержанию, приводит к коротким кликам (<30 сек) и возврату на SERP. Согласно патенту, это прямой путь к генерации отрицательных обучающих примеров и последующему обучению модели против вашего контента.
Неполное раскрытие темы: Создание поверхностного контента, который не дает исчерпывающего ответа и вынуждает пользователя искать дополнительную информацию, возвращаясь в поиск и уточняя запрос.
Плохой UX и медленная загрузка: Технические проблемы (всплывающие окна, агрессивная реклама, долгая отрисовка), которые заставляют пользователя покинуть сайт в первые 30 секунд, увеличивают риск срабатывания описанного механизма.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование поведенческих данных (Implicit Feedback) как основного источника истины (Ground Truth) для обучения алгоритмов ранжирования. Он демонстрирует конкретный механизм, как неудовлетворенность пользователя конвертируется в обучающие данные. Для SEO это означает, что долгосрочная стратегия должна быть неразрывно связана с качеством продукта и пользовательским опытом. Успех в SEO определяется не позициями, а решением задач пользователей.

Практические примеры

Сценарий 1: Разделение интентов (Неоднозначный запрос и короткий клик)

Q1: Пользователь ищет «Ягуар».
SERP1: На Позиции 2 находится сайт автодилера. Пользователь кликает на него.
Взаимодействие: Пользователь понимает, что это про машины, а он искал животное. Закрывает сайт через 10 секунд (<30 сек порога).
Q2: Пользователь возвращается в Яндекс и ищет «Ягуар животное» (в той же сессии, есть общее слово).
SERP2: На Позиции 2 находится статья в Википедии. Пользователь кликает и читает ее долго (успех).
Действие системы (Офлайн):
1. Система идентифицирует последовательность в одной сессии.
2. Она видит успех на Позиции 2 в SERP2 (Опционально, Claim 10).
3. Она выбирает результат на Позиции 2 в SERP1 (сайт автодилера) (Опционально, Claim 11).
4. Она верифицирует неудачу: взаимодействие было 10 сек (<30 сек порога) (Опционально, Claim 13).
5. Генерируется отрицательный обучающий пример: (Запрос: «Ягуар животное», Документ: Сайт автодилера).
Результат: MLA учится не показывать сайт автодилера по запросам о животных.

Сценарий 2: Условие несрабатывания (Длительное взаимодействие)

Q1: «Смартфон Samsung Galaxy S25».
SERP1: На Позиции 1 — детальный обзор смартфона. Пользователь кликает, читает 2 минуты (>30 сек).
Q2: Пользователь возвращается и ищет «Смартфон Samsung Galaxy S25 купить» (в той же сессии).
Действие системы (Офлайн): Хотя была переформулировка, система может не сгенерировать отрицательный пример для обзора по запросу Q2. Взаимодействие с SERP1 было долгим (>30 сек), что не удовлетворяет условию Claim 13 (взаимодействие ниже порога). Результат из SERP1 не считается явной неудачей в рамках этого механизма.

Вопросы и ответы

Что такое «отрицательный обучающий пример» в контексте этого патента?

Отрицательный обучающий пример (Negative Training Example) — это пара «Запрос + Документ», которая помечена как нерелевантная. В данном патенте он формируется путем взятия Второго (уточненного) запроса пользователя (Q2) и спаривания его с результатом из Первой (исходной) поисковой выдачи (SERP1). Это учит алгоритм ранжирования (MLA) не показывать данный документ высоко по запросу Q2.

Является ли описанный механизм фактором ранжирования?

Нет, напрямую это не фактор ранжирования. Патент описывает офлайн-процесс сбора и генерации обучающих данных (Training Data). Однако эти данные используются для обучения основного алгоритма ранжирования (MLA). Таким образом, этот механизм оказывает огромное, хоть и косвенное, влияние на то, как будет работать ранжирование в будущем, делая его более точным.

Означает ли это, что если пользователь уточнил запрос после посещения моего сайта, мой сайт будет пессимизирован?

Не обязательно. Если поведение становится систематическим — пользователи часто возвращаются с вашего сайта на выдачу (особенно быстро, менее 30 сек) и уточняют запрос — система учится тому, что ваш контент не соответствует их истинному интенту. Это может привести к снижению позиций в будущем. Однако, если взаимодействие было долгим, согласно Claim 13, негативный пример может не быть сгенерирован.

Как Яндекс определяет, что два запроса относятся к одному сеансу поиска?

Основной критерий, описанный в патенте (Claims 3, 4), — это временная близость: разница во времени между последовательными запросами должна быть меньше заранее заданного порога. Дополнительно (Claims 6-8) система может проверять семантическую связь: наличие общих условий поиска (терминов), чтобы отличить уточнение от смены темы поиска.

Почему в патенте упоминается порог в 30 секунд? Это критически важно?

Порог в 30 секунд (Claim 14) используется как пример критерия подтверждения нерелевантности (верификация неудачи). Чтобы результат из Первой SERP был использован как отрицательный пример, взаимодействие пользователя с ним (Dwell Time) должно быть ниже этого порога. Это критически важно для SEO, так как подтверждает, что короткие клики являются сильным негативным сигналом, который используется для обучения моделей.

Как система выбирает, какой именно результат из первой выдачи использовать как негативный пример?

Это ключевая эвристика (Claims 10, 11). Система может сначала определить, какой результат на Второй (уточненной) SERP был успешным (например, получил длинный клик), и посмотреть на его позицию. Затем она выбирает результат из Первой SERP, который находился на той же самой или близкой (выше/ниже) позиции. Предполагается, что именно этот результат разочаровал пользователя.

Влияет ли этот патент на ранжирование в реальном времени?

Нет, этот патент описывает офлайн-процесс. Система анализирует логи поиска постфактум, генерирует обучающие наборы данных и использует их для периодического переобучения основного алгоритма ранжирования (MLA). Влияние на выдачу проявляется только после того, как новая обученная модель будет внедрена в продакшн.

Как защитить свой сайт от генерации негативных обучающих примеров?

Ключевая стратегия — полное удовлетворение интента пользователя. Необходимо предоставлять исчерпывающую информацию, соответствующую заголовку и сниппету, чтобы у пользователя не было причин возвращаться в поиск и уточнять запрос. Также важно удерживать внимание пользователя на странице дольше критических 30 секунд, предоставляя ценность с первых секунд загрузки и избегая кликбейта.

Зачем Яндекс проверяет совпадение терминов между первым и вторым запросом (Claims 6-8)?

Эта проверка нужна, чтобы убедиться, что второй запрос (Q2) является уточнением первого (Q1), а не новой задачей. Это позволяет генерировать «трудные негативные примеры» (hard negatives) — документы, которые семантически близки к запросу, но не отвечают на конкретный интент. Обучение на таких примерах наиболее эффективно повышает точность модели.

Как этот патент связан с общей стратегией Яндекса по использованию поведенческих факторов?

Патент демонстрирует, что поведенческие факторы являются не только сигналами ранжирования, но и основным источником истины (Ground Truth) для обучения самих алгоритмов ранжирования. Последовательности запросов (сессии), клики и время взаимодействия (Dwell Time) используются для автоматического определения того, что является релевантным, а что нет.