Как Яндекс генерирует сложные негативные примеры для обучения ранжирующих моделей

Яндекс патентует методы генерации сложных (hard negatives) обучающих примеров для улучшения точности ранжирования. Система использует граф связей между запросами и документами, а также анализ позиций общих документов в выдаче, чтобы найти документы, которые тематически связаны с запросом, но нерелевантны ему. Эти примеры помогают обучить модели (MLA) лучше различать тонкие различия в интенте пользователя.

Описание

Какую задачу решает

Патент решает задачу повышения качества обучения алгоритмов машинного обучения (MLA), используемых для ранжирования. Основная проблема заключается в генерации эффективных «негативных примеров» (документов, нерелевантных запросу). Генерация позитивных примеров относительно проста (например, на основе кликов пользователей), но поиск качественных негативных примеров сложен. Патент предлагает методы генерации «сложных негативных примеров» (hard negatives) — документов, которые связаны с темой запроса, но не отвечают на него, что позволяет точнее обучить модель распознавать истинную релевантность.

Что запатентовано

Запатентована система генерации обучающих выборок (training set) для MLA (например, нейронной сети, как указано в патенте), фокусирующаяся на автоматическом создании негативных примеров из логов поиска. Изобретение включает два основных метода: (1) использование графа запросов и документов для поиска нерелевантных документов на определенном семантическом расстоянии; (2) анализ произведения позиций общих документов в разных поисковых выдачах для выявления слабо связанных запросов.

Как это работает

Система использует данные из логов поиска (search log database) для генерации негативных примеров двумя способами:

Графовый метод: Строится граф, где узлы чередуются между запросами и документами (Запрос А -> Документ 1 -> Запрос Б -> Документ 2…). Для Запроса А система находит документ, расположенный на значительном расстоянии (например, 5-9 узлов) в этом графе. Такой документ контекстуально связан с Запросом А через цепочку переходов, но с высокой вероятностью нерелевантен ему.
Метод произведения позиций: Система находит два разных запроса (Q1 и Q2), в выдаче которых присутствует один и тот же общий документ (Doc C). Если этот общий документ ранжируется низко в обеих выдачах (например, произведение их позиций больше 50), считается, что Q1 и Q2 слабо связаны. Затем система берет самый кликабельный документ из выдачи Q1 и помечает его как негативный пример для Q2.

Полученные примеры используются для обучения MLA.

Актуальность для SEO

Высокая. Генерация качественных обучающих данных, особенно сложных негативных примеров (Hard Negative Mining), является критически важной задачей для обучения современных моделей ранжирования, включая глубокие нейронные сети (например, трансформеры типа YATI). Описанные методы повышения точности моделей за счет улучшения обучающих данных крайне актуальны.

Важность для SEO

Влияние на SEO среднее (6/10). Патент не описывает алгоритм ранжирования или новые факторы, а фокусируется на внутреннем процессе обучения моделей Яндекса. Однако он демонстрирует, насколько изощренно Яндекс подходит к определению нерелевантности. Система специально обучается отличать документы, которые просто тематически близки, от документов, которые точно отвечают на интент запроса. Это подчеркивает необходимость максимальной точности в удовлетворении интента и снижает эффективность стратегий, основанных на широком, но поверхностном охвате темы.

Детальный разбор

Термины и определения

Graph (Граф): Структура данных, отображающая связи между множеством документов и множеством запросов из логов поиска. В патенте описывается как web-like graph или data tree. Узлы графа представляют собой запросы или документы. Связи устанавливаются, если документ был показан/кликнут в ответ на запрос.
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Модель (в патенте упоминаются Neural Networks), используемая в системе поиска для ранжирования результатов. Эта модель обучается на позитивных и негативных примерах предсказывать релевантность документа запросу.
Most Interacted Search Result (Наиболее взаимодействуемый результат): Документ в SERP, с которым пользователи взаимодействовали наиболее активно. Может определяться как кликнутый документ или документ с наибольшим временем взаимодействия (Dwell time / Longest interaction).
Negative Training Example (Негативный обучающий пример): Пара (Запрос, Документ), помеченная как нерелевантная. Используется для обучения MLA тому, какие документы не следует ранжировать высоко по данному запросу. Патент фокусируется на генерации «сложных» негативных примеров (hard negatives).
Search Log Database (База данных логов поиска): Хранилище исторических данных о поисковых сессиях, включающее запросы, показанные SERP и взаимодействия пользователей (user interaction parameters).
SERP (Search Engine Result Page): Страница результатов поиска, сгенерированная в ответ на запрос.

Ключевые утверждения (Анализ Claims)

Патент определяет два основных метода генерации негативных обучающих примеров.

Claims 1, 18 (Независимые пункты): Графовый метод.

Система извлекает из логов множество запросов и соответствующих им SERP.
Строится граф, отображающий связи между запросами и документами. Узел запроса связан с узлами документов (результатами этого запроса). Узел документа связан с узлами запросов (по которым этот документ показывался).
Выбирается исходный запрос для генерации негативного примера.
Генерируется негативный обучающий пример путем соединения исходного запроса с документом, который находится на заранее определенном количестве узлов (pre-determined number of nodes) от исходного узла в графе.
Полученный набор данных используется для обучения MLA (например, нейронной сети) для генерации функции ранжирования.

Ядро изобретения — использование расстояния в графе «Запрос-Документ» как меры нерелевантности. Документы, находящиеся далеко от запроса в этом графе, считаются тематически связанными (так как есть путь), но нерелевантными (так как путь длинный). Зависимые пункты (Claims 2-4) уточняют, что это расстояние должно быть нечетным числом (чтобы путь от Запроса закончился Документом) и находиться в диапазоне, например, от 5 до 9 шагов.

Claims 13, 20 (Независимые пункты): Метод произведения позиций.

Система извлекает из логов две поисковые выдачи: SERP1 (для Запроса Q1) и SERP2 (для Запроса Q2).
Идентифицируется общий документ (Doc C), который присутствует в SERP1 на позиции P1 и в SERP2 на позиции P2.
Идентифицируется наиболее взаимодействуемый результат (Doc MI) в SERP1.
Вычисляется произведение позиций $P1 \times P2$.
Если произведение превышает заранее определенный порог (predetermined threshold) (например, 50, как указано в Claim 17).
Генерируется негативный обучающий пример: пара (Запрос Q2, Документ Doc MI).

Этот метод ищет два запроса, которые связаны наличием общего документа, но эта связь слабая (общий документ ранжируется низко в обеих выдачах). Система предполагает, что документ, высокорелевантный первому запросу (Doc MI), будет нерелевантен второму запросу.

Где и как применяется

Патент описывает внутренние процессы Яндекса, связанные с подготовкой данных для машинного обучения. Это не алгоритм ранжирования в реальном времени, а инфраструктурный компонент для офлайн-обучения.

Офлайн-процессы и обработка данных (Training Pipeline)

Изобретение применяется на этапе подготовки данных перед обучением основных ранжирующих моделей (таких как CatBoost или нейросетевые модели вроде YATI).

Входные данные: Система (называемая в патенте Training Server) получает доступ к Search Log Database, содержащей исторические запросы, SERP и данные о взаимодействиях пользователей (клики, dwell time).
Процесс: Сервер анализирует логи, строит граф связей или анализирует позиции документов в SERP для генерации негативных примеров по описанным методикам.
Выходные данные: Training Set, включающий сгенерированные негативные примеры.

RANKING – Ранжирование

Прямого применения на этапе ранжирования нет. Однако обученные с использованием этих данных модели (MLA) затем используются на этапах ранжирования (L2/L3) для определения релевантности документов. Улучшение качества обучения напрямую влияет на точность работы ранжирования.

На что влияет

Точность определения релевантности: Основное влияние — повышение способности ранжирующих моделей различать тонкие нюансы в интенте пользователя. Модели лучше обучаются отделять документы, релевантные конкретному запросу, от документов, которые просто относятся к той же широкой теме.
Специфические запросы: Влияет на все типы запросов, но особенно важно для многозначных или широких запросов, где велик риск подмешивания тематически близкого, но не отвечающего на вопрос контента.

Когда применяется

Алгоритм применяется периодически в рамках офлайн-процесса переобучения ранжирующих моделей Яндекса. Триггером может служить накопление достаточного объема новых данных в логах поиска или плановое обновление моделей.

Пошаговый алгоритм

Патент описывает два независимых метода генерации негативных примеров.

Метод 1: Генерация на основе графа

Сбор данных: Извлечение множества исторических SERP и связанных данных из базы логов поиска.
Построение графа: Генерация графа, где узлы представляют запросы и документы. Узел запроса соединяется с узлами документов из его SERP (особенно с кликнутыми). Узел документа соединяется с узлами запросов, для которых он служил результатом.
Выбор исходного запроса: Получение указания на запрос, для которого требуется сгенерировать негативный пример.
Обход графа: Идентификация узла исходного запроса и выполнение обхода графа на заранее определенное расстояние (например, 5-9 узлов, нечетное число).
Выбор целевого документа: Идентификация документа, расположенного на этом расстоянии. Если таких документов несколько, может выбираться случайный или наиболее кликабельный (highest user interaction parameter).
Генерация примера: Формирование пары (Исходный запрос, Целевой документ) и маркировка ее как негативный обучающий пример.

Метод 2: Генерация на основе произведения позиций

Сбор данных: Извлечение исторических SERP из базы логов.
Поиск общих документов: Идентификация двух разных SERP (SERP1 для Q1 и SERP2 для Q2), которые содержат хотя бы один общий документ (Doc C).
Определение позиций: Определение ранга (позиции) общего документа Doc C в SERP1 (P1) и в SERP2 (P2).
Идентификация лучшего результата: Определение наиболее взаимодействуемого документа (Doc MI) в SERP1 (например, самого кликабельного).
Проверка порога: Вычисление произведения позиций $P1 \times P2$. Сравнение результата с порогом (например, 50).
Генерация примера: Если порог превышен, формирование пары (Запрос Q2, Документ Doc MI) и маркировка ее как негативный обучающий пример.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются логи взаимодействий пользователей (User interaction parameters). Они необходимы для определения связей в графе и для идентификации Most Interacted Search Result. Упоминаются: клики (click event), время взаимодействия (hovering time, dwell time, long/short click).
Системные данные (Логи): Тексты исторических запросов, состав SERP для этих запросов, позиции (ранги) документов в SERP.

Какие метрики используются и как они считаются

Система не вычисляет метрики релевантности, а генерирует данные для их обучения. Используются следующие вычисления:

Расстояние в графе: Количество узлов (ребер) между исходным запросом и целевым документом в построенном графе Запрос-Документ. Используется фиксированное расстояние (pre-determined number), в патенте предлагается диапазон от 5 до 9.
Произведение позиций (Product of Ranks): Метрика для оценки степени связи между двумя запросами на основе ранга общего документа. Рассчитывается как $P1 \times P2$.
Порог для произведения позиций: Фиксированное значение (в патенте упоминается порог 50). Если произведение выше порога, генерируется негативный пример.
Метрика взаимодействия: Используется для выбора Most Interacted Search Result. Может основываться на CTR, Dwell Time или факте клика.

Выводы

Яндекс активно генерирует сложные негативные примеры (Hard Negatives): Система не полагается на случайные документы для обучения. Вместо этого используются сложные методы для поиска документов, которые тематически связаны с запросом, но не отвечают на интент пользователя.
Граф сессий как источник контекста: Яндекс строит и использует граф, связывающий запросы и документы на основе истории поиска. Расстояние в этом графе используется как индикатор снижения релевантности при сохранении контекстуальной связи.
Низкий ранг общего документа как индикатор слабой связи: Метод произведения позиций показывает, что если общий документ ранжируется низко по двум разным запросам, эти запросы считаются слабо связанными, что позволяет использовать топ-результат одного как негативный пример для другого.
Цель — повышение точности моделей: Все описанные механизмы направлены на улучшение качества обучающих данных. Это означает, что ранжирующие модели Яндекса (MLA) становятся более чувствительными к точному соответствию интенту и лучше пессимизируют контент, который является лишь косвенно релевантным.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние процессы обучения, он подтверждает важность следующих стратегических направлений:

Максимальная точность соответствия интенту: Создавайте контент, который предельно точно отвечает на конкретный интент пользователя. Ранжирующие модели Яндекса специально обучены (используя описанные сложные негативные примеры) штрафовать документы, которые релевантны лишь тематически, но не отвечают на запрос.
Четкое разделение интентов по страницам: Если у вас есть два связанных, но разных интента (например, «выбор ноутбука» и «ремонт ноутбука»), создавайте для них отдельные страницы. Попытка оптимизировать одну страницу под оба интента может привести к тому, что она будет распознана как сложный негативный пример для одного из них.
Анализ SERP для понимания связей: Изучайте выдачу по смежным запросам. Если вы видите, что по двум запросам в топе находятся совершенно разные документы, а общие документы находятся низко (ниже топ-7, как следует из порога 50), это признак того, что Яндекс считает эти запросы слабо связанными (как в Методе 2). Не пытайтесь ранжироваться по обоим запросам одной страницей.

Worst practices (это делать не надо)

Создание «размытого» контента: Публикация статей, которые пытаются охватить слишком широкую тему или множество слабо связанных запросов в надежде привлечь трафик по НЧ. Такой контент рискует не достичь высокой релевантности ни по одному из запросов, так как модель обучена распознавать такую неточность.
Игнорирование различий в интенте внутри кластера: Объединение запросов в семантический кластер только на основе текстовой близости без учета различий в интенте. Модели обучены видеть разницу между связанными запросами.

Стратегическое значение

Патент подтверждает высокий уровень сложности инфраструктуры машинного обучения Яндекса. Стратегическое значение для SEO заключается в понимании того, что борьба за релевантность ведется на уровне нюансов интента. Модели обучаются на очень качественных данных, которые позволяют им штрафовать за малейшее отклонение от задачи пользователя. Это усиливает тренд на создание узкоспециализированного, экспертного контента, точно отвечающего на конкретные потребности.

Практические примеры

Пример применения Метода 1 (Графовый)

Цепочка в графе: Пользователи ищут: Запрос 1 («Рецепт борща») -> Кликают на Документ А (Сайт рецептов) -> Тот же сайт ранжируется по Запросу 2 («История русской кухни») -> По этому запросу кликают на Документ Б (Книга по истории) -> Эта книга ранжируется по Запросу 3 («Культура Древней Руси») -> Кликают на Документ В (Статья о Рюрике).
Действие системы: Система видит путь от Запроса 1 до Документа В. Расстояние велико (5 узлов/шагов).
Результат: Пара («Рецепт борща», Статья о Рюрике) используется как негативный пример. Модель учится, что, хотя связь есть, статья о Рюрике нерелевантна запросу о борще.

Пример применения Метода 2 (Произведение позиций)

Запросы и выдачи:
- Q1: «Купить iPhone 15 Pro Max»
- Q2: «Продать старый iPhone на запчасти»
Общий документ (Doc C): Общая страница Apple о программе Trade-In. Она находится на позиции 8 в SERP1 и на позиции 7 в SERP2.
Расчет: Произведение позиций = $8 \times 7 = 56$. Порог = 50. Порог превышен.
Лучший результат (Doc MI) для Q1: Страница магазина М.Видео с новым iPhone 15 Pro Max.
Результат: Пара («Продать старый iPhone на запчасти», Страница М.Видео с новым iPhone 15) используется как негативный пример. Модель учится, что страница продажи нового товара нерелевантна запросу о продаже на запчасти.

Вопросы и ответы

Что такое «сложные негативные примеры» (hard negatives) и почему они важны?

Сложные негативные примеры — это документы, которые тематически или контекстуально связаны с запросом, но не являются для него релевантными (не отвечают на интент пользователя). Они критически важны для обучения ранжирующих моделей, так как учат модель различать тонкие нюансы релевантности. Обучение только на случайных негативных примерах не позволяет модели понять, почему документ по той же теме может быть плохим ответом.

Описывает ли этот патент новый алгоритм ранжирования?

Нет, этот патент не описывает алгоритм ранжирования, который работает в реальном времени. Он описывает офлайн-методы генерации обучающих данных (Training Set), которые затем используются для тренировки алгоритмов машинного обучения (MLA), применяемых в ранжировании. Это инфраструктурный патент, улучшающий качество обучения.

Что представляет собой граф, упомянутый в Методе 1?

Это структура данных, построенная на основе логов поиска, которая связывает запросы и документы. Граф является двудольным (bipartite): узлы запросов связаны только с узлами документов (показанных/кликнутых по этому запросу), а узлы документов связаны только с узлами запросов (по которым этот документ показывался/кликался). Обход графа позволяет проследить цепочки связанных поисковых взаимодействий.

Почему в графовом методе используется расстояние в 5-9 узлов и почему оно нечетное?

Расстояние 5-9 узлов достаточно велико, чтобы гарантировать нерелевантность исходному запросу, но сохраняет контекстуальную связь, что делает пример «сложным» для модели. Число должно быть нечетным, потому что граф чередуется (Запрос->Документ->Запрос…). Чтобы начать с Запроса и закончить Документом, необходимо сделать нечетное количество шагов.

Что означает порог 50 в Методе 2 (произведение позиций)?

Порог 50 означает, что общий документ должен ранжироваться достаточно низко в обеих выдачах. Например, на позициях 5 и 10 (5*10=50) или 7 и 8 (7*8=56). Если общий документ находится в Топ-3 обеих выдач (например, 2*3=6), порог не будет достигнут, и система посчитает запросы слишком близкими. Высокий порог гарантирует, что связь между запросами слабая.

Как этот патент влияет на стратегию создания контента?

Он подтверждает необходимость фокусироваться на предельной точности удовлетворения интента. Ранжирующие модели Яндекса специально обучены штрафовать контент, который является лишь косвенно релевантным. Стратегия создания широких обзорных статей, пытающихся охватить множество смежных интентов, становится менее эффективной по сравнению с созданием узкоспециализированных страниц под конкретные потребности.

Может ли мой сайт стать «негативным примером» из-за этого патента?

Да, это возможно. Если ваша страница оптимизирована под Запрос А, но также часто появляется в выдаче по слабо связанному Запросу Б (например, из-за широкой тематики), система может использовать вашу страницу как негативный пример для Запроса Б. Это не пессимизация сайта в целом, а механизм обучения модели тому, что ваша страница нерелевантна Запросу Б.

Как определить, считает ли Яндекс два запроса слабо связанными?

Косвенным признаком может служить анализ SERP Similarity. Если по двум запросам Топ-10 сильно различается, а общие документы (если они есть) находятся за пределами Топ-7 (как следует из порога 50), вероятно, Яндекс считает связь между ними слабой. Это сигнал к тому, что для этих запросов нужны разные страницы.

Влияет ли этот патент на важность поведенческих факторов?

Да, косвенно. Оба описанных метода полностью полагаются на данные из логов поиска и взаимодействия пользователей (клики, позиции в выдаче) для генерации обучающих выборок. Качество поведенческих данных напрямую определяет качество обучения ранжирующих моделей.

Какие модели (MLA) обучаются с помощью этих методов?

В патенте упоминаются нейронные сети (Neural Networks). На практике это могут быть основные ранжирующие модели Яндекса, включая как модели на основе градиентного бустинга (CatBoost), так и глубокие семантические модели (например, трансформеры типа YATI), для которых генерация качественных негативных примеров особенно важна.