Как Яндекс генерирует «сложные негативные» примеры для обучения ранжирующих моделей

Яндекс патентует методы генерации высококачественных негативных примеров для обучения алгоритмов ранжирования. Вместо случайных нерелевантных документов система использует графы поведения пользователей и анализ позиций в выдаче для поиска «сложных негативов» — документов, которые популярны и контекстуально связаны с запросом через цепочку поисков, но при этом нерелевантны исходному интенту. Это позволяет точнее обучать модели отличать релевантный контент от близкого по теме, но не отвечающего на запрос пользователя.

Описание

Какую задачу решает

Патент решает задачу повышения качества обучения алгоритмов машинного обучения (MLA), используемых в ранжировании. Основная проблема, которую устраняет изобретение, — низкая эффективность использования случайных документов в качестве негативных примеров при обучении. Случайные примеры часто слишком очевидно нерелевантны, что не позволяет модели научиться тонким различиям между релевантным контентом и контентом, который может показаться связанным, но не отвечает на запрос пользователя («сложные негативы» или Hard Negatives). Патент предлагает методы генерации более качественных негативных обучающих примеров.

Что запатентовано

Запатентованы методы автоматизированной генерации обучающих наборов данных (training set), конкретно — негативных примеров (negative training examples) для MLA. Суть изобретения заключается в использовании структуры поисковых логов и поведенческих данных для идентификации пар «запрос-документ», которые являются нерелевантными, но при этом полезными для обучения. Представлены два основных метода: один основан на обходе графа «запрос-документ», другой — на анализе позиций общих документов в разных выдачах.

Как это работает

Система использует два ключевых механизма для генерации негативных примеров:

Графовый метод: Строится граф, связывающий запросы и документы на основе истории выдач и кликов. Для исходного запроса система ищет документы, находящиеся на значительном расстоянии (например, 5-9 шагов) в этом графе. Логика в том, что такие документы связаны с исходным запросом через длинную цепочку промежуточных взаимодействий, что делает их контекстуально связанными, но нерелевантными исходному интенту.
Метод произведения позиций: Система находит два разных запроса (Q1 и Q2), в выдаче которых присутствует один и тот же общий документ. Если произведение позиций этого общего документа в обеих выдачах велико (т.е. он ранжируется низко), это указывает на слабую связь между Q1 и Q2. В этом случае документ, который был наиболее кликабельным для Q1, используется как негативный пример для Q2.

Актуальность для SEO

Высокая. Качество обучающих данных, особенно генерация «сложных негативов» (hard negatives), является критически важной задачей для обучения современных моделей ранжирования, включая нейронные сети (например, YATI) и градиентный бустинг (CatBoost). Описанные методы использования поведенческих графов и анализа SERP для майнинга обучающих данных актуальны для любой крупной поисковой системы.

Важность для SEO

Влияние на SEO опосредованное, но значительное (7/10). Патент не вводит новые факторы ранжирования, но описывает, как Яндекс улучшает свои основные алгоритмы ранжирования. Чем лучше система обучена на сложных негативных примерах, тем точнее она сможет отличать действительно релевантный контент от контента, который лишь поверхностно или контекстуально связан с запросом. Это повышает требования к точности попадания в интент пользователя и снижает эффективность стратегий, основанных на широком охвате смежных тем без глубокого ответа на целевой запрос.

Детальный разбор

Термины и определения

Graph (Граф): Структура данных, отображающая связи между множеством документов и множеством запросов из поисковых логов. Узлы графа представляют собой запросы или документы. Связь между узлами может означать, что документ был показан или кликнут в ответ на запрос. Граф может быть представлен в виде дерева (data tree) или веб-подобной структуры (web-like graph).
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Алгоритм (например, модель ранжирования), который требует обучения на позитивных и негативных примерах для предсказания релевантности.
Most Interacted Search Result (Наиболее взаимодействуемый результат поиска): Документ в SERP, с которым пользователи взаимодействовали наиболее активно (например, кликнули или провели на нем наибольшее время). Используется как эталон релевантности для данного запроса.
Negative Training Example (Негативный обучающий пример): Пара «запрос-документ», маркированная как нерелевантная. Используется для обучения MLA тому, какие документы не следует ранжировать высоко по данному запросу.
Search Log Database (База данных поисковых логов): Хранилище исторических данных о запросах, сгенерированных SERP и взаимодействиях пользователей с ними.
SERP (Search Engine Result Page / Страница результатов поиска): Страница, сгенерированная поисковой системой в ответ на запрос.
User Interaction Parameter (Параметр взаимодействия пользователя): Метрика, указывающая на тип и интенсивность взаимодействия пользователя с документом в SERP. Примеры: клик (click event), время наведения курсора (hovering time), dwell time.

Ключевые утверждения (Анализ Claims)

Патент содержит два независимых блока Claims, описывающих два разных метода генерации негативных обучающих примеров.

Метод 1: Графовый метод (Claim 1, Независимый пункт)

Описывается метод генерации обучающего набора с использованием графа взаимодействий.

Система извлекает из логов множество SERP, запросов и документов.
Строится граф, отображающий связи между запросами и документами (если документ был ассоциирован с запросом – показан или кликнут).
Выбирается целевой запрос для генерации негативного примера.
Генерируется негативный обучающий пример путем соединения этого запроса с документом, который находится в другом узле графа, расположенном на заранее определенном количестве узлов (pre-determined number of nodes) от исходного узла запроса.

Claims 2, 3, 4 (Зависимые пункты): Уточняют расстояние в графе.

Расстояние должно быть нечетным числом (odd number), выбранным в диапазоне от пяти до девяти. Поскольку граф двудольный (Запрос -> Документ -> Запрос…), нечетное расстояние гарантирует, что путь от Запроса закончится на Документе. Расстояние 5-9 достаточно велико, чтобы гарантировать нерелевантность, но достаточно мало, чтобы сохранить контекстуальную связь.

Claim 7 (Зависимый пункт): Уточняет выбор документа-кандидата.

Если на заданном расстоянии находится несколько документов, выбирается тот, у которого наивысший параметр взаимодействия пользователя (highest user interaction parameter). Это ключевой аспект для генерации «сложных негативов»: система выбирает популярный/качественный документ, который при этом нерелевантен данному конкретному запросу.

Метод 2: Метод произведения позиций (Claim 13, Независимый пункт)

Описывается метод, основанный на анализе позиций ранжирования в исторических SERP.

Система извлекает из логов две SERP: SERP1 (для запроса Q1) и SERP2 (для запроса Q2).
Идентифицируется общий документ (D_common), присутствующий в обеих выдачах на позициях Pos1 и Pos2 соответственно.
В SERP1 идентифицируется наиболее взаимодействуемый результат (most interacted search result) (D_max_interact).
Вычисляется произведение позиций: Product = Pos1 * Pos2.
Если произведение превышает заранее определенный порог (predetermined threshold), генерируется негативный обучающий пример: Запрос Q2 спаривается с D_max_interact.

Claim 17 (Зависимый пункт): Порог установлен на значении пятьдесят (fifty).

Если общий документ ранжируется низко (например, на 6-й и 9-й позициях, $6 \times 9=54 > 50$), это значит, что запросы Q1 и Q2 слабо связаны по интенту. Следовательно, то, что было лучшим ответом для Q1 (D_max_interact), вероятно, является плохим ответом (негативным примером) для Q2.

Где и как применяется

Этот патент описывает исключительно офлайн-процессы, связанные с подготовкой данных для машинного обучения. Он не применяется в реальном времени во время обработки запроса пользователя.

Применение происходит на этапе Обучения Ранжирующей Модели (Training Phase), который поддерживает работу слоя RANKING.

Взаимодействие с компонентами:

Система взаимодействует с Search Log Database для получения исторических данных.
Результат работы системы (сгенерированный Training Set) используется для обучения MLA (например, моделей CatBoost или YATI), которые затем будут использоваться для ранжирования.

Данные на входе: Исторические данные о запросах, сгенерированных SERP, позициях документов в SERP и взаимодействиях пользователей (клики, dwell time и т.д.).

Данные на выходе: Обучающий набор, содержащий пары «запрос-документ», размеченные как негативные примеры (и, опционально, позитивные примеры).

На что влияет

Патент влияет на качество и точность основной модели ранжирования.

Точность определения релевантности: Улучшенное обучение на сложных негативных примерах помогает модели лучше различать тонкие нюансы релевантности. Модель учится отличать релевантное от контекстуально близкого, но не отвечающего на интент.
Все типы контента и запросов: Методы универсальны и не зависят от типа контента, тематики или языка, поскольку основаны на структурных и поведенческих данных (графы и позиции), а не на анализе содержания.

Когда применяется

Алгоритмы применяются периодически в процессе переобучения или обновления основных моделей ранжирования поисковой системы (офлайн).

Пошаговый алгоритм

Патент описывает два отдельных алгоритма.

Алгоритм 1: Графовый метод генерации негативных примеров

Сбор данных: Извлечение множества SERP, запросов и связанных с ними документов из базы данных поисковых логов.
Построение графа: Генерация графа, где узлы — это запросы и документы. Ребра соединяют запрос с документами, которые были с ним ассоциированы (показаны/кликнуты).
Выбор исходного запроса: Идентификация запроса (Q_start), для которого нужно сгенерировать негативный пример.
Определение расстояния: Выбор целевого расстояния обхода (N). Условие: N должно быть нечетным числом (рекомендуемый диапазон 5-9).
Обход графа: Поиск всех узлов документов (D_target), находящихся на расстоянии N шагов от Q_start.
Фильтрация и выбор кандидата: Если найдено несколько документов D_target, выбирается один. Критерий выбора: документ с наивысшим параметром взаимодействия пользователя (например, самый кликабельный в своем контексте).
Генерация примера: Формирование пары (Q_start, D_target) как негативного обучающего примера.

Алгоритм 2: Метод произведения позиций

Сбор данных: Извлечение данных из поисковых логов.
Идентификация общих документов: Поиск пар запросов (Q1, Q2) и соответствующих им SERP (SERP1, SERP2), которые содержат хотя бы один общий документ (D_common).
Получение позиций: Определение позиции D_common в SERP1 (Pos1) и в SERP2 (Pos2).
Идентификация лучшего документа: Определение документа с наибольшим количеством взаимодействий (D_max_interact) в SERP1.
Вычисление произведения: Расчет Product = Pos1 * Pos2.
Проверка порога: Сравнение Product с порогом (например, 50).
Генерация примера: Если Product превышает порог, формирование пары (Q2, D_max_interact) как негативного обучающего примера. (Опционально: формирование пары (Q1, D_max_interact) как позитивного примера).

Какие данные и как использует

Данные на входе

Система использует исключительно данные из поисковых логов (Search Log Database).

Поведенческие факторы: Критически важны для обоих методов. Используются параметры взаимодействия пользователя (User Interaction Parameter): клики (click event), время наведения (hovering time), dwell time. Эти данные используются для идентификации most interacted search result (Метод 2) и для выбора наиболее популярного документа в качестве кандидата (Метод 1).
Структурные данные (SERP): Состав SERP для разных запросов, идентификаторы документов в них.
Технические факторы (Позиции): Ранг (позиция) документа в конкретной исторической SERP (используется в Методе 2).

Важно отметить, что патент не использует контентные, ссылочные или технические факторы самих документов (текст, ссылки, скорость загрузки и т.д.) для генерации этих обучающих примеров. Методы основаны исключительно на структуре связей и поведении пользователей.

Какие метрики используются и как они считаются

Расстояние в графе (Pre-determined number of nodes): Количество ребер (шагов) между исходным узлом запроса и целевым узлом документа в двудольном графе Запрос-Документ.
Произведение позиций (Product of the first position and the second position): Метрика, рассчитываемая как $Pos1 \times Pos2$, где Pos1 и Pos2 — позиции одного и того же документа в двух разных SERP. Используется как индикатор слабой связи между двумя запросами.
Порог произведения (Predetermined threshold): Константа, используемая для срабатывания Метода 2. В патенте указано значение 50.
User Interaction Parameter: Агрегированные метрики поведения (клики, dwell time), используемые для определения популярности документа.

Выводы

Фокус на «Сложных Негативах» (Hard Negatives): Яндекс активно работает над улучшением качества обучающих данных, признавая, что случайные негативные примеры неэффективны. Цель — найти документы, которые могут запутать модель (контекстуально близкие, но нерелевантные, или высококачественные, но не по теме), и использовать их для обучения.
Поведенческие данные как источник истины о релевантности: Оба метода полностью полагаются на анализ поисковых логов, структуру SERP и поведение пользователей (клики, позиции). Это подтверждает, что для Яндекса поведенческие сигналы являются основой для понимания и измерения релевантности.
Граф поведения пользователей: Яндекс строит и использует граф, связывающий запросы и документы на основе совместных показов и кликов. Расстояние в этом графе используется как мера семантической удаленности интентов.
Использование позиций для оценки связи запросов: Метод произведения позиций — это способ оценить близость двух запросов. Если общий документ ранжируется низко в обеих выдачах, запросы считаются слабо связанными по интенту.
Повышение точности ранжирования: Внедрение этих методов ведет к созданию более точных моделей ранжирования, которые лучше умеют отделять контент, точно отвечающий на запрос, от контента, который просто находится «где-то рядом» по теме.

Практика

Best practices (это мы делаем)

Прецизионная оптимизация под интент: Убедитесь, что контент максимально точно и четко отвечает на целевой запрос. Поскольку модели Яндекса обучаются отличать релевантный контент от контекстуально близкого (Метод 1), размытие темы или уход в смежные области может привести к тому, что ваш документ будет классифицирован как «сложный негатив» для исходного запроса.
Максимизация кликабельности и вовлеченности по целевым запросам: Высокий CTR и Dwell Time критически важны. Это определяет ваш документ как most interacted search result. Если ваш документ является лучшим ответом для Q1, система может использовать его как негативный пример для слабо связанных запросов Q2 (Метод 2), что помогает модели лучше понять специализацию вашего контента.
Анализ SERP для понимания связей между запросами: Изучайте выдачу по смежным запросам. Если вы видите, что по двум запросам есть общие документы, но они ранжируются низко (ниже 5-7 позиции), это может указывать на то, что Яндекс считает эти запросы слабо связанными (Метод 2). В этом случае не стоит пытаться агрессивно ранжироваться по обоим запросам одной страницей.
Создание качественного контента (Topical Authority): Создавайте контент, который привлекает много взаимодействий. Патент показывает (Claim 7), что система предпочитает использовать популярные документы (с высоким User Interaction Parameter) в качестве сложных негативных примеров. Это помогает обучать модель тому, что даже авторитетный контент может быть нерелевантным конкретному запросу.

Worst practices (это делать не надо)

Создание «размытого» контента для охвата широкой темы: Попытка охватить слишком много слабо связанных интентов на одной странице становится более рискованной. Если модель обучена на сложных негативах, она точнее определит, что такой контент не является лучшим ответом ни на один из этих интентов.
Игнорирование позиций в конце ТОП-10: Если ваш документ стабильно находится в конце ТОП-10 или за его пределами по запросам, где есть пересечения с другими выдачами, вы рискуете стать частью механизма, описанного в Методе 2 (произведение позиций > 50), что подтвердит слабую связь вашего контента с этими интентами.
Накрутка поведенческих факторов по нецелевым запросам: Попытки искусственно связать ваш документ с нерелевантными запросами через накрутку могут привести к тому, что ваш документ станет частым «сложным негативом» в обучающих выборках, что в долгосрочной перспективе ухудшит понимание моделью релевантности вашего сайта.

Стратегическое значение

Патент подтверждает стратегическую важность качества данных для машинного обучения в Яндексе. Он показывает, что Яндекс не просто использует сырые данные о кликах, но и применяет сложные эвристики (графы поведения, анализ позиций) для генерации более качественных обучающих выборок. Для SEO это означает, что система ранжирования становится все более точной и менее подверженной манипуляциям через поверхностную текстовую оптимизацию. Стратегия должна фокусироваться на создании контента, который демонстрирует четкую релевантность и генерирует сильные позитивные поведенческие сигналы именно по целевым запросам.

Практические примеры

Пример 1: Применение Графового метода (Метод 1)

Исходный запрос Q1: «купить iphone 15 pro max».
Граф взаимодействий (путь):
- Шаг 1 (D1): Клик на сайт магазина электроники.
- Шаг 2 (Q2): Этот сайт также показывается по запросу «лучшие беспроводные наушники».
- Шаг 3 (D2): По запросу Q2 кликают на обзор наушников Sony.
- Шаг 4 (Q3): Этот обзор также показывается по запросу «сравнение камер sony и canon».
- Шаг 5 (D3): По запросу Q3 кликают на популярную статью «Canon R5 против Sony A7IV».
Результат: Система определяет расстояние 5 шагов. Генерируется негативный пример: Запрос «купить iphone 15 pro max» и Документ «Canon R5 против Sony A7IV». Этот документ популярен и связан контекстуально (электроника), но нерелевантен покупке iPhone.

Пример 2: Применение Метода произведения позиций (Метод 2)

Запрос Q1: «рецепт борща классический».
Запрос Q2: «история русской кухни».
Общий документ D_common: Статья Википедии «Борщ».
Позиции: По Q1 статья на 6 месте (Pos1=6). По Q2 статья на 9 месте (Pos2=9).
Произведение: $6 \times 9 = 54$. Порог = 50. Условие $54 > 50$ выполнено.
Лучший документ для Q1 (D_max_interact): Пошаговый фото-рецепт борща на кулинарном сайте.
Результат: Система генерирует негативный пример: Запрос «история русской кухни» и Документ «Пошаговый фото-рецепт борща». Модель учится, что кулинарный рецепт нерелевантен историческому запросу.

Вопросы и ответы

Что такое «сложные негативы» (hard negatives) и почему они важны для Яндекса?

Сложные негативы — это документы, которые по каким-то признакам похожи на релевантные (например, относятся к той же широкой теме или являются авторитетными), но при этом не отвечают на конкретный интент пользователя. Обучение на таких примерах критически важно, так как оно позволяет модели ранжирования научиться тонким различиям в релевантности и не просто отличать релевантное от случайного шума, а точно определять лучший ответ среди множества похожих кандидатов.

Описывает ли этот патент новый алгоритм ранжирования?

Нет, этот патент не описывает алгоритм ранжирования, работающий в реальном времени. Он описывает офлайн-методы подготовки данных (генерации обучающих выборок) для тренировки существующих алгоритмов машинного обучения (MLA), которые затем используются в ранжировании. Это патент об улучшении процесса обучения, а не о самом ранжировании.

Что такое граф «запрос-документ», описанный в Методе 1?

Это структура данных, построенная на основе поисковых логов, которая связывает исторические запросы и документы. Если документ был показан или кликнут в ответ на запрос, между ними устанавливается связь (ребро). Этот граф позволяет увидеть, как пользователи переходят от одних тем к другим через общие документы, и используется для измерения семантического расстояния между запросами и документами на основе поведения.

Почему в графовом методе используется нечетное расстояние (5-9 шагов)?

Граф является двудольным: запросы ведут к документам, а документы — к запросам (Q->D->Q->D…). Нечетное расстояние гарантирует, что начав с запроса, мы закончим на документе. Расстояние 1 — это прямой клик (позитивный пример). Диапазон 5-9 выбран как оптимальный для поиска документов, которые достаточно удалены от исходного интента, чтобы быть нерелевантными, но все еще связаны контекстом.

Что означает порог 50 в Методе произведения позиций?

Этот порог используется для оценки связи между двумя запросами, имеющими общий документ в выдаче. Если произведение позиций этого документа велико (например, $5 \times 11=55$), это означает, что документ ранжируется относительно низко в одной или обеих выдачах. Это сигнализирует о том, что запросы слабо связаны по интенту, и позволяет использовать лучший результат одного запроса как негативный пример для другого.

Использует ли система анализ текста документа для генерации этих примеров?

Нет. Согласно патенту, оба описанных метода генерации негативных примеров основаны исключительно на анализе поисковых логов, структуры SERP, позиций документов и поведенческих данных (кликов). Анализ содержания документов (текст, ссылки и т.д.) для этой задачи не применяется.

Как этот патент влияет на требования к текстовой релевантности?

Он косвенно повышает требования. Чем лучше модель ранжирования обучена на сложных негативных примерах, тем точнее она будет определять релевантность. Это означает, что поверхностной оптимизации или простого наличия ключевых слов может быть недостаточно, если контент не попадает точно в интент. Модель будет лучше распознавать документы, которые контекстуально близки, но не отвечают на запрос.

Стоит ли мне пытаться оптимизировать страницу под два запроса, если я вижу пересечения в выдаче?

Нужно анализировать позиции общих документов. Если общие документы находятся высоко (топ-3) в обеих выдачах, то запросы близки и их можно объединять. Если же общие документы находятся низко (позиции 6-10 и ниже), то, согласно Методу 2, Яндекс считает эти запросы слабо связанными. В этом случае лучше создать отдельные страницы для каждого интента.

Почему система выбирает именно популярные документы в качестве негативных примеров?

В Claim 7 указано, что при выборе кандидата в графовом методе предпочтение отдается документу с наивысшим параметром взаимодействия (например, кликабельности). Использование популярных или авторитетных документов в качестве негативных примеров помогает обучить модель тому, что даже высококачественный контент может быть нерелевантным для конкретного запроса. Это делает обучение более эффективным.

Как я могу защитить свой сайт от того, чтобы он стал «негативным примером»?

Вы не можете и не должны пытаться этого избежать. Быть негативным примером в обучающей выборке — это не пессимизация. Это естественный процесс обучения модели. Если ваш сайт о рецептах популярен, он должен быть негативным примером для запроса об истории кухни. Ваша задача — быть максимально релевантным и получать максимум взаимодействий по своим целевым запросам, чтобы быть позитивным примером для них.