Как Яндекс генерирует «сложные» отрицательные примеры для обучения моделей ранжирования

Патент описывает два метода генерации отрицательных обучающих примеров для моделей ранжирования. Яндекс строит граф связей между запросами и документами на основе поведения пользователей. Документы, находящиеся далеко в графе от исходного запроса, или документы, популярные по одному запросу, но нерелевантные другому связанному запросу, используются как примеры нерелевантности. Это позволяет обучать модель лучше различать релевантный и нерелевантный контент.

Описание

Какую задачу решает

Патент решает фундаментальную задачу в обучении алгоритмов машинного обучения (MLA) для ранжирования — генерацию качественных отрицательных обучающих примеров (Negative Training Examples). Положительные примеры (релевантные документы) легко получить из логов (например, клики пользователей). Однако генерация отрицательных примеров сложнее. Использование случайных документов в качестве негативных примеров неэффективно. Патент предлагает методы для автоматизированного поиска «трудных негативов» (Hard Negatives) — документов, которые являются качественными и релевантными для каких-то других запросов, но точно нерелевантны для обучаемого запроса.

Что запатентовано

Запатентованы способы и система для формирования обучающих наборов (Training Sets) для MLA, используемых в поиске. Суть изобретения заключается в использовании структуры взаимосвязей между запросами и документами, основанной на поведении пользователей в логах поиска, для идентификации отрицательных примеров. Предлагаются два основных метода: один основан на обходе графа «запрос-документ», а второй — на анализе позиций общих документов в разных поисковых выдачах (SERP).

Как это работает

Система использует два ключевых механизма для генерации отрицательных примеров:

Метод обхода графа: Строится граф, связывающий запросы с документами, на которые кликали пользователи, и наоборот. Для генерации негативного примера для Запроса А система совершает несколько переходов по этому графу (например, Запрос А -> Документ 1 -> Запрос Б -> Документ 2 и т.д.). Документ, находящийся на значительном расстоянии (например, 5-9 шагов) от исходного Запроса А, считается нерелевантным для него и используется как отрицательный пример.
Метод произведения позиций: Система находит два разных запроса (А и Б), которые имеют общий документ в выдаче. Если произведение позиций этого общего документа в обеих выдачах велико (например, позиция 5 в SERP А * позиция 11 в SERP Б = 55), это указывает на слабую связь между запросами. В этом случае документ с наилучшим взаимодействием по Запросу А используется как отрицательный пример для Запроса Б.

Актуальность для SEO

Высокая. Качество обучающих данных напрямую определяет эффективность работы алгоритмов ранжирования (таких как CatBoost или YATI). Автоматизированная генерация «трудных негативов» является критически важной задачей для всех современных поисковых систем, стремящихся повысить точность определения релевантности.

Важность для SEO

Влияние на SEO низкое (4/10) и косвенное. Патент описывает внутренние процессы обучения моделей Яндекса, а не сам процесс ранжирования в реальном времени. Он не вводит новых факторов ранжирования. Однако его реализация ведет к созданию более «умной» и точной ранжирующей модели, которая лучше различает тонкие грани релевантности и эффективнее отсеивает документы, не соответствующие интенту запроса, даже если они высокого качества.

Детальный разбор

Термины и определения

MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Алгоритм (например, CatBoost, нейронная сеть), используемый поисковой системой для ранжирования результатов. Цель патента — обучение этого алгоритма.
Negative Training Example (Отрицательный обучающий пример): Пара «запрос-документ», размеченная как нерелевантная. Используется для обучения MLA тому, какие документы не следует показывать высоко.
Positive Training Example (Положительный обучающий пример): Пара «запрос-документ», размеченная как релевантная. Часто формируется на основе кликов пользователей.
Search Log (Журнал поиска): База данных, регистрирующая действия пользователей: отправленные запросы, показанные SERP, клики и другие взаимодействия-[0077].
SERP (Search Engine Results Page / Страница результатов поисковой системы): Страница с ранжированным списком документов, сформированная в ответ на запрос.
User Interaction Parameter (Параметр взаимодействия с пользователем): Метрика, указывающая на действия пользователя с документом в SERP. Примеры: событие «клика», время пребывания (Dwell Time), длительность наведения курсора, длинный/короткий клик.
Граф «Запрос-Документ» (Q-D Graph): Структура данных (граф или дерево), в которой узлы представляют собой запросы и документы, а ребра соединяют их на основе взаимодействий (например, запрос соединен с документами, показанными/выбранными в ответ на него).
Position Product (Произведение позиций): Метрика, используемая во втором методе. Рассчитывается как произведение ранговых позиций одного и того же документа в двух разных SERP.

Ключевые утверждения (Анализ Claims)

Патент содержит две основные группы независимых пунктов, описывающих два разных метода генерации отрицательных обучающих примеров.

Группа 1: Метод на основе графа (Claims 1, 18)

Claim 1 (Независимый пункт): Описывает способ формирования обучающего набора.

Извлечение из журнала поиска множества SERP (с запросами и документами).
Формирование графа, где узлы — это запросы и документы.
- Узел Запроса соединен с узлами Документов (показанных/выбранных по этому запросу).
- Узел Документа соединен с узлами Запросов (которые привели к показу/выбору этого документа).
Выбор поискового запроса для генерации отрицательного примера.
Идентификация соответствующего узла в графе.
Формирование отрицательного обучающего примера путем объединения этого запроса в пару с документом, расположенным в другом узле графа, который находится на расстоянии заранее заданного числа узлов от исходного узла.

Ключевые уточнения (Зависимые пункты 2-4, 7):

Заранее заданное число узлов (расстояние в графе) должно быть нечетным. Это гарантирует, что мы начинаем с Запроса и заканчиваем на Документе (Запрос -> Документ -> Запрос -> Документ…).
Рекомендуемое расстояние: случайное или заранее заданное число от 5 до 9.
При выборе конечного документа из множества узлов на заданном расстоянии предпочтение отдается документу с наибольшим параметром взаимодействия с пользователем. Это гарантирует выбор качественного документа («трудного негатива»).

Группа 2: Метод на основе произведения позиций (Claims 13, 20)

Claim 13 (Независимый пункт): Описывает альтернативный способ формирования обучающего набора.

Извлечение из журнала поиска двух SERP: SERP1 (для Запроса 1) и SERP2 (для Запроса 2).
Условие: Обе SERP содержат один и тот же общий документ (D_common). Он находится на Позиции 1 в SERP1 и на Позиции 2 в SERP2.
Идентификация на SERP1 результата поиска с наибольшим взаимодействием (D_best1).
Расчет произведения позиций: P = Позиция 1 * Позиция 2.
Формирование отрицательного обучающего примера, если P превышает заранее заданное пороговое значение.
Отрицательный пример: Пара (Запрос 2, D_best1).

Ключевые уточнения (Зависимый пункт 17):

Пример порогового значения: 50.
Логика метода: Высокое значение произведения означает, что общий документ ранжируется низко хотя бы в одной из выдач. Это указывает на то, что запросы связаны, но не очень близки. Следовательно, самый популярный документ для Запроса 1 вероятно является хорошим отрицательным примером для Запроса 2.

Где и как применяется

Важно понимать, что этот патент описывает Офлайн-процессы обучения моделей, а не обработку запросов в реальном времени. Он не применяется напрямую ни на одном из этапов онлайн-поиска (Crawling, Indexing, Query Processing, Ranking).

Обучение моделей ранжирования (Training Infrastructure)

Взаимодействие с компонентами: Система взаимодействует с базой данных журналов поиска (Search Log Database) и сервером обучения (Training Server).
Данные на входе: Множество исторических SERP, включающих поисковые запросы, списки показанных документов, их позиции и параметры взаимодействия с пользователем (клики, время пребывания и т.д.).
Данные на выходе: Обучающий набор (Training Set) — список пар «запрос-документ», размеченных как положительные или отрицательные примеры. Этот набор затем используется для обучения основного алгоритма ранжирования (например, CatBoost/YATI).

На что влияет

Патент влияет на качество и точность основного алгоритма ранжирования Яндекса. Поскольку методы направлены на генерацию высококачественных отрицательных примеров, обученная модель становится лучше в различении релевантного и нерелевантного контента во всех типах запросов, нишах и форматах контента.

Точность определения релевантности: Модель, обученная на «трудных негативах» (качественных документах, нерелевантных конкретному запросу), учится более точно определять соответствие интенту, а не просто наличие ключевых слов или общее качество документа.

Когда применяется

Алгоритмы применяются в процессе подготовки данных для обучения или переобучения моделей ранжирования.

Временные рамки: Офлайн, периодически (например, ежедневно или еженедельно) при обработке накопленных логов поиска.
Условия работы: Наличие достаточного объема данных в журнале поиска для построения графа взаимодействий или нахождения пересечений в SERP.

Пошаговый алгоритм

Патент описывает два независимых способа.

Способ 1: Генерация негативных примеров на основе графа

Сбор данных: Извлечение множества SERP (запросы, документы, взаимодействия) из базы данных журнала поиска.
Построение графа: Формирование графа (или дерева), где узлы — это запросы и документы. Ребра строятся на основе взаимодействий (Запрос связан с показанными/выбранными Документами, и наоборот).
Выбор исходного запроса: Идентификация узла Запроса (Q_start) для генерации примера.
Определение расстояния: Выбор заранее заданного нечетного числа узлов (N) для обхода графа (например, N=7, диапазон 5-9).
Обход графа: Траверс графа от Q_start на расстояние N. Идентификация множества конечных узлов (Документов).
Выбор негативного документа: Из множества конечных узлов выбирается документ (D_neg). В предпочтительном варианте выбирается узел с наибольшим параметром взаимодействия с пользователем.
Формирование примера: Создание пары (Q_start, D_neg) в качестве отрицательного обучающего примера.

Способ 2: Генерация негативных примеров на основе произведения позиций

Сбор данных: Извлечение данных из журнала поиска.
Поиск пересечений: Идентификация двух разных запросов (Q1 и Q2) и соответствующих им SERP (SERP1 и SERP2), которые содержат хотя бы один общий документ (D_common).
Определение позиций: Фиксация позиции D_common в SERP1 (Pos1) и в SERP2 (Pos2).
Расчет произведения: Вычисление $P = Pos1 \cdot Pos2$.
Проверка порога: Сравнение P с заранее заданным порогом (например, 50). Если P превышает порог, процесс продолжается.
Идентификация лучшего документа: Определение документа с наибольшим взаимодействием на SERP1 (D_best1).
Формирование примера: Создание пары (Q2, D_best1) в качестве отрицательного обучающего примера. (Также может быть создана пара (Q1, D_best1) как положительный пример).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются для построения графа и для идентификации документов с наибольшим взаимодействием. В патенте упоминаются:
- Событие «клика» (проигрыш/выигрыш).
- Время пребывания (Dwell time).
- Длительность наведения курсора.
- Длинный/короткий «клик».
Системные данные (Логи):
- Поисковые запросы.
- Структура SERP (список документов, показанных в ответ на запрос).
- Позиции документов в SERP.

Контентные, ссылочные, технические и другие факторы непосредственно в описанных алгоритмах генерации обучающих наборов не используются.

Какие метрики используются и как они считаются

Параметр взаимодействия с пользователем: Агрегированная метрика поведенческих сигналов для документа. Используется для выбора наиболее качественных документов при генерации примеров.
Расстояние в графе (Число узлов/Хоп): Количество переходов (ребер) между двумя узлами в графе «Запрос-Документ». Используется в Способе 1. Ключевое условие — расстояние должно быть нечетным (предпочтительно 5-9).
Произведение позиций (Position Product): Рассчитывается как $Pos1 \cdot Pos2$. Используется в Способе 2 как индикатор слабой связи между двумя запросами, имеющими общий документ.
Пороговое значение для произведения позиций: Заранее заданное значение (например, 50). Если произведение позиций выше порога, активируется генерация негативного примера.

Выводы

Это патент об обучении, а не о ранжировании: Патент описывает инфраструктуру подготовки данных для машинного обучения Яндекса. Он не описывает, как происходит ранжирование в реальном времени, и не вводит новых факторов ранжирования.
Цель — генерация «Трудных Негативов» (Hard Negatives): Яндекс стремится обучать свои модели не на случайных нерелевантных документах, а на качественных документах, которые, тем не менее, не отвечают на конкретный запрос. Это достигается выбором документов с высокими параметрами взаимодействия, но далеких от исходного запроса в графе поведения.
Поведенческие данные как основа структуры поиска: Оба метода полагаются на анализ логов поведения пользователей (клики, взаимодействия). Это подтверждает, что Яндекс видит структуру веба через призму того, как пользователи переходят от запросов к документам и обратно.
Два способа оценки нерелевантности: Патент предлагает два взгляда на нерелевантность: (1) Дистанция в графе взаимодействий (если нужно пройти много шагов через разные запросы и документы, связь слабая); (2) Позиционный анализ (если общий документ ранжируется низко, запросы слабо связаны).
Косвенное влияние на SEO: Реализация патента приводит к созданию более точной и устойчивой к манипуляциям модели ранжирования, которая лучше понимает интент пользователя и строже оценивает релевантность контента.

Практика

Best practices (это мы делаем)

Патент описывает внутренние процессы Яндекса по обучению моделей и не дает прямых тактических рекомендаций для SEO. Однако понимание того, как обучается модель ранжирования, позволяет скорректировать стратегию.

Усиление четкой тематической фокусировки: Модель, обученная на «трудных негативах», лучше распознает документы, которые являются качественными, но нерелевантными запросу. Это подчеркивает важность создания контента с четким фокусом на целевом интенте и избегания размытия тематики.
Максимизация позитивных поведенческих сигналов: Параметры взаимодействия с пользователем (клики, вовлеченность) используются в патенте для идентификации качественных документов, которые затем служат обучающими примерами. Высокие поведенческие метрики критически важны для того, чтобы ваш контент участвовал в обучении как положительный пример для релевантных запросов.
Построение Topical Authority: Создание авторитетного ресурса в рамках одной тематики укрепляет связи в графе «Запрос-Документ» для релевантного кластера запросов и увеличивает дистанцию до нерелевантных тем, что помогает модели правильно классифицировать контент.

Worst practices (это делать не надо)

Создание «Бриколажного» контента: Попытки охватить слишком много разнородных интентов в рамках одного документа или сайта могут привести к тому, что модель ранжирования, обученная по этому патенту, будет эффективнее классифицировать такой контент как нерелевантный для конкретных запросов.
Игнорирование поведенческих факторов: Если контент не генерирует сильных сигналов взаимодействия, он не будет использоваться в качестве эталона качества при обучении моделей (ни как положительный пример, ни как «трудный негатив»).
Оптимизация под тематику, а не под интент: Создание контента, который тематически близок к запросу, но не решает задачу пользователя. Например, статья «История iPhone» по запросу «Купить iPhone». Описанные методы идентифицируют такие пары как отрицательные примеры.

Стратегическое значение

Патент подтверждает фундаментальную роль поведенческих факторов в экосистеме Яндекса. Эти данные не просто используются как факторы ранжирования, но и лежат в основе обучения самих алгоритмов ранжирования. Для SEO это означает, что долгосрочная стратегия должна быть направлена на реальное удовлетворение потребностей пользователей и формирование сильных поведенческих паттернов, так как именно они определяют, как Яндекс интерпретирует релевантность.

Практические примеры

Примеры иллюстрируют, как система генерирует обучающие данные.

Пример 1: Метод обхода графа

Исходный запрос (Q_start): «Ремонт АКПП BMW X5».
Обход графа (Расстояние 5):
- Шаг 1 (Документ): Сайт автосервиса (высокое взаимодействие по Q_start).
- Шаг 2 (Запрос): «Отзывы об автосервисе».
- Шаг 3 (Документ): Страница отзывов на Яндекс Картах.
- Шаг 4 (Запрос): «Лучшие рестораны рядом с метро». (Пользователь искал, где поесть рядом с сервисом).
- Шаг 5 (Документ D_neg): Сайт ресторана (высокое взаимодействие по Шагу 4).
Результат (Отрицательный пример): Пара («Ремонт АКПП BMW X5», Сайт ресторана). Это «трудный негатив», так как сайт ресторана качественный, но абсолютно нерелевантен ремонту АКПП.

Пример 2: Метод произведения позиций

Запрос 1 (Q1): «Купить айфон 15 про макс».
Запрос 2 (Q2): «История компании Apple».
Общий документ (D_common): Статья в Википедии об Apple.
Позиции: D_common на Поз. 40 в SERP1 (Q1) и на Поз. 2 в SERP2 (Q2).
Расчет: $40 \cdot 2 = 80$. Порог (50) превышен. Запросы связаны, но слабо.
Лучший документ Q1 (D_best1): Страница товара в М.Видео (максимальное взаимодействие по Q1).
Результат (Отрицательный пример): Пара («История компании Apple», Страница товара в М.Видео). Модель учится, что коммерческие страницы нерелевантны историческим запросам.

Вопросы и ответы

Влияет ли этот патент напрямую на ранжирование моего сайта?

Нет, напрямую не влияет. Этот патент описывает не алгоритм ранжирования, а способ генерации обучающих данных (датасета) для этого алгоритма. Он работает офлайн, подготавливая данные для обучения моделей. Однако косвенное влияние велико: чем качественнее обучающие данные, тем точнее работает финальная модель ранжирования Яндекса.

Что такое «отрицательный обучающий пример» и почему он важен?

Отрицательный обучающий пример — это пара «запрос-документ», которая точно является нерелевантной. Они необходимы для обучения модели машинного обучения (например, CatBoost) тому, что НЕ нужно показывать пользователю. Без качественных отрицательных примеров модель не сможет точно определить границы релевантности.

Что такое «трудные негативы» (Hard Negatives), о которых идет речь в патенте?

Это документы высокого качества, которые имеют высокие показатели пользовательского взаимодействия по каким-то запросам, но при этом являются нерелевантными для обучаемого запроса. Патент фокусируется на поиске именно таких примеров (например, качественный сайт ресторана как негатив для запроса о ремонте авто). Обучение на них эффективнее, чем на случайных документах низкого качества.

Как работает метод обхода графа «Запрос-Документ»?

Яндекс строит граф, связывающий запросы с документами, на которые кликали пользователи. Чтобы найти негативный пример для Запроса А, система «шагает» по этому графу через связанные документы и запросы. Если документ находится далеко (например, на расстоянии 5-9 шагов) от исходного Запроса А, он считается нерелевантным для него, и используется для обучения.

Почему в методе обхода графа используется нечетное число шагов (5, 7, 9)?

Граф чередует типы узлов: Запрос (Шаг 0) -> Документ (Шаг 1) -> Запрос (Шаг 2) -> Документ (Шаг 3) и так далее. Поскольку обучающий пример — это пара (Запрос, Документ), необходимо, чтобы обход начинался на узле Запроса и заканчивался на узле Документа. Это возможно только при нечетном количестве шагов.

Как работает метод «произведения позиций»?

Система находит два разных запроса (Q1 и Q2), у которых есть общий документ в выдаче. Она умножает позиции этого документа в обеих выдачах (Pos1 * Pos2). Если результат больше 50 (например, позиции 5 и 11, или 2 и 26), это означает, что документ ранжируется низко хотя бы в одной из выдач. В этом случае система берет самый кликабельный документ из Q1 и помечает его как отрицательный пример для Q2.

Какие поведенческие факторы использует эта система?

Патент упоминает клики, время пребывания на сайте (Dwell Time), длительность наведения курсора и соотношение длинных/коротких кликов. Эти метрики используются для определения «Параметра взаимодействия с пользователем», который помогает выбрать наиболее качественные документы для обучающих примеров.

Как я могу использовать этот патент в своей SEO-стратегии?

Вы не можете напрямую оптимизировать под этот алгоритм. Однако он подчеркивает необходимость четкой тематической специализации и высокого качества контента. Модель Яндекса, обученная таким образом, будет лучше отличать качественный, но нерелевантный контент. Убедитесь, что ваш контент максимально точно соответствует целевому интенту и генерирует сильные поведенческие сигналы.

Может ли мой качественный контент быть использован как отрицательный пример?

Да, именно в этом суть патента. Если у вас отличная статья про выращивание орхидей, система может использовать ее как отрицательный пример для запроса «как выбрать ноутбук». Это нормально и не влияет на ранжирование вашей статьи по релевантным запросам. Это лишь помогает Яндексу обучить модель тому, что статья про орхидеи не является ответом на запрос о ноутбуках.

Патент старый (подача 2020)? Актуален ли он?

Для патентов в области машинного обучения 2020 год — это актуально. Описанные методы генерации обучающих выборок являются фундаментальными и не теряют своей актуальности. Они лежат в основе подготовки данных для современных моделей ранжирования, включая те, что используют трансформеры (YATI).