Как Яндекс обучает модели понимания запросов, используя «сложные отрицательные примеры» (Hard Negatives)

Яндекс патентует метод генерации высококачественных обучающих данных для алгоритмов машинного обучения (MLA), определяющих схожесть запросов по тексту. Система находит пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но ведут к разным результатам поиска и поведению пользователей. Эти пары используются как «сложные отрицательные примеры», обучая модель улавливать тонкие различия в интенте.

Описание

Какую задачу решает

Патент решает задачу повышения эффективности обучения алгоритмов машинного обучения (MLA), в частности тех, которые определяют семантическую схожесть поисковых запросов на основе их текста. Основная проблема — генерация качественных отрицательных обучающих примеров (Negative Training Examples). Использование случайных отрицательных примеров недостаточно эффективно (упоминается эффективность около 80%). Патент предлагает метод генерации «сложных» отрицательных примеров (Hard Negatives), которые заставляют модель лучше различать близкие по написанию, но разные по смыслу запросы.

Что запатентовано

Запатентован способ формирования обучающего набора данных, конкретно — генерации отрицательных примеров для обучения MLA. Суть изобретения заключается в автоматическом поиске пар запросов, которые имеют высокую степень текстового совпадения (например, отличаются одним термином), но низкую степень поведенческого сходства (определяемую по совпадению результатов поиска и действий пользователей). Эти пары формируют обучающие объекты, которые используются как отрицательные примеры.

Как это работает

Система анализирует логи поиска. Для исходного запроса находятся другие запросы, которые текстуально очень близки (отличаются на заданное малое количество терминов). Затем для этих пар рассчитывается оценка сходства (Similarity Score) на основе того, насколько пересекаются их результаты поиска (SERP) и как пользователи взаимодействуют с этими результатами (например, клики). Если оценка сходства низкая (ниже порога), несмотря на текстовую близость, эта пара запросов маркируется как отрицательный пример. Этот процесс позволяет генерировать данные, показывающие модели: «эти запросы выглядят похоже, но означают разное».

Актуальность для SEO

Высокая. Обучение современных нейросетевых моделей (таких как YATI) требует огромных объемов качественных данных. Методы генерации сложных отрицательных примеров (Hard Negative Mining) являются критически важными для повышения точности моделей семантического понимания текста (NLU) и улучшения качества ранжирования.

Важность для SEO

Влияние на SEO умеренно высокое (7/10). Это инфраструктурный патент, описывающий методы обучения моделей, а не сам алгоритм ранжирования. Однако он имеет важное стратегическое значение. Он демонстрирует, как Яндекс обучает свои системы улавливать тончайшие нюансы интента. Чем лучше обучены модели Яндекса (благодаря этому методу), тем точнее они будут отличать релевантный контент от контента, который лишь поверхностно соответствует запросу, что усложняет манипуляции и требует предельно точной оптимизации под интент.

Детальный разбор

Термины и определения

MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Алгоритм, который обучается на данных для выполнения задачи. В контексте патента основная задача MLA, для которого генерируются данные — определение сходства запросов на основе их текстового контента (Claim 1).
Отрицательный обучающий пример (Negative Training Example): Пример данных, используемый при обучении с учителем, который соответствует отсутствию целевых выходных данных. В данном случае — пара запросов, которые НЕ являются схожими по смыслу.
Сложный отрицательный пример (Hard Negative Example): Отрицательный пример, который трудно отличить от положительного. В данном патенте это пара запросов, которые текстуально очень похожи, но поведенчески различны. Они заставляют модель фокусироваться на критических различиях.
Оценка сходства (Similarity Score / Параметр сходства): Метрика, указывающая на степень поведенческого сходства между двумя запросами. Рассчитывается на основе схожести результатов поиска и параметров действий пользователя (Claim 1,).
Параметр действий пользователя (User Action Parameter): Поведенческие метрики, связанные с результатами поиска. Примеры: количество кликов, CTR, время пребывания (Dwell Time), глубина кликов и т.д. (Claim 13,).
Вектор запроса (Query Vector): Численное представление запроса, построенное на основе документов, показанных в ответ на этот запрос, и (опционально) взаимодействий пользователей с этими документами,. Используется для расчета Оценки сходства.
База данных журнала поиска (Search Log Database): Хранилище, содержащее Индекс, Журнал запросов (Query Log) и Журнал действий пользователей (User Interaction Log).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии создания обучающей выборки для MLA, который должен научиться определять схожесть запросов по тексту.

Claim 1 (Независимый пункт): Описывает основной способ формирования набора обучающих объектов (отрицательных примеров).

Система получает первый запрос (Q1), его результаты (R1) и связанные параметры действий пользователя (U1) из логов.
Система находит набор прошлых запросов (Q2_set), которые отличаются от Q1 на заранее заданное количество терминов (т.е. текстуально близки).
Для каждого Q2 из набора извлекаются его результаты (R2) и параметры действий (U2). При этом R2 должны отличаться от R1.
Рассчитывается Оценка сходства между Q1 и каждым Q2. Важно: расчет основан на R1, R2, U1 и U2 (поведенческое сходство).
Определяется подмножество запросов, чья Оценка сходства МЕНЬШЕ заранее заданного порога (т.е. поведенчески далеки).
Формируется набор обучающих объектов (Q1, Q2, Оценка сходства) для использования в качестве отрицательных обучающих примеров.

Claim 2 (Зависимый): Уточняет, что заранее заданное количество отличающихся терминов (из Claim 1) равно одному термину. Это подчеркивает фокус на генерации максимально сложных примеров (Hard Negatives).

Claim 8 (Зависимый): Описывает механизм расчета Оценки сходства (из Claim 1).

Формируется первый Вектор запроса для Q1 (на основе R1 и U1, см. Claim 9).
Формируется второй Вектор запроса для Q2 (на основе R2 и U2, см. Claim 10).
Оценка сходства рассчитывается на основе умножения косинусов углов (cosine similarity) между этими векторами.

Claim 16 (Независимый пункт): Альтернативное описание основного метода, фокусирующееся на цели оптимизации.

(Шаги аналогичны Claim 1).
Ключевой шаг: Определение подмножества запросов так, чтобы для пары (Q1, Q2) различие запросов (текстовое) было МИНИМИЗИРОВАННЫМ, а различие результатов поиска (поведенческое) было МАКСИМИЗИРОВАННЫМ.
Формирование набора обучающих объектов (отрицательных примеров).

Где и как применяется

Этот патент описывает Офлайн-процессы, связанные с обучением моделей машинного обучения, а не онлайн-обработку запросов пользователя.

Инфраструктура обучения ML (Training Pipeline)
Изобретение применяется на этапе подготовки данных (Data Preparation) для обучения алгоритмов, используемых в поиске. Система взаимодействует с Сервером обучения и Базой данных журнала поиска.

Взаимодействие компонентов:

На входе: Журнал запросов и Журнал действий пользователей.
Обработка: Сервер обучения выполняет алгоритм для идентификации пар запросов, расчета Векторов запросов и Оценок сходства.
На выходе: Набор обучающих объектов (Training Set), состоящий из отрицательных примеров (пары запросов и их оценка сходства).

Применение выходных данных:
Сгенерированный обучающий набор используется для тренировки MLA (например, нейронной сети/трансформера, такого как YATI), задача которого — предсказывать схожесть запросов только на основе их текста. Этот обученный MLA затем может использоваться на этапах QUERY PROCESSING (для понимания и расширения запроса) и RANKING (как часть семантических признаков) в основном контуре поиска.

На что влияет

Патент влияет на качество моделей понимания естественного языка (NLU) Яндекса.

Специфические запросы: Наибольшее влияние оказывается на запросы, где небольшое изменение формулировки радикально меняет интент (например, добавление уточняющего слова, изменение предлога или объекта). Например, и.
Точность определения интента: Повышает способность системы отличать контент, точно соответствующий интенту, от контента, который содержит нужные слова, но отвечает на близкий, но другой интент.

Когда применяется

Алгоритм применяется периодически в рамках цикла обучения и обновления моделей машинного обучения Яндекса.

Условия работы: Наличие достаточного объема накопленных данных в Журналах поиска для статистически значимого расчета поведенческого сходства.
Триггеры активации: Запуск процесса переобучения моделей (например, при обновлении архитектуры моделей или накоплении значительного объема новых логов).

Пошаговый алгоритм

Процесс формирования набора отрицательных обучающих примеров (на основе Claim 1 и FIG. 4).

Извлечение исходного запроса: Из базы данных журнала поиска извлекается первый запрос (Q1), его результаты поиска (R1) и связанные параметры действий пользователя (U1).
Поиск текстуально близких запросов: На основе терминов Q1 из логов извлекается набор прошлых запросов (Q2_set), которые отличаются от Q1 на заранее заданное количество терминов (например, на 1 термин, согласно Claim 2).
Извлечение данных для близких запросов: Для каждого запроса Q2 из набора извлекаются его результаты поиска (R2) и параметры действий пользователя (U2). Проверяется, что R2 отличаются от R1.
Расчет поведенческого сходства:
1. Формирование Вектора запроса V1 для Q1 (на основе R1 и U1).
2. Формирование Вектора запроса V2 для Q2 (на основе R2 и U2).
3. Расчет Оценки сходства (S12) между Q1 и Q2 путем сравнения V1 и V2 (например, через косинусную близость, согласно Claim 8).
Фильтрация (Идентификация отрицательных примеров): Определяется подмножество запросов, для которых Оценка сходства S12 меньше заранее заданного порога сходства. Это пары, которые текстуально близки (шаг 2), но поведенчески далеки (шаг 5).
Формирование обучающего набора: Создается набор обучающих объектов. Каждый объект содержит (Q1, Q2, S12) и используется как отрицательный пример для обучения MLA.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Тексты прошлых поисковых запросов. Используются для определения текстовой близости (сравнение терминов).
Поведенческие факторы: Критически важные данные для расчета поведенческого сходства. Используются данные из Журнала действий пользователей. Упомянуты: успех/неудача (выбор документа), время пребывания (Dwell Time), длинный/короткий клик. Также упомянуты агрегированные метрики: CTR, время сеанса, количество кликов на запрос и т.д.. Claim 13 конкретизирует параметры: количество кликов, CTR, время пребывания, глубина кликов, коэффициент «ненужных просмотров», среднее время на документе.
Системные данные: Наборы результатов поиска (SERP), показанные в ответ на прошлые запросы.

Какие метрики используются и как они считаются

Вектор запроса (Query Vector): Вектор, где измерения соответствуют документам (результатам поиска), а значения — метрикам взаимодействия пользователя. Значения могут быть бинарными (1, если действие есть или выше порога; 0, если нет) или численными (например, значение CTR).
Оценка сходства (Similarity Score): Рассчитывается как мера близости между Векторами запросов. Основной метод, указанный в Claim 8 — умножение косинусов углов (Cosine Similarity). Также упоминаются скалярное умножение и коэффициент корреляции Пирсона.
Текстовая близость: Определяется количеством отличающихся терминов между двумя запросами. Цель — минимизировать это различие (например, до 1 термина).
Поведенческое различие (Низкая степень совпадения результатов): Определяется, когда Оценка сходства ниже порога. Также описаны альтернативные критерии-[0044]:
- Отсутствие совпадающих документов или выбранных документов.
- Малое количество совпадающих документов.
- Совпадающие документы находятся на низких позициях.
- Формула, учитывающая средние позиции совпадающих URL:
  $POSITION\_COMMON\_URL(query1) * POSITION\_COMMON\_URL(query2) > const$
  (Если истинно, результаты считаются недостаточно релевантными обоим запросам. Например, const=50).

Выводы

Поведенческие данные как эталон (Ground Truth): Патент подтверждает, что Яндекс использует поведенческие данные (пересечение SERP и кликов) как основной источник истины для определения схожести запросов.
Цель — научить текст понимать поведение: Описанный механизм используется для обучения текстовых моделей (MLA) предсказывать поведенческое сходство. Текстовая модель учится аппроксимировать сложные поведенческие паттерны.
Фокус на «Сложных отрицательных примерах» (Hard Negatives): Ключевая инновация — автоматическая генерация пар запросов, которые выглядят почти идентично (например, разница в 1 слово), но имеют совершенно разный интент (поведенчески далеки). Это критически важно для точности NLU-моделей.
Чувствительность к нюансам формулировок: Обучение на таких примерах делает итоговую модель Яндекса (например, YATI) крайне чувствительной к предлогам, порядку слов и уточняющим терминам, если они меняют поведение пользователей.
Патент описывает инфраструктуру обучения, а не ранжирование: Это описание офлайн-процесса генерации обучающих данных, а не алгоритм, который напрямую влияет на позиции сайтов в реальном времени.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние процессы обучения моделей Яндекса, он дает важные стратегические инсайты.

Точное соответствие интенту: Убедитесь, что каждая страница точно соответствует конкретному интенту пользователя. Не пытайтесь ранжироваться по текстуально близким, но семантически разным запросам на одной странице. Система, обученная по этому методу, будет хорошо различать такие интенты.
Анализ SERP для определения границ интента: Тщательно анализируйте выдачу по близким запросам. Если состав выдачи и типы сайтов сильно различаются, это признак того, что Яндекс видит эти запросы как поведенчески разные (низкая Оценка сходства). Для них нужны отдельные страницы.
Оптимизация под поведенческие факторы: Поскольку поведение является эталоном (Ground Truth) для обучения моделей, критически важно максимизировать позитивные поведенческие сигналы (CTR, вовлеченность, решение задачи). Если пользователи не взаимодействуют с вашим контентом, он не будет формировать сильные Векторы запросов.
Использование точных формулировок в контенте: Учитывайте ключевые слова, которые дифференцируют интент (например, «купить» vs «отзывы», «своими руками» vs «заказать»). Система обучена придавать этим словам большой вес, если они меняют поведение.

Worst practices (это делать не надо)

Объединение разных интентов на одной странице: Попытка оптимизировать одну страницу под кластер запросов, которые имеют низкое поведенческое сходство (даже если они текстуально близки). Например, пытаться ранжировать страницу и по, и по.
Поверхностная текстовая оптимизация (Спам): Добавление ключевых слов в текст без учета контекста и интента. Модели, обученные различать сложные отрицательные примеры, с большей вероятностью распознают несоответствие контента реальному смыслу запроса.
Игнорирование различий в выдаче: Предполагать, что если запросы похожи по тексту, то и оптимизировать их нужно одинаково, не проверяя реальную выдачу и поведение пользователей.

Стратегическое значение

Патент подчеркивает стратегию Яндекса на глубокое понимание интента через машинное обучение, основанное на поведении. Он показывает, как Яндекс преодолевает ограничения чисто текстового анализа. Для SEO это означает, что эра оптимизации под ключевые слова окончательно уступила место оптимизации под интент и поведение. Способность Яндекса улавливать тонкие различия в запросах требует от SEO-специалистов аналогичной точности в создании и оптимизации контента. Долгосрочная стратегия должна фокусироваться на создании максимально полезного контента для четко определенных пользовательских задач.

Практические примеры

Сценарий 1: Генерация обучающих данных Яндексом

Исходный запрос (Q1):.
Поиск текстуально близкого запроса (Q2): Система находит (разница в 1 слово).
Анализ поведения: Система сравнивает Векторы запросов.
- По Q1 кликают на сайты-агрегаторы ресторанов и сайты самих ресторанов.
- По Q2 кликают на сайты бронирования и сайты отелей.
Расчет сходства: Пересечение кликов минимально. Оценка сходства низкая (например, 0.05).
Результат: Пара ([лучшие рестораны Москвы 2025],, 0.05) используется как сложный отрицательный пример.
Эффект обучения: Текстовая модель (MLA) учится, что слова «рестораны» и «отели» критически важны для определения интента в этом контексте и не являются взаимозаменяемыми.

Сценарий 2: Влияние на SEO-стратегию (Кластеризация)

Анализ запросов: Специалист анализирует и.
Проверка SERP: Выдача сильно отличается. По первому — визовые центры и услуги оформления. По второму — правила въезда, новости об ограничениях.
Вывод (на основе патента): Яндекс считает эти запросы разными (это был бы сложный отрицательный пример при обучении). Модель корректно предсказывает низкое сходство, несмотря на текстовую близость.
Действие: Создать две отдельные страницы для каждого интента.

Вопросы и ответы

Что такое «сложный отрицательный пример» (Hard Negative) в контексте этого патента?

Это пара поисковых запросов, которые имеют очень высокую степень текстового сходства (например, отличаются всего одним словом), но при этом ведут к совершенно разным результатам поиска и поведению пользователей. Пример: и. Они «сложные», потому что поверхностная текстовая модель может ошибочно посчитать их похожими из-за большого количества общих слов.

Какова основная цель этого изобретения?

Цель — повысить эффективность обучения алгоритмов машинного обучения (MLA), которые предсказывают схожесть запросов по их тексту. Вместо использования случайных отрицательных примеров, система генерирует высококачественные сложные отрицательные примеры. Это заставляет модель лучше улавливать тонкие различия в интенте пользователя и повышает точность понимания запросов.

Что Яндекс использует как эталон (Ground Truth) для определения схожести запросов?

Яндекс использует поведенческое сходство как эталон. Оно рассчитывается на основе того, насколько пересекаются результаты поиска по двум запросам и насколько похожи действия пользователей (клики, CTR, время пребывания) с этими результатами. Если пользователи кликают на разные сайты, запросы считаются разными, независимо от их текста.

Как рассчитывается Оценка сходства между запросами?

Для каждого запроса строится Вектор запроса. Этот вектор кодирует информацию о том, какие документы были показаны и как пользователи с ними взаимодействовали (например, значения CTR). Затем Оценка сходства рассчитывается путем сравнения этих векторов, например, с использованием косинусной близости (Cosine Similarity), как указано в Claim 8.

Влияет ли этот патент напрямую на ранжирование моего сайта?

Напрямую нет. Патент описывает офлайн-процесс подготовки данных для обучения моделей, а не онлайн-алгоритм ранжирования. Однако косвенное влияние значительно. Чем лучше обучены модели Яндекса благодаря этому методу, тем точнее они понимают интент запроса и тем выше требования к релевантности контента на вашем сайте.

Как этот патент влияет на стратегию работы с семантикой и кластеризацией?

Он подтверждает необходимость использования SERP Similarity (сходство выдачи) в качестве основного метода кластеризации. Текстовая близость запросов вторична. Если выдача по двум запросам разная, значит, Яндекс считает их поведенчески разными (это был бы «отрицательный пример» в терминах патента), и их нельзя объединять в один кластер и продвигать на одной странице.

Значит ли это, что Яндекс стал лучше понимать редкие слова или синонимы?

Да, этот метод обучения помогает улучшить понимание того, как конкретные слова влияют на смысл фразы. Система учится определять, какие слова являются критически важными для дифференциации интента (как «ресторан» vs «отель» в примере из патента), а какие являются взаимозаменяемыми синонимами или стоп-словами.

Какие поведенческие факторы используются для расчета сходства?

В патенте (Claim 13) явно упоминаются: количество кликов, коэффициент кликов (CTR), время пребывания (Dwell Time), глубина кликов, коэффициент «ненужных просмотров» и среднее время, затраченное на документ. Это подтверждает важность этих метрик для оценки качества поиска в Яндексе.

Описывает ли этот патент работу YATI или других трансформеров?

Патент не описывает архитектуру конкретной модели (MLA), которую обучают. Он описывает метод генерации данных для обучения. Логично предположить, что эти данные используются для обучения современных трансформерных моделей Яндекса (таких как YATI), так как именно они отвечают за глубокое понимание текста и требуют качественных обучающих выборок.

Какова основная takeaway для SEO-стратега из этого патента?

Основной вывод — интент превыше всего. Яндекс обладает сложной инфраструктурой для обучения своих моделей различению тончайших нюансов в намерениях пользователей, используя поведенческие данные как истину. SEO-стратегия должна строиться на глубоком понимании целевого интента и создании контента, который точно ему соответствует, избегая объединения разных по смыслу, но похожих по тексту запросов.