Как Яндекс генерирует «сложные» примеры (Hard Negatives) для обучения AI-моделей точному пониманию интента запросов

Яндекс патентует метод автоматической генерации «сложных негативных примеров» для обучения алгоритмов машинного обучения (MLA), определяющих схожесть запросов. Система ищет пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но при этом ведут на совершенно разные результаты поиска и демонстрируют разное поведение пользователей. Это позволяет обучать AI-модели (например, YATI) тонкостям языка и точно различать интент, несмотря на текстовую близость.

Описание

Какую задачу решает

Патент решает критическую задачу в обучении моделей машинного обучения (MLA), используемых для определения семантической схожести запросов: генерацию качественных негативных обучающих примеров (Negative Training Examples). Использование случайных примеров неэффективно. Патент предлагает метод автоматического поиска «сложных» (Hard Negatives) примеров — пар запросов, которые текстуально близки, но семантически и поведенчески различны. Это позволяет значительно повысить точность и разрешающую способность поисковых моделей (например, YATI) в понимании нюансов интента.

Что запатентовано

Запатентован метод и система для генерации обучающей выборки (Training Set) для MLA. Суть изобретения заключается в автоматическом поиске пар запросов в логах поиска, для которых выполняется два условия: (1) Разница в запросах (Query Difference) минимизирована (тексты очень похожи), и (2) Разница в результатах (Results Difference) максимизирована (выдача и поведение пользователей сильно отличаются). Эти пары используются как сложные негативные примеры для обучения.

Как это работает

Система анализирует логи поиска (Search Log Database). Она ищет первый запрос (Q1) и набор вторых запросов (Q2), которые отличаются от Q1 на минимальное количество слов (например, только на одно). Затем система сравнивает выдачу и параметры взаимодействия пользователей (например, клики) для Q1 и Q2, вычисляя Оценку Схожести (Similarity Score). Если оценка схожести низкая (т.е. выдачи и поведение сильно отличаются), несмотря на высокую текстуальную близость, эта пара (Q1, Q2) маркируется как сложный негативный пример. Обучаемая модель (MLA) учится на этих примерах, что такие текстуально похожие запросы на самом деле различны по смыслу.

Актуальность для SEO

Высокая. Точное понимание запросов и различение тонких нюансов в интенте пользователя является центральной задачей современных поисковых систем. Методы генерации качественных обучающих данных (особенно Hard Negative Mining) для сложных нейросетевых архитектур (трансформеров) критически важны для развития поиска и актуальны для обучения моделей типа YATI.

Важность для SEO

Влияние на SEO значительно (7/10). Патент не описывает ранжирующий алгоритм напрямую, но описывает, как Яндекс обучает свои модели понимания языка. Это указывает на стремление Яндекса к хирургической точности в определении интента, опираясь на поведенческие данные. Для SEO это означает, что даже минимальные изменения в формулировках (например, предлоги или замена одного слова) могут кардинально изменить интент в глазах Яндекса. Это требует точного попадания в узкий интент и снижает эффективность оптимизации под широкие или неточные запросы.

Детальный разбор

Термины и определения

MLA (Machine Learning Algorithm / Алгоритм Машинного Обучения): Алгоритм, который обучается на данных. В контексте патента, обучаемый MLA предназначен для определения схожести запросов на основе их текстового содержания.
Negative Training Examples (Негативные обучающие примеры): Данные, используемые для обучения MLA тому, чем целевой объект «не является». В данном случае это пары запросов, которые НЕ являются похожими. Патент фокусируется на генерации «сложных» (Hard) негативных примеров.
Query Difference (Разница в запросах): Метрика текстуальной разницы между двумя запросами. Минимизация этой разницы означает, что запросы текстуально очень похожи (например, отличаются одним словом).
Results Difference (Разница в результатах): Метрика, показывающая, насколько отличаются результаты поиска (SERP) и/или поведение пользователей в ответ на два запроса. Максимизация этой разницы означает, что выдачи или клики практически не пересекаются.
Similarity Score (Оценка Схожести): Вычисляемая оценка схожести между двумя запросами, основанная на пересечении результатов поиска и схожести параметров взаимодействия пользователей (поведенческая схожесть).
Search Log Database (База данных логов поиска): Хранилище исторических данных, включающее логи запросов (Query Log) и логи взаимодействий пользователей (User Interaction Log).
User Interaction Parameter (Параметр взаимодействия пользователя): Поведенческие данные, связанные с результатом поиска. Упоминаются: клики, CTR, Dwell time, глубина клика, bounce rate, среднее время на документе.
Query Vector (Вектор запроса): Численное представление запроса, используемое для вычисления Similarity Score. Строится на основе документов, показанных в ответ на запрос, и связанных с ними User Interaction Parameters (поведенческий вектор).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии создания обучающей выборки для моделей определения схожести запросов.

Claim 1 (Независимый пункт): Описывает основной метод генерации негативных обучающих примеров.

Извлечение из логов первого запроса (Q1), связанных с ним результатов (SERP1) и параметров взаимодействия пользователей (U1).
Извлечение набора других запросов (Q2), которые текстуально отличаются от Q1 на предопределенное количество терминов (обеспечивая текстовую близость).
Извлечение результатов (SERP2) и параметров взаимодействия (U2) для каждого запроса Q2.
Вычисление Оценки Схожести (Similarity Score) между Q1 и Q2. Оценка основана на сравнении SERP1 vs SERP2 И U1 vs U2 (поведенческая схожесть).
Отбор подмножества запросов Q2, у которых Similarity Score с Q1 ниже определенного порога (т.е. поведенчески они сильно отличаются).
Генерация обучающих объектов (негативных примеров) из этих пар (Q1, Q2).

Claim 8 (Зависимый от 1): Уточняет механизм вычисления Similarity Score.

Для Q1 и Q2 генерируются Векторы Запросов (Query Vectors). Оценка схожести рассчитывается на основе косинусного произведения (cosine multiplication) этих векторов.

Claim 16 (Независимый пункт): Альтернативное описание метода через оптимизационную задачу.

Процесс аналогичен Claim 1, но шаг отбора сформулирован как оптимизация:

Определение подмножества пар (Q1, Q2) таким образом, чтобы:
- Разница в запросах (Query Difference) была минимизирована.
- Разница в результатах (Results Difference) была максимизирована.
Генерация негативных обучающих примеров из этих пар с указанием их несхожести.

Где и как применяется

Изобретение применяется в инфраструктуре машинного обучения Яндекса. Это офлайн-процесс подготовки данных, а не механизм ранжирования в реальном времени.

Офлайн-процессы и Подготовка Данных (ML Infrastructure)

Сбор данных: Система (Training Server) анализирует Search Log Database.
Генерация обучающей выборки: Основной этап применения патента — создание набора сложных негативных примеров (Hard Negative Mining).
Обучение моделей: Сгенерированные данные используются для обучения MLA. Этот MLA, вероятно, является моделью понимания языка (например, YATI или DSSM), которая учится предсказывать схожесть запросов на основе текста.

Влияние на онлайн-процессы поиска:

Обученный с помощью этих данных MLA затем применяется на этапах:

QUERY PROCESSING – Понимание Запросов: Для точной интерпретации интента, генерации семантических эмбеддингов запроса и определения его отличий от похожих формулировок.
RANKING – Ранжирование: При использовании эмбеддингов запроса для оценки релевантности документов.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, где небольшие текстуальные изменения кардинально меняют интент (например, изменение предлога, добавление уточняющего слова). Пример из патента: и.
Точность понимания языка: Позволяет моделям Яндекса лучше понимать лексические и семантические нюансы языка, опираясь на поведенческие данные как на эталон.

Когда применяется

Алгоритм применяется периодически в офлайн-режиме в рамках цикла обучения и обновления основных моделей машинного обучения Яндекса. Требует наличия достаточного объема накопленных исторических данных в логах поиска.

Пошаговый алгоритм

Процесс генерации сложных негативных примеров (Hard Negative Mining):

Извлечение исходного запроса: Система извлекает из логов первый запрос (Q1), его результаты поиска (SERP1) и параметры взаимодействия пользователей (U1).
Поиск текстуально похожих кандидатов (Минимизация Query Difference): Система находит набор запросов (Q2), которые отличаются от Q1 на минимальное предопределенное количество терминов (например, отличаются только одним словом).
Извлечение данных для кандидатов: Для каждого запроса Q2 извлекаются его результаты (SERP2) и параметры взаимодействия (U2).
Генерация поведенческих векторов: Для Q1 и Q2 генерируются Query Vectors, кодирующие информацию о документах в выдаче и взаимодействиях с ними (например, кликах или CTR).
Вычисление Оценки Схожести: Система вычисляет Similarity Score между Q1 и Q2 путем сравнения их векторов (например, используя косинусное произведение).
Фильтрация по порогу (Максимизация Results Difference): Отбираются те пары (Q1, Q2), у которых Similarity Score ниже установленного порога. Это означает, что, несмотря на текстуальную близость, результаты и поведение сильно различаются.
Генерация обучающей выборки: Отобранные пары формируются в виде негативных обучающих примеров для тренировки MLA.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Тексты исторических поисковых запросов. Используются для определения текстуальной разницы (Query Difference).
Поведенческие факторы: Критически важные данные из логов взаимодействий. Используются для расчета поведенческой схожести (Similarity Score). Патент явно упоминает: количество кликов, CTR, Dwell time, глубина клика, bounce rate, среднее время на документе.
Системные данные: Исторические результаты поиска (SERP), показанные в ответ на запросы. Используются для определения пересечения выдачи.

Какие метрики используются и как они считаются

Query Difference (Текстуальная разница): Измеряется количеством отличающихся терминов. Цель — минимизировать эту метрику (например, до 1 слова).
Similarity Score (Поведенческая схожесть): Рассчитывается на основе схожести результатов и взаимодействий. Методы расчета включают косинусную близость (cosine multiplication) или скалярное произведение между Query Vectors.
Метрика релевантности позиции: В патенте (в описании, не в Claims) упоминается формула для определения того, что общие результаты не очень релевантны для обоих запросов. Это используется для подтверждения, что разница в результатах существенна, даже если есть пересечения на низких позициях:
$$ POSITION\_COMMON\_URL(query1) * POSITION\_COMMON\_URL(query2) > const $$
Где POSITION_COMMON_URL(query) — это средняя позиция общего результата поиска, а const — эмпирически подобранная константа (например, 50). Если условие истинно, пересечение считается незначимым.

Выводы

Фокус на качестве обучения AI через «Сложные Негативы»: Ключевой механизм патента — это поиск пар запросов, где высокая текстуальная схожесть конфликтует с низкой поведенческой схожестью (Hard Negative Mining). Это позволяет моделям научиться различать тонкие нюансы языка.
Поведенческие данные как эталон смысла (Ground Truth): Смысловая близость определяется не текстом, а через поведенческую схожесть (пересечение выдачи и кликов). Это является эталоном для обучения системы.
Повышение точности понимания запросов: Результатом применения этого метода является повышение точности MLA (например, YATI) в определении интента. Поисковая система становится более чувствительной к точным формулировкам.
Минимальное изменение текста может привести к максимальному изменению выдачи: Если исторические данные показывают, что пользователи ищут разное по текстуально близким запросам, Яндекс обучит свои модели агрессивно разделять эти интенты.

Практика

Best practices (это мы делаем)

Критическая важность анализа SERP Similarity: При кластеризации семантики необходимо тщательно анализировать схожесть выдачи. Если по двум текстуально близким запросам Яндекс показывает сильно отличающиеся SERPы, это явный индикатор того, что система считает их семантически разными (видит их как «сложный негативный пример»). Такие запросы должны продвигаться на разных страницах.
Точное попадание в интент: Необходимо максимально точно определять целевой интент и использовать формулировки, соответствующие именно ему. Точность становится важнее широкого охвата смежных тем.
Фокус на поведенческих факторах: Поскольку поведенческие данные являются эталоном для определения схожести, критически важно, чтобы контент генерировал позитивные сигналы (клики, вовлеченность) именно по целевым запросам. Это укрепляет связь между запросом и вашим документом в моделях Яндекса.
Использование специфичной терминологии: Используйте точную и специфичную для ниши терминологию, чтобы помочь системе дифференцировать ваш контент от контента, отвечающего на похожие по написанию, но другие по смыслу запросы.

Worst practices (это делать не надо)

Объединение разных интентов на одной странице: Попытка ранжироваться по двум текстуально похожим запросам, которые имеют разные интенты (что видно по разным SERP). Система, обученная на сложных негативных примерах, будет активно этому препятствовать.
Игнорирование «мелочей» в запросах (предлоги, порядок слов): Отношение к небольшим изменениям формулировок как к незначительным. Патент показывает, что система специально учится распознавать такие различия как критически важные, если они влияют на поведение пользователей.
Кластеризация только по тексту: Игнорирование анализа выдачи и опора исключительно на текстовую близость ключевых слов при кластеризации семантического ядра.

Стратегическое значение

Патент подтверждает стратегический курс Яндекса на глубокое машинное обучение для понимания языка, где эталоном истины выступают поведенческие данные. Это подчеркивает, что эра текстового соответствия окончательно уступила место эре соответствия интенту. Для SEO это означает необходимость адаптации к поисковой системе, которая становится все более точной и менее терпимой к нечеткому контенту. Стратегия должна строиться на глубоком понимании потребностей пользователя и точном попадании в интент.

Практические примеры

Сценарий 1: Различение интентов в финансовой тематике

Исходные данные: Система анализирует логи и находит два запроса:
- Q1: «Кредит для бизнеса» (Интент: Кредит для существующего бизнеса)
- Q2: «Кредит на бизнес» (Интент: Кредит на открытие/покупку бизнеса)
Анализ текстуальной схожести: Запросы отличаются одним предлогом. Query Difference минимальна.
Анализ поведенческой схожести: Система обнаруживает, что по Q1 пользователи кликают на программы для ООО/ИП, а по Q2 — на предложения для стартапов. SERP и клики сильно отличаются. Results Difference максимальна.
Действие системы: Пара (Q1, Q2) маркируется как сложный негативный пример. Обученная модель (например, YATI) будет генерировать разные векторы для этих запросов.
Применение в SEO: SEO-специалист, увидев разницу в выдаче, должен создать две отдельные страницы: одну под Q1 и вторую под Q2. Попытка продвинуть одну страницу по обоим запросам будет неэффективна.

Сценарий 2: Различение коммерческого и сервисного интента

Исходные данные: Запрос А:. Запрос Б:.
Анализ: Текстуальная разница минимальна (1 слово). Поведенческая разница максимальна (клики на магазины vs клики на сервисные центры).
Действие системы: Пара используется как негативный пример для обучения MLA.
Применение в SEO: Страница сервисного центра не должна оптимизироваться под запрос «купить», и наоборот. Необходимо четкое разделение страниц под разные услуги.

Вопросы и ответы

Что такое «сложные негативные примеры» (Hard Negative Examples) в контексте этого патента?

Сложные негативные примеры — это пары поисковых запросов, которые имеют очень высокую степень текстового сходства (например, отличаются всего одним словом), но при этом совершенно различны по смыслу (интенту). Эта разница в смысле подтверждается тем, что они ведут к разным результатам поиска и разному поведению пользователей. Система ищет такие пары, чтобы научить AI-модели различать тонкие нюансы языка.

Влияет ли этот патент напрямую на ранжирование моего сайта?

Напрямую нет. Этот патент описывает не алгоритм ранжирования, а офлайн-метод генерации данных для обучения других алгоритмов (MLA). Однако косвенное влияние значительно: благодаря этому методу Яндекс лучше понимает запросы и точнее различает интенты. Если ваш контент неточно соответствует интенту, он будет ранжироваться хуже, так как система становится более «придирчивой».

Как Яндекс определяет, что два запроса семантически различны, если они текстуально похожи?

Яндекс использует поведенческие данные как эталон (Ground Truth). Система вычисляет Оценку Схожести (Similarity Score), которая основывается на том, насколько пересекаются результаты поиска (SERP) по этим двум запросам и насколько похожи взаимодействия пользователей (например, клики). Если SERP и клики сильно отличаются, запросы считаются семантически различными.

Что такое минимизация Query Difference и максимизация Results Difference?

Минимизация Query Difference означает поиск запросов с минимальными текстуальными различиями (например, разница в 1 слово). Максимизация Results Difference означает, что эти текстуально похожие запросы должны приводить к максимально разным результатам поиска и поведению пользователей. Комбинация этих двух условий позволяет найти идеальные сложные негативные примеры для обучения.

Как это влияет на кластеризацию семантического ядра?

Это требует более тщательной и дробной кластеризации. Нельзя полагаться только на текстуальную близость запросов при их группировке. Необходимо обязательно проверять схожесть выдачи (SERP Similarity). Если два текстуально близких запроса имеют сильно отличающиеся выдачи, их следует относить к разным кластерам и прорабатывать на разных страницах.

Значит ли это, что порядок слов и предлоги стали важнее?

Да, если изменение порядка слов или предлога исторически приводило к изменению поведения пользователей. Система специально обучается выявлять такие случаи. Например, если пользователи ищут разное по запросам «билеты Москва Париж» и «билеты Париж Москва», система будет считать это кардинально разными запросами, несмотря на идентичный набор слов.

Какие поведенческие факторы использует эта система?

Патент явно упоминает несколько User Interaction Parameters: количество кликов, Click-Through Rate (CTR), Dwell Time (время пребывания на сайте), Click Depth (глубина клика), Bounce Rate (показатель отказов) и среднее время, проведенное на документе. Все эти сигналы используются для определения поведенческой схожести запросов.

Как рассчитывается Query Vector, упомянутый в патенте?

Query Vector (Вектор запроса) в этом патенте — это поведенческий вектор. Он строится на основе документов, которые были показаны в ответ на запрос, и связанных с ними параметров взаимодействия пользователей (например, кликов или CTR). Это численное представление того, как пользователи реагировали на выдачу по данному запросу.

В патенте упоминается формула, связанная с позициями общих URL (POSITION_COMMON_URL). Что она означает?

Эта формула помогает системе определить, что даже если у двух запросов есть общие результаты в выдаче, эти результаты не являются значимыми, если они находятся на низких позициях в обоих случаях. Если произведение позиций больше определенной константы (например, 50), это подтверждает, что запросы различны, так как релевантные результаты не пересекаются в топе.

Могу ли я как-то использовать этот механизм для улучшения своего ранжирования?

Вы можете адаптировать свою стратегию к тому, что Яндекс становится точнее. Обеспечьте максимально точное соответствие контента конкретному интенту пользователя. Избегайте размытых формулировок и не пытайтесь объединить разные интенты на одной странице. Тщательный анализ различий в SERP по близким запросам поможет вам понять, как Яндекс интерпретирует эти интенты.