Как Яндекс переносит поведенческие факторы с похожих запросов для ранжирования новых или редких запросов

Яндекс патентует метод улучшения ранжирования для новых или редких запросов (проблема «холодного старта»). Система обучается предсказывать поведенческую схожесть запросов на основе их текста. Для нового запроса система находит похожие прошлые запросы и повышает в ранге документы, которые исторически хорошо работали (имели высокие поведенческие метрики) по этим похожим запросам. Фактор ранжирования рассчитывается как произведение текстовой схожести и исторической поведенческой метрики.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» (cold start problem) при ранжировании результатов для новых, редких или ранее не встречавшихся запросов, по которым еще не накоплена статистика пользовательских взаимодействий. Изобретение позволяет использовать богатые исторические поведенческие данные, накопленные по семантически похожим запросам, для улучшения релевантности выдачи по новому запросу, тем самым повышая эффективность ранжирования.

Что запатентовано

Запатентована система и метод переноса поведенческих сигналов с известных запросов на новые. Суть изобретения заключается в обучении специальной модели (Second MLA, например, на базе DSSM) предсказывать поведенческую схожесть запросов, используя только их текстовое содержание. Затем эта модель используется для генерации нового фактора ранжирования (Second Similarity Parameter), который учитывает как текстовую близость запросов, так и исторические метрики пользовательского взаимодействия с документом.

Как это работает

Система работает в двух фазах. Во время фазы обучения (офлайн) система анализирует логи и определяет «истинную» схожесть между прошлыми запросами на основе схожести их поведенческих паттернов (кликов по результатам). Затем Second MLA обучается воспроизводить эту поведенческую схожесть, используя только текст запросов. Во время фазы применения (онлайн), получив новый запрос, система использует обученный Second MLA для поиска похожих прошлых запросов. Для документов, связанных с этими запросами, вычисляется новый фактор ранжирования. Этот фактор тем выше, чем больше новый запрос похож на исторический запрос, И чем выше были поведенческие метрики (например, CTR) у документа по этому историческому запросу.

Актуальность для SEO

Высокая. Решение проблемы «холодного старта» и использование нейросетевых моделей (упомянуты DSSM и нейронные сети) для аппроксимации поведенческих сигналов через текстовую близость является ключевым направлением развития современных поисковых систем. Механизм переноса знаний с популярных запросов на редкие крайне актуален.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает конкретный механизм, который связывает текстовую релевантность с поведенческими факторами. Он демонстрирует, что для успешного ранжирования, особенно по НЧ и новым запросам, документ должен быть релевантен широкому кластеру семантически связанных запросов и иметь сильные поведенческие сигналы хотя бы по части из них. Это подчеркивает важность работы над Topical Authority и качеством пользовательского опыта.

Детальный разбор

Термины и определения

Annotation (Аннотация документа): Структура данных, связанная с документом (поисковым результатом). В контексте патента включает в себя исторические поисковые запросы, которые использовались для доступа к этому документу, и соответствующие параметры пользовательского взаимодействия (например, CTR, время простоя) по этим запросам.
DSSM (Deep Structured Semantic Model): Глубокая нейронная сеть, используемая для проецирования запросов и документов в общее векторное пространство низкой размерности, где релевантность вычисляется как расстояние между ними. В патенте используется модифицированная версия DSSM.
First MLA (Первый алгоритм машинного обучения): Основной алгоритм ранжирования поисковой системы. В патенте упоминается как алгоритм на основе дерева решений, например GBDT (Gradient Boosted Regression Trees), такой как MatrixNet или CatBoost. Он использует различные факторы, включая Second Similarity Parameter.
Query Vector (Вектор запроса): Численное представление запроса. В патенте описывается поведенческий вектор, который строится на основе поисковых результатов, полученных в ответ на запрос, и агрегированных параметров пользовательского взаимодействия с этими результатами.
Second MLA (Второй алгоритм машинного обучения): Алгоритм (в патенте описан как нейронная сеть), обученный определять сходство запросов на основе их текстового содержимого. Он учится аппроксимировать поведенческую схожесть (рассчитанную через Query Vectors), используя только текст. Используется для обработки новых запросов.
Similarity Parameter (Параметр сходства): Метрика, указывающая на степень схожести между двумя запросами. Может рассчитываться на основе поведенческих векторов (Ground Truth) или предсказываться Second MLA на основе текста.
Second Similarity Parameter (Второй параметр сходства): Ключевой фактор ранжирования, генерируемый системой. Вычисляется для документа относительно нового запроса. Основан на произведении схожести нового запроса с историческим запросом (из аннотации документа) и параметра пользовательского взаимодействия по этому историческому запросу.
User Interaction Parameters (Параметры пользовательского взаимодействия): Метрики, описывающие поведение пользователей с результатами поиска. Примеры: Loss/Win (клик/не клик), Время пребывания (Dwell Time), Длинное/короткое нажатие, CTR (кликабельность).

Ключевые утверждения (Анализ Claims)

Патент защищает метод использования исторических данных о поведении для ранжирования новых запросов путем обучения модели текстовой схожести.

Claim 2 (Зависимый пункт, описывающий Фазу Обучения): Описывает, как Second MLA учится понимать схожесть.

Система извлекает прошлые запросы, их результаты и связанные параметры пользовательского взаимодействия (например, CTR).
Для каждого прошлого запроса вычисляется Query Vector (поведенческий вектор). Этот вектор отражает паттерн взаимодействий пользователей с результатами по данному запросу.
Вычисляется «истинный» (Ground Truth) Similarity Parameter между парами прошлых запросов. Он основан на схожести их Query Vectors (например, через скалярное произведение или косинусную близость – Claim 4). Это поведенческая схожесть.
Создаются обучающие объекты: (Запрос 1, Запрос 2, Поведенческая Схожесть).
Second MLA (нейронная сеть) обучается предсказывать Поведенческую Схожесть, используя только текстовое содержимое Запроса 1 и Запроса 2 (Claim 7).

Claim 1 (Независимый пункт, описывающий Фазу Применения): Описывает процесс обработки нового запроса.

Система получает новый запрос.
Используя обученный Second MLA, система вычисляет Similarity Parameter (текстовую схожесть) между новым запросом и множеством прошлых запросов.
Выбирается наиболее похожий прошлый запрос.
Извлекаются результаты, связанные с этим похожим прошлым запросом. Каждый результат имеет Annotation, содержащую другие исторические запросы, по которым этот результат получал доступ (Claim 3 уточняет, что аннотация также содержит параметры пользовательского взаимодействия).
Вычисляется Second Similarity Parameter.
Этот параметр используется как фактор ранжирования в First MLA (основной формуле ранжирования).

Claim 5 и 6 (Зависимые пункты): Расчет фактора ранжирования. Определяют суть изобретения – как именно схожесть влияет на ранг.

Second Similarity Parameter вычисляется на основе (i) схожести между новым запросом и историческим запросом из аннотации документа, и (ii) параметра пользовательского взаимодействия из той же аннотации (Claim 5). Claim 6 указывает, что расчет происходит путем перемножения этих двух компонентов.

Формула фактора ранжирования для Документа (D) по Новому Запросу (Q_new), основанная на Историческом Запросе (Q_hist) из аннотации D:

$$ \text{Factor} = \text{Similarity}_{MLA2}(Q_{\text{new}}, Q_{\text{hist}}) \times \text{Interaction}(D, Q_{\text{hist}}) $$

Где и как применяется

Изобретение затрагивает несколько этапов поиска, интегрируя офлайн-обработку данных и онлайн-ранжирование.

INDEXING / Офлайн-обработка данных

Значительная часть работы происходит офлайн (на Обучающем сервере):

Создание аннотаций: Система (упоминается Третий MLA) анализирует логи и создает Annotations для документов, агрегируя исторические запросы и связанные с ними поведенческие метрики (CTR, Dwell time). Эти аннотации сохраняются (вероятно, в прямом индексе).
Расчет поведенческих векторов: Вычисление Query Vectors для прошлых запросов на основе логов взаимодействий.
Обучение Second MLA: Обучение модели текстовой схожести на основе рассчитанной поведенческой схожести.

QUERY PROCESSING – Понимание Запросов

На этом этапе система получает новый запрос и использует Second MLA для вычисления его текстовой схожести с прошлыми запросами и идентификации наиболее похожего запроса.

RANKING – Ранжирование (Уровни L2/L3)

Основное применение патента происходит на этапе ранжирования кандидатов.

Извлечение кандидатов: Система извлекает документы-кандидаты (включая те, что связаны с похожим прошлым запросом).
Извлечение признаков: Для документов извлекаются их Annotations.
Расчет фактора: Вычисляется Second Similarity Parameter путем сравнения нового запроса с историческими запросами в аннотации и умножения на поведенческие метрики из аннотации.
Применение в формуле: First MLA (основная формула ранжирования, например CatBoost) использует этот новый фактор наряду с другими факторами для определения финального ранга документа.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на новые, редкие и длиннохвостые (long-tail) запросы. Для них система может эффективно переносить поведенческие сигналы с семантически близких, более популярных запросов.
Контентные факторы: Влияет на оценку релевантности контента. Документ может получить высокий ранг по запросу, даже если он не идеально оптимизирован под его точную формулировку, при условии, что он хорошо отвечает на семантически близкие запросы и имеет сильные поведенческие метрики по ним.

Когда применяется

Механизм предназначен для ситуаций, когда прямых поведенческих данных для ранжирования недостаточно.

Триггеры активации: Алгоритм особенно важен при обработке запроса, который классифицируется как новый или редкий (Unseen Query), для которого отсутствует достаточная история взаимодействий. Second MLA (основанный на тексте) используется в этом случае для аппроксимации недостающих данных.

Пошаговый алгоритм

Процесс А: Офлайн-обучение Second MLA

Сбор данных: Извлечение из логов прошлых запросов, соответствующих результатов поиска и параметров пользовательского взаимодействия (например, CTR, время простоя).
Создание Поведенческих Векторов: Для каждого прошлого запроса вычисляется Query Vector, который агрегирует поведенческие взаимодействия с результатами этого запроса.
Расчет Поведенческой Схожести (Ground Truth): Для пар прошлых запросов вычисляется параметр схожести путем сравнения их Поведенческих Векторов (например, скалярное произведение).
Подготовка Обучающей Выборки: Создание набора данных, где каждый объект содержит пару запросов и их рассчитанную Поведенческую Схожесть.
Обучение Модели: Second MLA (нейронная сеть) обучается предсказывать Поведенческую Схожесть, используя только текстовые признаки (например, эмбеддинги) запросов в паре.

Процесс Б: Обработка нового запроса в реальном времени

Получение запроса: Система получает новый (ранее не встречавшийся) запрос (NQ).
Поиск похожих запросов: Second MLA сравнивает NQ с множеством прошлых запросов на основе текстовой близости и вычисляет Similarity Parameter.
Выбор релевантных результатов: Идентифицируется наиболее похожий прошлый запрос и извлекаются связанные с ним результаты поиска (Документы).
Анализ Аннотаций: Для каждого извлеченного Документа система анализирует его Annotation, которая содержит список исторических запросов (Q_hist) и связанных с ними поведенческих метрик (Interaction).
Расчет Фактора Ранжирования: Для каждого результата вычисляется Second Similarity Parameter. Он рассчитывается как произведение текстовой схожести NQ и Q_hist (вычисленной Second MLA) и поведенческой метрики Interaction, связанной с Q_hist.
Ранжирование: First MLA (основная формула) использует этот вычисленный фактор для ранжирования результатов по новому запросу NQ.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для обучения системы и генерации фактора ранжирования. Используются данные из логов (Журнал пользовательских взаимодействий): Кликабельность (CTR), Время пребывания (Dwell Time), Loss/Win (клик/отсутствие клика), Длинные/короткие клики. Эти данные агрегируются в Annotations документов и используются для расчета Query Vectors.
Контентные факторы (Текстовые): Тексты запросов используются для обучения Second MLA. Модель учится находить схожесть на основе текстовых свойств, что подразумевает использование лингвистических факторов (семантических, грамматических, лексических) и моделей эмбеддингов (упомянуты word2vec, bag-of-words, но на практике вероятны DSSM/трансформеры).
Системные данные: Журнал запросов, Индекс документов.

Какие метрики используются и как они считаются

Query Vector (Поведенческий): Вектор, где измерения могут соответствовать документам, а значения — наличию или значению параметра пользовательского взаимодействия (например, 1 если CTR выше порога, 0 если ниже).
Similarity Parameter (Поведенческий Ground Truth): Рассчитывается как мера близости между двумя Поведенческими Векторами. В патенте упоминаются скалярное произведение (scalar multiplication) и коэффициент Отиаи (косинусная близость).
Similarity Parameter (Текстовый): Предсказание Second MLA о схожести двух запросов на основе их текста.
Second Similarity Parameter (Фактор Ранжирования): Вычисляется путем перемножения Текстового Параметра Схожести (между новым и историческим запросом) и Параметра Пользовательского Взаимодействия (из аннотации документа).
Алгоритмы Машинного Обучения: Используются GBDT/CatBoost (First MLA) для ранжирования и Нейронная Сеть / DSSM (Second MLA) для оценки схожести запросов.

Выводы

Поведенческие факторы — эталон релевантности: Яндекс рассматривает поведенческую схожесть запросов (основанную на схожести кликовых паттернов) как истинную (Ground Truth) меру схожести. Все текстовые модели обучаются аппроксимировать это поведение.
Решение проблемы «холодного старта»: Патент описывает конкретный механизм для улучшения ранжирования по новым и редким запросам. Если статистики по запросу нет, система ищет текстуально похожий запрос, по которому статистика есть, и переносит ее.
Механизм генерации фактора ранжирования: Ключевым элементом является Second Similarity Parameter. Он рассчитывается как произведение текстовой схожести и исторической поведенческой метрики. Это означает, что для получения буста необходимы оба компонента: и высокая схожесть запросов, и сильные исторические ПФ у документа.
Важность Аннотаций Документов: Система полагается на предварительно рассчитанные Annotations, которые агрегируют историю взаимодействий с документом по разным запросам. Создание контента, который накапливает позитивные ПФ по широкому спектру связанных запросов, критически важно.
Использование нейросетей для понимания запросов: Подтверждается использование глубоких нейронных сетей (DSSM) для определения семантической близости запросов, что является основой работы Second MLA.

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и охват семантического кластера: Создавайте контент, который всесторонне покрывает тему и отвечает на множество связанных запросов (QBST фраз). Это увеличивает вероятность того, что ваш документ накопит позитивные поведенческие сигналы (войдет в Annotations) по разным запросам внутри кластера.
Максимизация позитивных поведенческих сигналов (ПФ): Высокий CTR, низкий показатель отказов и длительное время взаимодействия критически важны. Они являются второй частью формулы фактора ранжирования (Interaction). Если у документа плохие ПФ, даже высокая текстовая схожесть не даст значительного буста.
Оптимизация под интент, а не ключевое слово: Понимайте, как пользователи могут формулировать один и тот же интент разными словами. Убедитесь, что ваш контент релевантен этим вариациям. Если Second MLA сочтет эти вариации похожими, ваш документ получит преимущество по всему кластеру.
Анализ SERP Similarity: При кластеризации семантики обращайте внимание на схожесть выдачи по разным запросам. Это помогает понять, какие запросы Яндекс считает поведенчески схожими (Ground Truth), и оптимизировать страницу под этот поведенческий кластер.

Worst practices (это делать не надо)

Создание узкоспециализированных страниц под каждый НЧ запрос: Стратегия создания множества страниц с тонким контентом под отдельные микро-запросы менее эффективна. Такие страницы не смогут накопить достаточно поведенческих данных и не получат преимуществ от переноса ПФ с похожих запросов.
Игнорирование ПФ и фокус только на тексте: Попытки ранжироваться только за счет текстовой оптимизации без обеспечения качественного пользовательского опыта не будут успешными, так как поведенческие метрики являются множителем в формуле фактора.
Накрутка ПФ: Попытки манипулировать поведенческими метриками создают риски, так как эти данные используются как эталон (Ground Truth) для обучения базовых моделей (Second MLA). Аномалии в ПФ могут быть легко обнаружены и привести к санкциям.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса на синергию поведенческих данных и семантического анализа текста. Он показывает, как исторические данные о поведении напрямую формируют понимание релевантности для будущих запросов. Для SEO это означает, что долгосрочная стратегия должна строиться на создании авторитетных ресурсов, которые стабильно удовлетворяют интент пользователя по широкому кругу тем, тем самым накапливая позитивные данные в Annotations и обучая модели Яндекса ассоциировать ресурс с высоким качеством ответа.

Практические примеры

Сценарий 1: Ранжирование статьи по новому редкому запросу.

Новый запрос (Q_new): «какой процессор лучше для stable diffusion 4 teraflops» (редкий, статистики нет).
Существующий контент: У вас есть авторитетная статья «Выбор видеокарты для генерации изображений AI», которая имеет отличные ПФ (CTR 15%) по запросу (Q_hist) «лучшая видеокарта для Midjourney».
Действие системы: Second MLA определяет высокую текстовую схожесть между Q_new и Q_hist (например, 0.8).
Расчет фактора: Система извлекает Annotation вашей статьи, видит Q_hist и его ПФ (0.15). Вычисляется Second Similarity Parameter: 0.8 (Схожесть) * 0.15 (ПФ) = 0.12.
Результат: Ваша статья получает значительный буст по новому запросу Q_new благодаря сильным ПФ по похожему запросу Q_hist, даже если она не была идеально оптимизирована под слова «stable diffusion» или «4 teraflops».

Сценарий 2: Сравнение двух сайтов.

Запрос (Q_new): «рецепт пасты карбонара без сливок аутентичный».
Сайт А (Экспертный блог): Имеет сильные ПФ (Interaction=0.20) по запросу (Q_hist_A) «как готовить карбонару как в Италии». Схожесть Q_new и Q_hist_A = 0.9. Фактор = 0.9 * 0.20 = 0.18.
Сайт Б (Агрегатор рецептов): Имеет слабые ПФ (Interaction=0.05) по запросу (Q_hist_B) «паста карбонара быстро». Схожесть Q_new и Q_hist_B = 0.7. Фактор = 0.7 * 0.05 = 0.035.
Результат: Сайт А получит значительно более высокий фактор ранжирования благодаря комбинации более высокой схожести запросов и значительно лучших исторических ПФ.

Вопросы и ответы

В чем ключевое различие между First MLA и Second MLA в этом патенте?

First MLA — это основной алгоритм ранжирования (например, CatBoost), который определяет финальный порядок документов в выдаче, используя сотни или тысячи признаков. Second MLA — это вспомогательный алгоритм (например, нейронная сеть на базе DSSM), задача которого — определить степень схожести между запросами на основе их текстового содержания. Second MLA используется для генерации конкретного фактора ранжирования (Second Similarity Parameter), который затем передается в First MLA.

Что такое поведенческая схожесть запросов и почему она считается эталоном (Ground Truth)?

Поведенческая схожесть определяется на основе того, насколько пересекаются результаты поиска по двум запросам и насколько схоже пользователи взаимодействуют с этими результатами (например, кликают на одни и те же сайты). В патенте она рассматривается как эталон (Ground Truth). Если пользователи решают свои задачи с помощью одних и тех же сайтов, значит запросы семантически близки, даже если их текст отличается.

Как система обрабатывает совершенно новые или очень редкие запросы?

Для новых запросов (Unseen Queries) нет истории взаимодействий, поэтому невозможно рассчитать поведенческую схожесть. В этом случае система использует Second MLA, который определяет схожесть на основе текстовых векторов (эмбеддингов). Second MLA обучен предсказывать поведенческую схожесть, используя только текст, что позволяет найти релевантные прошлые запросы и использовать их историю для ранжирования нового запроса (решение проблемы «холодного старта»).

Что такое «Аннотация» документа в контексте этого патента?

Аннотация — это не видимый пользователю текст, а внутренняя структура данных, привязанная к документу в индексе Яндекса. Она содержит агрегированную историю взаимодействий с этим документом: список исторических запросов, по которым на документ кликали, и соответствующие поведенческие метрики (CTR, время простоя) для каждого из этих запросов. Это своего рода «послужной список» документа.

Как именно рассчитывается новый фактор ранжирования (Second Similarity Parameter)?

Фактор рассчитывается как произведение двух компонентов: (1) Степень текстовой схожести между новым запросом и историческим запросом из аннотации документа (определяется Second MLA) и (2) Историческая поведенческая метрика (например, CTR) документа по этому историческому запросу. Если хотя бы один из множителей низок, общий фактор будет мал.

Как этот патент влияет на стратегию создания контента и Topical Authority?

Он подтверждает необходимость стратегии Topical Authority. Цель — создать контент, который максимально полно покрывает тему и удовлетворяет интент пользователей по широкому кластеру связанных запросов. Это позволяет документу накопить сильные поведенческие сигналы по множеству запросов, что увеличивает его шансы на высокое ранжирование по новым или смежным запросам в будущем благодаря описанному механизму переноса ПФ.

Что важнее для получения буста от этого алгоритма: сильные ПФ или высокая схожесть запросов?

Необходимы оба элемента, так как они перемножаются. Сильные ПФ (например, высокий CTR) показывают, что документ исторически хорошо работал. Высокая схожесть запросов (определяемая Second MLA) показывает, насколько релевантен этот исторический успех для текущего нового запроса. Сильные ПФ по нерелевантному запросу не помогут, так же как и слабые ПФ по очень похожему запросу.

Как я могу оптимизировать свои страницы под этот механизм?

Сфокусируйтесь на двух направлениях. Первое — улучшайте поведенческие факторы: оптимизируйте сниппеты для повышения CTR, работайте над вовлеченностью и удержанием пользователя на странице. Второе — расширяйте семантический охват контента: используйте синонимы, связанные термины (QBST фразы) и отвечайте на смежные вопросы, чтобы ваш контент был релевантен максимальному числу семантически близких запросов.

Применяется ли этот механизм ко всем запросам?

Патент фокусируется на применении этого механизма для «новых запросов», то есть тех, которые система ранее не видела или по которым мало статистики. Для популярных запросов, по которым уже есть богатая история прямых взаимодействий, система, вероятно, полагается на эти прямые данные в большей степени, и вклад этого механизма может быть менее заметен.

В патенте упоминается DSSM. Значит ли это, что Яндекс не использует BERT или YATI для определения схожести?

Патент подан в 2018 году, когда DSSM были очень актуальны. Хотя в тексте упоминается DSSM как основа, логично предположить, что на практике Яндекс использует свои самые современные языковые модели (включая YATI) для генерации этих эмбеддингов и определения текстовой схожести в рамках Second MLA, так как они обеспечивают наилучшее качество, но DSSM также могут использоваться из-за скорости.