Как Яндекс использует исторические данные о полезности конкретных пар «запрос-документ» для корректировки ранжирования (Memory-Based Ranking)

Яндекс патентует метод повторного ранжирования, который корректирует оценки основного алгоритма (MLA) с помощью механизма, основанного на памяти (Instance-Based Learning/KNN). Система хранит исторические данные о полезности конкретных пар «запрос-документ» (на основе CTR или оценок асессоров). Если текущая пара похожа на историческую пару с высокой полезностью, документ получает дополнительный буст в ранжировании.

Описание

Какую задачу решает

Патент решает задачу повышения общей полезности страницы результатов поиска (SERP). Он адресует недостатки основных систем ранжирования, из-за которых некоторые результаты могут быть неадекватно ранжированы. В частности, система стремится выявить документы, которые, несмотря на низкий предварительный ранг от основного алгоритма машинного обучения (MLA), могут быть очень полезны для пользователя, и скорректировать их позиции.

Что запатентовано

Запатентован способ и сервер для повторного ранжирования (re-ranking) документов. Суть изобретения заключается в применении дополнительного слоя ранжирования поверх основного MLA. Этот слой использует базу данных исторических («сохраненных») пар «запрос-документ» и связанных с ними оценок полезности для генерации «оценки корректировки ранга» (Rank Adjustment Score). Этот механизм можно охарактеризовать как форму обучения на основе экземпляров (Instance-Based Learning) или метод ближайших соседей (KNN).

Как это работает

Система работает поверх основного ранжирования. Сначала основной MLA ранжирует документы, присваивая им базовые оценки (Base Rank Scores). Затем для текущей пары «запрос-документ» система ищет похожие сохраненные пары в исторической базе данных. Сходство определяется на уровне пары. Для каждой найденной сохраненной пары рассчитывается потенциальная корректировка ранга. Эта корректировка зависит от исторической полезности (Pair-Dependent Value) сохраненной пары (например, ее CTR или оценки асессоров), взвешенной на степень сходства между парами. Финальная Rank Adjustment Score выбирается из этих потенциальных корректировок (например, путем выбора максимального значения или усреднения Топ-K значений). Эта оценка комбинируется с базовой оценкой для повторного ранжирования документа.

Актуальность для SEO

Высокая. Использование исторических данных о поведении пользователей и оценок асессоров для корректировки результатов ранжирования является стандартной практикой в современных поисковых системах. Применение методов, основанных на сходстве (Instance-Based Learning/KNN), для точечной коррекции ошибок основной модели ранжирования остается актуальным подходом для повышения качества поиска.

Важность для SEO

Влияние на SEO значительно (8/10). Патент демонстрирует механизм, при котором историческая производительность конкретного документа по конкретному запросу (или похожих документов по похожим запросам) напрямую влияет на текущее ранжирование. Это подчеркивает критическую важность максимизации сигналов полезности (CTR, удовлетворенность пользователя, E-E-A-T) для каждой отдельной пары «запрос-документ», а не только работы над общими факторами.

Детальный разбор

Термины и определения

Base Rank Score (Базовая оценка ранжирования): Оценка релевантности, присвоенная документу основным алгоритмом машинного обучения (MLA) во время первоначального ранжирования.
Current Search Pair (Текущая поисковая пара): Пара, состоящая из текущего запроса пользователя и одного из релевантных документов, найденных в ответ на этот запрос.
Corrected/Adjusted Rank Score (Скорректированная оценка ранга): Финальная оценка ранжирования, полученная путем комбинации Base Rank Score и Rank Adjustment Score. Используется для повторного ранжирования.
KNN (K-Nearest Neighbors / Алгоритм k-ближайших соседей): Метод классификации, используемый в патенте для идентификации сохраненных поисковых пар, наиболее близких к текущей поисковой паре в факторном пространстве, и для расчета Rank Adjustment Score на их основе.
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Основной алгоритм ранжирования поисковой системы (например, CatBoost/YATI), используемый для создания Base Rank Scores.
Paired Similarity (Парное сходство): Метрика, указывающая на степень схожести между текущей поисковой парой и сохраненной поисковой парой. Может основываться на сходстве запросов, сходстве документов или их комбинации.
Pair-Dependent Value (Зависящее от пары значение / Полезность / Utility): Метрика, связанная с сохраненной поисковой парой, указывающая на пользу документа для запроса в этой паре. Может быть основана на исторических данных (например, CTR) или на оценках асессоров.
Potential Rank Adjustment Score (Потенциальная оценка корректировки ранга): Промежуточная оценка, рассчитываемая для текущей пары относительно конкретной сохраненной пары. Обычно это Pair-Dependent Value сохраненной пары, взвешенное на Paired Similarity.
Rank Adjustment Score (Оценка корректировки ранга): Значение, созданное на основе анализа сохраненных поисковых пар (например, через KNN). Используется для модификации Base Rank Score с целью повторного ранжирования документа.
Stored Search Pair (Сохраненная поисковая пара): Историческая запись в базе данных, включающая прошлый запрос, показанный документ и связанное с ними Pair-Dependent Value.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является система повторного ранжирования, которая использует исторические данные о производительности конкретных пар «запрос-документ» для корректировки оценок основного алгоритма ранжирования (Memory-Based Ranking).

Claim 1 (Независимый пункт): Описывает основной способ ранжирования и повторного ранжирования.

Система получает текущий запрос. В базе данных хранятся сохраненные поисковые пары с оценками полезности (Pair-Dependent Value).
Первоначальное ранжирование: Сервер, реализующий MLA, ранжирует релевантные документы, присваивая им предварительные ранги. Формируются текущие поисковые пары.
Создание Rank Adjustment Score: Для текущей поисковой пары сервер создает оценку корректировки ранга. Эта оценка основана на двух компонентах: (i) Pair-Dependent Value конкретной сохраненной пары и (ii) Paired Similarity между текущей и этой сохраненной парой.
Повторное ранжирование: Сервер повторно ранжирует релевантный документ, используя Rank Adjustment Score, в результате чего ранг документа изменяется по сравнению с предварительным.

Claim 3 (Зависимый): Уточняет механизм выбора Rank Adjustment Score (Вариант 1: Максимум / K=1).

Сервер создает множество Potential Rank Adjustment Scores, каждое из которых рассчитывается относительно одной из сохраненных пар.
В качестве финальной Rank Adjustment Score выбирается наивысшая оценка из этого множества.

Claim 4 и 5 (Зависимые): Уточняют механизм выбора Rank Adjustment Score (Вариант 2: KNN / K>1).

Сервер создает множество Potential Rank Adjustment Scores.
Выбирается заранее определенное число (K) наибольших оценок (Claim 4).
Финальная Rank Adjustment Score определяется путем усреднения этих наибольших оценок (Claim 5).

Claim 7 (Зависимый): Уточняет механизм повторного ранжирования.

Повторное ранжирование основывается на комбинации (i) Rank Adjustment Score и (ii) Base Rank Score (определенной MLA).

Claim 8 (Зависимый): Уточняет источники данных.

Сохраненные поисковые пары могут быть либо предыдущими поисковыми парами (из логов поведения), либо размеченными асессором поисковыми парами.

Где и как применяется

Изобретение применяется на поздних этапах ранжирования и является механизмом пост-обработки результатов основного алгоритма.

RANKING – Ранжирование (Уровни L3/L4 или Post-processing)

Процесс интегрируется после того, как основной MLA (например, CatBoost/YATI на уровне L3) произвел первоначальное ранжирование и сгенерировал Base Rank Scores.

Входные данные: Множество текущих поисковых пар и их Base Rank Scores.
Вычисление корректировки: Применяется алгоритм (описанный как KNN) для расчета Rank Adjustment Scores на основе сходства с историческими данными. В патенте отмечается, что это повторное ранжирование может основываться на результате KNN, а не требовать повторного запуска MLA.
Выходные данные: Скорректированные оценки ранга (Corrected Rank Scores) и новый порядок документов на SERP.

Офлайн-процессы и обработка данных

Система требует предварительной подготовки данных:

Сбор и сохранение исторических поисковых пар из логов или данных асессоров.
Вычисление Pair-Dependent Values (полезности) для этих пар на основе CTR или оценок асессоров.
Векторизация запросов и документов в сохраненных парах для последующего расчета сходства.

На что влияет

Коррекция ошибок MLA: Механизм направлен на исправление ситуаций, когда основной алгоритм недооценил полезный документ.
Документы с доказанной полезностью: Алгоритм способствует повышению позиций документов, которые похожи на те, что исторически доказали свою полезность (высокий CTR или высокие оценки асессоров) для схожих запросов.
YMYL и экспертные тематики: Влияние может быть значительно в тематиках, где активно используется асессорская разметка (как источник данных о полезности).

Когда применяется

Алгоритм применяется во время генерации страницы результатов поиска после основного этапа ранжирования.

Условия работы: Эффективность механизма зависит от наличия в базе данных Сохраненных поисковых пар, которые (i) имеют высокую оценку полезности (Utility) и (ii) достаточно похожи (Paired Similarity) на Текущую поисковую пару.

Пошаговый алгоритм

Фаза 1: Офлайн-подготовка базы данных

Сбор данных: Сбор поисковых пар (Запрос, Документ) из логов поисковой системы и/или из задач для асессоров.
Вычисление полезности (Utility): Для каждой пары рассчитывается Pair-Dependent Value. Это может быть CTR (для пар из логов) или оценка пользы (для асессорских пар).
Векторизация: Запросы и документы переводятся в векторную форму (упоминаются способы «word2vec» и другие).
Сохранение: Сохраненные поисковые пары (в векторной форме) и их значения полезности сохраняются в базе данных.

Фаза 2: Онлайн-обработка запроса и Повторное ранжирование

Первичное ранжирование: Система выполняет ранжирование с помощью основного MLA. Генерируются Base Rank Scores.
Формирование текущих пар: Формируются Current Search Pairs. Запрос и документы векторизуются.
Расчет Парного сходства (Paired Similarity): Для каждой текущей пары (Qc, Dc) система сравнивает ее с сохраненными парами (Qs, Ds). Вычисляется сходство на основе близости векторов Qc и Qs, и/или Dc и Ds (например, скалярное произведение или векторное расстояние).
Расчет Потенциальных оценок корректировки: Для каждой пары (текущая-сохраненная) рассчитывается Potential Rank Adjustment Score. Она основывается на полезности сохраненной пары, взвешенной на парное сходство.

$$Score_{potential} = Utility(Q_s, D_s) \times Similarity((Q_c, D_c), (Q_s, D_s))$$
Определение финальной Оценки корректировки (KNN): Система определяет финальную Rank Adjustment Score, используя алгоритм KNN:
- Выбор максимальной потенциальной оценки (K=1).
- ИЛИ Усреднение Top-K наибольших потенциальных оценок (K>1).
Вычисление Скорректированной оценки: Base Rank Score комбинируется (например, суммируется или взвешенно суммируется) с Rank Adjustment Score для получения финальной Corrected Rank Score.
Повторное ранжирование: Документы переупорядочиваются на SERP на основе их Corrected Rank Scores.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для определения исторической полезности (Pair-Dependent Value). Используются предыдущие пользовательские взаимодействия. Конкретно упоминается предыдущая кликабельность (CTR).
Внешние оценки (Асессоры): Данные разметки асессоров используются как альтернативный источник для определения полезности. Упоминается оцененная кликабельность на основе рейтинга асессоров.
Контентные факторы (Текстовые/Векторные): Тексты запросов и документов (как текущих, так и сохраненных) используются для расчета сходства. Они переводятся в векторную форму (эмбеддинги).

Какие метрики используются и как они считаются

Векторизация (Word Embeddings): Запросы и документы переводятся в векторы. Упоминаются способы «word2vec». (На практике вероятно используются более современные модели).
Paired Similarity (Парное сходство): Рассчитывается между векторами текущей и сохраненной пар. Методы расчета включают: Скалярное произведение (scalar product) и Векторное расстояние (vector distance).
Pair-Dependent Value (Полезность): Вычисляется офлайн на основе исторических CTR или оценок асессоров.
Rank Adjustment Score (Алгоритм KNN): Вычисляется путем агрегации Potential Scores от ближайших соседей (сохраненных пар). Агрегация может быть МАКСИМУМОМ (K=1) или СРЕДНИМ ЗНАЧЕНИЕМ Топ-K (K>1).
Corrected Rank Score: Комбинация базовой и корректирующей оценок. Упоминаются простое добавление или взвешенная сумма. Может потребоваться повторное масштабирование (re-scaling) значений для соответствия масштабу базовых оценок.

Выводы

Ранжирование на основе памяти (Memory-Based Ranking): Яндекс использует механизм, который дополняет основную модель ранжирования (MLA) слоем, основанным на конкретных исторических примерах (Instance-Based Learning). Это позволяет корректировать ошибки основной модели, опираясь на «память» о том, что хорошо работало в прошлом.
Полезность (Utility) как ключевая метрика: Центральным элементом системы является Pair-Dependent Value (полезность пары «запрос-документ»). Эта полезность определяется либо поведением пользователей (CTR), либо оценками асессоров.
Сходство пар как механизм переноса полезности: Система переносит знание о полезности с исторических пар на текущие через расчет Paired Similarity, используя векторные представления. Если текущая ситуация очень похожа на прошлую успешную ситуацию, текущий документ получает буст.
KNN для расчета корректировки: Для определения финальной корректировки ранга используется алгоритм K-ближайших соседей (KNN), который агрегирует данные от наиболее похожих исторических экземпляров.
Двойной источник данных о качестве: Патент явно указывает на использование как поведенческих логов, так и асессорской разметки в качестве источников данных о полезности, подтверждая важность обоих направлений для оценки качества в Яндексе.

Практика

Best practices (это мы делаем)

Максимизация CTR и Удовлетворенности Пользователя: Это критически важно. Позитивные сигналы (высокий CTR, вовлеченность) формируют базу полезных сохраненных пар с высоким Pair-Dependent Value. Сильная история позитивных взаимодействий создает положительную обратную связь через этот механизм.
Фокус на качестве контента для Асессоров (E-E-A-T): Так как оценки асессоров также формируют Pair-Dependent Value, необходимо строго следовать рекомендациям по качеству контента. Высокие асессорские оценки напрямую используются для бустинга ранжирования в схожих ситуациях.
Семантическая оптимизация для векторного сходства: Поскольку сходство рассчитывается на основе векторов (эмбеддингов), оптимизируйте текст документа так, чтобы его векторное представление было близко к векторам авторитетных и полезных документов по теме. Это увеличит Paired Similarity с качественными историческими парами.
Анализ успешных конкурентов: Изучайте контент, который стабильно ранжируется и демонстрирует хорошие поведенческие метрики. Вероятно, эти страницы формируют высокополезные сохраненные пары. Создание контента, семантически схожего (в векторном пространстве) с этими успешными примерами, увеличивает шансы на получение буста.

Worst practices (это делать не надо)

Кликбейт и обман ожиданий: Высокий CTR при низкой реальной полезности (быстрые отказы) может привести к формированию сохраненных пар с низким значением полезности (если Яндекс использует более сложные метрики полезности, чем просто CTR, например, dwell time, или если асессоры понизят оценку).
Игнорирование производительности конкретных страниц: Недостаточно иметь хороший средний показатель по сайту. Этот патент фокусируется на производительности конкретных пар «запрос-документ». Необходимо анализировать и улучшать страницы с низкой вовлеченностью по целевым запросам.
Фокус только на традиционных факторах (Текст/Ссылки): Полагаться исключительно на традиционную оптимизацию, игнорируя пользовательский опыт и фактическую полезность. Этот механизм может переопределить основное ранжирование, если исторические данные о полезности убедительны.

Стратегическое значение

Патент подтверждает стратегию Яндекса на глубокую интеграцию исторических данных (поведения и оценок) в процесс ранжирования. Он показывает, что помимо общей релевантности, оцениваемой MLA, существует механизм точечной корректировки, основанный на доказанной полезности в аналогичных ситуациях (Memory-Based Ranking). Для SEO это означает, что долгосрочный успех зависит от стабильной генерации позитивного пользовательского опыта. Каждая успешная сессия пользователя вносит вклад в «память» системы, которая может помочь ранжированию в будущем.

Практические примеры

Сценарий 1: Использование поведенческих данных (CTR)

Офлайн (История): Пользователи часто ищут «как выбрать ноутбук для программирования» (Qs) и активно кликают на подробный гайд на сайте site.ru/guide (Ds). Эта пара сохраняется в базе с высоким значением Полезности (высокий CTR).
Онлайн (Текущий запрос): Пользователь вводит похожий запрос «лучший лаптоп для python разработчика» (Qc). Система находит тот же гайд site.ru/guide (Dc).
Анализ: Основной ML-алгоритм дает документу Dc среднюю базовую оценку (например, 6 позиция). Однако система определяет высокое Парное сходство между (Qc, Dc) и (Qs, Ds) – векторы запросов и документов близки.
Коррекция (KNN): Система вычисляет высокую Оценку корректировки ранга на основе высокого значения Полезности сохраненной пары.
Результат: Базовая оценка Dc бустится, и документ site.ru/guide поднимается с 6 позиции на 1-2 позицию.

Сценарий 2: Использование данных Асессоров (E-E-A-T)

Офлайн (Асессоры): Асессоры оценили статью о лечении гипертонии (Ds) на авторитетном медицинском портале (med.ru) как высокополезную для запроса «симптомы высокого давления» (Qs). Эта пара сохраняется с высоким значением Полезности (оценка асессора).
Онлайн (Текущий запрос): Пользователь ищет «что делать при повышенном давлении» (Qc). Система находит статью на другом медицинском сайте (health.com) (Dc).
Анализ: Система определяет высокое сходство между текущей парой (Qc, Dc) и эталонной парой (Qs, Ds).
Коррекция (KNN): Документ Dc получает буст благодаря высокой полезности, подтвержденной асессорами для схожей ситуации.
Результат: Документ health.com получает преимущество в ранжировании благодаря схожести с авторитетным и качественным источником, подтвержденным асессорами.

Вопросы и ответы

Что такое «Сохраненная поисковая пара» и откуда она берется?

Сохраненная поисковая пара — это запись в базе данных Яндекса, содержащая исторический запрос и документ, который был показан в ответ на него. Патент указывает на два источника: (1) Предыдущие поисковые пары, основанные на реальной истории взаимодействия пользователей с выдачей (логи), и (2) Размеченные асессором поисковые пары, где полезность документа для запроса была оценена вручную.

Что такое «Зависящее от пары значение» (Полезность) и как оно измеряется?

Это метрика, указывающая, насколько полезен был документ для запроса в сохраненной паре. В патенте явно указаны два способа измерения: предыдущая кликабельность (CTR) документа по этому запросу и оцененная кликабельность на основе рейтинга асессоров. Это ключевой показатель качества, который система использует для расчета бустинга.

Чем этот механизм отличается от обычного ранжирования (MLA)?

Обычное ранжирование (MLA, например, CatBoost) использует обобщенную модель для предсказания релевантности на основе факторов документа и запроса. Описанный механизм работает поверх MLA и использует подход Instance-Based Learning (обучение на примерах), в частности алгоритм KNN. Он ищет наиболее похожие конкретные исторические примеры и использует их успех (полезность) для корректировки текущего ранга.

Как рассчитывается сходство между текущей и сохраненной парами?

Сходство (Paired Similarity) рассчитывается между векторными представлениями (эмбеддингами) пар. Оно может основываться на близости запросов, близости документов или их комбинации. Для расчета близости векторов используются метрики, такие как скалярное произведение или векторное расстояние.

Система использует только один похожий исторический пример для корректировки?

Патент описывает два варианта. Первый (K=1 или «Максимум») — система находит единственный пример с наивысшей потенциальной оценкой корректировки и использует его. Второй (K>1 или «KNN») — система выбирает K наиболее подходящих примеров и усредняет их оценки для расчета финальной корректировки. Это делает результат более стабильным.

Как именно корректировка влияет на базовую оценку ранжирования?

Оценка корректировки ранга комбинируется с Базовой оценкой ранжирования (от MLA) для получения финальной Скорректированной оценки. Методы комбинации включают простое добавление или взвешенную сумму. Это означает, что Оценка корректировки фактически выступает как бустинг (повышающий коэффициент) к базовой оценке, если исторические данные позитивны.

Как SEO-специалист может повлиять на этот механизм?

Ключевая стратегия — максимизировать сигналы полезности для ваших страниц. Необходимо добиваться высокого CTR и глубокого взаимодействия пользователей с контентом по целевым запросам. Это гарантирует, что когда ваши пары «запрос-документ» попадут в базу сохраненных пар, они будут иметь высокое значение Полезности, что позитивно повлияет на будущее ранжирование похожих запросов и документов.

Влияет ли этот патент на ранжирование новых сайтов или страниц?

Да, может влиять положительно. Даже если у новой страницы еще нет своей истории, она может получить буст, если она семантически похожа (на уровне документа) на исторический документ, который хорошо себя зарекомендовал по похожему запросу. Это позволяет системе использовать успех старых авторитетных документов для оценки качества новых похожих документов.

Упоминается ли в патенте word2vec для векторизации?

Да, в патенте упоминается, что запросы и документы могут быть переведены в форму векторов, и в качестве примера приводятся «способы word2vec и другие способы векторизации». Это указывает на то, что для расчета сходства используются векторные представления контента (эмбеддинги), хотя на практике Яндекс, вероятно, использует более современные модели (YATI).

Является ли этот механизм заменой основного ранжирования?

Нет, это дополнительный слой повторного ранжирования (re-ranking). Он предназначен для корректировки и улучшения результатов, полученных от основного алгоритма машинного обучения (MLA), а не для его замены. Система сначала выполняет базовое ранжирование, а затем применяет описанный механизм корректировки.