Как Яндекс использует исторически успешные паттерны поиска (пары Запрос-Документ) для переранжирования текущей выдачи

Яндекс использует механизм переранжирования, основанный на исторических данных (логи поведения или оценки асессоров). Система находит прошлые пары «запрос-документ», похожие на текущую ситуацию. Если прошлая пара была высоко оценена (например, имела высокий CTR или высокую оценку качества), система агрессивно повышает ранг текущего документа, корректируя оценку основного алгоритма ранжирования.

Описание

Какую задачу решает

Патент решает задачу повышения «полезности SERP в целом» за счет корректировки результатов, выданных основным алгоритмом ранжирования (MLA). Он направлен на устранение ситуаций, когда основной алгоритм может неадекватно ранжировать результаты или занижать позиции документов, которые, тем не менее, могут быть очень полезны пользователю. Система позволяет использовать накопленные знания о качестве и успешности прошлых поисковых сессий для улучшения текущей выдачи.

Что запатентовано

Запатентована система переранжирования документов на SERP. Суть изобретения заключается в использовании базы данных исторических «поисковых пар» (запрос-документ) и связанных с ними метрик «полезности» (Pair-Specific Values). Система рассчитывает «оценку корректировки ранга» (Rank-Adjustment Score) для текущего документа, основываясь на том, насколько он похож на исторически успешные поисковые пары. Эта оценка используется для изменения исходного ранга документа.

Как это работает

Система работает поверх основного алгоритма ранжирования. Сначала основной MLA присваивает документам предварительные ранги (Preliminary Ranks) и базовые оценки (Base-line Ranking Scores). Затем для текущей пары (текущий запрос + документ) система ищет наиболее похожие исторические пары (Stored Search Pairs) в базе данных. Схожесть определяется на уровне пары (сходство запросов И/ИЛИ сходство документов). Для найденных похожих пар система извлекает их историческую «полезность» (например, прошлый CTR или оценку асессора). Rank-Adjustment Score рассчитывается как комбинация этой полезности и степени схожести. Наконец, система комбинирует базовую оценку и оценку корректировки для переранжирования документа.

Актуальность для SEO

Высокая. Использование исторических данных (поведенческих логов и асессорских оценок) в сочетании с методами векторного сравнения и алгоритмами ближайших соседей (KNN) для переранжирования является передовой практикой в современных поисковых системах. Этот патент описывает конкретную реализацию того, как Яндекс интегрирует эти данные для повышения качества выдачи.

Важность для SEO

Влияние на SEO критическое (9/10). Патент описывает механизм, который может напрямую и значительно изменять финальное ранжирование, основываясь на исторических данных о «полезности» (CTR, качество). Это означает, что документ с посредственными оценками от основного MLA может быть агрессивно повышен, если он соответствует паттерну, который исторически показал высокую успешность у пользователей или высокое качество у асессоров. Это подчеркивает первостепенную важность поведенческих факторов и качества контента.

Детальный разбор

Термины и определения

Adjusted Ranking Score (Скорректированная оценка ранжирования): Финальная оценка ранжирования документа, полученная путем комбинации Base-line Ranking Score и Rank-Adjustment Score.
Base-line Ranking Score (Базовая оценка ранжирования): Оценка релевантности, сгенерированная основным алгоритмом машинного обучения (MLA) на основе признаков документа и запроса.
Current Search Pair (Текущая поисковая пара): Пара, состоящая из текущего запроса пользователя (Q) и одного из релевантных документов (D), найденных поисковой системой.
KNN (K Nearest Neighbors / K ближайших соседей): Алгоритм, упоминаемый в патенте, который используется для идентификации K наиболее похожих (ближайших) исторических поисковых пар к текущей поисковой паре в векторном пространстве.
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Основной алгоритм ранжирования (например, CatBoost), используемый для первоначальной оценки релевантности документов и присвоения им предварительных рангов.
Pair-Specific Value (Специфичное для пары значение / Метрика Полезности): Значение, связанное с исторической поисковой парой, которое указывает на полезность (Usefulness) документа для запроса в этой паре. Примеры: прошлый CTR документа по этому запросу или оценка асессора.
Pair-wise Similarity (Попарное сходство): Метрика, указывающая на степень схожести между текущей поисковой парой и исторической поисковой парой. Может основываться на сходстве запросов, сходстве документов или их комбинации.
Preliminary Rank (Предварительный ранг): Позиция документа на SERP, определенная на основе Base-line Ranking Score до применения механизма переранжирования.
Rank-Adjustment Score (RAS) (Оценка корректировки ранга): Оценка, используемая для «буста» (повышения) базовой оценки ранжирования. Рассчитывается на основе Pair-Specific Value и Pair-wise Similarity наиболее похожих исторических пар.
Stored Search Pair (Сохраненная/Историческая поисковая пара): Пара «запрос-документ» (Q’, D’), хранящаяся в базе данных. Может быть получена из прошлых логов поиска (past search pair) или из оценок асессоров (assessor-marked search pair).

Ключевые утверждения (Анализ Claims)

Патент защищает метод использования исторических данных для корректировки ранжирования, выполненного основным алгоритмом.

Claim 1 (Независимый пункт): Описывает основной процесс.

Система поддерживает базу данных Stored Search Pairs (Q’, D’) с ассоциированными Pair-Specific Values (метриками полезности).
При получении текущего запроса (Q) система использует MLA для ранжирования релевантных документов (D), присваивая им Preliminary Ranks.
Формируются Current Search Pairs (Q, D).
Для данной пары (Q, D) рассчитывается Rank-Adjustment Score (RAS). Эта оценка связана с конкретной исторической парой (Q’, D’).
Расчет RAS основывается на ДВУХ компонентах: (i) Метрике полезности исторической пары (Q’, D’) И (ii) Pair-wise Similarity между текущей парой (Q, D) и исторической парой (Q’, D’).
Документ D переранжируется с использованием RAS, так что его финальный ранг отличается от предварительного.

Claim 3 и Claim 4 (Зависимые пункты): Уточняют, как выбирается финальный RAS.

Система генерирует множество «потенциальных» RAS, сравнивая текущую пару (Q, D) с множеством исторических пар. Затем выбирается финальный RAS одним из способов:

(Claim 3) Выбирается максимальное значение (Highest one) среди всех потенциальных RAS. (Ищется наилучшая аналогия).
(Claim 4) Выбирается предопределенное количество (Top-K) максимальных значений. (Claim 5 уточняет, что эти Top-K значения могут быть усреднены). (Используется консенсус K лучших аналогий, что соответствует алгоритму KNN).

Claim 7 (Зависимый пункт): Уточняет механизм переранжирования.

Переранжирование выполняется на основе комбинации (i) Rank-Adjustment Scores и (ii) Base-line Ranking Scores (базовых оценок от MLA).

Claim 8 (Зависимый пункт): Уточняет источники исторических данных.

Stored Search Pairs могут быть либо «прошлыми поисковыми парами» (из логов поведения пользователей), либо «парами, размеченными асессорами».

Claim 10 (Зависимый пункт): Уточняет расчет схожести.

Pair-wise Similarity между (Q, D) и (Q’, D’) может рассчитываться на основе: (i) сходства запросов Q и Q’, И/ИЛИ (ii) сходства документов D и D’.

Где и как применяется

Изобретение применяется на поздних стадиях ранжирования для корректировки результатов основного алгоритма.

RANKING – Ранжирование (Уровни L3/L4 или Пост-обработка)
Основное применение происходит на этапе переранжирования (Reranking). После того как основной MLA (например, CatBoost на уровне L2/L3) сгенерировал Base-line Ranking Scores и Preliminary Ranks, активируется описанный механизм. Он вычисляет Rank-Adjustment Score для кандидатов и генерирует Adjusted Ranking Score, который определяет финальный порядок в SERP.

Офлайн-процессы (Обработка данных и Индексация)
Система требует значительной предварительной работы офлайн:

Сбор и обработка исторических данных (логи поведения пользователей или асессорские оценки).
Формирование базы данных Stored Search Pairs.
Расчет и сохранение Pair-Specific Values (метрик полезности, например CTR) для каждой исторической пары.
Векторизация прошлых запросов и документов для обеспечения быстрого поиска схожести. В патенте упоминается возможность использования методов типа word2vec для векторизации.

На что влияет

Все типы контента и запросов: Механизм универсален и может применяться к любым запросам и документам, для которых существует достаточное количество исторических данных для сравнения.
YMYL и качество контента: Влияние может быть особенно сильным в тематиках, где активно используются асессорские оценки (например, YMYL). Если асессоры высоко оценили определенный паттерн контента, этот механизм будет активно переносить эту оценку на схожие текущие запросы.
Документы с сильными поведенческими сигналами: Документы, которые похожи на те, что исторически демонстрировали высокий CTR, получат значительное преимущество.

Когда применяется

Условия применения: Алгоритм применяется на финальных этапах ранжирования после того, как основной MLA определил предварительный порядок документов.
Триггеры активации: Механизм активируется для обработки текущей поисковой пары. Существенная корректировка ранга происходит при условии нахождения исторической пары с высоким сходством И высокой полезностью.

Пошаговый алгоритм

Процесс работы системы при обработке текущего запроса:

Начальное ранжирование (MLA): Система получает текущий запрос (Q). Основной MLA ранжирует набор релевантных документов (D1, D2…), генерируя Base-line Ranking Scores и присваивая Preliminary Ranks.
Формирование текущих пар: Система формирует Current Search Pairs: (Q, D1), (Q, D2)…
Расчет попарного сходства (Pair-wise Similarity): Для каждой текущей пары (Q, D) система сравнивает ее с множеством исторических пар (Q’, D’) из базы данных. Сравнение происходит в векторном пространстве (запросов, документов или их комбинации). Используются метрики вроде скалярного произведения или векторного расстояния.
Генерация потенциальных оценок корректировки: Для каждой пары сравнения ((Q, D) vs (Q’, D’)) рассчитывается потенциальный Rank-Adjustment Score (RAS). Он основывается на комбинации значения сходства и исторической полезности (Pair-Specific Value) пары (Q’, D’). По сути, это полезность, взвешенная на сходство.
Выбор финальной оценки корректировки (KNN): Система анализирует все потенциальные RAS для текущей пары (Q, D). Финальный RAS выбирается путем выбора максимального значения ИЛИ путем усреднения Top-K максимальных значений (алгоритм KNN).
Расчет скорректированной оценки: Система генерирует Adjusted Ranking Score для документа D путем комбинации (например, взвешенной суммы) его Base-line Ranking Score и финального Rank-Adjustment Score.
Переранжирование: Документы (D1, D2…) переупорядочиваются на SERP в соответствии с их новыми Adjusted Ranking Scores.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные для определения Pair-Specific Value (Полезности) исторических пар. Используются данные из логов прошлых поисков: клики, CTR по конкретным парам запрос-документ.
Контентные факторы (Текстовые/Векторные): Тексты и признаки текущего запроса, текущих документов, а также прошлых запросов и документов. Эти данные используются для векторизации и последующего расчета Pair-wise Similarity.
Асессорские данные: Оценки качества или полезности, присвоенные асессорами парам запрос-документ. Могут использоваться как Pair-Specific Value вместо или вместе с поведенческими данными.
Системные данные: Base-line Ranking Scores, сгенерированные основным MLA для текущих документов.

Какие метрики используются и как они считаются

Векторизация: Запросы и документы преобразуются в векторы. Упоминаются методы «word2vec». На практике, вероятно, используются более современные трансформерные модели (например, YATI).
Pair-Specific Value (Полезность): Рассчитывается офлайн. Примеры метрик, указанные в патенте: прошлый CTR (Past CTR) для пар из логов; оценочный CTR (Estimated CTR) на основе рейтинга асессора.
Pair-wise Similarity (Сходство): Рассчитывается как мера близости между векторами текущей и исторической пары. В патенте упоминаются методы расчета схожести векторов, такие как скалярное произведение (scalar product) или векторное расстояние (vectorial distance).
Rank-Adjustment Score (RAS): Рассчитывается как функция от Полезности и Сходства. Потенциальный RAS часто рассчитывается как взвешенное значение полезности по сходству.
Примерная формула:
$$\text{Potential RAS} = \text{Similarity}((Q, D), (Q’, D’)) \times \text{Usefulness}(Q’, D’)$$
Финальный RAS выбирается с помощью KNN (максимум или среднее Top-K).
Adjusted Ranking Score: Рассчитывается как комбинация базовой оценки и RAS. Например, взвешенная сумма: $$\text{Adjusted Score} = w_1 \cdot \text{Base-line Score} + w_2 \cdot \text{RAS}$$
где $w_1$ и $w_2$ – весовые коэффициенты.

Выводы

Переранжирование на основе исторических паттернов: Яндекс использует отдельный механизм, который работает поверх основного алгоритма ранжирования (MLA) и корректирует его результаты, основываясь на сходстве с историческими данными.
«Полезность» как ключевой сигнал (CTR и Асессоры): Центральным элементом системы является метрика полезности (Pair-Specific Value), основанная на реальном поведении пользователей (CTR) или оценках асессоров. Система стремится повысить документы, похожие на те, что исторически были полезны.
Механизм трансфера знаний (KNN): Система использует алгоритм K-ближайших соседей (KNN) для поиска наиболее релевантного исторического контекста. Оценка полезности из этого контекста «переносится» на текущий документ пропорционально степени сходства.
Попарное сходство (Pair-wise Similarity): Сходство определяется не только на уровне запросов или документов по отдельности, но и на уровне пары «запрос-документ», что позволяет учитывать контекстную релевантность.
Векторный поиск как основа: Эффективность механизма зависит от точности векторизации запросов и документов (вероятно, с использованием моделей типа YATI) и скорости поиска ближайших соседей в векторном пространстве.

Практика

Best practices (это мы делаем)

Максимизация сигналов «Полезности» (CTR и E-E-A-T): Поскольку Pair-Specific Value (CTR или асессорская оценка) является источником буста, необходимо фокусироваться на максимизации удовлетворенности пользователя и кликабельности сниппетов. Также критически важно соответствие критериям E-E-A-T, так как оценки асессоров напрямую используются в этом механизме.
Оптимизация под успешные паттерны: Анализируйте SERP и определяйте, какие типы контента и структуры страниц исторически успешны в вашей нише (имеют высокий трафик и вовлеченность). Создавайте контент, который семантически и структурно похож на эти успешные примеры. Это увеличит Pair-wise Similarity с высококачественными историческими парами.
Усиление семантической релевантности: Обеспечьте высокую точность семантического соответствия документа запросу. Поскольку схожесть рассчитывается на основе векторов, важно, чтобы контент был четко сфокусирован на теме и содержал релевантные сущности и QBST фразы, что позволит системе точно определить вектор документа и найти релевантные исторические пары.
Построение тематического авторитета (Topical Authority): Последовательно предоставляя полезные результаты по широкому спектру связанных запросов, сайт увеличивает количество и качество релевантных Stored Search Pairs в базе Яндекса, которые могут быть использованы для будущего ранжирования.

Worst practices (это делать не надо)

Игнорирование поведенческих факторов: Стратегия, основанная только на текстовой оптимизации и ссылках, без учета реальной полезности для пользователя (CTR, удовлетворенность), не позволит воспользоваться преимуществами этого механизма переранжирования.
Кликбейт (с оговоркой): Если метрика полезности основана только на CTR, кликбейт может дать краткосрочный эффект. Однако, если она включает показатели удовлетворенности (например, длинные клики или оценки асессоров), кликбейт приведет к низким Pair-Specific Values и отсутствию буста.
Создание «среднего» контента: Контент, который не выделяется по качеству или поведенческим метрикам, не сформирует сильных исторических пар и не получит значительного Rank-Adjustment Score.

Стратегическое значение

Этот патент демонстрирует механизм, с помощью которого Яндекс напрямую конвертирует исторические данные о качестве и поведении пользователей в сигналы ранжирования. Он подтверждает стратегический приоритет «полезности» контента. Для SEO это означает, что долгосрочный успех зависит от формирования сильных позитивных исторических паттернов. Необходимо не просто быть релевантным по мнению MLA, но и быть похожим на то, что пользователи или асессоры уже оценили как высококачественное и полезное. Успех порождает успех.

Практические примеры

Сценарий 1: Буст за счет высокого исторического CTR

Ситуация: Пользователь вводит запрос (Q) «как выбрать ноутбук для дизайнера 2025». Основной MLA ранжирует статью (D) на 6 позицию.
Исторические данные: В базе данных есть историческая пара (Q’, D’) — «лучшие ноутбуки для Photoshop 2024» и статья, которая имела исключительно высокий CTR (высокий Pair-Specific Value).
Действие системы: Система определяет, что текущая пара (Q, D) очень похожа (семантически близкие запросы и похожий тип контента) на историческую пару (Q’, D’) (высокая Pair-wise Similarity).
Расчет RAS: Система рассчитывает высокий Rank-Adjustment Score, основываясь на высоком историческом CTR пары (Q’, D’).
Результат: Adjusted Ranking Score значительно увеличивается, и статья (D) перемещается с 6 на 1 позицию.

Сценарий 2: Буст за счет асессорских оценок (YMYL)

Ситуация: Запрос (Q) «симптомы дефицита витамина B12». Медицинская статья (D) ранжируется MLA на 4 позицию.
Исторические данные: В базе есть размеченная асессорами пара (Q’, D’) — «признаки нехватки B12» и статья с авторитетного медицинского портала, получившая высшую оценку качества/полезности (высокий Pair-Specific Value).
Действие системы: Система определяет высокое сходство между (Q, D) и (Q’, D’).
Расчет RAS: Рассчитывается высокий RAS на основе высокой асессорской оценки.
Результат: Статья (D) получает значительный буст и поднимается в топ, так как она соответствует паттерну высококачественного медицинского контента, подтвержденного асессорами.

Вопросы и ответы

Что такое «Pair-Specific Value» и почему это самая важная часть патента?

Pair-Specific Value — это метрика «полезности» исторической пары запрос-документ. В патенте указано, что это может быть прошлый CTR документа по этому запросу или оценка, данная асессором. Это самая важная часть, потому что именно это значение является источником «буста» (Rank-Adjustment Score). Чем выше историческая полезность похожей пары, тем сильнее будет повышена позиция текущего документа.

Чем описанный механизм отличается от работы основного алгоритма ранжирования (MLA)?

Основной MLA (например, CatBoost) оценивает релевантность на основе сотен признаков документа и запроса в текущий момент времени. Описанный механизм работает поверх MLA как система переранжирования. Он использует совершенно другой подход: он ищет похожие ситуации в прошлом (используя KNN) и корректирует ранг на основе того, насколько успешным был поиск в тех прошлых ситуациях. Он может значительно изменить результаты работы MLA.

Что такое «Pair-wise Similarity» и как она рассчитывается?

Это мера схожести между текущей парой (Q, D) и исторической парой (Q’, D’). Патент указывает, что она может рассчитываться на основе сходства запросов (Q и Q’), сходства документов (D и D’) или их комбинации. Расчет производится в векторном пространстве (с использованием эмбеддингов, вероятно от моделей типа YATI) с использованием метрик близости, таких как скалярное произведение или векторное расстояние.

Как используется алгоритм KNN (K-ближайших соседей) в этом патенте?

KNN используется для нахождения Top-K наиболее похожих исторических пар к текущей паре в векторном пространстве. После того как эти «ближайшие соседи» найдены, система анализирует их метрики полезности (Pair-Specific Values). Финальный Rank-Adjustment Score может быть рассчитан как усредненное значение полезности этих K соседей (взвешенное по сходству) или просто как максимальное значение среди них.

Как SEO-специалист может повлиять на Rank-Adjustment Score?

Стратегически нужно работать в двух направлениях. Первое — максимизировать метрики полезности (CTR, удовлетворенность пользователя, E-E-A-T), чтобы ваши страницы формировали сильные исторические данные (высокие Pair-Specific Values). Второе — создавать контент, который семантически и структурно похож на уже успешные паттерны в вашей нише, чтобы увеличить Pair-wise Similarity с высококачественными историческими парами.

Использует ли система данные только о моем сайте или обо всем интернете?

Система использует базу данных исторических поисковых пар (Stored Search Pairs), собранную по всему интернету. Она ищет схожие паттерны независимо от домена. Если ваш новый контент похож на исторически успешный контент конкурента, вы теоретически можете получить буст за счет его прошлых успехов, при условии высокой степени сходства документов и запросов.

Что важнее для этого механизма: сходство запросов или сходство документов?

Патент не указывает веса и утверждает, что может использоваться любая комбинация (И/ИЛИ). В идеале, система ищет ситуации, где и запрос, и документ очень похожи на исторический пример. Это обеспечивает максимальную уверенность в том, что перенос оценки полезности оправдан.

Может ли этот механизм понизить позиции сайта?

Патент описывает Rank-Adjustment Score как механизм для «буста» и изменения предварительного ранга. Он не описывает прямую пессимизацию. Однако, если конкуренты получают значительный буст за счет этого механизма, а ваш сайт не соответствует успешным историческим паттернам (имеет низкий RAS), вы будете косвенно понижены в выдаче относительно конкурентов.

Какие модели используются для векторизации в этом патенте?

В тексте патента упоминаются методы векторизации, такие как «word2vec». Учитывая дату патента и современные практики Яндекса, весьма вероятно, что для генерации векторов запросов и документов используются более продвинутые трансформерные модели (например, YATI), обеспечивающие лучшее понимание семантической близости.

Если я улучшу CTR своего сайта сегодня, когда это повлияет на ранжирование через этот механизм?

Это повлияет не сразу. Сначала система должна собрать новые данные о поведении, обработать их офлайн, обновить базу данных Stored Search Pairs и пересчитать Pair-Specific Values. После обновления базы данных высокий CTR начнет работать как источник буста для будущих запросов, похожих на те, по которым был достигнут успех.