Как Яндекс использует рандомизированное переранжирование (Explore/Exploit) для сбора поведенческих данных и обучения алгоритмов

Яндекс патентует механизм активного сбора поведенческих данных для документов с недостаточной статистикой. Система использует вспомогательную модель для прогнозирования качества документа (независимо от кликов). Затем ранг документа случайным образом изменяется (повышается или понижается) в выдаче, чтобы собрать новый фидбэк (Explore). Эти данные используются для переобучения основной формулы ранжирования (Exploit).

Описание

Какую задачу решает

Патент решает проблему разреженности данных (data sparsity) о поведении пользователей, которая критически ограничивает эффективность алгоритмов обучения ранжированию (LTR). Основные модели ранжирования сильно зависят от исторических взаимодействий. Если у документа мало данных (например, он новый или редкий), система не может надежно оценить его качество. Это создает замкнутый круг: низкий ранг препятствует сбору кликов, что не позволяет алгоритму скорректировать ранг. Изобретение предлагает механизм активного исследования (exploration) для сбора нового фидбэка по таким документам.

Что запатентовано

Запатентована система модификации ранжирования для сбора обучающих данных (механизм Explore/Exploit). Суть изобретения заключается в использовании двух алгоритмов машинного обучения (MLA): основного MLA Ранжирования и вспомогательного MLA Прогнозирования. Вспомогательный MLA предсказывает вероятность принадлежности документа к классу качества (Оценка Классовой Связи, CAV). Этот сигнал используется для изменения исходной Оценки Ранжирования (RS), чтобы изменить позицию документа в выдаче и стимулировать сбор нового фидбэка для переобучения основного алгоритма.

Как это работает

Система использует два MLA. MLA Ранжирования вычисляет исходную оценку (RS). MLA Прогнозирования вычисляет вероятность качества (CAV); важно, что этот MLA обучается без использования поведенческих данных. Затем система вычисляет Измененную Оценку Ранжирования (ARS), комбинируя RS и CAV. Для этого используется Параметр Модуляции — случайная величина от -1 до 1. Это вносит элемент случайности, позволяя как повышать, так и понижать документы в выдаче. Цель — показать документы с высоким потенциалом (CAV) на разных позициях для сбора репрезентативного фидбэка.

Актуальность для SEO

Высокая. Баланс между эксплуатацией текущей модели (Exploitation) и исследованием новых данных (Exploration) является фундаментальной задачей в современных поисковых системах. Описанный механизм активного сбора данных (Active Learning) для борьбы с разреженностью данных остается крайне актуальным.

Важность для SEO

Влияние на SEO умеренно-высокое (6.5/10). Патент описывает внутренний механизм сбора данных Яндексом, а не прямой фактор ранжирования. Однако он имеет стратегическое значение: он объясняет высокую волатильность выдачи для новых страниц и демонстрирует механизм, позволяющий качественному контенту без истории трафика (высокий CAV) получить шанс на видимость через временное повышение. Это подчеркивает важность факторов качества, оцениваемых асессорами, независимо от текущих ПФ.

Детальный разбор

Термины и определения

ARS_d (Adjusted Ranking Score / Измененная Оценка Ранжирования): Финальная оценка документа, используемая для построения SERP. Рассчитывается путем модификации RS с помощью CAV и Весового параметра (Wd).
CAV_d (Class Association Value / Оценка Классовой Связи): Вероятность того, что документ принадлежит к заранее определенному классу качества (например, «Хороший», «Идеальный»), выбранному оператором. Вычисляется с помощью MLA Прогнозирования,.
MLA Прогнозирования (Prediction MLA / MLA 164): Вспомогательный алгоритм. Обучается предсказывать класс документа на основе его признаков, но БЕЗ использования предыдущего пользовательского фидбэка. Используется для вычисления CAV.
MLA Ранжирования (Ranking MLA / MLA 162): Основной алгоритм ранжирования (LTR). Обучается на полном наборе данных, включая поведенческие факторы (ПФ) и оценки асессоров,. Используется для вычисления RS.
mp_d (Modulation Parameter / Параметр Модуляции): Компонент Весового параметра (Wd). Случайная величина в диапазоне. Используется для контроля уровня и направления изменения ранга (повышение или понижение) и вносит элемент случайности (exploration)-[153].
Ограниченный Предыдущий Пользовательский Фидбэк (Limited Previous User Feedback): Ситуация, когда документ имеет мало исторических данных о взаимодействиях (клики, просмотры), что затрудняет оценку его качества.
RS_d (Ranking Score / Оценка Ранжирования): Исходная оценка релевантности документа запросу, вычисленная основным MLA Ранжирования. Определяет «Оригинальный Ранг» документа.
W_d (Weight Parameter / Весовой Параметр): Параметр, используемый для взвешивания CAV при расчете ARS. Включает константу нормализации (k) и параметр модуляции (mpd): $W_{d}=k*mp_{d}$.

Ключевые утверждения (Анализ Claims)

Патент защищает метод модификации ранжирования с целью увеличения степени изменения оригинального ранга для сбора данных (Active Learning).

Claim 1 (Независимый пункт): Описывает базовый процесс.

Вычисление исходной Оценки Ранжирования (RS) с помощью MLA. Эта оценка определяет Оригинальный Ранг.
Вычисление Оценки Классовой Связи (CAV) — вероятности принадлежности документа к заранее определенному классу.
Ключевое утверждение о цели: CAV используется для «увеличения уровня изменения оригинального ранга» (т.е. для того, чтобы сильнее изменить позицию документа).
Вычисление Измененной Оценки Ранжирования (ARS) на основе RS и CAV.
Отображение SERP на основе ARS.

Claim 2, 3, 5 (Зависимые пункты): Уточняют применение и цель.

Метод фокусируется на документах с ограниченным предыдущим пользовательским фидбэком (Claim 2).
Цель — сбор нового пользовательского фидбэка о документе на его измененной позиции (Claim 3).
Собранные данные используются для переобучения основного MLA Ранжирования (Claim 5). Это замыкает цикл обратной связи.

Claim 8 (Зависимый пункт): Определяет механизм вычисления CAV.

CAV вычисляется отдельным MLA Прогнозирования.
Этот MLA обучается на данных, размеченных людьми-асессорами. (Критически важно: в описании патента указано, что этот MLA обучается без использования поведенческих данных).

Claim 11 (Зависимый пункт): Устанавливает связь между CAV и изменением ранга.

Документ с высоким CAV (высокой вероятностью принадлежности к классу) скорее всего будет связан с более высоким уровнем изменений оригинального ранга.

Claim 12, 13 (Зависимые пункты): Вводят механизм контроля и рандомизации.

Вводится Параметр Модуляции для контроля уровня изменений ранга (Claim 12).
Приводится формула расчета ARS (Claim 13): $ARS_{d}=RS_{d}+{W_{d}}^{*}CAV_{d}$. (Wd включает в себя случайный параметр модуляции).

Где и как применяется

Изобретение применяется на поздних стадиях ранжирования и тесно связано с инфраструктурой машинного обучения.

RANKING – Ранжирование (Уровни L3/L4 или Пост-обработка)
Механизм работает как слой переранжирования (Reranking) после того, как основная формула (MLA Ранжирования, вероятно CatBoost/YATI на L3) вычислила исходные оценки (RS).

Вычисление CAV: MLA Прогнозирования (вспомогательная модель) вычисляет CAV для кандидатов ранжирования.
Модификация оценок: Система применяет формулу модификации, используя Параметр Модуляции (Wd), который вносит элемент случайности и определяет направление изменения (вверх или вниз).
Генерация SERP: Финальная выдача формируется на основе ARS.

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Система напрямую взаимодействует с механизмами сбора поведенческих данных. Изменение рангов (Explore) направлено на сбор новых данных о взаимодействиях, которые затем используются для валидации и переобучения основного MLA Ранжирования (Exploit).

Офлайн-процессы (Обучение моделей)
Критическая часть системы работает офлайн:

Обучение MLA Ранжирования на полном наборе данных (ПФ + Асессоры).
Обучение MLA Прогнозирования (Асессоры, БЕЗ ПФ).
Переобучение MLA Ранжирования на новых данных, собранных механизмом.

На что влияет

Документы с разреженными данными: Наибольшее влияние оказывается на документы с Ограниченным Предыдущим Пользовательским Фидбэком — новые страницы, документы из «хвоста» выдачи, документы по редким запросам.
Волатильность выдачи: Механизм вносит контролируемую нестабильность (стохастичность) в SERP, так как позиции документов могут искусственно и временно изменяться для целей тестирования.
Типы контента и ниши: Применимо ко всем типам, но особенно важно в динамичных нишах или там, где требуется оценка качества, не основанная только на популярности (например, YMYL).

Когда применяется

Триггеры активации: Идентификация документов в выдаче, по которым недостаточно статистики взаимодействий (Data Sparsity).
Условия применения: Документ должен иметь достаточно высокую Оценку Классовой Связи (CAV). Если система считает, что документ потенциально качественный (высокий CAV), она будет активнее изменять его ранг для проверки гипотезы.
Контроль качества: Отмечается, что система может быть настроена так, чтобы не изменять ранги наиболее релевантных документов (топ выдачи), минимизируя ущерб для пользователя.

Пошаговый алгоритм

Процесс А: Офлайн-обучение моделей

Сбор данных: Формирование обучающей выборки (запрос, документ, оценки асессоров, логи взаимодействий).
Обучение MLA Ранжирования (MLA 162): Обучение на полном наборе данных (включая ПФ) для вывода формулы расчета RS.
Обучение MLA Прогнозирования (MLA 164): Обучение на данных, исключающих ПФ. Цель — предсказать класс качества (например, «Хорошо») на основе остальных признаков.

Процесс Б: Ранжирование и сбор данных (Runtime)

Вычисление RS (Этап 1302): MLA Ранжирования вычисляет исходную Оценку Ранжирования (RS).
Вычисление CAV (Этап 1304): MLA Прогнозирования вычисляет Оценку Классовой Связи (CAV).
Вычисление Весового Параметра (Wd): Система определяет $W_{d}$. Рассчитывается как $W_{d} = k * mp_{d}$, где k — константа нормализации, а mpd — случайный Параметр Модуляции (от -1 до 1).
Вычисление ARS (Этап 1306): Система вычисляет Измененную Оценку Ранжирования по формуле: $ARS_{d}=RS_{d}+{W_{d}}^{*}CAV_{d}$.
Переранжирование и отображение SERP (Этап 1308): Документы сортируются по ARS. Документы с высоким CAV могут быть повышены (если Wd > 0) или понижены (если Wd < 0).
Сбор фидбэка (Explore): Сбор данных о взаимодействиях пользователя с измененной выдачей.
Переобучение (Exploit): Собранный фидбэк используется для переобучения MLA Ранжирования (возврат к Процессу А).

Какие данные и как использует

Данные на входе

Система использует разные наборы данных для обучения двух разных моделей.

Для MLA Ранжирования (MLA 162):

Поведенческие факторы: Исторические данные о взаимодействиях (клики, время просмотра, CTR и т.д.). Критически важны.
Контентные/Структурные факторы: Признаки из пары запрос-документ.
Оценки Асессоров: Размеченные классы качества (например, «Идеально»-«Плохо»).

Для MLA Прогнозирования (MLA 164):

Контентные/Структурные факторы: Признаки из пары запрос-документ.
Оценки Асессоров: Размеченные классы качества.
Мета-признаки: Тип документа, метатеги.
Поведенческие факторы: НЕ используются. Это ключевое отличие, позволяющее оценить потенциальное качество независимо от текущей популярности.

Какие метрики используются и как они считаются

Оценка Ранжирования (RS): Метрика релевантности, вычисляемая MLA 162.
Оценка Классовой Связи (CAV): Вероятность (например, от 0 до 1), вычисляемая MLA 164.
Константа Нормализации (k): Эмпирическое значение для выравнивания шкал.
Параметр Модуляции (mpd): Случайная величина в диапазоне.
Весовой Параметр (Wd): Рассчитывается по формуле:
$$W_{d} = k * mp_{d}$$
Измененная Оценка Ранжирования (ARS): Финальная метрика. Рассчитывается по формуле:
$$ARS_{d}=RS_{d}+{W_{d}}^{*}CAV_{d}$$

Выводы

Активное исследование (Exploration) в ранжировании: Яндекс использует механизм принудительного изменения рангов для сбора недостающих поведенческих данных. Это реализация стратегии Active Learning для борьбы с разреженностью данных.
Два взгляда на качество: Патент четко разделяет оценку, основанную на поведении пользователей (MLA Ранжирования), и прогнозируемую оценку качества, основанную на асессорских данных БЕЗ учета поведения (MLA Прогнозирования).
Роль MLA Прогнозирования (CAV): Эта модель критически важна для идентификации потенциально качественных, но непопулярных документов. Она оценивает качество на основе не-поведенческих факторов. Высокий CAV увеличивает вероятность изменения ранга.
Рандомизация как инструмент (Вверх и Вниз): Использование случайного Параметра Модуляции (mpd) от -1 до 1 означает, что ранжирование намеренно делается стохастическим. Документы могут быть как агрессивно повышены, так и понижены для сбора данных на разных позициях выдачи.
Переобучение как конечная цель: Цель всего механизма — не улучшить выдачу в моменте, а собрать данные о взаимодействиях (Exploit), чтобы переобучить и улучшить основной MLA Ранжирования в долгосрочной перспективе.

Практика

Best practices (это мы делаем)

Фокус на фундаментальном качестве и E-E-A-T: Поскольку MLA Прогнозирования (вычисляющий CAV) не использует ПФ и опирается на асессорские оценки, критически важно соответствовать критериям качества Яндекса (достоверность, экспертность, удобство). Это повышает вероятность высокого CAV и, следовательно, шанс на временное повышение в выдаче для сбора данных.
Обеспечение идеального UX/UI и удовлетворения интента: Если новый контент получит временный буст (Explore), крайне важно максимизировать позитивный пользовательский опыт (низкий bounce rate, высокая вовлеченность). Этот новый фидбэк напрямую повлияет на переобучение основного алгоритма (Exploit). Негативный опыт приведет к падению позиций.
Оптимизация сниппетов: Привлекательные сниппеты повышают CTR. Это критически важно в момент тестирования, так как позволяет быстрее собрать статистически значимые данные о поведении пользователей после клика.

Worst practices (это делать не надо)

Игнорирование качества в пользу накрутки ПФ: Попытки манипулировать ПФ при низком качестве контента неэффективны. MLA Прогнозирования оценивает качество независимо от ПФ. Если CAV низкий, механизм exploration не будет значительно изменять ранг документа.
Ожидание стабильных позиций для нового контента: Патент объясняет, почему позиции нового или низкочастотного контента могут быть нестабильными. Система может намеренно «перемешивать» выдачу (включая понижение позиций из-за отрицательного mpd) для сбора данных.
Использование кликбейта: Если документ получит буст, но разочарует пользователей (короткие клики), это приведет к сбору негативного фидбэка. После переобучения основного MLA такой документ будет ранжироваться ниже.

Стратегическое значение

Этот патент подтверждает, что Яндекс активно борется с ситуацией, когда популярность превалирует над качеством из-за нехватки данных. Он демонстрирует сложный механизм для обнаружения и валидации нового качественного контента. Стратегически это означает, что существует путь в топ для сайтов, которые еще не накопили авторитет и ПФ, при условии исключительно высокого качества контента (высокий CAV). Однако этот механизм не гарантирует стабильности, так как является инструментом тестирования.

Практические примеры

Сценарий 1: Запуск новой экспертной статьи (Удачный исход Exploration)

Ситуация: Опубликована глубокая экспертная статья. ПФ нет. MLA Ранжирования дает низкий RS (Топ-50).
Оценка Яндексом: MLA Прогнозирования анализирует контент и дает высокий CAV (0.9 вероятность класса «Отлично»).
Применение механизма: Система генерирует случайный mpd = +0.8.
Расчет: ARS = RS + (0.8 * 0.9). Измененная оценка значительно возрастает.
Результат: Статья временно показывается в Топ-5. Пользователи демонстрируют высокую вовлеченность.
Последствия: Яндекс собирает позитивный фидбэк и использует его для переобучения основного MLA. Статья получает более высокий RS органически.

Сценарий 2: Применение механизма (Отрицательная модуляция)

Ситуация: Та же статья с высоким CAV (0.9) и низким RS.
Применение механизма: При обработке другого запроса система генерирует случайный mpd = -0.5.
Расчет: ARS = RS + (-0.5 * 0.9). Измененная оценка снижается.
Результат: Статья показывается еще ниже (например, Топ-70).
Последствия: Система собирает данные о том, как пользователи взаимодействуют с выдачей, когда эта статья находится на низкой позиции. Это также полезная информация для обучения модели (например, для калибровки кликовой модели).

Вопросы и ответы

В чем ключевое различие между MLA Ранжирования и MLA Прогнозирования в этом патенте?

MLA Ранжирования — это основная модель, которая использует все факторы, включая поведенческие (ПФ), для расчета исходной Оценки Ранжирования (RS). MLA Прогнозирования — это вспомогательная модель, которая намеренно НЕ использует ПФ. Она обучается предсказывать оценки асессоров только на основе контента и других статических факторов, выдавая Оценку Классовой Связи (CAV).

Что такое Оценка Классовой Связи (CAV) и как она влияет на ранг?

CAV — это вероятность того, что документ принадлежит к определенному классу качества (например, «Отлично»). Она используется как модификатор исходной оценки RS. Чем выше CAV, тем сильнее может быть изменена позиция документа (как вверх, так и вниз), согласно формуле $ARS=RS+{Wd}*CAV$. Высокий CAV создает потенциал для значительного изменения ранга.

Патент говорит, что система может как повышать, так и понижать документы. Почему?

Это достигается за счет использования Параметра Модуляции (mpd) — случайной величины от -1 до 1. Если mpd положительный, оценка увеличивается (повышение). Если отрицательный, оценка уменьшается (понижение). Это позволяет системе собирать данные о поведении пользователей при разных позициях документа в выдаче (стратегия Exploration).

На какие документы этот алгоритм влияет больше всего?

Алгоритм в первую очередь нацелен на документы с «ограниченным предыдущим пользовательским фидбэком» (Claim 2) — новые страницы, контент по редким запросам или страницы на молодых сайтах. Если такой документ имеет высокий потенциал качества (высокий CAV), система с большей вероятностью применит к нему этот механизм тестирования.

Как повысить Оценку Классовой Связи (CAV) моего документа?

Поскольку CAV предсказывает оценку асессора и не зависит от ПФ, необходимо сосредоточиться на факторах, которые важны для асессоров. Это включает глубину проработки темы, экспертность, достоверность информации (E-E-A-T), качество контента, отсутствие агрессивной рекламы и удобство использования (UX/UI). Чем выше качество страницы «само по себе», тем выше будет CAV.

Означает ли этот патент, что поведенческие факторы не важны?

Нет, ПФ критически важны. Цель всего описанного механизма — собрать новые поведенческие данные там, где их не хватает, чтобы затем использовать их для улучшения основного ранжирования (MLA Ранжирования). Если документ получил буст, но показал плохие ПФ, это негативно скажется на его будущем ранжировании.

Мой новый сайт получил трафик, а потом он резко упал. Это работа этого алгоритма?

Это весьма вероятно. Система могла временно повысить ваши страницы в выдаче (положительный mpd и высокий CAV) для сбора данных (Explore). Если собранные данные не подтвердили высокое качество взаимодействия, или если фаза тестирования закончилась, трафик может упасть до уровня, определяемого стандартным ранжированием (RS).

Является ли этот механизм аналогом «песочницы»?

Это скорее противоположность классической «песочницы». Вместо ограничения видимости нового контента, этот механизм предоставляет новому качественному контенту шанс проявить себя, временно повышая его в выдаче для проверки реакции пользователей. Это механизм ускоренного сбора данных и обучения для системы.

Как долго длится эффект от этого изменения ранжирования?

Эффект временный. Параметр модуляции (mpd) является случайной величиной и, вероятно, генерируется заново в течение короткого периода времени или даже при каждом запросе. Это не постоянный буст, а временное изменение для сбора статистически значимого количества данных.

Как я могу определить, что моя страница попала под влияние этого алгоритма?

Главным признаком может быть неожиданная и временная волатильность позиций, особенно если страница новая или имеет мало трафика. Резкий скачок в ТОП или, наоборот, падение на несколько позиций без видимых причин (апдейтов или работ на сайте) может быть результатом работы этого механизма тестирования.