Как Яндекс целенаправленно "перемешивает" выдачу (Active Learning) для сбора недостающих поведенческих данных и обучения ранжирования

Яндекс патентует механизм Активного Обучения (Active Learning) для сбора поведенческих данных о документах, по которым мало статистики. Система определяет вероятность принадлежности документа к определенному классу качества (например, «Хороший») и искусственно изменяет его позицию в выдаче (повышает или понижает), чтобы стимулировать взаимодействие пользователя. Собранные данные используются для дообучения основной формулы ранжирования.

Описание

Какую задачу решает

Патент решает проблему нехватки (разреженности) данных о поведении пользователей (sparseness of data) для определенных документов. Модели ранжирования сильно зависят от поведенческих факторов. Если по документу мало взаимодействий (Limited Previous User Feedback), система не может надежно оценить его качество. Это ограничивает объем и разнообразие обучающих данных и ухудшает работу ранжирования. Изобретение предлагает механизм для активного сбора недостающих данных путем манипулирования позициями таких документов в выдаче.

Что запатентовано

Запатентована система активного обучения (Active Learning) и исследования (Exploration) для улучшения ранжирования. Суть изобретения заключается в использовании дополнительного алгоритма (Prediction MLA) для оценки потенциального качества документа без учета существующих поведенческих данных. На основе этой оценки система изменяет исходный ранг документа, увеличивая магнитуду изменения ранга (повышая или понижая позицию), чтобы собрать новые данные для последующего переобучения основного алгоритма ранжирования (Ranking MLA).

Как это работает

Система использует два алгоритма. Ranking MLA (основная формула) вычисляет исходный Ranking Score (RS). Prediction MLA (обученный без поведенческих данных) вычисляет Class Association Value (CAV) — вероятность того, что документ принадлежит к классу «Хороший». Затем система вычисляет Amended Ranking Score (ARS), комбинируя RS и CAV. Ключевой особенностью является возможность использования случайного Modulating Parameter (от -1 до 1), который позволяет как повышать, так и понижать позицию документа. Цель — показать документ на новой позиции, собрать обратную связь и использовать ее для дообучения Ranking MLA.

Актуальность для SEO

Высокая. Активное обучение (Active Learning) и решение проблемы разреженности данных (Data Sparsity) являются ключевыми задачами в современных поисковых системах. Механизмы для эффективного сбора обучающих данных и решения проблемы «холодного старта» для новых документов крайне актуальны.

Важность для SEO

Влияние на SEO значительно (6.5/10). Этот патент не описывает факторы релевантности, но описывает механизм сбора данных, который вносит контролируемую волатильность в SERP (так называемый «Яндекс-шторм» или «Yandex Dance»). Он объясняет, почему новые или редко посещаемые страницы могут временно появляться на более высоких (или низких) позициях. Понимание этого механизма важно для интерпретации изменений позиций и подчеркивает важность обеспечения позитивного пользовательского опыта во время таких «тестов».

Детальный разбор

Термины и определения

Amended Ranking Score (ARS) (Скорректированная оценка ранжирования): Финальный балл, используемый для ранжирования документа на SERP. Рассчитывается на основе исходного Ranking Score и Class Association Value.
Class Association Value (CAV) (Значение ассоциации с классом): Вероятность того, что документ принадлежит к заранее определенному классу (Predetermined Class), вычисленная Prediction MLA. Чем выше CAV, тем больше потенциальная магнитуда изменения исходного ранга документа.
Human Assessed Class (Класс, определенный асессором): Метки качества (например, «Perfect», «Good», «Bad»), присвоенные документам асессорами. Используются для обучения обоих MLA.
Limited Previous User Feedback (Ограниченная предыдущая обратная связь): Ситуация, когда по документу накоплено недостаточно данных о поведении пользователей (клики, время на сайте и т.д.).
Magnitude of Change (Магнитуда изменения ранга): Абсолютная разница между исходным рангом документа и его скорректированным рангом.
Modulating Parameter (mp) (Модулирующий параметр): Параметр, используемый для контроля магнитуды изменения ранга. Часто реализуется как случайное значение (например, от -1 до 1), что позволяет как повышать, так и понижать ранг документа.
Prediction MLA (Прогнозирующий АМО): Второй алгоритм. Он обучается предсказывать класс документа (оценку асессора) БЕЗ использования существующих поведенческих данных. Вычисляет CAV.
Ranking MLA (Ранжирующий АМО): Основной алгоритм ранжирования системы. Обучается с использованием как оценок асессоров, так и существующих поведенческих данных. Вычисляет исходный Ranking Score.
Ranking Score (RS) (Исходная оценка ранжирования): Исходный балл, вычисленный Ranking MLA, который определяет первоначальный ранг документа.
Weighting Parameter (W) (Весовой параметр): Параметр, используемый при расчете ARS. Рассчитывается как произведение нормализующей константы (k) и модулирующего параметра (mp). $W = k * mp$.

Ключевые утверждения (Анализ Claims)

Патент защищает систему сбора данных для машинного обучения путем контролируемого изменения результатов поиска.

Claim 1 (Независимый пункт): Описывает основной процесс и его цель.

Вычисление исходного Ranking Score (RS) с помощью Ranking MLA.
Вычисление Class Association Value (CAV).
Критически важно: CAV используется для увеличения магнитуды изменения исходного ранга (это не обязательно повышение, это именно изменение позиции).
Вычисление Amended Ranking Score (ARS) на основе RS и CAV.
Отображение SERP на основе ARS.
Сбор обратной связи пользователя (user feedback).
Использование собранной обратной связи для обучения Ranking MLA.

Claim 2, 5 (Зависимые пункты): Раскрывают контекст и цель.

Система применяется к документам с Limited Previous User Feedback (Claim 2).
Основная цель — переобучение (Retraining) основного Ranking MLA с использованием новых собранных данных (Claim 5). Это подтверждает, что изобретение является механизмом Активного Обучения.

Claim 8 (Зависимый пункт): Уточняет механизм вычисления CAV.

CAV вычисляется отдельным алгоритмом — Prediction MLA, который отличается от Ranking MLA и обучен на основе данных асессоров.

Claim 12 и 13 (Зависимые пункты): Описывают механизм контроля изменения ранга.

Вводится Modulating Parameter (mp) для контроля магнитуды изменения ранга (Claim 12).
ARS рассчитывается по формуле (Claim 13):

$$ARS_{d}=RS_{d}+{W_{d}}*CAV_{d}$$

В описании патента уточняется, что Modulating Parameter (mp) может быть случайным значением от -1 до 1. Это позволяет системе намеренно как повышать, так и понижать ранг документа для сбора данных.

Где и как применяется

Изобретение применяется на поздних этапах ранжирования и тесно связано с процессом сбора данных и офлайн-обучением.

RANKING – Ранжирование (Уровни L3/L4 или Post-processing)
Механизм применяется после того, как основной алгоритм (Ranking MLA) вычислил исходные баллы (RS). Это этап переранжирования (Re-ranking) или пост-обработки выдачи. Система использует Prediction MLA для расчета CAV, а затем вычисляет финальный Amended Ranking Score (ARS), который определяет итоговый порядок документов.

CRAWLING & DATA ACQUISITION – Сбор данных
Хотя механизм работает во время ранжирования, его цель — сбор поведенческих данных. Собранные взаимодействия пользователей записываются в логи для последующего анализа. Это система активного сбора обучающей выборки.

Офлайн-процессы
Ключевые процессы происходят офлайн:

Обучение Ranking MLA (использует поведенческие данные).
Обучение Prediction MLA (НЕ использует поведенческие данные, только асессорские метки и статические факторы).
Переобучение Ranking MLA после сбора новых данных через описанный механизм.

На что влияет

Документы с недостаточной статистикой: Наибольшее влияние оказывается на документы с Limited Previous User Feedback — новые страницы, редкий контент или страницы, ранее ранжировавшиеся низко.
Волатильность выдачи (SERP Volatility): Этот механизм является одним из источников нестабильности позиций. Он намеренно «перемешивает» результаты для целей тестирования (Exploration).

Когда применяется

Условие активации: Наличие в выдаче документов, для которых целесообразно собрать больше поведенческих данных.
Триггеры:
1. Идентификация документа с Limited Previous User Feedback.
2. Высокое значение Class Association Value (CAV) для этого документа (т.е. Prediction MLA считает, что документ потенциально качественный).

Пошаговый алгоритм

Процесс работы системы во время обработки запроса:

Вычисление исходных баллов: Ranking MLA вычисляет исходный Ranking Score (RS) для каждого документа.
Вычисление вероятности класса: Prediction MLA вычисляет Class Association Value (CAV) для каждого документа.
Определение модулирующих параметров: Для каждого документа вычисляется Weighting Parameter (W). Он включает нормализационную константу (k) и случайный Modulating Parameter (mp) (от -1 до 1). $W = k * mp$.
Вычисление скорректированных баллов: Система вычисляет Amended Ranking Score (ARS) по формуле: $ARS = RS + W * CAV$. Если W положителен, ранг растет; если отрицателен — падает.
Переранжирование: Документы сортируются на основе ARS. Магнитуда изменения ранга увеличивается для документов с высоким CAV.
Отображение и сбор данных: Пользователю показывается SERP на основе ARS. Система собирает данные о взаимодействии.
Переобучение (Офлайн): Собранные данные используются для дообучения основного Ranking MLA.

Какие данные и как использует

Данные на входе

Система использует разные наборы данных для обучения двух разных MLA.

Для обучения Ranking MLA:

Контентные факторы: Текст документа и запроса.
Поведенческие факторы (Previous User Feedback): Исторические данные о взаимодействиях (клики, CTR, dwell time и т.д.).
Асессорские данные (Human Assessed Class): Метки качества.

Для обучения Prediction MLA:

Контентные факторы: Текст документа и запроса.
Асессорские данные (Human Assessed Class): Метки качества.
Важно: Поведенческие факторы НЕ используются для обучения Prediction MLA. Это позволяет ему оценивать качество документа до того, как эти данные будут собраны.

Какие метрики используются и как они считаются

Ranking Score (RS): Вычисляется основным алгоритмом ранжирования.
Class Association Value (CAV): Вычисляется Prediction MLA как вероятность.
Modulating Parameter (mp): Случайное значение, например, равномерно распределенное от -1 до 1.
Normalization constant (k): Константа для согласования диапазонов RS и CAV.
Amended Ranking Score (ARS): Рассчитывается по одной из формул:
Простая сумма (без модуляции):
$$ARS_{d}=RS_{d}+CAV_{d}$$
Взвешенная сумма (с модуляцией и нормализацией):
$$ARS_{d}=RS_{d}+{W_{d}}*CAV_{d}$$
где $W_{d}=k*mp_{d}$

Выводы

Это патент об Активном Обучении (Active Learning), а не о релевантности. Основная цель изобретения — не улучшить текущую выдачу, а собрать данные (Exploration) для улучшения будущих моделей ранжирования, решая проблему нехватки поведенческих сигналов.
Яндекс намеренно вносит волатильность в SERP. Система спроектирована для увеличения «магнитуды изменения ранга». Использование случайного Modulating Parameter (mp) от -1 до 1 означает, что система может намеренно как повышать, так и понижать позиции документов для тестирования.
Два типа оценки качества. Патент разделяет оценку на основе полного набора факторов (включая поведение), выполняемую Ranking MLA, и оценку качества без учета поведения, выполняемую Prediction MLA (аналог статической оценки качества).
Prediction MLA основан на асессорских оценках. Способность системы предсказать качество документа до сбора поведенческих данных напрямую зависит от качества обучения Prediction MLA на асессорских метках.
Целевое перемешивание. Изменение ранга применяется пропорционально CAV. Чем выше вероятность того, что документ качественный, тем сильнее может измениться его позиция (вверх или вниз).

Практика

Best practices (это мы делаем)

Фокус на фундаментальном качестве контента (E-E-A-T). Prediction MLA оценивает качество документа (CAV) без учета ПФ, основываясь на обучении по асессорским меткам. Создание контента, который высоко оценили бы асессоры (экспертность, полнота, достоверность), увеличивает CAV и повышает вероятность попадания в этот механизм тестирования (и потенциального повышения в выдаче).
Быстрая реакция на внезапный рост трафика. Если документ внезапно получает всплеск трафика, вероятно, он попал под действие этого механизма (получил положительный Modulating Parameter). Критически важно обеспечить максимальную вовлеченность этих пользователей, так как Яндекс активно собирает эти данные для переобучения.
Оптимизация сниппетов и юзабилити. Обеспечение привлекательного сниппета (для получения клика) и отличного пользовательского опыта (для удержания) критично для того, чтобы собранные поведенческие данные были позитивными во время тестирования.

Worst practices (это делать не надо)

Паника при внезапном падении позиций. Если качественный документ внезапно упал в выдаче, это может быть результатом действия механизма с отрицательным Modulating Parameter. Это может быть временным явлением в рамках сбора данных.
Игнорирование качества в пользу накрутки ПФ. Если Prediction MLA классифицирует страницу как низкокачественную (низкий CAV), она не получит приоритета в механизме тестирования, независимо от попыток манипуляций.
Создание контента, не удовлетворяющего интент. Контент, который не решает задачу пользователя, получит негативные поведенческие сигналы во время тестирования, что приведет к пессимизации при следующем переобучении Ranking MLA.

Стратегическое значение

Этот патент подтверждает, что Яндекс использует сложные механизмы Active Learning и официально документирует одну из причин «Яндекс-шторма» — намеренное перемешивание выдачи для сбора данных. Стратегически это подчеркивает, что статические факторы качества (E-E-A-T, контент) являются входным билетом для ранжирования новых документов (влияют на Prediction MLA). Однако долгосрочное ранжирование полностью зависит от реального поведения пользователей, собранного во время этих тестов (влияют на Ranking MLA).

Практические примеры

Сценарий 1: Тестирование новой страницы (Повышение)

Ситуация: Опубликована новая экспертная статья. ПФ нет. Основной Ranking MLA ранжирует ее на 25 позиции (RS=5.0).
Действие системы: Prediction MLA оценивает контент и определяет высокий CAV=0.9.
Модуляция: Система случайно выбирает положительный mp=+0.8 (k=1).
Расчет: ARS = 5.0 + (1 * 0.8 * 0.9) = 5.72.
Результат: Статья поднимается на 8 позицию. Пользователи активно взаимодействуют. Яндекс собирает позитивные данные и использует их для переобучения, закрепляя статью в топе.

Сценарий 2: Тестирование существующей страницы (Понижение)

Ситуация: Страница товара ранжируется на 5 позиции (RS=6.5). Данных по ней мало.
Действие системы: Prediction MLA определяет высокий CAV=0.8.
Модуляция: Система случайно выбирает отрицательный mp=-0.9 (k=1).
Расчет: ARS = 6.5 + (1 * -0.9 * 0.8) = 6.5 — 0.72 = 5.78.
Результат: Страница опускается на 15 позицию. Яндекс тестирует, как изменение позиции влияет на спрос, и собирает данные о поведении пользователей на более низких позициях.

Вопросы и ответы

Что такое Active Learning в контексте этого патента?

Active Learning (Активное обучение) — это подход, при котором алгоритм сам выбирает данные, на которых ему нужно учиться. В данном патенте Яндекс использует этот подход для сбора недостающих поведенческих данных. Вместо того чтобы пассивно ждать, пока пользователи провзаимодействуют с документом, система активно изменяет его позицию в выдаче (манипулирует SERP), чтобы собрать нужные ей данные быстрее и эффективнее.

В чем ключевая разница между Ranking MLA и Prediction MLA?

Разница в данных, используемых для обучения. Ranking MLA — это основная формула, она использует все факторы, ВКЛЮЧАЯ поведенческие данные. Prediction MLA — вспомогательная модель, она намеренно обучается БЕЗ поведенческих данных, чтобы предсказать качество документа (Class Association Value) на основе статических признаков и асессорских оценок.

Патент описывает механизм повышения позиций хороших сайтов?

Не совсем. Патент описывает механизм увеличения «магнитуды изменения ранга». Использование случайного Modulating Parameter (от -1 до 1) означает, что система может как повысить, так и намеренно понизить позицию документа. Это механизм перемешивания (shuffling) для тестирования, а не прямого бустинга.

Что такое Modulating Parameter (mp) и зачем он нужен?

Modulating Parameter (mp) вносит элемент случайности (обычно значение от -1 до 1). Если mp положительный, ранг увеличивается; если отрицательный — уменьшается. Это позволяет системе проводить А/Б тестирование прямо в выдаче, проверяя, как пользователи реагируют на документ на разных позициях, и предотвращает систематическое завышение позиций только тестируемых документов.

Как этот патент связан с «Яндекс-штормом» или нестабильностью выдачи?

Этот патент напрямую объясняет одну из причин волатильности SERP. Намеренное изменение позиций документов (вверх и вниз) для сбора данных выглядит для SEO-специалистов как нестабильность или «шторм». Если Яндекс решает активно собрать данные по определенной тематике, выдача в этой нише будет нестабильной из-за работы этого механизма.

Мой сайт новый и по нему нет статистики ПФ. Как мне попасть под этот алгоритм?

Чтобы система захотела собрать данные по вашему сайту, он должен получить высокий Class Association Value (CAV) от Prediction MLA. Поскольку Prediction MLA учится на асессорских оценках и не смотрит на ПФ, вам нужно сосредоточиться на факторах, которые ценят асессоры: экспертность, авторитетность, достоверность (E-E-A-T), качество контента и хорошее юзабилити.

Мои позиции внезапно выросли. Что делать?

Скорее всего, ваша страница попала в тестирование (высокий CAV и положительный mp). Яндекс сейчас активно собирает поведенческие данные по вашей странице. Ваша задача — обеспечить максимальное удовлетворение пользователей (низкие отказы, решение задачи). Если собранные данные будут позитивными, у вас есть шанс закрепиться на высоких позициях после переобучения Ranking MLA.

Может ли этот механизм навсегда пессимизировать мой сайт?

Прямой пессимизации этот механизм не вызывает, его цель — сбор данных. Однако, если во время тестирования (когда ваша страница была временно поднята) пользователи показали плохое поведение, эти данные будут использованы для переобучения Ranking MLA. В результате, при следующем обновлении модели ваш сайт может быть пессимизирован уже основным алгоритмом.

От чего зависит, какой класс выберет оператор (Predetermined Class)?

Выбор зависит от текущих потребностей обучения. Если системе не хватает примеров хороших документов в определенной нише, оператор может выбрать класс «Good» или «Excellent». Если нужно уточнить границу между спамом и полезным контентом, может быть выбран класс «Bad». Чаще всего система заинтересована в проверке потенциально качественных ресурсов.

Как долго длится такое тестирование?

Патент не указывает временные рамки. Тестирование длится до тех пор, пока система не соберет статистически значимое количество поведенческих данных для конкретного документа. Это может занять от нескольких часов до нескольких недель, в зависимости от частотности запросов и объема трафика в тематике.

Как Яндекс целенаправленно «перемешивает» выдачу (Active Learning) для сбора недостающих поведенческих данных и обучения ранжирования