Как Яндекс тестирует новые документы в топе выдачи с помощью алгоритмов «Многорукого бандита» (Exploration vs Exploitation)

Яндекс патентует механизм балансировки между показом проверенных результатов (Эксплуатация) и тестированием новых документов (Экспериментирование), используя подход «Многорукий бандит». Система предсказывает релевантность документов без истории поведения, вычисляет «Оценку эксперимента» и принудительно добавляет перспективных кандидатов на высокие позиции SERP. Это позволяет быстро собрать поведенческие данные для новых страниц, принимая краткосрочный риск ради долгосрочного улучшения качества поиска.

Описание

Какую задачу решает

Патент решает фундаментальную проблему поисковых систем, зависящих от поведенческих факторов: «проблему холодного старта» для новых документов и связанную с ней стагнацию выдачи. Стандартные алгоритмы сильно полагаются на исторические данные о поведении пользователей (свойства, полученные из истории). Новые документы не имеют этих данных, поэтому ранжируются низко и не получают трафика, необходимого для их сбора. Это создает замкнутый круг (feedback loop), где потенциально более релевантные новые документы не могут вытеснить устоявшиеся результаты.

Что запатентовано

Запатентована система и способ обработки запроса, реализующие стратегию баланса между Экспериментированием (Exploration) и Эксплуатацией (Exploitation) с использованием подхода «Многорукий бандит» (Multi-Armed Bandit, MAB). Суть изобретения заключается в активном продвижении «веб-ресурсов кандидатов» (документов без достаточной истории) на высокие позиции в SERP для быстрого сбора обратной связи. Отбор кандидатов основан на предсказанной релевантности и уровне неопределенности этой оценки.

Как это работает

Система идентифицирует «кандидатов» — документы, релевантные запросу, но не имеющие поведенческих данных. Для них система предсказывает релевантность (Вероятность выигрыша) и уровень уверенности в этой оценке, используя только внутренние факторы документа (Присущие веб-ресурсу данные). Затем алгоритм «Многорукого бандита» (например, UCB-1) вычисляет Оценку эксперимента. Эта оценка тем выше, чем выше предсказанная релевантность И чем ниже уверенность (т.е. чем больше нужно данных). Лучшие кандидаты по этой оценке принудительно добавляются на высокие позиции SERP. Система собирает данные о взаимодействии (клики) с этими кандидатами и обновляет их оценки для будущих запросов.

Актуальность для SEO

Высокая. Баланс Exploration/Exploitation является фундаментальной задачей в системах ранжирования, основанных на машинном обучении и поведенческих сигналах (Reinforcement Learning). Алгоритмы MAB активно используются в индустрии для тестирования нового контента и поддержания свежести поиска. Описанный подход критически важен в современной динамичной среде.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает конкретный механизм, с помощью которого Яндекс активно и быстро собирает поведенческие данные для новых страниц. Это объясняет, как новый контент может быстро попасть в топ (фаза Экспериментирования) и так же быстро его покинуть, если не получит позитивного отклика. Это подчеркивает критическую важность оптимизации контента для немедленного вовлечения пользователя (CTR, Dwell Time) с момента первого показа в SERP.

Детальный разбор

Термины и определения

Алгоритм Бандита (Bandit Algorithm / Многорукий бандит / MAB / Второй MLA)

Класс алгоритмов обучения с подкреплением, решающих задачу баланса между использованием текущих знаний (Эксплуатация) и получением новых знаний (Экспериментирование). В патенте используется для выбора, какие новые документы показать пользователю.

Веб-ресурс Кандидат (Candidate Web Resource)

Документ, который был проиндексирован, но не имеет никаких или имеет недостаточное количество исторических поведенческих данных для адекватного ранжирования стандартным алгоритмом.

Вероятность выигрыша (Probability of Winning)

Предсказанная вероятность того, что данный веб-ресурс кандидат удовлетворит поисковому запросу пользователя. Вычисляется Третьим MLA.

Доверительный параметр / Достоверность (Confidence Parameter)

Метрика, указывающая на уровень уверенности системы в оценке «Вероятности выигрыша». Вычисляется Четвертым MLA. Чем меньше данных собрано о документе, тем ниже достоверность.

Оценка эксперимента (Exploration Score)

Итоговая оценка, вычисляемая Алгоритмом Бандита. Определяет приоритет документа в фазе Экспериментирования. Является функцией от Вероятности выигрыша и Достоверности.

Параметр предсказанной релевантности (Predicted Relevance Parameter)

Набор данных, описывающий предсказанную релевантность кандидата. Включает Вероятность выигрыша и Доверительный параметр. Вычисляется Первым MLA.

Присущие веб-ресурсу данные (Intrinsic Web Resource Data)

Внутренние свойства документа, не зависящие от поведения пользователей. Включают контент, метаданные, ссылки, встроенные объекты, текст и т.д. (Факторы до обратной связи).

Свойства, полученные из истории (Historical Properties)

Данные, основанные на поведении пользователей, хранящиеся в логах. Включают данные о кликабельности (CTR), позиции кликов и т.д.

Первый/Третий/Четвертый MLA

Компоненты системы предсказания:

Первый MLA: Агрегирующий алгоритм, состоит из Третьего и Четвертого MLA.
Третий MLA (MVPML): Алгоритм (например, GBDT), предсказывающий Вероятность Выигрыша.
Четвертый MLA (MADPML): Алгоритм, предсказывающий Достоверность (ошибку) Третьего MLA.

DCM (Dependent Click Model / Модель зависимых кликов)

Модель поведения пользователя в SERP, основанная на каскадной гипотезе (пользователь просматривает сверху вниз). Используется для интерпретации кликов и обновлении оценок релевантности с учетом позиционного смещения.

GBDT (Gradient Boosting Decision Trees)

Градиентный бустинг деревьев решений (например, CatBoost). Упоминается как возможная реализация Третьего MLA.

UCB-1 (Upper Confidence Bound)

Конкретный алгоритм Многорукого бандита, который для принятия решения использует верхнюю границу доверительного интервала оценки выигрыша.

Ключевые утверждения (Анализ Claims)

Основными независимыми пунктами являются Claim 1 (Способ) и Claim 13 (Система).

Claim 1 (Способ обработки поискового запроса): Описывает полный цикл работы системы, интегрирующей Exploration и Exploitation.

Получение запроса.
Выбор стандартных релевантных веб-ресурсов (имеющих свойства, полученные из истории) основным алгоритмом ранжирования. (Фаза Эксплуатации).
Получение множества веб-ресурсов кандидатов (не имеющих достаточных свойств из истории). (Фаза Экспериментирования).
Применение Первого машинно-обученного алгоритма (MLA1) для определения Параметра предсказанной релевантности для кандидатов. Важно: этот параметр основан на Присущих веб-ресурсу данных (контент, ссылки и т.д.).
Применение Второго машинно-обученного алгоритма (MLA2 / Алгоритм Бандита) для определения Оценки эксперимента на основе Параметра предсказанной релевантности.
Ввод Оценки эксперимента в Алгоритм ранжирования на основе «многорукого бандита» (BBRA) для ранжирования кандидатов.
Выбор подмножества лучших кандидатов на основе заранее определенного параметра включения (квота на эксперименты в SERP).
Создание SERP, включающее добавление на высокоранжированные позиции как выбранных кандидатов, так и стандартных релевантных ресурсов. (Смешивание).
Получение данных о пользовательском взаимодействии (кликах).
Сохранение этих данных в связи с веб-ресурсами кандидатами (обновление истории).

Claims 2-5 (Детализация предсказания): Уточняют структуру Первого MLA.

Claim 2 определяет, что Первый MLA состоит из Третьего MLA (для предсказания Вероятности выигрыша) и Четвертого MLA (для предсказания Доверительного параметра / Достоверности).
Claim 3 указывает, что Третий MLA может быть Градиентным бустингом деревьев решений (GBDT).
Claim 5 указывает, что Четвертый MLA предсказывает абсолютную ошибку Третьего MLA. (Система не только предсказывает релевантность, но и то, насколько сильно она может ошибаться).

Claim 9 (Обработка минимальной истории): Уточняет, что система может работать не только с полностью новыми документами, но и с теми, у кого есть минимальная, недостаточная история. В этом случае Параметр предсказанной релевантности учитывает имеющиеся данные (число показов, кликов).

Claims 11-12 (Интерпретация кликов): Уточняют, как обрабатывается обратная связь с учетом позиции документа.

Используются сложные модели кликов. Если кандидат был выше или на позиции клика (т.е. точно просмотрен), используется DCM (Claim 11). Если ниже (неизвестно, просмотрен ли), используется ЕМ-алгоритм или Байесовский вывод (Claim 12). Это необходимо для корректного учета позиционного смещения (position bias).

Где и как применяется

Изобретение применяется на поздних стадиях формирования поисковой выдачи, интегрируя результаты основного ранжирования и модуля экспериментального ранжирования.

RANKING – Ранжирование (Уровни L3/Upper Reranking)
Процесс разделяется на две параллельные ветки:

Exploitation: Основной алгоритм ранжирования выполняет стандартное ранжирование для документов с достаточной историей.
Exploration: Модуль экспериментального ранжирования оценивает и ранжирует кандидатов. Он использует Первый и Второй MLA для расчета Оценки эксперимента.

BLENDER – Метапоиск и Смешивание
На этом этапе происходит финальное формирование SERP. Система объединяет результаты Эксплуатации и Экспериментирования. Патент указывает, что выбранные кандидаты добавляются на «высокоранжированные позиции». Заранее определенный параметр включения определяет квоту на эксперименты.

INDEXING и Офлайн-процессы
На этапе индексации извлекаются Присущие веб-ресурсу данные (контентные, ссылочные, технические факторы). Офлайн происходит обучение моделей (Первый, Третий, Четвертый MLA), которые предсказывают релевантность и достоверность на основе этих данных.

На что влияет

Новый и свежий контент: Изобретение напрямую влияет на скорость попадания новых документов в топ выдачи. Это механизм, позволяющий свежему контенту быстро набрать необходимые поведенческие сигналы.
Редкий контент (Long-tail): Документы, которые редко показываются, также могут классифицироваться как «кандидаты» и получать шанс на показ через этот механизм.
Волатильность SERP: Этот механизм является одним из источников волатильности выдачи, так как система постоянно тестирует новые документы на высоких позициях.

Когда применяется

Алгоритм применяется постоянно при обработке поисковых запросов.

Триггеры активации: Наличие в индексе «веб-ресурсов кандидатов», релевантных текущему запросу, для которых система хочет собрать данные (т.е. существует неопределенность в их оценке).
Пороговые значения: Ключевым параметром является Параметр включения, который определяет допустимое число кандидатов в SERP. Этот параметр регулирует уровень риска (потенциального снижения качества выдачи в моменте).

Пошаговый алгоритм

Процесс обработки запроса с использованием механизма Экспериментирования.

Получение запроса и Сегментация ресурсов: Система получает запрос и разделяет релевантные документы на «Старые» (с историей) и «Кандидаты» (без истории).
Стандартное ранжирование (Эксплуатация): Основной алгоритм ранжирует «Старые» ресурсы.
Предсказание Релевантности (Первый MLA): Для Кандидатов:
1. Извлекаются Присущие веб-ресурсу данные.
2. Третий MLA (например, GBDT) предсказывает Вероятность выигрыша.
3. Четвертый MLA предсказывает Достоверность (ожидаемую ошибку предсказания).
4. Формируется Параметр предсказанной релевантности.
Расчет Оценки Эксперимента (Второй MLA / Алгоритм Бандита): Вычисляется Оценка эксперимента. Например, с использованием алгоритма UCB-1, оценка поощряет высокую предсказанную релевантность и низкую достоверность (высокую неопределенность).
Ранжирование и Выбор Кандидатов (BBRA): Кандидаты ранжируются по Оценке эксперимента. Выбирается Топ-N в соответствии с Параметром включения.
Формирование SERP (Смешивание): Система создает финальную выдачу, добавляя выбранных кандидатов на высокоранжированные позиции вместе со стандартными результатами.
Сбор Обратной Связи: Пользователь взаимодействует с SERP. Система получает данные о кликах.
Обновление Данных: Данные о взаимодействии интерпретируются с помощью моделей кликов (например, DCM) и сохраняются в логах, становясь Историческими свойствами.

Какие данные и как использует

Данные на входе

Контентные, Ссылочные, Технические факторы (Присущие веб-ресурсу данные): Метаданные, текст, гиперссылки, встроенные объекты. Эти данные используются Первым MLA для предсказания релевантности документов-кандидатов, у которых нет истории.
Поведенческие факторы (Свойства, полученные из истории): Данные о кликабельности (CTR), позиции кликов. Используются основным алгоритмом ранжирования для «старых» документов. Отсутствие этих данных является триггером для активации экспериментального модуля для Кандидата. Также эти данные собираются в результате эксперимента.

Какие метрики используются и как они считаются

Вероятность выигрыша ($\hat{r}_{d,t}$): Предсказывается Третьим MLA. Патент упоминает использование Градиентного бустинга деревьев решений (GBDT). Для документов с минимальной историей может рассчитываться как отношение числа успешных испытаний ($W_{d,t}$) к общему числу испытаний ($\Upsilon_{d,t}$).
Достоверность (Доверительный параметр): Предсказывается Четвертым MLA как абсолютная ошибка Третьего MLA.
Оценка эксперимента ($S_{t}(d)$): Вычисляется Вторым MLA (Алгоритмом Бандита). Патент приводит пример формулы для алгоритма UCB-1 (Уравнение 2):

$$S_{t}(d)=\hat{r}_{d,t}+\alpha\sqrt{\frac{2\ln t}{\Upsilon_{d,t}}}$$

Где:

$\hat{r}_{d,t}$ — оценка вероятности выигрыша (компонент Эксплуатации).
Второй компонент — бонус за Экспериментирование.
$\alpha$ — параметр, контролирующий интенсивность эксперимента.
$\Upsilon_{d,t}$ — число испытаний (показов) документа d к моменту t. (Чем меньше показов, тем выше бонус).

Также приводится модифицированный Байесовский подход (Уравнение 3):

$$S_{t}(d)=\overline{r_{d}}+\alpha\sigma_{d,t}$$

Где $\sigma_{d,t}$ — стандартное отклонение, отражающее неопределенность.

Выводы

Яндекс активно форсирует сбор поведенческих данных: Система не ждет пассивно, пока новые документы наберут статистику. Она целенаправленно вмешивается в ранжирование (Exploration), чтобы быстро собрать поведенческие сигналы для оценки качества нового контента.
Баланс Exploration/Exploitation (MAB): Патент детально описывает реализацию подхода «Многорукий бандит» в поиске. Это подтверждает использование сложных математических моделей для управления риском при тестировании новых документов.
Критичность внутренних факторов для старта: Для запуска эксперимента система полагается на предсказание релевантности (Вероятность выигрыша) на основе внутренних факторов (Присущие данные). Базовая оптимизация (контент, ссылки) критически важна для попадания в пул кандидатов на эксперимент.
Неопределенность как фактор ранжирования: Система оценивает свою уверенность в предсказании (Достоверность). Документы с высокой потенциальной релевантностью и низкой достоверностью (мало данных) являются приоритетными для тестирования.
Сложная интерпретация кликов: Яндекс использует модели кликов (DCM и др.) для интерпретации обратной связи, что позволяет нивелировать позиционное смещение (position bias) и точнее оценить истинную релевантность документа.

Практика

Best practices (это мы делаем)

Максимизация базовой релевантности (Intrinsic Signals): Обеспечивайте высокое качество контента, техническую оптимизацию и релевантность (Присущие данные). Это необходимое условие для того, чтобы Первый MLA (например, CatBoost/GBDT) высоко оценил Вероятность выигрыша и документ попал в фазу Экспериментирования.
Оптимизация под немедленное вовлечение (First Impression): Когда новый документ попадает в топ через этот механизм, у него мало времени, чтобы доказать свою ценность. Критически важны:
- Высокий CTR: Оптимизируйте сниппеты (Title, Description), чтобы максимизировать кликабельность при показе на высоких позициях.
- Низкий Bounce Rate / Высокий Dwell Time: Контент должен немедленно отвечать на интент пользователя и удерживать его на странице. Скорость загрузки и юзабилити критичны.
Быстрая индексация: Обеспечивайте максимально быструю индексацию нового контента, чтобы он быстрее стал доступен для Модуля экспериментального ранжирования.
Мониторинг новых страниц: Внимательно отслеживайте производительность новых страниц в первые дни после публикации. Резкий взлет позиций может быть результатом работы этого механизма. Важно анализировать поведение пользователей в этот период.

Worst practices (это делать не надо)

Публикация низкокачественного или недоработанного контента: Расчет на то, что система «протестирует» сырой контент, опасен. Если он попадет в Эксперимент и быстро соберет негативные поведенческие сигналы, это затруднит его дальнейшее продвижение.
Использование кликбейтных заголовков: Манипуляция CTR при слабом контенте приведет к коротким кликам и возвратам в выдачу. Система быстро интерпретирует это как негативный сигнал во время эксперимента.
Игнорирование UX/UI и технических факторов: Плохой пользовательский опыт (медленная загрузка, плохая верстка) приведет к негативным сигналам в момент тестирования, даже если информация релевантна.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование поведенческих факторов как основного мерила качества и релевантности. Он демонстрирует наличие сложной инфраструктуры для быстрого сбора и интерпретации этих данных, минимизируя проблему «холодного старта». Для SEO это означает, что скорость реакции пользователей на контент является определяющим фактором успеха, начиная с первого показа в SERP. Новый качественный контент имеет реальный механизм для быстрого попадания в топ.

Практические примеры

Сценарий: Запуск новой карточки товара на сайте E-commerce

Публикация и Индексация: Публикуется новая карточка товара «Смартфон Модель X 2025». Яндекс ее индексирует.
Статус Кандидата: Изначально у карточки нет исторических данных. Она становится «Веб-ресурсом кандидатом».
Оценка (Первый MLA): Система анализирует присущие данные (качество описания, характеристики, цена, структура страницы). Допустим, Первый MLA дает высокую Вероятность выигрыша (0.8), но Достоверность низкая (т.к. данных нет).
Эксперимент (Второй MLA): Алгоритм Бандита вычисляет высокую Оценку эксперимента из-за комбинации высокой вероятности и низкой достоверности.
Включение в SERP: Система добавляет карточку на 3 позицию по запросу «Купить Смартфон Модель X 2025».
Сбор данных (Критический этап):
- Успех: Пользователи активно кликают (хороший CTR) и проводят время на карточке, добавляют в корзину. Система повышает Достоверность оценки 0.8. Карточка закрепляется в топе.
- Провал: Пользователи кликают, но быстро возвращаются в выдачу (цена завышена, плохое описание). Система снижает оценку Вероятности выигрыша. Карточка выпадает из топа.

Вопросы и ответы

Что такое дилемма «Exploration vs Exploitation» в контексте этого патента?

Это ключевая проблема, которую решает патент. Exploitation (Эксплуатация) — это стратегия показа документов, которые уже доказали свою эффективность (имеют хорошую историю кликов). Это безопасно, но ведет к стагнации выдачи. Exploration (Экспериментирование) — это стратегия тестирования новых документов без истории. Это рискованно в моменте, но необходимо для долгосрочного улучшения качества и поддержания свежести поиска.

Что такое «Алгоритм Бандита» (MAB) и как он работает в поиске Яндекса?

Это математическая модель (Второй MLA), которая решает, какой документ показать. Она вычисляет «Оценку эксперимента», балансируя предсказанную релевантность документа и степень неопределенности этой оценки. Алгоритм предпочитает документы с высоким потенциалом и/или те, о которых мало что известно, чтобы собрать максимум полезной информации для обучения системы ранжирования.

На основе чего система предсказывает релевантность новых документов (без истории)?

Для документов без истории система полагается исключительно на «Присущие веб-ресурсу данные» (Intrinsic Data). Это контентные и статические факторы: текст, метаданные, ссылки, структура и т.д. Первый MLA (в патенте упоминается GBDT – Градиентный бустинг, на практике это CatBoost) обучен предсказывать вероятность успеха («Вероятность выигрыша») на основе этих факторов.

Как это влияет на SEO для новых сайтов или страниц?

Это очень позитивный механизм для нового контента. Он позволяет преодолеть проблему «холодного старта». Если внутренние факторы (Intrinsic Data) страницы очень сильны, у нее есть шанс быть отобранной для Экспериментирования и сразу появиться в топе выдачи, минуя необходимость долгого накопления истории и ссылок.

Что произойдет, если моя страница попала в эксперимент, но пользователи на нее плохо реагируют?

Это приведет к быстрому провалу эксперимента. Если страница показана в топе, но имеет низкий CTR или пользователи быстро возвращаются на выдачу (короткие клики), система интерпретирует это как негативную обратную связь. Исторические свойства документа обновляются негативно, и он теряет позиции. Фаза эксперимента требует немедленного вовлечения.

Сколько мест в выдаче отводится под эксперименты?

Патент не указывает точное число, но упоминает «Заранее определенный Параметр Включения». Этот параметр определяет допустимое число веб-ресурсов кандидатов в SERP. Это значение, вероятно, динамически настраивается Яндексом для контроля рисков и балансировки между стабильностью выдачи и скоростью обучения.

Что такое Третий и Четвертый MLA и зачем они нужны?

Они вместе составляют Первый MLA и отвечают за предсказание потенциала нового документа. Третий MLA (MVPML) предсказывает саму «Вероятность Выигрыша» (насколько документ хорош). Четвертый MLA (MADPML) предсказывает, насколько можно доверять этому предсказанию (Доверительный Параметр или ошибку). Это разделение позволяет Алгоритму Бандита точнее оценивать риски эксперимента.

Как Яндекс интерпретирует отсутствие клика на показанный документ?

Яндекс использует сложные модели кликов, такие как DCM (Модель зависимых кликов). Если пользователь кликнул на результат ниже вашего документа, DCM предполагает, что ваш документ был просмотрен и отвергнут (негативный сигнал). Если пользователь кликнул выше, система использует другие модели (ЕМ, Байесовский вывод), чтобы оценить вероятность того, что ваш документ вообще был замечен.

Если моя новая страница резко взлетела в топ и потом упала, это работа этого алгоритма?

Очень вероятно. Это классический симптом фазы Экспериментирования. Ваша страница была выбрана как перспективный кандидат, показана пользователям, но не смогла генерировать достаточно позитивных поведенческих сигналов по сравнению с другими результатами. Это сигнал к тому, что нужно дорабатывать юзабилити, интент или сниппеты.

Используются ли нейросети (YATI/BERT) в этом механизме?

Патент 2015 года упоминает Градиентный Бустинг (GBDT) для анализа внутренних факторов и предсказания релевантности. Вполне вероятно, что в современной реализации Яндекса для этой же цели (анализ Intrinsic Data в рамках Первого MLA) используются более совершенные модели, включая трансформеры типа YATI, так как они лучше оценивают качество контента.