Как Яндекс оптимизирует позиции Колдунщиков (вертикальных результатов) с помощью трех независимых ML-моделей и механизма «Win-Loss»

Яндекс использует трехуровневую систему машинного обучения для оптимизации смешивания (блендинга) вертикальных результатов (Колдунщиков) и органической выдачи. Система независимо прогнозирует CTR Колдунщика («Win») и CTR следующего за ним результата («Loss»). Третья модель объединяет эти прогнозы для расчета общей «Полезности» и выбирает позицию на SERP, которая максимизирует эту метрику, учитывая штрафы за пропуск Колдунщика.

Описание

Какую задачу решает

Патент решает проблему точного определения оптимальной позиции для результатов вертикального поиска (Колдунщиков, виджетов) при их смешивании с органической выдачей. Традиционные методы, основанные на метрике «win-loss» (разница CTR между первым и вторым результатом), неэффективны, когда CTR соседних результатов очень близки. Это приводит к «размытому» максимуму функции полезности и затрудняет выбор наилучшей позиции для Колдунщика. Изобретение повышает точность блендинга и общую релевантность SERP.

Что запатентовано

Запатентована система ранжирования (блендинга), использующая три различных и независимо обучаемых алгоритма машинного обучения (MLA) для расчета Параметра Полезности. Суть изобретения в разделении прогнозирования: две отдельные модели (MLA 1 и MLA 2) независимо прогнозируют Параметр Интереса (CTR) для первого результата (Win) и для второго результата (Loss). Третья модель (MLA 3) использует эти независимые прогнозы как входные данные для вычисления финальной метрики Полезности.

Как это работает

Система итеративно оценивает различные позиции для Колдунщика на SERP. Для каждой позиции:

MLA 1 (Win): Прогнозирует вероятность клика на Колдунщик на этой позиции.
MLA 2 (Loss): Независимо прогнозирует вероятность клика на результат, следующий сразу за Колдунщиком.
MLA 3 (Utility): Вычисляет итоговый Параметр Полезности, используя прогнозы MLA 1 и MLA 2.

Система выбирает ту позицию, которая максимизирует этот Параметр Полезности.

Актуальность для SEO

Высокая. Оптимизация блендинга и точное позиционирование Колдунщиков (Wizards) являются критически важными задачами для слоя Метапоиска Яндекса. Использование многоуровневых ML-моделей для оценки качества SERP и предсказания поведения пользователей (CTR) полностью соответствует современным подходам к формированию выдачи.

Важность для SEO

Влияние на SEO умеренно высокое (7/10). Патент не описывает ранжирование внутри органической выдачи, но напрямую определяет видимость и CTR органических результатов за счет оптимизации размещения Колдунщиков. Система решает, насколько агрессивно Яндекс будет вставлять свои вертикальные сервисы над органическими результатами или между ними. Понимание этого механизма критически важно для выстраивания стратегий защиты органических позиций.

Детальный разбор

Термины и определения

MLA 1, MLA 2, MLA 3 (Алгоритмы машинного обучения): Три различных алгоритма. MLA 1 прогнозирует Win. MLA 2 прогнозирует Loss (независимо от MLA 1). MLA 3 прогнозирует Параметр Полезности на основе выходов MLA 1 и MLA 2.
Параметр Интереса (Parameter of Interest): Метрика, указывающая на потенциальную заинтересованность пользователя. В патенте преимущественно используется как спрогнозированная вероятность клика или CTR. Является выходом MLA 1 и MLA 2.
Параметр Полезности (Parameter of Utility): Финальная метрика, рассчитываемая MLA 3. Используется для определения оптимальной позиции результата на SERP. Цель системы — максимизировать это значение.
Результат вертикального поиска (Vertical Search Result): Результаты, возвращенные модулями вертикального поиска (картинки, видео, карты) или специальные виджеты (Колдунщики/Wizards).
Результат веб-поиска (Web Search Result): Стандартные органические результаты (ссылки на веб-ресурсы).
Вертикальный параметр предпочтения (Vertical Preference Parameter): Целевая переменная (Ground Truth), используемая для обучения MLA 3. Основана на исторических данных о кликах и отражает предпочтение пользователя вертикальному результату перед следующим за ним результатом.
Win (Выигрыш) и Loss (Потеря): Компоненты функции полезности. Win — Параметр Интереса для оптимизируемого результата (например, Колдунщика). Loss — Параметр Интереса для следующего за ним результата (например, органической ссылки).

Ключевые утверждения (Анализ Claims)

Патент защищает многоступенчатый процесс определения оптимальной позиции результата поиска с использованием трех отдельных ML-моделей.

Claim 1 (Независимый пункт): Описывает базовый метод.

Получение запроса и предварительное ранжирование списка (Результат 1 на Позиции 1, Результат 2 на Позиции 2).
Прогнозирование Первого Параметра Интереса (Win) для Результата 1 с помощью MLA 1.
Прогнозирование Второго Параметра Интереса (Loss) для Результата 2 с помощью MLA 2 (отличного от MLA 1).
Прогнозирование Параметра Полезности для Результата 1 с помощью MLA 3, используя выходы MLA 1 и MLA 2.
Корректировка позиции Результата 1 на основе спрогнозированного Параметра Полезности и создание финальной SERP.

Claim 4 и 5: Уточняют критические аспекты обучения.

MLA 1 и MLA 2 обучаются независимо друг от друга (Claim 4). Это позволяет им специализироваться на разных типах контента и использовать разные признаки.
MLA 3 обучается, используя в качестве признаков именно *спрогнозированные* параметры от MLA 1 и MLA 2 (Claim 5).

Claim 9: Описывает итеративный процесс оптимизации.

Метод из Claim 1 повторяется для разных позиций. Система сравнивает Полезность Результата 1 на Позиции 1 (сравнивая с Результатом 2) и Полезность Результата 1 на Позиции 2 (сравнивая с Результатом 3). Выбирается позиция, которая дает наивысший Параметр Полезности.

Claim 12 (Независимый пункт): Описывает применение метода для встраивания вертикального результата в список веб-результатов. Процесс аналогичен Claim 9: для каждой возможной позиции рассчитывается Параметр Полезности с помощью трехступенчатой модели, и выбирается позиция с наивысшим значением.

Где и как применяется

Изобретение применяется на финальных этапах формирования поисковой выдачи.

BLENDER – Метапоиск и Смешивание (MetaSearch & Blending)
Это основная область применения патента. Алгоритм используется компонентом Blender для принятия решения о том, как интегрировать результаты вертикального поиска (Колдунщики/Wizards) в основную выдачу результатов веб-поиска (Cross-Corpus Ranking). Он определяет оптимальные позиции для вставок вертикальных результатов среди органических.

RANKING – Ранжирование (Поздние этапы/Переранжирование)
Процесс можно рассматривать как этап переранжирования (Reranking) или пост-обработки, где позиции корректируются на основе рассчитанного Параметра Полезности.

Взаимодействие компонентов:

Система ранжирования получает предварительные списки от основных алгоритмов ранжирования (L3) и системы Колдунщиков.
Для оптимизации позиций активируются Модули, реализующие MLA 1, 2 и 3.
Модуль обучения использует исторические данные (логи поисковых сессий и кликов) для офлайн-обучения MLA 1, 2 и 3.

На что влияет

Конкретные типы контента: В первую очередь влияет на позиционирование результатов вертикального поиска (Колдунщики: изображения, видео, карты, новости) относительно результатов веб-поиска (органической выдачи).
Видимость и CTR органической выдачи: Алгоритм напрямую определяет, будет ли органический результат вытеснен Колдунщиком ниже или показан выше него.
Специфические запросы: Применяется к запросам, для которых система считает целесообразным показ вертикальных результатов (например, запросы с медиа-интентом, товарные, неоднозначные запросы).

Когда применяется

Алгоритм применяется в реальном времени при формировании SERP, когда система Метапоиска идентифицировала наличие релевантных результатов как в веб-поиске, так и в вертикальных сервисах, и необходимо принять решение об их смешивании и позиционировании.

Пошаговый алгоритм

Процесс А: Офлайн-обучение моделей (Модуль Обучения)

Обучение MLA 1 (Win Model) и MLA 2 (Loss Model) (Независимое):
1. Сбор обучающих объектов из истории поиска (факторы результата, позиция).
2. Определение цели: актуальные данные о кликах (1=клик, 0=нет клика).
3. Обучение MLA 1 и MLA 2 прогнозировать вероятность клика (Параметр Интереса) на основе факторов и позиции.
Генерация данных для MLA 3: Применение обученных MLA 1 и MLA 2 к историческим данным для генерации спрогнозированных значений Win и Loss.
Расчет целевой переменной для MLA 3: Для исторических сессий рассчитывается Вертикальный параметр предпочтения.
- +1: Клик на вертикальный результат.
- 0: Нет кликов на оба результата.
- -2.5 (Штраф): Клик на следующий результат при пропуске вертикального.
Обучение MLA 3 (Utility Model): Обучение MLA 3 предсказывать Вертикальный параметр предпочтения, используя спрогнозированные Win и Loss (из шага 2) как входные признаки.

Процесс Б: Обработка запроса и Оптимизация Позиции (Real-time)

Получение запроса и Предварительное Ранжирование: Генерация и ранжирование списка веб-результатов (W1, W2…) и идентификация вертикального результата (V1).
Итеративное Вычисление Полезности: Система перебирает возможные позиции (P) для вставки V1. Для каждой позиции P:
1. Прогноз Win (MLA 1): Расчет Параметра Интереса для V1 на позиции P.
2. Прогноз Loss (MLA 2): Расчет Параметра Интереса для следующего результата на позиции P+1.
3. Расчет Полезности (MLA 3): Вычисление Параметра Полезности для V1 на P на основе Win и Loss.
Выбор Оптимальной Позиции: Сравнение Параметров Полезности для всех позиций. Выбор позиции, обеспечивающей максимальную Полезность для V1.
Генерация SERP: Формирование финальной выдачи, где V1 размещается на оптимальной позиции.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Исторические данные о кликах (CTR) критически важны для обучения всех трех моделей. Используются для расчета целевых метрик (реальные клики для MLA 1/2, Вертикальный параметр предпочтения для MLA 3). Также используются как входные признаки: поведенческие шаблоны, предварительно определенная вероятность клика на основе запроса.
Технические факторы (Позиционные): Позиция результата на SERP (или связанный с ней вес намерения, $i_w$) является ключевым входным фактором для MLA 1 и MLA 2.
Контентные / Качественные факторы (Специфичные для вертикалей): Признаки, характеризующие сам результат. Для вертикальных результатов (MLA 1) упоминаются: число результатов в пределах блока/виджета, качество индивидуальных результатов внутри виджета.

Какие метрики используются и как они считаются

Параметр Интереса (Прогнозируемый CTR): Вычисляется MLA 1 (Win) и MLA 2 (Loss). Концептуальная формула: $p(f, i_w)$, где $f$ – набор факторов результата, $i_w$ – позиция на SERP.
Параметр Полезности: Вычисляется MLA 3. Концептуальная формула: $S(f, i_w) = F[win, loss]$, где win и loss – это выходы MLA 1 и MLA 2 соответственно.
Вертикальный параметр предпочтения: Используется как Ground Truth для обучения MLA 3. Рассчитывается эвристически на основе поведения пользователя, включая штрафы (например, -2.5 за пропуск вертикального результата в пользу следующего).

Выводы

Сложная Архитектура Блендинга: Яндекс использует многоступенчатую (трехуровневую) систему машинного обучения для принятия решений о смешивании выдачи. Это не простое сравнение CTR, а сложная оптимизационная задача.
Независимое Моделирование Win и Loss: Ключевая инновация — использование отдельных и разных моделей (MLA 1 и MLA 2) для прогнозирования интереса к Колдунщику и к результату под ним. Это позволяет точнее учитывать факторы, влияющие на кликабельность разных типов контента.
Штраф за Игнорирование Колдунщика: Модель Полезности (MLA 3) обучается с использованием целевой метрики, которая жестко штрафует Колдунщик (например, значением -2.5), если пользователи его пропускают и кликают на органический результат ниже. Это механизм защиты качества и релевантности SERP.
Аттрактивность Органики Влияет на Позицию Колдунщика: Чем выше прогнозируемый CTR органического результата (Loss, предсказанный MLA 2), тем ниже итоговый Параметр Полезности Колдунщика, расположенного над ним. Сильная органика может «подавить» слабый Колдунщик.
Поведенческие Данные как Основа: Вся система базируется на исторических поведенческих данных (кликах и CTR), которые определяют, что система считает «интересом» и «полезностью».

Практика

Best practices (это мы делаем)

Максимизация привлекательности (CTR) органических сниппетов: Это ключевая стратегия защиты от вытеснения Колдунщиками. Чем выше прогнозируемый CTR вашего органического результата (Loss в терминах патента), тем ниже будет итоговая Полезность размещения Колдунщика над вашим сайтом. Работа над заголовками, описаниями, микроразметкой и быстрыми ссылками критически важна.
Стимулирование кликов в обход Колдунщиков: Если пользователи видят Колдунщик, но предпочитают ваш органический результат, система фиксирует это как негативный сигнал для Колдунщика (штраф -2.5 в обучении MLA 3). Это обучает систему в будущем показывать Колдунщик ниже. Предоставляйте контент, который явно лучше отвечает на интент пользователя, чем быстрый ответ Колдунщика.
Оптимизация под вертикальные поиски: Для повышения вероятности показа вашего контента в Колдунщиках (Картинки, Видео и т.д.), фокусируйтесь на факторах качества, которые использует MLA 1. В патенте упоминается качество и количество контента внутри блока.

Worst practices (это делать не надо)

Игнорирование качества сниппетов: Если сайт имеет непривлекательный сниппет с низким прогнозируемым CTR, система с большей вероятностью разместит над ним Колдунщик, так как «потеря» (Loss) от смещения такого результата будет невелика.
Фокус только на позициях без учета структуры SERP: Занятие ТОП-3 в органике не гарантирует трафика, если над вами расположены агрессивные Колдунщики. Необходимо учитывать всю экосистему SERP и взаимодействие между ее элементами, которое управляется описанным алгоритмом.

Стратегическое значение

Патент демонстрирует сложный механизм, который Яндекс использует для балансировки интересов своих вертикальных сервисов и качества органической выдачи на слое Блендинга. Он подтверждает, что структура SERP динамична и определяется математическими моделями, основанными на прогнозировании поведения пользователей. Стратегическое значение для SEO заключается в понимании того, что органические результаты находятся в прямой конкуренции с Колдунщиками за внимание пользователя, и победа в этой конкуренции напрямую зависит от способности генерировать высокий CTR.

Практические примеры

Сценарий 1: Понижение слабого Колдунщика сильной органикой

Запрос: «Как выбрать палатку».
Кандидаты: Колдунщик Картинок (V1) и Сильная Статья экспертного блога (W1).
Анализ Позиции 1 для V1:
- MLA 1 предсказывает умеренный CTR для Картинок (Win = 0.10).
- MLA 2 предсказывает высокий CTR для Статьи W1 (Loss = 0.25).
- MLA 3 рассчитывает Полезность. Из-за высокого Loss и исторических данных о пропусках картинок ради статьи (штраф -2.5 в обучении), итоговая Полезность низкая.
Результат: Система определяет, что Полезность V1 на Позиции 1 ниже, чем на Позиции 3. Статья (W1) занимает ТОП-1, Колдунщик Картинок (V1) смещается вниз.

Сценарий 2: Влияние оптимизации сниппета на Блендинг

Запрос: «Рецепт борща».
Ситуация А (До оптимизации): Сайт Eda.ru (W1) имеет неинформативный сниппет.
- MLA 2 прогнозирует CTR Eda.ru (Loss) = 5%.
- MLA 3 рассчитывает Высокую Полезность для Колдунщика Видео (V1) над W1.
Ситуация Б (После оптимизации): Сайт Eda.ru улучшил сниппет (добавил рейтинг, время готовки, фото через микроразметку).
- MLA 2 прогнозирует CTR Eda.ru (Loss) = 20%.
- MLA 3 рассчитывает Низкую Полезность для Колдунщика Видео (V1) над W1, так как относительная привлекательность Колдунщика упала. Блок Видео может сместиться ниже Eda.ru.

Вопросы и ответы

В чем основное отличие этого патента от стандартной метрики «win-loss»?

Стандартная метрика «win-loss» часто рассчитывается как простая разница CTR, и модель обучается на сырых данных. Этот патент предлагает трехуровневый подход: MLA 1 независимо предсказывает Win (CTR первого результата), MLA 2 независимо предсказывает Loss (CTR второго результата). Затем MLA 3 обучается на *выходах* MLA 1 и MLA 2 для предсказания финальной Полезности. Это позволяет более точно смоделировать взаимодействие и избежать проблем, когда CTR результатов схожи.

Что такое «Вертикальный параметр предпочтения» и почему упоминается значение -2.5?

Это целевая метрика для обучения алгоритма полезности (MLA 3). Она определяет, насколько удачным было размещение Колдунщика. Значение +1 дается, если кликнули на Колдунщик. Значение -2.5 (пример из патента) дается, если Колдунщик пропустили, но кликнули на результат сразу под ним. Этот высокий штраф учит систему агрессивно понижать Колдунщики, которые пользователи игнорируют в пользу органической выдачи.

Как мой органический CTR влияет на позицию Колдунщиков над моим сайтом?

Ваш CTR напрямую влияет на расчеты системы. Если ваш сайт находится под Колдунщиком, модель MLA 2 прогнозирует ваш CTR (это компонент ‘Loss’). Если этот прогноз высокий (ваш сниппет очень привлекателен), то относительная Полезность Колдунщика (рассчитанная MLA 3) снижается. Это может привести к тому, что система решит поставить Колдунщик ниже вашего сайта.

Как SEO-специалист может использовать знание о штрафе -2.5 на практике?

Если ваш сайт находится под Колдунщиком, ваша задача — сделать сниппет максимально привлекательным, чтобы пользователи кликали на него, игнорируя Колдунщик. Если вам удастся перетянуть внимание пользователей, вы не только получите трафик, но и внесете вклад в обучение модели Яндекса (через штраф -2.5), показывая низкую полезность Колдунщика. В долгосрочной перспективе это может привести к его понижению в выдаче.

Почему для прогнозирования CTR первого и второго результатов используются разные модели (MLA 1 и MLA 2)?

Потому что факторы, влияющие на кликабельность разных типов контента, различаются. Факторы для Колдунщика Картинок (например, качество и количество миниатюр) отличаются от факторов для органического текстового результата (например, релевантность сниппета, авторитетность домена). Использование независимых специализированных моделей позволяет более точно спрогнозировать CTR для каждого типа результата.

Означает ли это, что позиция Колдунщиков фиксирована?

Нет, она динамическая. Патент описывает итеративный процесс (Claim 9). Система рассчитывает полезность Колдунщика на Позиции 1, затем на Позиции 2 и так далее, и выбирает ту позицию, где рассчитанный Параметр Полезности максимален. Это объясняет, почему Колдунщики могут появляться на разных местах в зависимости от контекста и конкуренции.

Какие признаки используются для прогнозирования интереса к Колдунщикам (MLA 1)?

Патент приводит несколько примеров признаков для вертикальных результатов. К ним относятся: позиция на SERP, число результатов внутри Колдунщика (например, сколько изображений в виджете), качество индивидуальных результатов внутри Колдунщика, а также предварительно определенная вероятность клика на основе терминов в поисковом запросе (интент).

Что происходит, если два разных Колдунщика претендуют на одну и ту же позицию?

Патент предусматривает механизм разрешения конфликтов. Если два вертикальных результата имеют максимальную Полезность на одной и той же позиции, система выбирает тот результат, у которого абсолютное значение Параметра Полезности выше. В случае совпадения могут использоваться предварительно определенные приоритеты типов вертикалей.

На каком этапе поиска работает этот алгоритм?

Этот алгоритм работает на самом последнем этапе формирования выдачи — в слое Метапоиска и Смешивания (Blender). Он запускается уже после того, как основные алгоритмы ранжирования определили релевантные документы, и задача этого алгоритма — собрать итоговую страницу (SERP) оптимальным образом.

Применяется ли этот патент только для вертикальных результатов?

В патенте основной акцент сделан на оптимизации вертикальных результатов относительно веб-результатов (Claim 12). Однако базовая формула изобретения (Claim 1) сформулирована шире и может применяться для корректировки позиции любого «первого результата поиска» относительно «второго результата поиска», независимо от их типа.