Как Яндекс напрямую оптимизирует метрики качества ранжирования (NDCG, ERR) при обучении ML-моделей (CatBoost) с помощью инъекции шума

Яндекс патентует метод обучения ранжирующих моделей (например, CatBoost), позволяющий напрямую оптимизировать сложные метрики качества (NDCG, ERR), которые обычно не поддаются стандартным методам градиентного бустинга. Для этого в процессе обучения в оценки релевантности добавляется шум, что «сглаживает» метрику и позволяет рассчитать градиент (Policy Gradient). Это позволяет Яндексу эффективнее обучать модели для достижения максимального качества ранжирования.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в области обучения ранжированию (Learning-to-Rank, L2R). Качество поиска измеряется метриками (Ranking Quality Metric Functions), такими как NDCG (Normalized Discounted Cumulative Gain) или ERR (Expected Reciprocal Rank). Однако эти метрики зависят от порядка документов, а не от абсолютных значений их релевантности. Это делает функции метрик «плоскими» (flat) или «разрывными» (discontinuous), то есть негладкими и недифференцируемыми. Стандартные методы обучения, основанные на градиентах (например, градиентный бустинг в CatBoost), не могут быть применены напрямую для их оптимизации. Изобретение предлагает способ обойти это ограничение.

Что запатентовано

Запатентован метод обучения алгоритма машинного обучения (MLA) для ранжирования. Суть изобретения заключается в намеренном введении случайного шума (Noise Values) в оценки релевантности, генерируемые моделью во время обучения. Добавление шума искусственно «сглаживает» разрывную функцию метрики качества (например, NDCG). Это позволяет оценить так называемый «градиент политики» (Policy Gradient Value) и использовать его для обновления параметров модели, напрямую оптимизируя целевую метрику.

Как это работает

Механизм работает в офлайн-режиме во время обучения модели. На каждой итерации MLA генерирует Relevance Scores. Система добавляет к ним случайный шум (например, по Гауссу), получая Noise-induced Relevance Scores. Метрика качества (например, NDCG) рассчитывается на основе ранжирования по этим зашумленным оценкам. Используя разницу между исходными и зашумленными оценками, а также полученное значение метрики, система оценивает Policy Gradient Value с помощью метода Coordinate-wise Antithetic Sampling. Этот градиент затем используется для корректировки MLA (например, через градиентный бустинг).

Актуальность для SEO

Высокая. Прямая оптимизация метрик ранжирования является центральной задачей в развитии поисковых систем. Методы, позволяющие эффективнее обучать модели (такие как CatBoost) для максимизации NDCG или других ключевых метрик качества (например, Proxima), критически важны для улучшения поисковой выдачи. Описанный подход является актуальным методом решения этой задачи.

Важность для SEO

Влияние на SEO среднее (6/10), но стратегически важное. Это инфраструктурный патент, описывающий внутренний механизм обучения моделей Яндекса, а не новые факторы ранжирования. Однако он демонстрирует способность Яндекса более эффективно оптимизировать свои модели под целевые метрики качества. Это означает, что формула ранжирования становится лучше в достижении целей, заложенных в этих метриках (например, NDCG, Proxima). Для SEO это усиливает необходимость полного соответствия критериям качества, которые Яндекс стремится максимизировать.

Детальный разбор

Термины и определения

Coordinate-wise Antithetic Sampling Method (Метод покоординатного антитетического сэмплирования): Статистический метод, используемый для оценки Policy Gradient Value. Он позволяет рассчитать градиент для недифференцируемых функций (таких как NDCG) путем сравнения результатов при использовании исходного шума и инвертированного (противоположного по знаку) шума для конкретного документа.
Flat/Discontinuous Function (Плоская/Разрывная функция): Математическое свойство метрик качества ранжирования. Означает, что функция не является гладкой и ее градиент либо равен нулю (плоская), либо не существует (разрывная), что затрудняет стандартную оптимизацию.
MLA (Machine Learning Algorithm): Алгоритм машинного обучения для ранжирования. В патенте упоминается, что это может быть алгоритм на основе деревьев решений (decision-tree-based algorithm), например, GBDT (основа CatBoost).
Noise-induced Relevance Scores (Оценки релевантности, индуцированные шумом): Результат сложения исходной Relevance Score и случайного Noise Value. Используется только на этапе обучения.
Noise-Inducing Function (Функция, индуцирующая шум): Функция, генерирующая случайные значения шума в соответствии с заданным распределением (упомянуты Гаусса, Коши, Лапласа).
Performance Score (Оценка производительности/качества): Значение, возвращаемое метрикой качества ранжирования. Является целевой функцией для оптимизации.
Policy Gradient Value (Значение градиента политики): Оценка градиента функции метрики качества. Вектор, указывающий направление, в котором следует изменить параметры MLA, чтобы максимизировать Performance Score.
Ranking Quality Metric Function (Функция метрики качества ранжирования): Функция для оценки качества ранжирования. Примеры в патенте: NDCG, ERR (Expected Reciprocal Rank), MAP (Mean Average Precision), MRR (Mean Reciprocal Rank).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения ранжирующей модели, а не на самом процессе ранжирования в реальном времени.

Claim 1 (Независимый пункт): Описывает метод обучения MLA с использованием метрики качества, которая является плоской или разрывной.

Генерация MLA исходных оценок релевантности (Relevance Scores) для тренировочных объектов.
Генерация Noise-induced Relevance Scores путем комбинирования исходных оценок и значений шума (Noise Values), сгенерированных по предопределенному распределению.
Генерация Performance Score (например, NDCG) на основе ранжирования по Noise-induced Relevance Scores.
Определение Policy Gradient Value. Градиент определяется на основе комбинации (i) Performance Score, (ii) исходных оценок релевантности и (iii) Noise-induced Relevance Scores.
Применение Policy Gradient Value для обучения MLA.

Claim 2 (Зависимый от 1): Уточняет, что именно генерация Performance Score на основе зашумленных оценок (а не исходных) позволяет определить Policy Gradient Value.

Введение шума сглаживает метрику, делая возможной градиентную оптимизацию.

Claim 4 (Зависимый от 1): Уточняет применение для алгоритмов на основе деревьев решений (например, CatBoost). Применение градиента включает генерацию дополнительного дерева или модификацию существующего.

Метод интегрируется в стандартный процесс градиентного бустинга.

Claim 6 и 7 (Зависимые от 1): Определяют метод расчета градиента.

Policy Gradient Value оценивается с помощью метода Coordinate-wise Antithetic Sampling.
В Claim 7 приводится конкретная формула для оценки градиента (см. раздел Метрики).

Где и как применяется

Изобретение применяется исключительно в ОФЛАЙН-ИНФРАСТРУКТУРЕ ОБУЧЕНИЯ (Offline Training Environment) моделей машинного обучения Яндекса. Оно не используется в процессе обработки запросов в реальном времени (in-use phase).

Как применяется:

Метод используется для обучения основной ранжирующей модели (MLA), которая впоследствии будет использоваться на этапах RANKING (L2/L3/L4).
Он позволяет оптимизировать MLA (например, CatBoost) напрямую под целевые метрики качества.

Входные данные для процесса: Тренировочный запрос, набор тренировочных документов и их признаки, текущее состояние MLA, целевая Ranking Quality Metric Function.

Выходные данные процесса: Policy Gradient Value, используемый для обновления MLA (например, построения нового дерева в GBDT).

На что влияет

Патент влияет на эффективность обучения модели ранжирования. Он универсален и не имеет специфики по типам контента (статьи, товары), запросов (информационные, коммерческие), нишам (YMYL, ecommerce) или географии. Он повышает общую способность модели достигать целевых метрик качества (NDCG, ERR и т.д.) по всем типам данных, на которых она обучается.

Когда применяется

Условия применения: Применяется исключительно в офлайн-режиме (off-line mode) во время фазы обучения (training phase) MLA, до ее использования в продакшене (in-use phase) (Claims 8, 9).
Триггеры активации: Необходимость оптимизировать MLA под метрику качества, которая является плоской или разрывной.

Пошаговый алгоритм

Описание итерации обучения ранжирующей модели (MLA) с использованием запатентованного метода:

Генерация исходных оценок: Текущая версия MLA рассчитывает исходные Relevance Scores (вектор $r$) для набора тренировочных документов по тренировочному запросу.
Генерация шума: Система генерирует набор случайных значений шума (вектор $n_j$) с использованием заданного распределения (например, Гаусса).
Создание зашумленных оценок (Сценарий 1): Исходные оценки комбинируются с шумом ($r+n_j$).
Расчет метрики качества (Сценарий 1): Документы ранжируются по зашумленным оценкам. Рассчитывается Performance Score ($\varphi_j$).
Антитетическая выборка (Сценарий 2): Для оценки градиента по документу $i$ система создает вектор шума $n_j^i$, где знак шума для документа $i$ инвертирован по сравнению с $n_j$. Генерируются новые зашумленные оценки ($r+n_j^i$).
Расчет метрики качества (Сценарий 2): Документы ранжируются по новым оценкам. Рассчитывается новое значение метрики качества ($f(r+n_j^i)$).
Оценка градиента: Система рассчитывает Policy Gradient Value ($d_i$) для документа $i$, используя формулу из Claim 7, сравнивая результаты Сценариев 1 и 2. Процесс повторяется для K выборок.
Обновление модели: Рассчитанные градиенты применяются для обучения MLA. Если MLA — это GBDT (CatBoost), градиенты используются для построения следующего решающего дерева. Может применяться взвешенный градиент (Claim 3).

Какие данные и как использует

Данные на входе

Патент описывает инфраструктуру обучения и не упоминает конкретные SEO-факторы (контентные, ссылочные, поведенческие). Он использует данные, необходимые для процесса обучения:

Тренировочные данные: Наборы тренировочных запросов (Training Query) и тренировочных объектов (Training Objects, например, документы). Также используются данные (признаки), ассоциированные с этими запросами и документами, которые MLA использует для расчета релевантности.
Системные параметры: Целевая метрика (NDCG, ERR и т.д.), параметры распределения шума (Гаусса, Коши, Лапласа), весовой коэффициент для градиента (pre-determined weight value).

Какие метрики используются и как они считаются

Ranking Quality Metric Function (f()): Используется для расчета Performance Score. Упомянуты: NDCG, ERR, MAP, MRR.
Распределение шума: Определяет характеристики генерируемого шума. Упомянуты: Гауссово (Gaussian), Коши (Cauchy), Лапласа (Laplace).
Policy Gradient Value (dᵢ): Оценивается с помощью Coordinate-wise Antithetic Sampling по формуле (Claim 7):

$$d_{i} = \frac{1}{K} \sum_{j=1}^{K} \frac{\varphi_{j} — f(r + n_{j}^{i})}{2} n_{ji}$$

Где:

$d_{i}$ – значение градиента политики для объекта i.
$K$ – количество выборок (samples) шума.
$\varphi_{j}$ – Performance Score для j-й выборки (рассчитанный как $f(r+n_{j})$).
$r$ – вектор исходных оценок релевантности.
$n_{j}$ – вектор значений шума для j-й выборки.
$n_{ji}$ – значение шума для объекта i в выборке j.
$n_{j}^{i}$ – вектор шума, где знак шума для объекта i инвертирован (антитетическая выборка).
$f()$ – функция метрики качества.

Выводы

Патент описывает внутренние процессы Яндекса, связанные с обучением моделей машинного обучения, без прямых рекомендаций для SEO.

Патент чисто технический и инфраструктурный: Он описывает математический аппарат, позволяющий лучше обучать модели, а не вводит новые факторы ранжирования.
Прямая оптимизация сложных метрик: Изобретение позволяет Яндексу напрямую оптимизировать свои модели ранжирования (CatBoost) под целевые метрики качества (NDCG, ERR), которые математически сложны для оптимизации из-за их разрывного характера.
Сглаживание через стохастический шум: Ключевой механизм — добавление случайного шума к оценкам релевантности во время обучения. Это сглаживает ландшафт функции потерь и позволяет рассчитать градиент (Policy Gradient) там, где это было невозможно стандартными методами.
Повышение эффективности обучения: Применение этого метода приводит к созданию более качественных моделей ранжирования, которые лучше достигают поставленных целей по качеству поиска.
Стратегическое последствие для SEO: Модели Яндекса становятся более совершенными в своей способности максимизировать качество выдачи (как его определяет Яндекс через свои метрики, например Proxima). Это усиливает важность соответствия интегральным оценкам качества и E-E-A-T.

Практика

Патент является инфраструктурным и не дает прямых практических выводов или тактических рекомендаций для SEO-специалистов по оптимизации сайтов.

Best practices (это мы делаем)

Фокус на интегральном качестве и удовлетворении пользователя: Поскольку этот патент позволяет Яндексу эффективнее оптимизировать модели под целевые метрики (такие как NDCG и, вероятно, Proxima), стратегический фокус на повышении качества сайта, авторитетности (E-E-A-T) и улучшении пользовательского опыта становится критически важным. Модели становятся математически более точными в определении качества.
Важность Топ-позиций: Метрики типа NDCG и ERR придают больший вес верхним позициям. Более эффективная оптимизация под эти метрики означает, что система будет стремиться ставить на самый верх только лучшие результаты. Необходимо обеспечивать максимальную релевантность и ценность контента.

Worst practices (это делать не надо)

Надежда на неэффективность алгоритма: Не стоит рассчитывать на то, что низкокачественный контент сможет ранжироваться из-за «слабости» обучения модели. Методы, подобные описанному, направлены на повышение точности модели в идентификации и пессимизации контента, который не соответствует целевым метрикам качества.
Попытки краткосрочных манипуляций: По мере того как модели ранжирования становятся лучше оптимизированными под глобальные метрики качества, эффективность изолированных манипуляций отдельными факторами снижается.

Стратегическое значение

Патент подтверждает высокий уровень компетенций Яндекса в области Learning-to-Rank. Он демонстрирует инвестиции в улучшение базовых процессов обучения. Стратегическое значение для SEO заключается в понимании того, что основная формула ранжирования постоянно совершенствуется не только за счет добавления новых факторов, но и за счет более эффективного обучения на существующих данных. Система ранжирования становится все более совершенной в своей способности отличать качественные результаты от некачественных.

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает математический метод офлайн-обучения моделей, а не конкретные факторы ранжирования или способы оптимизации контента.

Вопросы и ответы

Что такое NDCG и почему его сложно оптимизировать напрямую?

NDCG (Normalized Discounted Cumulative Gain) — это метрика качества ранжирования, которая учитывает релевантность результатов и их позицию (чем выше релевантный результат, тем лучше). Сложность оптимизации в том, что NDCG зависит от порядка документов, а не от их абсолютных оценок. Это делает функцию метрики «разрывной»: небольшое изменение оценки может резко изменить порядок и значение NDCG. Из-за этого невозможно рассчитать градиент, необходимый для стандартного обучения модели.

Как именно введение шума (Noise Injection) помогает обучению?

Введение шума в оценки релевантности во время обучения искусственно «сглаживает» разрывную функцию метрики качества. Шум создает стохастичность (случайность) в порядке ранжирования. Это сглаживание позволяет оценить градиент (Policy Gradient) — вектор, указывающий, как нужно изменить параметры модели, чтобы улучшить метрику. Без шума рассчитать этот градиент было бы невозможно.

Применяется ли этот метод добавления шума в реальном поиске (в продакшене)?

Нет. Этот метод применяется исключительно в офлайн-режиме (off-line mode), во время тренировки модели ранжирования. В реальном поиске (in-use phase) используется уже обученная модель, которая работает без добавления шума к оценкам релевантности.

Означает ли этот патент, что ранжирование в Яндексе стало случайным из-за шума?

Нет, ранжирование в выдаче не является случайным. Шум добавляется только во время тренировочных итераций для расчета градиента обучения. Цель этого процесса — сделать итоговую модель ранжирования более точной и лучше оптимизированной под метрики качества. В реальной работе модель генерирует детерминированные оценки релевантности.

Что такое Policy Gradient (Градиент Политики) в этом патенте?

Policy Gradient — это технический термин, обозначающий вектор, который показывает, как нужно скорректировать модель ранжирования (MLA), чтобы улучшить ее производительность по заданной метрике (например, NDCG). В контексте градиентного бустинга (CatBoost) этот вектор используется для построения следующего дерева решений, исправляющего ошибки предыдущих.

Как этот патент связан с CatBoost?

CatBoost — это реализация Gradient Boosted Decision Trees (GBDT) от Яндекса. Патент явно указывает (Claim 4), что метод применим к алгоритмам на основе деревьев решений. Policy Gradient Value, рассчитанный этим методом, используется для генерации или модификации деревьев в ансамбле GBDT, таком как CatBoost.

Как этот патент влияет на мою SEO-стратегию?

Патент не требует изменения конкретных SEO-тактик. Однако он имеет стратегическое значение: он показывает, что Яндекс может более эффективно обучать свои модели для максимизации целевых метрик качества. Это усиливает важность работы над интегральным качеством сайта, E-E-A-T и пользовательским опытом, так как алгоритмы становятся лучше в определении того, что Яндекс считает качественным результатом.

В чем отличие этого метода от существующих подходов, таких как LambdaMART?

LambdaMART и похожие методы (LambdaLoss) используют аппроксимацию или оптимизируют суррогатные функции потерь, которые коррелируют с целевой метрикой, но не равны ей. Запатентованный Яндексом метод, благодаря введению шума и использованию Policy Gradient, позволяет напрямую оптимизировать целевую метрику (например, NDCG), что потенциально приводит к более высокому качеству обучения.

Может ли Яндекс использовать метрику Proxima в качестве цели для этой оптимизации?

В патенте упоминаются стандартные метрики (NDCG, ERR, MAP). Однако описанный метод универсален и может быть применен для оптимизации любой метрики качества ранжирования, включая проприетарные метрики Яндекса, такие как Proxima, если они используются в процессе обучения ML-моделей и обладают схожими свойствами (плоские/разрывные).

Что такое Coordinate-wise Antithetic Sampling?

Это сложный статистический метод для точной оценки градиента. Он включает генерацию пар выборок (samples): в одной используется исходный шум, а в другой знак шума для конкретного документа инвертируется (антитетическая выборка). Анализ разницы в результатах между этими парами позволяет более точно оценить влияние этого документа на итоговую метрику и рассчитать градиент.