Как Яндекс использует технику добавления «шума» для прямой оптимизации метрик качества при обучении алгоритмов ранжирования

Яндекс патентует математический метод обучения алгоритмов ранжирования (например, CatBoost). Метод решает проблему оптимизации сложных метрик качества (NDCG, ERR), которые обычно не поддаются стандартным методам. Это достигается путем добавления искусственного шума к оценкам релевантности во время обучения, что сглаживает функцию метрики и позволяет рассчитать градиент для более эффективного обучения модели.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в области обучения ранжированию (Learning-to-Rank, L2R). Стандартные метрики качества ранжирования (например, NDCG, ERR) зависят от порядка документов, а не только от их абсолютных оценок релевантности. Это делает функции метрик «плоскими или разрывными» — они не являются ни выпуклыми, ни гладкими. В результате невозможно напрямую применять стандартные методы оптимизации (например, градиентный спуск), так как у таких функций сложно рассчитать градиент. Изобретение предлагает способ обойти это ограничение и напрямую оптимизировать эти сложные метрики при обучении моделей.

Что запатентовано

Запатентован способ обучения алгоритма машинного обучения (MLA), например, CatBoost, для задач ранжирования. Суть изобретения заключается в преднамеренном добавлении шума (например, распределенного по Гауссу) к оценкам релевантности, которые MLA генерирует на этапе обучения. Это «сглаживает» разрывную функцию метрики качества ранжирования, позволяя рассчитать так называемый «градиент политики» (Policy Gradient) и использовать его для прямой оптимизации MLA.

Как это работает

Механизм работает на этапе офлайн-обучения. MLA генерирует оценки релевантности для обучающих документов. Система добавляет к ним случайный шум, формируя «зашумленные оценки». Затем метрика качества (например, NDCG) рассчитывается на основе ранжирования по этим зашумленным оценкам. Поскольку функция метрики теперь «сглажена» шумом, система может определить Policy Gradient (используя, например, способ покоординатной антитетической выборки). Этот градиент показывает, как нужно скорректировать MLA (например, добавить новое дерево решений в модель градиентного бустинга), чтобы улучшить значение метрики.

Актуальность для SEO

Высокая (с точки зрения Machine Learning и Information Retrieval). Прямая оптимизация метрик качества ранжирования является передовым направлением. Этот метод позволяет более эффективно обучать основные ранжирующие модели Яндекса, улучшая их способность максимизировать целевые показатели качества.

Важность для SEO

Влияние на тактическое SEO минимальное (1/10). Это глубоко инфраструктурный патент, описывающий внутренние математические процессы обучения моделей Яндекса. Он не вводит новые факторы ранжирования и не дает прямых рекомендаций для оптимизации сайтов. Однако его стратегическое значение велико: он демонстрирует, как Яндекс повышает эффективность своей основной формулы ранжирования. Чем лучше Яндекс оптимизирует свои внутренние метрики качества, тем точнее поиск соответствует стандартам компании.

Детальный разбор

Термины и определения

MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Основной алгоритм ранжирования, который обучается с помощью описанного метода (например, CatBoost).
GBDT (Gradient Boosted Decision Tree / Алгоритм на основе дерева решений с градиентным бустингом): Тип MLA, который строит модель в виде ансамбля деревьев решений. Упоминается как возможная реализация MLA (к этому классу относится CatBoost).
Градиент политики (Policy Gradient): Величина, используемая для корректировки MLA в процессе обучения. Она указывает направление, в котором нужно изменить параметры модели, чтобы максимизировать оценку эффективности (метрику качества).
Функция метрики качества ранжирования (Ranking Quality Metric Function): Функция, используемая для оценки качества ранжирования (например, NDCG, ERR, MAP, MRR). В патенте отмечается, что эти функции обычно являются плоскими или разрывными.
Оценка эффективности (Efficiency Score): Выходное значение функции метрики качества ранжирования (например, конкретное значение NDCG), указывающее на качество ранжирования алгоритмом MLA.
Оценки релевантности (Relevance Scores): Числовые значения, генерируемые MLA, указывающие на ожидаемую релевантность документа запросу.
Зашумленные оценки релевантности (Noisy Relevance Scores): Оценки релевантности, к которым было добавлено значение шума на этапе обучения. Используются для расчета метрики качества.
Шумовая функция (Noise Function): Функция, генерирующая значения шума с заранее заданным распределением (например, распределение Гаусса, Коши или Лапласа).
Способ покоординатной антитетической выборки (Coordinate-wise Antithetic Sampling): Конкретный математический метод, используемый в патенте для эффективного оценивания величины Policy Gradient.

Ключевые утверждения (Анализ Claims)

Патент защищает метод обучения ранжирующей модели путем введения шума для возможности расчета градиента по негладким функциям метрик.

Claim 1 (Независимый пункт): Описывает основной процесс обучения MLA, где для оптимизации используется функция метрики качества ранжирования, являющаяся плоской или разрывной.

Формирование оценок релевантности: MLA генерирует оценки релевантности для набора обучающих объектов (документов) в ответ на обучающий запрос.
Формирование зашумленных оценок: Сервер сочетает эти оценки релевантности со значениями шума, сгенерированными шумовой функцией.
Формирование оценки эффективности: Метрика качества (например, NDCG) рассчитывается на основе ранжирования по *зашумленным* оценкам релевантности.
Определение градиента политики (Policy Gradient): Сервер определяет величину градиента для корректировки MLA. Градиент определяется на основе сочетания (а) оценки эффективности, (б) исходных оценок релевантности и (в) зашумленных оценок релевантности.
Применение градиента: Сервер использует этот градиент для обучения MLA, который будет использоваться на этапе использования (в продакшене).

Ядром изобретения является шаг внесения шума перед расчетом метрики. Это позволяет сделать разрывную функцию дифференцируемой и рассчитать Policy Gradient (Claim 2), что обеспечивает прямую оптимизацию метрики (Claim 5).

Claim 4 (Зависимый пункт): Уточняет реализацию для алгоритмов на основе деревьев решений (например, GBDT/CatBoost). Применение градиента политики включает формирование дополнительного дерева решений или модификацию существующего.

Claim 6 и 7 (Зависимые пункты): Уточняют, что для определения градиента политики используется способ покоординатной антитетической выборки и приводится конкретная формула для его расчета.

Где и как применяется

Важно понимать, что этот патент НЕ применяется ни на одном из этапов обработки живого поискового запроса (CRAWLING, INDEXING, QUERY PROCESSING, RANKING, BLENDER).

Он применяется исключительно в Офлайн-процессах и инфраструктуре обучения моделей.

Среда применения: Этап обучения основных алгоритмов ранжирования (MLA), таких как CatBoost. Процесс происходит в автономном режиме (офлайн), до того как модель будет применена на этапе использования (Claim 8, 9).
Взаимодействие: Система взаимодействует с репозиторием обучающих данных (признаки запросов и документов) и самой структурой MLA.
Входные данные: Обучающие данные (признаки запроса и документов), текущее состояние MLA, параметры шумовой функции.
Выходные данные: Величина Policy Gradient, которая используется для обновления MLA (например, новое дерево решений в ансамбле GBDT).
Технические особенности: Ключевой особенностью является использование шумовой функции для сглаживания метрики и применение специализированного метода (антитетическая выборка) для расчета градиента.

На что влияет

Алгоритм влияет на эффективность и качество обученной модели ранжирования в целом. Он не нацелен на конкретные типы контента, запросов, ниши или языки. Его цель — улучшить способность основного алгоритма ранжирования максимизировать целевые метрики качества (такие как NDCG или, вероятно, Proxima) по всему спектру поисковых задач.

Когда применяется

Условия работы: Применяется во время итеративного процесса обучения модели ранжирования (MLA).
Триггеры активации: Активируется на каждой итерации цикла обучения, когда целью является оптимизация плоской или разрывной метрики качества ранжирования.

Пошаговый алгоритм

Процесс обучения MLA (одна итерация):

Подготовка данных: Выбор обучающего запроса и набора связанных с ним обучающих документов из репозитория.
Генерация оценок релевантности: Текущая версия MLA (например, модель CatBoost) формирует исходные оценки релевантности (\(r\)) для каждого документа.
Инъекция шума: Сервер генерирует значения шума (\(n_j\)) с использованием шумовой функции (например, с распределением Гаусса).
Формирование зашумленных оценок: Значения шума комбинируются с исходными оценками релевантности (\(r + n_j\)).
Расчет метрики (Оценка эффективности): Функция метрики качества ранжирования (например, NDCG) вычисляет оценку эффективности (\(\phi_j\)), основываясь на порядке документов, ранжированных по *зашумленным* оценкам.
Расчет градиента (Policy Gradient): Сервер определяет величину градиента политики (\(d_i\)), используя оценку эффективности, исходные и зашумленные оценки. Для этого применяется способ покоординатной антитетической выборки и формула из патента.
Обновление MLA (Градиентный бустинг): Величина градиента политики (возможно, взвешенная) применяется для обновления MLA. Если это GBDT, то формируется новое дерево решений, которое добавляется в ансамбль.

Какие данные и как использует

Данные на входе

Патент агностичен к конкретным типам SEO-факторов, так как описывает универсальный метод обучения. Он использует те данные, которые доступны MLA на этапе обучения.

Данные обучающих объектов (Документов) и Запроса: Признаки (features), связанные с документами и запросами. Патент упоминает их в общем виде. Это могут быть любые контентные, ссылочные, технические или поведенческие факторы, используемые в основной формуле ранжирования. Метод оптимизирует как они используются в формуле, независимо от их природы.

Какие метрики используются и как они считаются

Метрики качества ранжирования: В патенте явно упомянуты (Claim 11):
- NDCG (Normalized Discounted Cumulative Gain)
- ERR (Expected Reciprocal Rank)
- MAP (Mean Average Precision)
- MRR (Mean Reciprocal Rank)
Распределения шума: Для сглаживания используются распределения Гаусса, Коши или Лапласа (Claim 10).
Алгоритмы машинного обучения: Упоминается GBDT (Gradient Boosted Decision Tree) как вероятная реализация MLA (Claim 4).
Формулы и методы расчета: Для оценивания градиента политики используется способ покоординатной антитетической выборки (Claim 7). Формула расчета:
\[d_{i}=\frac{1}{K}\sum_{j=1}^{K}\frac{\phi_{j}-f(r+n_{j}^{i})}{2}n_{ji}\]
Где \(d_{i}\) — величина градиента политики для объекта i; \(K\) — количество значений зашумленных оценок (сэмплов шума); \(\phi_{j}\) — оценка эффективности (метрика) для j-го сэмпла; \(r\) — вектор исходных оценок релевантности; \(n_{j}\) — вектор значений шума; \(n_{j}^{i}\) — вектор шума с инвертированным знаком для объекта i (антитетическая выборка); \(f\) — функция метрики качества.

Выводы

Инфраструктурный характер патента: Патент описывает исключительно математический метод обучения алгоритмов ранжирования (Learning-to-Rank). Он не содержит информации о факторах ранжирования или конкретных SEO-рекомендациях.
Прямая оптимизация сложных метрик: Ключевой вывод — Яндекс обладает технологией для прямой оптимизации разрывных метрик качества (таких как NDCG и, вероятно, комплексных метрик вроде Proxima). Это позволяет более эффективно обучать основную формулу ранжирования.
Механизм «сглаживания» шумом: Инновация заключается в использовании преднамеренно добавленного шума (например, Гауссова) к оценкам релевантности на этапе обучения. Это сглаживает функцию метрики и делает ее дифференцируемой.
Использование Policy Gradient и GBDT: Патент подтверждает использование продвинутых методов (Policy Gradient) в контексте стандартных моделей градиентного бустинга (GBDT/CatBoost).
Повышение эффективности ранжирования: Применение этого метода ведет к созданию более качественных и robust (устойчивых) моделей ранжирования, которые лучше достигают целей, заложенных в метриках качества Яндекса.

Практика

ВАЖНО: Патент является чисто техническим и инфраструктурным. Он описывает внутренние процессы обучения моделей Яндекса и не дает практических выводов или рекомендаций для SEO-специалистов.

Best practices (это мы делаем)

Поскольку патент улучшает способность Яндекса оптимизировать свои алгоритмы под целевые метрики качества (которые коррелируют с удовлетворенностью пользователей):

Фокус на интегральное качество сайта: Продолжать фокусироваться на факторах, которые влияют на основные метрики качества Яндекса (например, Proxima). Это включает E-E-A-T, удовлетворенность пользователя, решение задачи и общую полезность ресурса. Чем эффективнее Яндекс обучает свои модели (благодаря этому патенту), тем важнее соответствовать этим критериям качества.
Улучшение поведенческих метрик: Метрики вроде NDCG и ERR сильно зависят от того, насколько высоко ранжируются полезные документы. Обеспечение высокого CTR на выдаче и минимизация возвратов к поиску остаются критически важными, так как именно эти сигналы лежат в основе метрик, которые Яндекс напрямую оптимизирует.

Worst practices (это делать не надо)

Попытки эксплуатации «слабостей» модели: Поиск лазеек или попытки манипулирования отдельными факторами в надежде, что модель машинного обучения не сможет это корректно обработать, становятся менее эффективными. Описанный метод повышает точность и устойчивость (robustness) основной формулы ранжирования к таким попыткам.
Игнорирование комплексного качества: Стратегии, основанные только на формальных признаках без учета реальной ценности для пользователя, будут проигрывать, так как модель лучше оптимизирована под метрики, отражающие эту ценность.

Стратегическое значение

Патент демонстрирует высокий уровень зрелости инфраструктуры машинного обучения Яндекса и его фокус на решении фундаментальных задач Learning-to-Rank. Для SEO-стратегии это означает, что система ранжирования становится все более эффективной в определении качества. Конкуренция смещается от манипулирования факторами к реальному улучшению продукта и пользовательского опыта. Способность Яндекса напрямую оптимизировать свои ключевые метрики качества означает, что разрыв между «хорошими» и «плохими» сайтами в выдаче будет увеличиваться.

Практические примеры

Практических примеров применения в SEO нет, так как патент описывает математический аппарат обучения моделей.

Можно привести пример того, как этот механизм влияет на обучение модели:

Сценарий: Обучение модели для максимизации NDCG

Задача: Обучить CatBoost так, чтобы он максимизировал метрику NDCG.
Проблема (без патента): NDCG — разрывная функция. Стандартные методы обучения не могут напрямую ее оптимизировать, используя только градиентный спуск.
Решение (с патентом): Во время обучения к оценкам релевантности добавляется шум. Это сглаживает функцию NDCG. Система рассчитывает градиент политики по сглаженной функции.
Результат: Модель CatBoost учится более точно определять, какой вес присвоить различным факторам (поведенческим, текстовым, ссылочным), чтобы достичь максимального значения NDCG. На практике это приводит к выдаче, которая лучше соответствует ожиданиям качества Яндекса.

Вопросы и ответы

Какую главную проблему этот патент решает для Яндекса?

Он решает техническую проблему оптимизации моделей ранжирования по метрикам качества, таким как NDCG или ERR. Эти метрики являются «разрывными», то есть они меняются скачкообразно при изменении порядка результатов. Это делает невозможным использование стандартных методов оптимизации (градиентного спуска). Патент предлагает способ обойти это ограничение.

Что такое «разрывная метрика качества ранжирования»?

Это метрика, значение которой зависит от порядка результатов. Например, если поменять местами документы на 1 и 2 позиции, оценка релевантности каждого из них изменится незначительно, но метрика качества (например, NDCG) может измениться сильно. Это проблема для машинного обучения, так как стандартные методы требуют гладких функций, у которых можно рассчитать градиент (производную).

Как добавление «шума» помогает обучать алгоритм ранжирования?

Добавление случайного шума к оценкам релевантности на этапе обучения искусственно «сглаживает» разрывную функцию метрики качества. Это сглаживание делает функцию дифференцируемой, то есть позволяет рассчитать градиент (Policy Gradient). Наличие градиента позволяет использовать стандартные методы оптимизации (например, градиентный бустинг) для прямого улучшения метрики качества.

Вводит ли этот патент новые факторы ранжирования?

Нет, этот патент не вводит никаких новых факторов ранжирования. Он описывает исключительно математический метод обучения самой модели (формулы). Модель обучается на тех же факторах, что и раньше (текст, ссылки, поведение), но делает это более эффективно, лучше оптимизируя итоговое качество выдачи.

Применяется ли этот механизм в реальном времени при обработке запроса пользователя?

Нет. Описанный механизм, включая добавление шума и расчет Policy Gradient, применяется исключительно офлайн, на этапе обучения (тренировки) модели ранжирования. В продакшене (в реальном времени) используется уже обученная модель, которая работает без добавления шума.

Что такое «Градиент политики» (Policy Gradient)?

Это вектор, который показывает, в каком направлении и насколько нужно скорректировать параметры модели ранжирования (MLA), чтобы максимизировать ожидаемую награду — в данном случае, значение метрики качества ранжирования (например, NDCG). Это основа для обновления модели на каждой итерации обучения.

Имеет ли этот патент отношение к CatBoost?

Да, с высокой вероятностью. В патенте упоминаются алгоритмы на основе дерева решений с градиентным бустингом (GBDT) как пример MLA. CatBoost является основной реализацией GBDT, используемой Яндексом для ранжирования. Метод, описанный в патенте, позволяет более эффективно обучать CatBoost.

Какие конкретно метрики Яндекс оптимизирует с помощью этого метода?

В патенте явно перечислены стандартные метрики индустрии: NDCG, ERR, MAP и MRR. Логично предположить, что этот же механизм используется для оптимизации внутренних комплексных метрик качества Яндекса, таких как Proxima, поскольку они также часто являются сложными для прямой оптимизации.

Каково практическое значение этого патента для SEO-специалиста?

Прямых действий патент не предлагает, так как он инфраструктурный. Однако он означает, что модель ранжирования Яндекса становится лучше в продвижении сайтов, которые соответствуют его определению качества. Это подчеркивает необходимость сосредоточиться на фундаментальном качестве: E-E-A-T, поведенческих факторах и решении задачи пользователя.

Означает ли использование шума, что ранжирование в Яндексе случайно?

Абсолютно нет. Шум добавляется только на этапе обучения, чтобы помочь модели лучше понять, как ее оценки влияют на финальное качество. Финальная обученная модель, которая используется в продакшене для ранжирования результатов пользователей, работает детерминированно и не добавляет шум к оценкам релевантности.