Как Яндекс обучает алгоритмы ранжирования на зашумленных данных краудсорсинга (Toloka) путем нормализации и взвешивания оценок

Яндекс патентует метод повышения качества обучения моделей ранжирования при использовании данных от краудсорсинговых асессоров (например, Toloka). Вместо усреднения оценок, система анализирует надежность и строгость каждого асессора. Она корректирует (нормализует) значение оценки и присваивает ей вес (уверенность). Эти функции коррекции и взвешивания обучаются так, чтобы напрямую максимизировать качество финальной модели ранжирования, а не точность самих оценок.

Описание

Какую задачу решает

Патент решает фундаментальную проблему машинного обучения в поиске: снижение качества моделей ранжирования (MLA) из-за использования «зашумленных» обучающих данных (Noisy Labels). Основная задача — эффективно использовать быстрые и дешевые данные, полученные через краудсорсинг (в патенте упоминается Yandex Toloka), которые часто содержат ошибки, спам и предвзятость из-за разного уровня строгости (Rigor Parameter) и квалификации участников. Патент предлагает механизм, повышающий устойчивость системы обучения к некачественным оценкам.

Что запатентовано

Запатентован метод предварительной обработки (pre-processing routine) обучающей выборки перед подачей ее в алгоритм ранжирования. Суть изобретения — отойти от традиционных консенсус-моделей (усреднения оценок) и ввести два параметра для каждой оценки: (1) Weight Parameter (вес, отражающий уверенность в качестве метки) и (2) Relevance Parameter (скорректированное значение релевантности, нормализующее предвзятость асессора). Эти параметры определяются функциями, которые сами обучаются с целью максимизации финального качества ранжирования.

Как это работает

Система анализирует метаданные, связанные с оценкой (Label Features), такие как характеристики и поведение асессора. На основе этих данных применяются две функции: перевзвешивания (Reweighting) и переоценки (Remapping). Например, если асессор строг, его положительная оценка получает повышенное значение релевантности (Remapping). Если асессор часто ошибается на контрольных заданиях («honeypots»), его оценки получают низкий вес (Reweighting). Ключевой механизм — обучение этих двух функций происходит путем оптимизации не точности меток, а непосредственно метрики качества финального ранжирования (например, с использованием градиентов LambdaRank) на эталонном наборе данных.

Актуальность для SEO

Высокая. Использование краудсорсинга (Toloka) является фундаментальной частью стратегии Яндекса для масштабирования обучения ML-моделей (CatBoost, YATI). Методы борьбы с шумом в данных критически важны для поддержания и развития качества поиска. Описанный подход к прямой оптимизации метрик ранжирования через предобработку данных остается актуальным.

Важность для SEO

Влияние на SEO низкое (3/10). Это инфраструктурный патент, описывающий внутренние офлайн-процессы обучения моделей Яндекса. Он не вводит новые факторы ранжирования и не описывает сигналы, на которые SEO-специалисты могут напрямую влиять. Однако он важен для стратегического понимания: Яндекс обладает сложными механизмами для извлечения качественных сигналов из шумных данных, что позволяет обучать более совершенные модели ранжирования.

Детальный разбор

Термины и определения

Crowd-Sourced Training Dataset (Краудсорсинговая обучающая выборка): Набор данных (пары запрос-документ), размеченный участниками краудсорсинговых платформ (например, Yandex Toloka). Характеризуется высоким уровнем шума.
Honeypot (Контрольное задание): Задание с заранее известной правильной оценкой, используемое для проверки качества работы асессора.
Label Features (Признаки метки): Метаданные, связанные с процессом присвоения метки. Включают информацию об асессоре (опыт, процент ошибок, строгость), о задании и выходы консенсус-моделей. Являются частью Object Feature Vector.
MLA (Machine Learning Algorithm): Алгоритм машинного обучения, используемый для ранжирования (например, CatBoost).
Noisy Labels (Зашумленные метки): Метки (оценки релевантности) в обучающей выборке, которые являются неточными, несогласованными или ошибочными.
Relevance Parameter (Параметр релевантности): Скорректированное (нормализованное или «модерированное») значение метки релевантности. Рассчитывается для компенсации предвзятости асессора. Определяется функцией переоценки (Remapping Function).
Rigor Parameter (Параметр строгости): Характеристика асессора, отражающая его склонность к консервативным оценкам. Строгий асессор ставит высокие оценки только идеальным результатам.
Weight Parameter (Параметр веса): Параметр, отражающий уверенность системы в качестве (правильности) данной метки. Определяет степень влияния данного обучающего примера на MLA. Рассчитывается функцией перевзвешивания (Reweighting Function).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обучения ранжирующего модуля.

Система получает обучающую выборку, где каждый объект (запрос-документ) имеет присвоенную метку (Label) и вектор признаков (Object Feature Vector).
Для каждого объекта на основе его вектора признаков определяются:

Weight Parameter (показатель качества метки).
Relevance Parameter (модерированное значение метки относительно других меток).

Ранжирующий модуль обучается с использованием этих объектов, а также рассчитанных для них Relevance Parameters (вместо исходных меток) и Weight Parameters (для взвешивания их влияния).

Claim 3-5 (Зависимые пункты): Уточняют контекст и данные.

Метод применяется к краудсорсинговым данным (Claim 3).
Вектор признаков включает данные об участнике краудсорсинга (Claim 4).
Эти данные включают поведенческие характеристики (активность браузера, время на задачу) и профиль участника (опыт, Rigor Parameter) (Claim 5).

Claim 7-8 (Зависимые пункты): Описывают ключевой механизм оптимизации.

Функции для определения Relevance Parameter (Claim 7) и Weight Parameter (Claim 8) сами являются обучаемыми. Критически важно: их обучение происходит путем оптимизации качества ранжирования конечного модуля, а не точности меток.

Где и как применяется

Этот патент описывает исключительно офлайн-процессы, связанные с подготовкой данных и обучением моделей ранжирования. Он не применяется в реальном времени при обработке запроса пользователя.

Этап Обучения Ранжирования (Offline Training Phase)

Изобретение применяется на этапе подготовки обучающей выборки перед ее использованием для обучения основного алгоритма ранжирования (MLA), который затем будет использоваться на слое RANKING.

Процесс взаимодействия компонентов:

Сбор данных: Получение «сырой» выборки (XSOURCE) с зашумленными метками (например, из Toloka) и эталонной валидационной выборки (XTARGET) от профессиональных асессоров.
Извлечение признаков: Формирование Label Features (Y) и Ranking Features (X).
Предобработка (P): Система (Training Server) итеративно обучает функции Reweighting (параметры α) и Remapping (параметры β). Цель — найти такие α и β, чтобы модель ранжирования, обученная на обработанном XSOURCE, показывала максимальное качество на XTARGET.
Выходные данные: Обработанная выборка (STRAIN), где каждая метка заменена на Relevance Parameter (l) и ей присвоен Weight Parameter (w).
Обучение MLA: Финальное обучение основного алгоритма ранжирования на выборке STRAIN.

На что влияет

Патент влияет на качество и стабильность формулы ранжирования в целом. Он позволяет:

Эффективно использовать большие объемы дешевых, но зашумленных краудсорсинговых данных.
Снижать влияние ошибок асессоров, спама и субъективной предвзятости на итоговую формулу.

Влияние универсально для всех типов запросов, тематик и регионов, так как улучшается сама способность системы учиться на примерах.

Когда применяется

Алгоритм применяется всякий раз, когда Яндекс обучает или обновляет модели ранжирования с использованием данных, размеченных людьми (асессорами или краудсорсингом).

Триггеры активации: Наличие шума в обучающих данных, особенно при использовании краудсорсинга.

Пошаговый алгоритм

Процесс обучения функций предобработки (Reweighting и Remapping) — Мета-обучение.

Сбор данных и извлечение признаков:
- Получение XSOURCE (шумные данные) и XTARGET (эталонные данные).
- Формирование матриц признаков ранжирования (X) и признаков меток (Y).
Инициализация: Установка начальных значений для параметров функций перевзвешивания (α) и переоценки (β).
Итеративный процесс оптимизации (Gradient Descent): Цикл повторяется заданное число итераций (J):
1. Расчет текущих параметров: Для каждого объекта в XSOURCE рассчитываются текущие значения веса (w) и релевантности (l) по формулам (используя, например, сигмоидную функцию σ): $w_i = \sigma(\alpha \cdot y_i) $$$$ l_i = \sigma(\beta \cdot y_i)$
2. Обучение промежуточной модели ранжирования: Обучение модели ранжирования на данных XSOURCE с использованием текущих весов (W) и значений релевантности (L).
3. Оценка качества и расчет градиентов: Оценка качества промежуточной модели на XTARGET по целевой метрике ранжирования (M). Расчет градиентов метрики M по отношению к α и β (используя, например, градиенты LambdaRank). Это показывает направление для улучшения M.
4. Обновление параметров: Корректировка значений α и β на основе рассчитанных градиентов и шага обучения (ε). $\alpha^{j+1} = \alpha^{j} + \epsilon\Delta_{\alpha} $$$$ \beta^{j+1} = \beta^{j} + \epsilon\Delta_{\beta}$
Финальная предобработка: Использование финальных α и β для расчета итоговых Weight Parameters и Relevance Parameters для XSOURCE.
Обучение финальной модели ранжирования: Обучение основного MLA на предобработанной выборке.

Какие данные и как использует

Данные на входе

Система использует два основных типа данных в составе Object Feature Vector:

1. Ranking Features (Признаки ранжирования) (Матрица X)

Стандартные факторы ранжирования. В патенте упоминаются:

Контентные/Ссылочные: Текстовая и ссылочная релевантность.
Системные: Характеристики запроса, качество документа.
Поведенческие факторы: (user behavior features).

2. Label Features (Признаки метки) (Матрица Y)

Это метаданные, описывающие контекст получения оценки. Ключевые данные для работы патента.

Характеристики асессора: Уровень опыта (experience level), параметр строгости (Rigor Parameter), статистика ошибок на контрольных заданиях (honeypots).
Поведение асессора (Claim 5): Активность браузера (browsing activities), время, потраченное на просмотр объекта (time interval spent reviewing).
Характеристики задания: Выходы различных консенсус-моделей (например, «majority vote»).

Какие метрики используются и как они считаются

Weight Parameter (w) и Relevance Parameter (l): Рассчитываются как результат применения функций (например, сигмоиды) к линейной комбинации Label Features (Y) и обученных весовых коэффициентов (α или β). Это позволяет нормализовать значения в интервале.
Целевая Метрика Ранжирования (M): Метрика, используемая для оценки качества модели на валидационном наборе (XTARGET). Патент не специфицирует конкретную метрику, но упоминает использование градиентов LambdaRank в процессе оптимизации (Формула 5), что подразумевает использование метрик типа NDCG или pFound.
Метод оптимизации: Для обучения функций предобработки (настройки α и β) используется метод градиентного спуска (Gradient Descent).
Формула обучения ранкера (Формула 1): Показывает, как веса (W) и параметры релевантности (L) интегрируются в процесс обучения ранкера (на примере линейной модели с L2-регуляризацией):

b=(X^{T}WX+\mu I_{N})^{-1}X^{T}WL

Выводы

Инфраструктура обучения, а не алгоритм ранжирования: Патент описывает внутренний процесс Яндекса по обучению моделей. Он не вводит новые факторы ранжирования и не описывает работу алгоритмов в реальном времени.
Масштабирование обучения через краудсорсинг: Патент подтверждает активное использование Яндексом краудсорсинга (Toloka) и демонстрирует сложный механизм, позволяющий эффективно использовать эти зашумленные данные без потери качества.
Индивидуальный подход к оценкам: Система не усредняет оценки, а интерпретирует их индивидуально, разделяя надежность источника (Reweighting) и его субъективную строгость (Remapping).
Прямая оптимизация качества ранжирования: Ключевая инновация — предобработка данных оптимизируется не для повышения точности меток (как в классических подходах), а для максимизации качества итоговой формулы ранжирования.
Важность метаданных об асессорах: Яндекс активно собирает и использует данные о поведении и профиле асессоров (Label Features) для интерпретации полученных сигналов.

Практика

Патент является инфраструктурным и описывает методы обучения ML-моделей. Он не дает практических выводов для прямого применения в тактиках SEO-продвижения.

Best practices (это мы делаем)

Патент не содержит информации, на основе которой можно сформулировать конкретные тактические рекомендации по SEO (контент, ссылки, техническая оптимизация). Однако он подтверждает стратегическую важность фокуса на качестве:

Фокус на объективном качестве и удовлетворении интента: Яндекс постоянно совершенствует методы обучения моделей на основе человеческих оценок, фильтруя шум и нормализуя субъективность. Это означает, что итоговая модель ранжирования стремится эмулировать очищенное, взвешенное человеческое суждение. Долгосрочная стратегия должна фокусироваться на создании контента, который будет высоко оценен непредвзятым человеком.

Worst practices (это делать не надо)

Попытки манипулировать обучающими данными (например, через Толоку): Патент демонстрирует, что система специально разработана для выявления ненадежных, спамных или аномальных оценок через анализ поведения асессоров (Label Features) и механизм перевзвешивания (Weight Parameter). Попытки манипуляции, скорее всего, будут отфильтрованы и не повлияют на обучение.

Стратегическое значение

Стратегическое значение патента заключается в понимании того, как Яндекс решает проблему масштабирования и качества машинного обучения. Описанный метод позволяет Яндексу использовать огромные объемы краудсорсинговых данных для тренировки высококачественных моделей ранжирования. Для SEO-рынка это означает, что Яндекс способен быстрее адаптировать свои алгоритмы и повышать общее качество ранжирования за счет увеличения объема и разнообразия обучающих выборок, оставаясь при этом устойчивым к шуму и манипуляциям с обучающими данными.

Практические примеры

Практических примеров применения для SEO нет. Приведем пример того, как работает система внутри Яндекса.

Сценарий: Обработка оценок из Toloka

Исходные данные: Запрос «рецепт борща» и Документ А. Три участника Toloka оценили релевантность.
- Участник 1 (Спамер, низкая точность на honeypots): Оценка «Отлично».
- Участник 2 (Опытный, очень строгий — высокий Rigor Parameter): Оценка «Хорошо».
- Участник 3 (Средний уровень, лояльный): Оценка «Отлично».
Традиционный подход (Консенсус): Итоговая оценка «Отлично» (majority vote).
Подход по патенту (Предобработка): Система анализирует Label Features.
- Оценка Участника 1: Получает Weight Parameter близкий к нулю из-за низкой точности.
- Оценка Участника 2: Получает высокий Weight Parameter. Так как он строгий, его «Хорошо» преобразуется в высокий Relevance Parameter (например, 0.9).
- Оценка Участника 3: Получает средний Weight Parameter. Так как он лояльный, его «Отлично» преобразуется в средний Relevance Parameter (например, 0.7).
Результат: При обучении MLA мнение спамера будет проигнорировано, а итоговое значение релевантности будет сформировано преимущественно на основе скорректированной оценки строгого, надежного асессора.

Вопросы и ответы

Что такое «зашумленные метки» (Noisy Labels) и почему они возникают?

Это оценки релевантности, присвоенные людьми (асессорами или участниками краудсорсинга), которые содержат ошибки или предвзятость. Шум возникает из-за того, что люди по-разному интерпретируют инструкции, имеют разный уровень строгости (Rigor Parameter), могут ошибаться по невнимательности или намеренно ставить случайные оценки (спам), особенно на краудсорсинговых платформах вроде Toloka.

Чем подход Яндекса отличается от простого усреднения оценок асессоров?

Простое усреднение (консенсус-модели) считает все оценки равнозначными и пытается найти «истинное» значение. Подход Яндекса анализирует надежность и поведение каждого асессора. Он использует два механизма: Reweighting — присваивает вес (Weight Parameter) оценке, снижая влияние ненадежных источников; и Remapping — корректирует значение оценки (Relevance Parameter), чтобы учесть индивидуальную строгость асессора.

Что значит «прямая оптимизация качества ранжирования»?

Это ключевая особенность патента. Функции предобработки (Reweighting и Remapping) обучаются не для того, чтобы максимально точно угадать «правильную» метку релевантности. Вместо этого они настраиваются так, чтобы финальная модель ранжирования (например, CatBoost), обученная на этих обработанных данных, показывала наилучший результат на эталонной выборке. Оптимизируется конечная цель (качество поиска), а не промежуточный шаг.

Какие данные об асессорах Яндекс анализирует (Label Features)?

Патент упоминает несколько типов данных: профиль асессора (уровень опыта, параметр строгости, статистика ошибок на контрольных заданиях — honeypots) и его поведение во время выполнения задачи (активность браузера и время, потраченное на просмотр объекта).

Как этот патент влияет на мою SEO-стратегию?

На тактическом уровне — никак, это инфраструктурный патент. На стратегическом уровне он подтверждает, что Яндекс постоянно совершенствует способность своих моделей обучаться на человеческих оценках, фильтруя шум. Это означает, что модели становятся лучше в определении истинной релевантности и качества. Единственная надежная стратегия — фокус на объективном качестве сайта и решении задачи пользователя.

Стоит ли пытаться манипулировать оценками в Толоке для улучшения позиций?

Это неэффективно. Описанный в патенте механизм как раз направлен на борьбу с шумом и спамом. Система анализирует поведение работников и присваивает низкий вес (Weight Parameter) подозрительным или ненадежным оценкам, нивелируя их влияние на обучение.

Применяется ли этот алгоритм в реальном времени при поиске?

Нет. Это исключительно офлайн-процесс. Он используется для подготовки обучающей выборки и тренировки формулы ранжирования. В реальном времени работает уже обученная формула.

Описывает ли этот патент конкретные факторы ранжирования?

Нет. В патенте упоминаются общие категории «Признаков Ранжирования» (Ranking Features), такие как текстовая, ссылочная и поведенческая релевантность, но не раскрывается их состав. Патент фокусируется на процессе обучения, а не на факторах.

Помогает ли этот метод Яндексу меньше зависеть от профессиональных асессоров?

Да. Одна из целей метода — эффективно использовать большие объемы дешевых, но шумных краудсорсинговых данных. Обрабатывая эти данные и извлекая из них качественный сигнал, Яндекс может масштабировать обучение моделей, снижая зависимость от дорогой разметки профессиональными асессорами (хотя они по-прежнему нужны для создания эталонных наборов XTARGET).

Что такое градиенты LambdaRank, упомянутые в патенте?

LambdaRank — это алгоритм обучения ранжированию, который оптимизирует ранжирование напрямую. Упоминание его градиентов означает, что система использует их (в Формуле 5) для понимания того, как изменение параметров предобработки (α и β) повлияет на порядок документов в выдаче (т.е. на метрики типа NDCG), и оптимизирует эти параметры соответствующим образом.