Как Яндекс обучает алгоритмы ранжирования, используя распределение субъективных оценок асессоров вместо поиска «единой истины»

Яндекс патентует метод генерации обучающих данных для ML-алгоритмов (например, ранжирования или Proxima). Система отказывается от поиска единой «истинной метки» релевантности, признавая субъективность оценок. Вместо этого рассчитывается «Консенсусное распределение меток», учитывающее экспертизу асессоров, их личные склонности и сложность документа. ML-модели обучаются на этом распределении вероятностей («мягких метках»).

Описание

Какую задачу решает

Патент решает фундаментальную проблему генерации обучающих данных (Ground Truth) для алгоритмов машинного обучения (MLA). Традиционные подходы предполагают существование «единственной истинной метки» (single true label) для каждого документа и рассматривают расхождения в оценках асессоров как ошибки или «шум». Однако, как отмечается в патенте, при оценке релевантности восприятие субъективно (зависит от новизны, бренда, дизайна и т.д.), и даже эксперты могут искренне расходиться во мнениях. Изобретение устраняет необходимость поиска единой истины и моделирует распределение «субъективных, но истинных» (subjective but true) восприятий.

Что запатентовано

Запатентован метод генерации обучающего объекта (training object) для MLA. Суть изобретения — отказ от присвоения документу единственной консенсусной метки (например, через голосование большинством). Вместо этого генерируется «Консенсусное распределение меток» (Consensus Label Distribution). Это распределение вероятностей по всем возможным меткам, отражающее различные восприятия документа группой асессоров.

Как это работает

Система отправляет документ нескольким асессорам (упоминаются краудсорсинговые платформы, такие как YANDEXTOLOKA). Получив набор меток, система не усредняет их. Она анализирует результаты, оценивая Параметр Экспертизы (Expertise Parameter) каждого асессора, их Параметр Склонности (Assessor-Specific Tendency Parameter) (например, склонность завышать оценки) и Параметр Сложности (Difficulty Parameter) самого документа. На основе этих данных вычисляется вероятность того, какую метку асессор действительно считал правильной (Воспринимаемая метка / Perceived Label), даже если он выбрал другую (Выбранная метка / Selected Label). Итоговое распределение агрегирует эти вероятности и используется для обучения MLA.

Актуальность для SEO

Высокая. Качество обучающих данных критически важно для современных ML-моделей ранжирования (CatBoost, YATI) и метрик качества (Proxima). Использование «мягких меток» (распределений вероятностей) вместо «жестких меток» (единичных значений) для учета субъективности и неоднозначности является актуальным направлением в машинном обучении.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя это инфраструктурный патент о том, как Яндекс обучает свои модели, он критически важен для понимания природы релевантности и качества в Яндексе. Он показывает, что «Ground Truth», используемый для обучения ранжирования и Proxima, не является абсолютным, а является вероятностным и учитывает субъективное человеческое восприятие, включая оценку дизайна и бренда. Это подчеркивает стратегическую важность комплексного подхода к качеству сайта (E-E-A-T и UX/UI).

Детальный разбор

Термины и определения

Assessor (Асессор, w): Человек (профессионал или участник краудсорсинга), выполняющий задачу по разметке.
Assessor-Inherent Probability Score (Присущая асессору вероятность метки, Pr(z)): Вероятность выбора определенной метки данным асессором, основанная на его личных склонностях (Tendency Parameter), независимо от конкретного документа.
Assessor-Specific Tendency Parameter (Параметр склонности асессора): Характеристика поведения асессора, основанная на его истории. Например, склонность завышать оценки или всегда выбирать средние значения.
Conditional Probability Score (Условная вероятность, Pr(y|z)): Вероятность того, что асессор выберет метку ‘y’ (Selected Label), при условии, что он воспринял метку ‘z’ (Perceived Label) как наиболее релевантную. Зависит от Экспертизы асессора и Сложности документа.
Consensus Label Distribution (Консенсусное распределение меток): Итоговый результат работы системы. Представляет собой диапазон Воспринимаемых Меток для документа и связанную с каждой из них вероятность. Используется как целевая переменная («мягкая метка») для обучения MLA.
Difficulty Parameter (Параметр сложности, d_j): Оценка сложности или неоднозначности задачи разметки для конкретного документа (j). Не зависит от того, кто оценивает документ.
Digital Training Document (Обучающий документ, j): Единица контента (например, веб-страница, пара запрос-документ), используемая для обучения MLA.
Expertise Parameter (Параметр экспертизы, e^w): Оценка квалификации или точности асессора (w). Не зависит от конкретного документа, который он оценивает.
Perceived Label (Воспринимаемая метка, z): Метка, которую асессор субъективно считает наиболее релевантной для документа. Может отличаться от Выбранной Метки из-за ошибки, сложности задачи или других факторов.
Selected Label (Выбранная метка, y): Фактическая метка, которую асессор присвоил документу (кликнул).

Ключевые утверждения (Анализ Claims)

Патент защищает метод генерации обучающих данных, который моделирует распределение субъективных восприятий вместо поиска единой объективной истины.

Claim 1 (Независимый пункт): Описывает основной процесс.

Получение обучающего документа.
Передача документа нескольким асессорам.
Сбор выбранных меток (Pool of Selected Labels).
Генерация Consensus Label Distribution, которое представляет собой диапазон Perceived Labels и их вероятности.
Обучение MLA с использованием документа и полученного распределения.

Ключевой механизм генерации распределения (детализирован в Claim 1 и Claim 17):

Агрегация Assessor-Specific Perceived Label Distributions (индивидуальных распределений для каждого асессора).
Индивидуальное распределение рассчитывается путем комбинирования двух компонентов для каждой возможной метки:
- Assessor-Inherent Probability Score (вероятность выбора метки на основе склонностей асессора).
- Conditional Probability Score (вероятность того, что метка была воспринята как релевантная, даже если выбрана была другая метка).

Claim 2 и 3 (Зависимые пункты): Уточняют, что система определяет ключевые параметры моделирования шума.

Определение Expertise Parameter для каждого асессора (независим от документа).
Определение Difficulty Parameter для каждого документа (независим от асессора).

Claim 4, 5, 6 (Зависимые пункты): Уточняют использование параметров.

Conditional Probability Score рассчитывается с использованием Expertise Parameter и Difficulty Parameter (Claim 4).
Assessor-Inherent Probability Score определяется на основе Assessor-specific tendency parameter, который вычисляется из истории оценок асессора (Claim 5, 6).

Где и как применяется

Изобретение относится к инфраструктуре машинного обучения и не применяется во время обработки запроса пользователя в реальном времени. Оно используется на этапе подготовки данных для обучения компонентов поиска (Офлайн-процессы).

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Это основной этап применения. Метрики качества, такие как Proxima, обучаются на оценках асессоров. Этот патент описывает, как именно эти оценки обрабатываются для формирования «Ground Truth» (эталонных данных). Система взаимодействует с платформами краудсорсинга (в патенте упоминается YANDEXTOLOKA) для сбора данных и с инфраструктурой обучения ML-моделей.

Слой Ранжирования (RANKING LAYER)
Алгоритмы ранжирования (L1-L4), использующие MLA (например, CatBoost или нейросети YATI), обучаются на данных, сгенерированных этим методом. Использование Consensus Label Distribution («мягких меток») вместо единой метки позволяет формуле ранжирования лучше понимать нюансы и неоднозначности релевантности.

Входные данные:

Обучающий документ (например, пара запрос-URL).
Пул Selected Labels от нескольких асессоров.
История оценок асессоров (Assessor History Database).

Выходные данные:

Обучающий объект: Документ + Consensus Label Distribution.
Параметры: Expertise Parameter, Difficulty Parameter, Assessor-Specific Tendency Parameter.

На что влияет

Специфические запросы и контент: Наибольшее влияние оказывается на задачи, где оценка субъективна или неоднозначна. Это критически важно для оценки общей релевантности и качества страниц (особенно в YMYL-тематиках). В патенте указано, что на восприятие влияют такие аспекты, как релевантность, новизна, охват, бренд и дизайн.
Метрики качества (Proxima): Влияет на то, как обучается Proxima, позволяя ей улавливать пограничные состояния и нюансы качества.

Когда применяется

Алгоритм применяется во время офлайн-процессов подготовки обучающих датасетов и тренировки моделей машинного обучения, которые полагаются на человеческую оценку (формулы ранжирования, классификаторы качества).

Пошаговый алгоритм

Процесс генерации обучающего объекта:

Предварительная подготовка (Офлайн):
- Анализ истории асессоров для определения их индивидуальных Параметров Склонности (Tendency Parameters).
- Расчет базовых Assessor-Inherent Probability Scores (Pr(z)) на основе этих склонностей.
Сбор данных: Получение документа (j) и отправка его множеству асессоров (w). Получение Пула Выбранных Меток (y_j^w).
Оценка Параметров (Итеративный процесс):
- На основе пула меток рассчитываются Параметры Экспертизы (e^w) для асессоров.
- Рассчитываются Параметры Сложности (d_j) для документа.
Расчет Условных Вероятностей:
- Расчет Conditional Probability Score (Pr(y|z)): вероятность выбора метки ‘y’ при условии восприятия метки ‘z’. Этот расчет использует параметры e^w и d_j.
Генерация Индивидуальных Распределений: Расчет Assessor-Specific Perceived Label Distribution для каждого асессора путем комбинирования (перемножения) Assessor-Inherent Probability Score и Conditional Probability Score (см. Формулу 1 ниже).
Агрегация: Объединение индивидуальных распределений в итоговое Consensus Label Distribution.
Обучение: Использование документа и Consensus Label Distribution для тренировки MLA.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Исторические данные): История предыдущих разметок асессоров. Эти данные критически важны для определения Assessor-Specific Tendency Parameter (например, является ли асессор слишком строгим или слишком лояльным).
Системные данные: Обучающие документы и Пул собранных меток (Pool of Selected Labels) для текущей задачи.

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых параметров для моделирования процесса разметки:

Expertise Parameter (e^w): Оценка квалификации асессора.
Difficulty Parameter (d_j): Оценка сложности/неоднозначности документа.
Assessor-Specific Tendency Parameter: Модель склонностей асессора.

Основной расчет направлен на максимизацию правдоподобия (Likelihood maximization) наблюдаемых (выбранных) меток с учетом того, что они основаны на распределении воспринимаемых меток. Используется следующая формула (Formula 1 в патенте):

$$L(\{y_{j}^{w}\})=\Pi_{w\in W_{j}}\Sigma_{z_{j}^{w}\in Z}Pr(z_{j}^{w})Pr(y_{j}^{w}|Z_{j}={z_{j}}^{w})$$

Где:

$y_{j}^{w}$ – метка, выбранная асессором w для документа j (Selected Label).
$z_{j}^{w}$ – метка, воспринятая асессором w для документа j (Perceived Label).
$Pr(z_{j}^{w})$ – Assessor-Inherent Probability Score (зависит от склонностей асессора).
$Pr(y_{j}^{w}|Z_{j}={z_{j}}^{w})$ – Conditional Probability Score (вероятность ошибки/шума; зависит от Expertise и Difficulty параметров).

Патент предлагает модифицировать существующие модели агрегации (такие как Dawid and Skene model, GLAD model, Minimax Entropy principle) для реализации этой формулы, заменяя предположение о единой скрытой истинной метке на распределение воспринимаемых меток. В описании также упоминается использование распределения Дирихле (Dirichlet distribution) для моделирования распределения воспринимаемых меток.

Выводы

Релевантность и качество субъективны и вероятностны: Яндекс на фундаментальном уровне отказывается от идеи «единой истины» (Ground Truth) при обучении моделей. Система признает, что восприятие зависит от многих факторов (включая дизайн, бренд, новизну) и моделирует его как распределение вероятностей.
Использование «Мягких меток» (Soft Labels) для обучения: «Ground Truth» для обучения алгоритмов ранжирования и метрик качества (Proxima) — это Consensus Label Distribution, а не результат голосования большинством. Это позволяет учитывать нюансы и неоднозначность.
Глубокое моделирование асессоров и документов: Яндекс активно моделирует как характеристики асессоров (их экспертность и личные склонности/предвзятость), так и самих документов (их сложность и неоднозначность).
Разделение шума и восприятия: Система стремится отличить случайные ошибки асессоров (шум, смоделированный через Conditional Probability) от искренних различий в субъективном восприятии (Perceived Labels).
Влияние на обучение MLA: Алгоритмы ранжирования, обученные таким образом, должны лучше справляться с пограничными и неоднозначными случаями в реальном поиске, так как они обучаются на более богатом и реалистичном представлении данных.

Практика

Best practices (это мы делаем)

Максимизация ясности и однозначности контента: Создавайте контент, который явно и недвусмысленно решает задачу пользователя. Это снижает Difficulty Parameter документа при оценке. Чем ниже сложность, тем более согласованными будут оценки асессоров, что приведет к более узкому и высокому распределению консенсусных меток (высокая уверенность системы в качестве). Это формирует сильные сигналы для обучения ранжирования.
Комплексный подход к качеству (E-E-A-T и UX/UI): Патент явно указывает (в секции Summary), что на восприятие асессоров влияют такие аспекты, как «релевантность, новизна, охват, бренд, дизайн и т.д.». Это прямое подтверждение необходимости уделять внимание не только тексту, но и пользовательскому опыту, дизайну, удобству интерфейса и силе бренда.
Оптимизация под широкое удовлетворение интента: В неоднозначных тематиках старайтесь охватить разные валидные интерпретации запроса. Поскольку модели обучаются на распределении мнений, контент, удовлетворяющий более широкий спектр ожиданий, будет иметь преимущество.

Worst practices (это делать не надо)

Создание «пограничного» или неоднозначного контента: Контент, который пытается охватить слишком много разных интентов или имеет запутанную структуру, может получить высокий Difficulty Parameter. Система зафиксирует эту неоднозначность в виде широкого («плоского») распределения меток, что ослабляет уверенность ML-модели в релевантности документа.
Игнорирование UX/UI и дизайна: Плохой дизайн, навязчивая реклама или неудобный интерфейс могут негативно повлиять на Perceived Label асессора или увеличить вероятность ошибки (Selected Label ≠ Perceived Label). Это ухудшит итоговую оценку качества в обучающих данных.

Стратегическое значение

Этот патент раскрывает фундамент обучения ML в Яндексе для оценки релевантности и качества (включая Proxima). Он демонстрирует высокий уровень зрелости ML-процессов, где даже подготовка данных является сложным вероятностным моделированием. Стратегический вывод: качество сайта — это не просто набор технических факторов, а то, как живые эксперты (асессоры) воспринимают ценность, дизайн, удобство и полезность страницы в комплексе. Яндекс стремится максимально точно перенести это человеческое восприятие в свои математические модели.

Практические примеры

Сценарий: Обучение метрики Proxima на примере YMYL-страницы

Документ: Страница с медицинскими советами среднего качества (не спам, но авторитетность автора под вопросом).

Сбор оценок: 5 асессоров оценивают качество по шкале от 1 до 5. Выбранные метки (Selected Labels): 3, 4, 4, 3, 5.
Традиционный подход (Majority Vote/Average): Консенсусная метка ≈ 3.8 или 4.
Подход Яндекса (Consensus Label Distribution):
- Система анализирует асессоров. Асессор, поставивший 5, имеет Tendency Parameter к завышению оценок. Асессоры, поставившие 3 и 4, имеют высокий Expertise Parameter.
- Система определяет, что документ имеет средний Difficulty Parameter (неоднозначный).
- Система рассчитывает вероятности Воспринимаемых Меток (Perceived Labels), корректируя выбранные метки.
- Итоговое распределение: Вероятность 5 = 10%, Вероятность 4 = 50%, Вероятность 3 = 40%.
Результат: Модель Proxima обучается на этом распределении (10/50/40). Она понимает, что страница скорее хорошая (4), но с заметной вероятностью может считаться средней (3). Это более точное и богатое представление реальности, чем просто метка «4».

Вопросы и ответы

Что такое «Воспринимаемая Метка» (Perceived Label) и чем она отличается от «Выбранной Метки» (Selected Label)?

«Выбранная Метка» — это то, что асессор фактически нажал в интерфейсе задания. «Воспринимаемая Метка» — это то, что асессор субъективно посчитал правильным ответом. Они могут различаться из-за случайных ошибок (мискликов), невнимательности или сложности задачи. Система Яндекса стремится смоделировать именно Воспринимаемую Метку, фильтруя шум Выбранной метки.

Патент утверждает, что «единой истины» не существует. Что это значит для SEO?

Это означает, что релевантность и качество — это не абсолютные величины, а вероятностные и субъективные понятия. Яндекс не ищет идеальный ответ, а моделирует распределение мнений экспертов. Для SEO это подчеркивает важность комплексного качества: чем больше аспектов вашего сайта (контент, дизайн, UX, авторитет) будут положительно восприняты разными асессорами, тем выше будет ваша итоговая оценка в обучающих данных.

Как этот патент связан с метрикой Proxima?

Связь прямая. Proxima — это ML-модель, оценивающая качество страницы, обученная на оценках асессоров. Этот патент описывает, как именно обрабатываются эти оценки для формирования обучающего датасета для таких моделей, как Proxima. Вместо обучения на «сырых» голосах, Яндекс обучает ее на обработанном Консенсусном Распределении Меток (Consensus Label Distribution), что делает модель более точной.

Что такое «Параметр Сложности» (Difficulty Parameter) документа и как на него повлиять?

Параметр Сложности отражает, насколько неоднозначен документ или задача его оценки. Если экспертные асессоры сильно расходятся во мнениях, параметр сложности будет высоким. Чтобы его снизить (и тем самым повысить уверенность системы в оценке), нужно делать контент максимально понятным, четко структурированным и однозначно отвечающим на интент пользователя, а также улучшать UX/UI.

Что такое «Параметр Склонности» (Tendency Parameter) асессора?

Это модель поведения конкретного асессора, основанная на его истории. Например, система может определить, что данный асессор склонен завышать оценки (лояльный), занижать их (строгий) или всегда выбирать средние значения (нерешительный). Яндекс учитывает эти склонности при расчете итогового распределения, чтобы нивелировать личную предвзятость.

Влияет ли дизайн и UX сайта на обучение ранжирования согласно этому патенту?

Да, напрямую. В патенте (секция Summary) явно указано, что при оценке релевантности асессоры учитывают множество аспектов объекта, таких как «релевантность, новизна, охват, бренд, дизайн и т.д.». Плохой дизайн или UX негативно повлияет на Воспринимаемую Метку асессора, что ухудшит итоговое распределение, используемое для обучения формулы ранжирования.

Используется ли этот механизм для обработки поведенческих факторов пользователей?

Нет. Этот патент описывает исключительно офлайн-обработку данных, полученных от асессоров (или краудсорсинга, например, Толоки) в процессе обучения ML-моделей. Он не касается анализа кликов, времени на сайте или других онлайн-сигналов от реальных пользователей поиска.

Зачем обучать MLA на распределении вероятностей («мягких метках»), а не на одной усредненной оценке?

Обучение на распределении дает модели гораздо больше информации и лучше отражает реальность. Усредненная оценка теряет данные о степени уверенности и разбросе мнений. Распределение позволяет модели понять нюансы: например, отличить документ, который все оценили на «4», от документа, который половина оценила на «5», а половина на «3». Это повышает точность и устойчивость MLA.

Применяется ли этот метод только к краудсорсингу (Толока) или и к профессиональным асессорам?

Метод универсален. Хотя он особенно полезен для обработки «шумных» данных краудсорсинга (в патенте упоминается YANDEXTOLOKA), также указано, что даже хорошо обученные эксперты могут расходиться во мнениях из-за субъективности задачи. Следовательно, метод применяется ко всем источникам человеческой разметки.

Является ли описанный в патенте механизм фактором ранжирования?

Нет, напрямую не является. Этот патент описывает не алгоритм ранжирования, а методологию подготовки данных (Ground Truth), которые используются для *обучения* алгоритмов ранжирования. Он влияет на то, как именно модель ранжирования учится определять релевантность, но сам по себе не участвует в расчете позиций в реальном времени.