Как Яндекс автоматически подбирает эталонные примеры для обучения и калибровки асессоров (Толокеров)

Яндекс патентует метод повышения качества краудсорсинговой разметки данных (например, оценки релевантности SERP). Система автоматически выбирает минимальный набор прошлых задач, которые максимально покрывают весь спектр возможных оценок. Эти эталонные примеры показывают асессорам (Толокерам), чтобы стандартизировать их подход и повысить точность разметки, используемой для обучения ML-моделей поиска.

Описание

Какую задачу решает

Патент решает проблему непоследовательности, предвзятости (bias) и разного уровня экспертизы, присущих непрофессиональной краудсорсинговой разметке данных (например, в Яндекс.Толока). Асессорам часто сложно понять задачу или нюансы между различными метками (Labels) без наглядных, эталонных примеров. Изобретение улучшает качество и согласованность обучающих данных (Ground Truth), которые критически важны для тренировки алгоритмов поиска и расчета метрик качества (например, Proxima).

Что запатентовано

Запатентована система для автоматического выбора оптимизированного набора эталонных примеров (Subset of Examples) для задач краудсорсинга. Суть изобретения заключается в использовании машинного обучения для анализа прошлых размеченных задач и выбора минимального количества примеров, которые обеспечивают максимальное покрытие всего спектра оценок. Цель — достичь Maximum Benchmark Coverage (максимальное покрытие эталонами) с Minimum Number of Samples (минимальным количеством образцов).

Как это работает

Система анализирует ранее выполненные задачи (например, оценку релевантности исторических SERP). Сначала используется First MLA (первый алгоритм машинного обучения) для устранения предвзятости асессоров и генерации «объективных» меток (Unbiased Labels). Затем эти задачи наносятся на шкалу релевантности. Second MLA (второй алгоритм машинного обучения) группирует результаты и выбирает наиболее репрезентативные примеры из этих кластеров для покрытия всей шкалы. При выполнении новых задач эти оптимизированные примеры показываются асессору в интерфейсе (например, на скользящей шкале) для калибровки его оценок.

Актуальность для SEO

Высокая. Точные и непредвзятые обучающие данные критически важны для современных поисковых систем, основанных на машинном обучении. Повышение качества и согласованности работы асессоров является ключевой задачей в управлении качеством данных.

Важность для SEO

Влияние на прямые SEO-действия низкое (3/10). Это инфраструктурный патент. Он не описывает факторы ранжирования или алгоритмы поиска. Вместо этого он описывает, как Яндекс генерирует и обеспечивает точность обучающих данных (Ground Truth), которые лежат в основе моделей ранжирования и метрик качества (таких как Proxima). Патент важен для понимания сложности инфраструктуры оценки качества Яндекса, но не дает тактических рекомендаций по оптимизации сайтов.

Детальный разбор

Термины и определения

Crowd-sourced environment (Краудсорсинговая среда): Платформа (например, Яндекс.Толока), где задачи выполняются распределенной группой людей (асессорами).
Digital Task (Цифровая задача): Задача, требующая человеческого интеллекта (HIT). В патенте явно упоминается SERP relevancy labelling task (задача оценки релевантности поисковой выдачи).
First MLA (Первый алгоритм машинного обучения): Алгоритм, используемый для обработки сырых меток от нескольких асессоров. Его цель — устранить предвзятость (bias perception) и сгенерировать Unbiased Labels.
Label (Метка, Оценка): Результат выполнения задачи асессором.
Maximum Benchmark Coverage (Максимальное покрытие эталонами): Целевая функция оптимизации. Способность набора примеров проиллюстрировать максимально возможный диапазон шкалы оценок (например, от «плохо» до «отлично»).
Minimum Number of Samples (Минимальное количество образцов): Ограничение оптимизации — использовать как можно меньше примеров для достижения максимального покрытия.
Scale (Шкала): N-мерное пространство, на которое наносятся задачи на основе их Unbiased Labels.
Second MLA (Второй алгоритм машинного обучения): Алгоритм (например, кластеризация), используемый для группировки задач на шкале и выбора оптимального набора примеров. Он обучается предсказывать «полезность» (usefulness) примера.
SERP Log Database (База данных логов SERP): Хранилище ранее сгенерированных страниц результатов поиска.
Sliding Labelling Scale (Скользящая шкала оценок): Элемент интерфейса асессора, где он выбирает оценку. На этой шкале размещаются эталонные примеры.
Step (Шаг): Расстояние между кластерами в пространстве Scale. Используется для визуального представления близости примеров на Sliding Labelling Scale.
Subset of Examples (Подмножество примеров): Оптимизированный набор прошлых задач, выбранный для демонстрации асессору в качестве эталонов.
Unbiased Labels (Непредвзятые метки): Метки, сгенерированные First MLA путем агрегации и устранения предвзятости из сырых оценок асессоров.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии генерации и представления оптимизированных примеров для задач разметки.

Claim 1 (Независимый пункт): Описывает полный цикл генерации и использования примеров для задачи оценки релевантности SERP.

Получение указания на цифровую задачу (оценка релевантности SERP).
Подготовка данных:
1. Извлечение множества исторических SERP из SERP Log Database.
2. Отправка этих SERP множеству краудсорсинговых работников для получения сырых меток (Labels).
3. Обработка сырых меток с помощью First MLA для генерации Unbiased Labels (устранение предвзятости).
Определение подмножества примеров (Subset of Examples).
Оптимизация выбора примеров:
1. Нанесение SERP на n-мерную шкалу (Scale) на основе их Unbiased Labels.
2. Использование Second MLA для генерации кластеров. Цель — обеспечить Maximum Benchmark Coverage при Minimum Number of SERP.
3. Примечание: Second MLA предварительно обучен на данных о полезности (usefulness) одной задачи как примера для другой.
Ассоциирование выбранного подмножества примеров с текущей задачей.
Представление задачи работнику.
Определение Step (шага), соответствующего расстоянию между кластерами.
Генерация Sliding Labelling Scale (скользящей шкалы оценок) с индикаторами меток, основанными на выбранных примерах.

Claim 5 и 6: Уточняют, что Step (шаг) определяется Second MLA и визуально представлен на скользящей шкале как расстояние между образцами.

Где и как применяется

Этот патент не применяется в основном конвейере поиска (CRAWLING, INDEXING, RANKING, BLENDER) в реальном времени. Он описывает инфраструктуру для генерации обучающих данных.

QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)

Система функционирует в рамках инфраструктуры обеспечения качества, взаимодействуя с краудсорсинговой платформой (например, Яндекс.Толока). Цель — повысить качество данных (Ground Truth), которые затем используются для обучения моделей ранжирования и расчета метрик качества (Proxima).

Процесс разделен на офлайн и онлайн компоненты:

Офлайн-процессы (Генерация эталонов):

Входные данные: Исторические SERP из SERP Log Database, сырые метки от асессоров.
Процесс: Выполняется предварительная обработка данных: устранение предвзятости (First MLA), масштабирование и кластеризация (Second MLA) для выбора оптимальных примеров и расчета расстояний (Step).
Выходные данные: Оптимизированный набор эталонных примеров (Subset of Examples).

Онлайн-процессы (Применение эталонов):

Входные данные: Новая задача для асессора, оптимизированный набор эталонов.
Процесс: Генерация интерфейса асессора. Система встраивает эталонные примеры в интерфейс задачи (например, на Sliding Labelling Scale), чтобы помочь асессору откалибровать свою оценку.
Выходные данные: Метка, присвоенная асессором новой задаче.

На что влияет

Качество обучающих данных: Основное влияние оказывается на согласованность и точность данных, генерируемых асессорами. Это косвенно влияет на все компоненты поиска, которые обучаются на этих данных.
Специфические задачи: Патент явно упоминает задачи оценки релевантности SERP (SERP relevancy labelling task).

Когда применяется

Офлайн-компонент: Активируется периодически для анализа исторических данных и генерации/обновления пула эталонных примеров.
Онлайн-компонент: Активируется каждый раз, когда асессору предоставляется задача, для которой были подготовлены эталонные примеры. Триггером является получение новой задачи в краудсорсинговой среде.

Пошаговый алгоритм

Процесс генерации и использования эталонных примеров.

Этап 1: Сбор и предварительная разметка данных (Офлайн)

Сбор данных: Извлечение множества исторических SERP из SERP Log Database.
Сырая разметка: Отправка этих SERP множеству асессоров для получения первичных оценок релевантности.

Этап 2: Обработка и нормализация меток (Офлайн)

Устранение предвзятости: Применение First MLA к сырым меткам для генерации Unbiased Labels, очищенных от субъективного восприятия отдельных асессоров.
Масштабирование: Нанесение SERP на n-мерную шкалу (Scale) в соответствии с их Unbiased Labels.

Этап 3: Кластеризация и оптимизация примеров (Офлайн)

Кластеризация: Применение Second MLA к данным на шкале для группировки похожих SERP. Second MLA обучен оптимизировать выборку.
Оптимизация: Выбор минимального количества SERP (Minimum Number of Samples), которые обеспечивают максимальное покрытие шкалы (Maximum Benchmark Coverage).
Расчет расстояний: Определение Step (расстояния) между выбранными кластерами/примерами на шкале.

Этап 4: Применение в реальной задаче (Онлайн)

Ассоциация: Получение новой задачи и ассоциирование с ней подготовленного оптимизированного набора примеров.
Генерация интерфейса: Создание интерфейса для асессора, например, Sliding Labelling Scale. Примеры размещаются на шкале визуально в соответствии с рассчитанными Step.
Выполнение задачи: Асессор изучает примеры для калибровки своего понимания и выполняет текущую задачу.

Какие данные и как использует

Данные на входе

Контентные / Системные данные:
- Исторические страницы результатов поиска (SERP), включая запрос и ранжированные результаты, из SERP Log Database.
Поведенческие / Асессорские данные:
- Сырые метки (Labels), предоставленные множеством краудсорсинговых работников для исторических SERP.
- Обучающие метки (Training Labels) для Second MLA. Эти метки указывают на «полезность» (usefulness) одной задачи в качестве примера для другой и присваиваются обучающими/доверенными асессорами (training crowd-sourced workers).

Какие метрики используются и как они считаются

Unbiased Labels: Генерируются First MLA. Метод направлен на удаление субъективной предвзятости (bias perception) из оценок асессоров.
N-dimensional Scale Mapping: Процесс размещения SERP в многомерном пространстве на основе их Unbiased Labels.
Clustering (Second MLA): Используются алгоритмы кластеризации (упомянуты k-means, centroid-based и т.д.). Алгоритм оптимизирован для решения задачи покрытия множества: выбрать минимальное количество центров кластеров, которые покрывают максимальное пространство на шкале.
Usefulness (Полезность примера): Метрика, используемая для обучения Second MLA. Определяется экспертными асессорами и показывает, насколько хорошо одна задача иллюстрирует другую.
Step (Шаг): Метрика расстояния между кластерами в n-мерном пространстве. Используется для визуального позиционирования примеров в интерфейсе асессора.

Выводы

Инфраструктурный патент: Патент описывает исключительно внутренние процессы Яндекса по управлению качеством краудсорсинговой разметки. Он не содержит информации о факторах ранжирования или алгоритмах поиска.
Важность Ground Truth: Яндекс инвестирует значительные ресурсы в обеспечение точности, согласованности и непредвзятости асессорских оценок. Эти данные (Ground Truth) являются фундаментом для обучения ML-моделей ранжирования и расчета метрик качества (Proxima).
Сложная ML-обработка оценок: Система использует многоступенчатый ML-подход: сначала для устранения предвзятости асессоров (First MLA), а затем для оптимизированной кластеризации и выбора эталонных примеров (Second MLA).
Оптимизация эталонов: Ключевая инновация — автоматический выбор минимального набора примеров, которые максимально покрывают спектр оценок (Maximum Benchmark Coverage). Это позволяет эффективно калибровать асессоров.
Визуализация близости: Система не просто предоставляет примеры, но и визуализирует расстояние (Step) между ними на шкале оценок, помогая асессорам понять нюансы между разными уровнями качества или релевантности.

Практика

Best practices (это мы делаем)

Патент описывает внутренние процессы Яндекса по генерации обучающих данных и не дает прямых рекомендаций для SEO-специалистов по оптимизации сайтов.

Однако, понимание этого механизма подчеркивает следующее:

Фокус на соответствии инструкциям асессоров: Качество и релевантность в понимании Яндекса основаны на человеческих оценках. Этот патент показывает, как Яндекс помогает асессорам лучше понимать и применять свои инструкции (принципы E-E-A-T, полезность контента). SEO-специалистам следует также глубоко изучать эти принципы и применять их на практике.
Понимание нюансов качества: Система учит асессоров различать тонкие градации качества, визуализируя расстояние между эталонами. Это подтверждает необходимость стремиться к максимально возможному качеству, а не просто соответствовать минимальным требованиям.

Worst practices (это делать не надо)

Патент не описывает механизмы борьбы с SEO-манипуляциями, но косвенно указывает на неэффективность следующих практик:

Попытки обмана метрик поверхностными сигналами: Если асессоры хорошо откалиброваны с помощью оптимизированных эталонных примеров, они с большей вероятностью распознают контент низкого качества, маскирующийся под полезный.
Игнорирование комплексной релевантности: Оценка релевантности SERP стандартизируется. Контент, который лишь частично или формально соответствует запросу, будет оценен ниже благодаря точной калибровке асессоров.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование высококачественных человеческих оценок в качестве основы для машинного обучения. Он демонстрирует сложность инфраструктуры, обеспечивающей эту основу. Для SEO это означает, что концепция «качества» в Яндексе — это не абстрактный алгоритмический показатель, а производная от стандартизированной, очищенной от предвзятости и согласованной человеческой разметки. Долгосрочная стратегия должна базироваться на создании контента, который будет высоко оценен хорошо обученным и откалиброванным асессором.

Практические примеры

Практических примеров применения в SEO нет, так как патент инфраструктурный. Ниже приведен пример того, как система работает со стороны асессора.

Сценарий: Калибровка асессора при оценке релевантности

Задача: Асессор получает задачу оценить релевантность SERP по запросу.
Интерфейс: Асессор видит скользящую шкалу (Sliding Labelling Scale) от 0 (Нерелевантно) до 10 (Очень релевантно).
Действие системы (на основе патента): Система автоматически выбрала 4 эталонных примера (A, B, C, D), которые обеспечивают Maximum Benchmark Coverage.
Визуализация:
- Пример A (Оценка 10) размещен в самом верху шкалы.
- Пример B (Оценка 8) размещен близко к A (маленький Step).
- Пример C (Оценка 3) размещен далеко от B (большой Step).
- Пример D (Оценка 0) размещен в самом низу.
Результат: Асессор может кликнуть на каждый пример, чтобы понять, что Яндекс считает эталоном для оценок 10, 8, 3 и 0. Визуальное расстояние помогает понять разницу между «отлично» (10) и «хорошо» (8). Это стандартизирует его подход и повышает точность его текущей оценки.

Вопросы и ответы

Описывает ли этот патент новый фактор ранжирования?

Нет, этот патент не описывает факторы или алгоритмы ранжирования. Он полностью посвящен инфраструктуре краудсорсинга (например, Яндекс.Толока) и методам повышения качества данных (меток), которые генерируют асессоры. Эти данные затем используются для обучения моделей ранжирования, но сам механизм из патента в реальном поиске не участвует.

Что такое «Maximum Benchmark Coverage» и почему это важно?

Maximum Benchmark Coverage (Максимальное покрытие эталонами) — это цель оптимизации, которая заключается в выборе такого набора примеров, который иллюстрирует максимально возможный диапазон шкалы оценок (например, от плохого до отличного). Это важно, чтобы асессор увидел примеры для всех возможных градаций качества и мог точнее откалибровать свои собственные оценки.

Что значит «Minimum Number of Samples» в контексте этого патента?

Это означает, что система стремится достичь максимального покрытия шкалы, используя как можно меньше примеров. Вместо того чтобы показывать асессору 20 похожих примеров, система выберет, например, 4 наиболее репрезентативных и различных примера. Это экономит время асессора и улучшает эффективность калибровки.

Как этот патент связан с метрикой Proxima?

Proxima — это ключевая метрика качества Яндекса, модель которой обучается на основе асессорских оценок. Система, описанная в патенте, напрямую повышает качество и согласованность этих оценок, устраняя предвзятость и стандартизируя подход асессоров с помощью эталонных примеров. Таким образом, этот патент описывает инфраструктуру, которая делает данные для обучения Proxima более точными.

В чем разница между First MLA и Second MLA?

First MLA используется для обработки сырых данных от нескольких асессоров. Его задача — устранить индивидуальную предвзятость (Bias) и агрегировать оценки в объективную метку (Unbiased Label). Second MLA используется на следующем этапе: он анализирует эти объективные метки, кластеризует их и выбирает оптимальный набор примеров для достижения Maximum Benchmark Coverage.

Что такое «Unbiased Labels» и зачем они нужны?

Unbiased Labels (Непредвзятые метки) — это оценки, очищенные от субъективного восприятия и ошибок отдельных асессоров. Разные асессоры могут по-разному интерпретировать шкалу оценок или иметь предубеждения. Unbiased Labels необходимы для создания объективной картины качества, которая затем используется для выбора эталонных примеров и обучения моделей поиска.

Что такое «Step» и как он используется?

Step (Шаг) — это мера расстояния между выбранными эталонными примерами (или кластерами) в пространстве оценок. Он используется для визуализации в интерфейсе асессора (Sliding Labelling Scale). Если два примера очень похожи по качеству, расстояние (Step) между ними будет маленьким. Если они сильно отличаются, расстояние будет большим. Это помогает асессорам лучше понять градации качества.

Как обучается Second MLA?

Second MLA обучается на специальном наборе данных, размеченном доверенными или экспертными асессорами (training crowd-sourced workers). Этот набор данных содержит пары задач и метку, указывающую, насколько «полезна» (Usefulness) первая задача в качестве иллюстративного примера для второй. Алгоритм учится выбирать наиболее полезные и репрезентативные примеры.

Могу ли я как SEO-специалист повлиять на работу этого алгоритма?

Напрямую повлиять на этот внутренний алгоритм генерации эталонов невозможно. Ваша задача — создавать контент, который будет высоко оценен асессорами. Понимание того, что асессоры проходят сложный процесс калибровки и обучения на оптимизированных примерах, должно мотивировать к созданию действительно качественного и полезного контента, соответствующего инструкциям для асессоров.

Используется ли эта система только для оценки релевантности SERP?

В патенте в качестве основного примера использования явно указана оценка релевантности SERP (SERP relevancy labelling task) и использование данных из SERP Log Database. Однако технология описана в общих терминах (Digital Task) и потенциально может применяться для любых задач краудсорсинга, где требуется оценка по шкале и полезны эталонные примеры.