Как Яндекс оптимизирует краудсорсинг (Толоку) для сбора точных и разнообразных данных для обучения алгоритмов Поиска

Патент Яндекса описывает систему ранжирования задач на краудсорсинговой платформе (например, Толока) для асессоров. Система балансирует между предпочтениями асессоров и необходимостью получить точные ответы, особенно для новых или непопулярных задач. Это позволяет Яндексу собирать высококачественные и разнообразные данные (human evaluation), которые используются для обучения и валидации алгоритмов машинного обучения, включая ранжирование в Поиске.

Описание

Какую задачу решает

Патент решает задачи, критически важные для качества данных, используемых при обучении алгоритмов машинного обучения (ML), включая поисковое ранжирование. Основные проблемы:

Точность данных: Ошибки в данных разметки, полученных от асессоров (оценщиков), негативно влияют на эффективность обученных ML-моделей.
Предвзятость выбора (Selection Bias): Асессоры склонны выбирать знакомые и удобные им задачи, игнорируя новые или сложные.
Проблема «холодного старта» для новых задач: Владельцам новых или непопулярных заданий сложно собрать необходимые данные, так как асессоры их избегают.

Для SEO это означает, что Яндекс активно борется за чистоту, точность и разнообразие данных Human Evaluation, которые лежат в основе обучения систем ранжирования и метрик качества (например, Proxima).

Что запатентовано

Запатентована система и способ ранжирования списка цифровых задач на краудсорсинговой платформе (например, Яндекс.Толока). Суть изобретения — в использовании алгоритма машинного обучения (MLA) для оптимизации выдачи задач асессору путем балансирования двух конфликтующих целей: удовлетворенности асессора (показывать то, что он предпочитает) и удовлетворенности владельца задания (получить точные ответы и собрать данные по непопулярным задачам). Конечная цель, указанная в патенте, — обучение модели ИИ на собранных данных (Claim 1).

Как это работает

Система использует MLA (упоминается CatBoost) для ранжирования доступных задач для конкретного асессора. Для каждой пары (асессор, задача) прогнозируются две метрики: вероятность выбора задачи (Параметр взаимодействий) и вероятность правильного выполнения (Параметр точности выполнения). Ранжирование происходит путем оптимизации Параметра качества ранжирования, который комбинирует эти метрики. Ключевой механизм — это ограниченная оптимизация (Constrained Optimization): система максимизирует вероятность правильного выполнения задач (удовлетворенность владельца), сохраняя при этом удовлетворенность асессора на заранее заданном приемлемом уровне. Это позволяет «подмешивать» новые или нежелательные для асессора задачи, если прогнозируется, что он выполнит их точно, но не настолько агрессивно, чтобы вызвать его отток с платформы.

Актуальность для SEO

Высокая. Сбор высококачественных данных Human Evaluation является фундаментом для современных поисковых систем, основанных на машинном обучении. Оптимизация краудсорсинговых платформ для повышения точности разметки и обеспечения покрытия разнообразных сценариев (включая новые типы контента или спама) остается критически важной задачей для Яндекса.

Важность для SEO

Влияние на SEO косвенное, но значительное (6/10). Этот патент не описывает алгоритмы ранжирования сайтов. Он описывает инфраструктуру, которая обеспечивает качество данных, используемых для обучения этих алгоритмов. Повышение точности и разнообразия асессорских оценок напрямую ведет к улучшению работы ML-моделей Яндекса (например, YATI, CatBoost) и метрик качества (Proxima). Чем точнее данные, тем эффективнее поиск борется со спамом и лучше определяет релевантность и качество контента.

Детальный разбор

Термины и определения

MLA (Machine-Learning Algorithm / Алгоритм машинного обучения): Алгоритм, используемый для ранжирования задач. В патенте конкретно упоминается CatBoost (ансамбль деревьев решений).
Оценщик (Асессор): Пользователь краудсорсинговой платформы (например, Толоки), выполняющий задачи разметки данных.
Параметр взаимодействий оценщика (Interaction Parameter): Прогнозируемое значение вероятности того, что асессор выберет данную цифровую задачу. Определяется на основе профиля асессора. В формуле обозначается как rel.
Параметр качества ранжирования (Ranking Quality Parameter): Целевая функция оптимизации для MLA. Комбинирует Удовлетворенность пользователя и Удовлетворенность владельца задания.
Параметр точности выполнения (Execution Accuracy Parameter): Прогнозируемое значение вероятности того, что асессор правильно выполнит данную цифровую задачу. В формуле обозначается как acc.
Параметр удовлетворенности платформой владельца задания (Task Owner Platform Satisfaction Parameter): Метрика, указывающая на вероятность правильного выполнения задач в ранжированном списке. Агрегированное значение Параметров точности выполнения. Максимизация этой метрики является основной целью оптимизации.
Параметр удовлетворенности платформой пользователя (User Platform Satisfaction Parameter): Метрика, указывающая на удовлетворенность асессора предложенным списком задач (соответствие его предпочтениям). Агрегированное значение Параметров взаимодействий. Используется как ограничение в оптимизации.
Цифровая задача (Digital Task / HIT): Задача для человеческого интеллекта (например, классификация изображений, оценка релевантности). Результаты используются как обучающие данные для ML.
Yeti Ranking (Алгоритм ранжирования Йети): Алгоритм ранжирования (вероятно, основанный на GBDT или нейросетях), который может использоваться для оптимизации метрик типа DCG. Упоминается как метод оптимизации.

Ключевые утверждения (Анализ Claims)

Анализ фокусируется на независимых пунктах Формулы изобретения (Claims 1 и 10), которые описывают ядро изобретения — способ обучения модели ИИ через оптимизированное распределение задач на краудсорсинговой платформе.

Claim 1 (Независимый пункт): Описывает компьютерный способ обучения модели ИИ, включающий формирование списка цифровых задач для асессора и последующее использование результатов для обучения.

Система получает запрос на список задач от асессора.
Получает множество доступных задач.
Для каждой задачи определяется Параметр взаимодействий (вероятность выбора задачи асессором на основе его профиля).
Для каждой задачи определяется Параметр точности выполнения (вероятность правильного выполнения задачи этим асессором).
Ключевой этап: Ранжирование задач с помощью MLA путем оптимизации Параметра качества ранжирования, который основан на сочетании параметров взаимодействий и точности выполнения.
Выбор Топ-N задач и отправка списка асессору.
Прием результатов, формирование обучающих данных и обучение модели ИИ.

Важное уточнение из описания: оптимизация выполняется как Constrained Optimization — максимизация удовлетворенности владельца (точности) при сохранении удовлетворенности пользователя (предпочтений) на заданном уровне.

Claim 7 (Зависимый от 1): Детализирует расчет Параметра качества ранжирования с помощью конкретной формулы.

$$ \propto\sum_{r\in R}\sum_{i=1}^{20}\frac{rel(w_{r},c(F(r),i))}{log(i+1)}+\beta\sum_{r\in R}\sum_{i=1}^{20}\frac{acc(r,w_{r},c(F(r),i))}{log(i+1)}\rightarrow max_{c\in C} $$

Эта формула имеет структуру, аналогичную DCG (Discounted Cumulative Gain). Она представляет собой взвешенную сумму (веса α и β) удовлетворенности пользователя (на основе rel) и удовлетворенности владельца (на основе acc). Деление на log(i+1) обеспечивает позиционное дисконтирование, подчеркивая важность верхних позиций списка.

Claim 10 (Независимый пункт): Описывает альтернативный вариант способа, включающий этап предварительного отбора кандидатов с использованием векторов.

Получение запроса и множества доступных задач.
Формирование подмножества (Кандидатов): Система формирует вектор признаков асессора и векторов признаков задач. Выбираются N задач на основе близости (similarity) этих векторов.
Ранжирование: Оптимизация Параметра качества ранжирования на основе параметра взаимодействий и параметра точности выполнения.
Передача списка, прием результатов и обучение модели ИИ.

Где и как применяется

Патент описывает внутренние процессы краудсорсинговой платформы Яндекса (вероятно, Толока). Эта платформа является критически важным компонентом инфраструктуры Поиска, обеспечивая сбор данных Human Evaluation.

QUALITY & GOVERNANCE LAYER – Слой Качества и Метрик
Это основной слой, где применяется изобретение. Краудсорсинговая платформа используется для сбора ground truth данных, необходимых для:

Обучения метрик качества: Метрики вроде Proxima (оценка полезности, достоверности) обучаются на оценках асессоров. Описанная система обеспечивает точность этих оценок (максимизация Параметра точности выполнения).
Валидации экспериментов: Оценка качества выдачи при запуске новых функций часто проводится через асессоров.
Сбора данных по новым сценариям: Система специально разработана для распределения «неизвестных» задач. Это позволяет Яндексу быстро собирать разметку для новых типов контента, запросов или для борьбы с новыми видами SEO-манипуляций, даже если асессоры предпочитают избегать таких задач.

RANKING LAYER – Ранжирование (Офлайн-обучение)
Результаты работы краудсорсинговой платформы (обучающие данные) напрямую используются для обучения основных формул ранжирования (CatBoost, YATI) на этапах L2/L3. Патент подтверждает, что обучение моделей ИИ (включая ранжирование) является конечной целью сбора этих данных.

На что влияет

Качество и разнообразие обучающих данных: Влияет на все типы контента и запросов, по которым Яндекс собирает оценки. Особенно сильно влияет на способность системы оценивать новые или редкие сценарии (long-tail запросы, новые тематики, новые форматы контента).
Эффективность ML-моделей Поиска: За счет повышения точности разметки данных повышается качество обученных моделей ранжирования и классификации.

Когда применяется

Алгоритм применяется каждый раз, когда асессор запрашивает список доступных задач на краудсорсинговой платформе.

Триггеры активации: Система активирует механизм балансировки (Constrained Optimization), когда необходимо продвинуть задачи, которые важны для владельца (высокая прогнозируемая точность выполнения), но не популярны у асессора (низкая вероятность взаимодействия).
Пороговые значения: Ключевым является «заранее заданный уровень» удовлетворенности пользователя. Система будет продвигать непопулярные задачи только до тех пор, пока общая удовлетворенность асессора не упадет ниже этого порога.

Пошаговый алгоритм

Процесс формирования списка задач для асессора.

Получение запроса: Асессор запрашивает список задач у краудсорсинговой платформы.
Получение данных асессора: Система извлекает данные профиля и историю качества (Оценка качества) асессора.
Отбор кандидатов (Опционально, Claim 10):
- Формирование вектора признаков асессора и векторов признаков задач.
- Выбор подмножества задач на основе векторной близости (proximity).
Прогнозирование метрик (Feature Generation): Для каждой задачи-кандидата и данного асессора система рассчитывает:
- Параметр взаимодействий (rel): Вероятность выбора задачи (на основе профиля и предпочтений).
- Параметр точности выполнения (acc): Вероятность правильного ответа (на основе истории качества, сложности задачи и т.д.).
Расчет агрегированных метрик:
- Расчет Параметра удовлетворенности пользователя (агрегация rel, например, через DCG-подобную формулу).
- Расчет Параметра удовлетворенности владельца задания (агрегация acc, например, через DCG-подобную формулу).
Ранжирование и Оптимизация (MLA): Алгоритм (CatBoost, Yeti Ranking) ранжирует задачи путем оптимизации Параметра качества ранжирования.
- Цель: Максимизировать Удовлетворенность владельца (Точность).
- Ограничение: Сохранить Удовлетворенность пользователя выше заранее заданного порога.
Выдача списка: Выбор Топ-N задач и отправка асессору.
Сбор результатов и Обучение (Пост-процессинг): Полученные ответы используются для формирования обучающих данных и обучения моделей ИИ.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Асессора): История выбора задач, время выполнения задач, доля выполненных задач от выбранных. Используются для прогнозирования Параметра взаимодействий и Параметра точности.
Пользовательские факторы (Профиль Асессора): Возраст, пол, образование, опыт работы, заявленные предпочтения, желаемый доход. Используются для формирования вектора асессора.
Метрики качества (Асессора): Оценка качества (Quality Score) — историческая надежность/коэффициент ошибок асессора по разным типам задач. Определяется через «задачи-ловушки» (honeypots) или перепроверку. Критически важна для расчета Параметра точности выполнения.
Данные о задачах: Группа, вид, сложность, интервал времени выполнения, стоимость, требования к количеству исполнителей. Используются для формирования вектора признаков задачи.

Какие метрики используются и как они считаются

Вектор признаков оценщика и Вектор признаков задачи: Численные представления асессора и задачи в многомерном пространстве. Используются для отбора кандидатов (по близости векторов) и как входные данные для ML-моделей прогнозирования.
Параметр взаимодействий (rel) и Параметр точности выполнения (acc): Прогнозируются отдельными ML-моделями на основе векторов признаков и исторических данных.
Параметр качества ранжирования: Рассчитывается как взвешенная сумма Удовлетворенности пользователя и Удовлетворенности владельца. Используется формула, аналогичная DCG (Discounted Cumulative Gain), где релевантность заменена на вероятность взаимодействия (rel) или точность (acc), а позиция дисконтируется логарифмически ($log(i+1)$).

Формула расчета Параметра качества ранжирования (Claim 7):

$$ \propto\sum_{r\in R}\sum_{i=1}^{20}\frac{rel(w_{r},c(F(r),i))}{log(i+1)}+\beta\sum_{r\in R}\sum_{i=1}^{20}\frac{acc(r,w_{r},c(F(r),i))}{log(i+1)}\rightarrow max_{c\in C} $$

Методы оптимизации: Используются MLA (CatBoost) и алгоритмы оптимизации ранжирования, такие как Стохастическое ранжирование и Yeti Ranking. Применяется подход Ограниченной Оптимизации (Constrained Optimization).

Выводы

Качество данных для ML — приоритет Яндекса: Патент напрямую подтверждает, что точность данных, собираемых через краудсорсинг (Толоку), критически важна для обучения алгоритмов машинного обучения Яндекса. Система оптимизирована для максимизации точности ответов (Параметр точности выполнения).
Сбор данных по новым сценариям: Яндекс активно решает проблему предвзятости выбора асессоров. Система специально разработана, чтобы «заставлять» асессоров выполнять новые или непопулярные задачи, если прогнозируется их способность дать точный ответ. Это позволяет Поиску быстрее адаптироваться к новым типам контента и спама.
Сложная балансировка (Constrained Optimization): Яндекс не просто максимизирует точность, но делает это с ограничением по удовлетворенности асессоров. Это обеспечивает долгосрочную стабильность сбора данных без выгорания пула асессоров.
Персонализация и Векторизация: Система использует векторные представления асессоров и задач для предварительного отбора кандидатов и глубокую персонализацию для прогнозирования взаимодействия и точности.
Инфраструктурное подтверждение: Патент демонстрирует сложность инфраструктуры, стоящей за сбором Human Evaluation данных. Это не просто раздача задач, а сложная система ранжирования, использующая передовые ML-технологии (CatBoost, Yeti Ranking, DCG-оптимизация).

Практика

Best practices (это мы делаем)

Хотя патент описывает внутреннюю инфраструктуру Яндекса и не дает прямых рекомендаций по SEO, он подчеркивает важность стратегий, направленных на соответствие критериям качества, которые оцениваются асессорами.

Фокус на E-E-A-T и качество контента: Поскольку Яндекс использует эти высокоточные данные для обучения своих метрик качества (Proxima), необходимо создавать контент, который будет положительно оценен квалифицированным асессором. Это включает достоверность информации, экспертность, удобство использования и решение задачи пользователя.
Анализ и соответствие инструкциям для асессоров (если доступны): Понимание того, как именно асессоры оценивают сайты, позволяет лучше оптимизировать контент под эти критерии. Система гарантирует, что эти инструкции будут выполнены точно.
Готовность к быстрой адаптации Поиска: Так как система позволяет Яндексу быстро собирать данные по новым сценариям, SEO-специалисты должны ожидать, что Поиск будет быстрее реагировать на новые тренды, типы контента или новые виды манипуляций.

Worst practices (это делать не надо)

Использование устаревших или «серых» SEO-тактик: Попытки обмануть алгоритм с помощью манипуляций (текстовый спам, накрутки ПФ) становятся менее эффективными. Система позволяет Яндексу быстро собрать точные данные о новых видах спама и обучить классификаторы для борьбы с ними.
Игнорирование качества и достоверности: Создание низкокачественного контента, вводящего в заблуждение или не соответствующего фактам. Такие страницы будут получать низкие оценки от квалифицированных асессоров (точность которых максимизируется системой), что приведет к пессимизации сайта.

Стратегическое значение

Патент имеет высокое стратегическое значение, так как раскрывает механизм обеспечения качества фундаментальных данных для Поиска. Он подтверждает, что Яндекс инвестирует значительные ресурсы в то, чтобы Human Evaluation данные были максимально точными и покрывали широкий спектр сценариев. Для долгосрочной SEO-стратегии это означает, что алгоритмы Яндекса будут становиться все более совершенными в определении реального качества и релевантности, основываясь на человеческом восприятии. Успех в SEO все больше зависит от соответствия критериям качества, а не от использования технических лазеек.

Практические примеры

Практических примеров по SEO-оптимизации сайтов на основе этого патента нет, так как он описывает оптимизацию работы краудсорсинговой платформы. Однако можно привести пример того, как работа этой системы влияет на экосистему Поиска.

Сценарий: Появление нового типа контентного спама (например, генеративный контент низкого качества).

Обнаружение проблемы: Команда Поиска Яндекса идентифицирует новый вид спама.
Создание новой задачи в Толоке: Создается задача для асессоров по идентификации этого типа спама с четкими инструкциями.
Проблема (до патента): Задача новая и сложная. Асессоры ее избегают, предпочитая простые задачи. Сбор данных идет медленно.
Решение (по патенту):
- Система идентифицирует асессоров, которые потенциально могут точно выполнить эту задачу (высокий Параметр точности), даже если они ее не предпочитают (низкий Параметр взаимодействий).
- Система ранжирует эту новую задачу выше в списке для этих асессоров, максимизируя точность, но следя, чтобы общая удовлетворенность асессоров не упала ниже порога.
Результат: Яндекс быстро собирает необходимый объем точных данных по новому виду спама.
Влияние на SEO: Алгоритмы ранжирования (антиспам-классификаторы) быстро обучаются на этих данных и начинают пессимизировать новый вид спама в выдаче.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования сайтов в Поиске Яндекса?

Нет, напрямую он не описывает ранжирование сайтов. Патент фокусируется на системе ранжирования задач на краудсорсинговой платформе Яндекса (например, Толока). Однако эта платформа используется для сбора оценок асессоров (Human Evaluation), которые затем применяются для обучения и валидации основных алгоритмов ранжирования Поиска. Таким образом, патент косвенно влияет на качество Поиска.

Какую главную проблему решает этот патент для Яндекса?

Главная проблема — это обеспечение точности и разнообразия данных для обучения ML-моделей. Асессоры склонны выбирать знакомые задачи и игнорировать новые или сложные. Патент описывает механизм, который балансирует предпочтения асессоров и необходимость Яндекса получить точные ответы по всем типам задач, включая новые, тем самым решая проблему «холодного старта» для новых задач и повышая качество обучающих данных.

Что такое «Параметр точности выполнения» и как он рассчитывается?

Это прогнозируемая вероятность того, что конкретный асессор правильно выполнит конкретную задачу. Он рассчитывается ML-моделью на основе исторических данных о качестве работы асессора (его персональный Quality Score по разным типам задач), времени выполнения похожих задач, а также характеристик самой задачи (например, ее сложности).

Что означает «ограниченная оптимизация» (Constrained Optimization) в контексте этого патента?

Это ключевой механизм ранжирования задач. Система не просто стремится показать асессору самые интересные ему задачи. Вместо этого она стремится максимизировать точность выполнения задач (Удовлетворенность владельца задания), но при условии, что удовлетворенность асессора не упадет ниже определенного порога. Это позволяет продвигать важные, но непопулярные задачи, не вызывая оттока асессоров.

Как этот патент влияет на работу SEO-специалистов?

Он подчеркивает, что алгоритмы Яндекса обучаются на все более точных и разнообразных данных человеческих оценок. Это означает, что Поиск становится лучше в определении реального качества контента (E-E-A-T) и эффективнее в борьбе со спамом и манипуляциями. SEO-стратегия должна фокусироваться на создании контента, который будет высоко оценен квалифицированным человеком, следующим инструкциям Яндекса.

Упоминаются ли в патенте конкретные ML-алгоритмы?

Да, упоминаются. Для ранжирования задач предлагается использовать ансамбль деревьев решений CatBoost. Также упоминаются алгоритмы оптимизации: Стохастическое ранжирование и алгоритм ранжирования Йети (Yeti Ranking).

Использует ли система векторизацию?

Да, система формирует векторные представления (эмбеддинги) как для асессоров (на основе их профиля и истории), так и для задач (на основе их характеристик). Эти векторы могут использоваться для предварительного отбора кандидатов на основе их близости в векторном пространстве (Claim 10), а также как входные признаки для ML-моделей прогнозирования точности и взаимодействия.

Что такое DCG и как он используется в патенте?

DCG (Discounted Cumulative Gain) — это метрика качества ранжирования. В патенте используется формула (Claim 7), структурно похожая на DCG, для расчета Параметра качества ранжирования. Вместо традиционной релевантности документа в формуле используются прогнозируемая вероятность взаимодействия (rel) и точность выполнения (acc), а позиция задачи в списке дисконтируется логарифмически.

Может ли эта система помочь Яндексу быстрее обнаруживать новые виды SEO-спама?

Да, это одно из ключевых преимуществ. Система позволяет преодолеть нежелание асессоров браться за новые типы задач (например, по оценке нового вида спама). За счет механизма ограниченной оптимизации Яндекс может быстрее собрать необходимый объем точных данных по новому спаму и обучить свои антиспам-алгоритмы для борьбы с ним.

Какое значение имеет этот патент для понимания метрики Proxima?

Proxima — это метрика качества страницы, которая обучается на оценках асессоров. Этот патент описывает, как Яндекс обеспечивает высокую точность этих оценок. Чем точнее данные, собираемые через Толоку, тем более совершенной и эффективной становится метрика Proxima в оценке полезности, достоверности и безопасности контента (E-E-A-T).