Как Яндекс использует машинное обучение для оптимизации выдачи заданий асессорам и повышения качества обучающих данных

Яндекс патентует метод ранжирования задач для исполнителей (асессоров) на своей краудсорсинговой платформе (например, Яндекс.Задания). Система использует ML для балансировки между предпочтениями асессора (вероятность выбора задачи) и его навыками (вероятность точного выполнения). Цель — максимизировать качество собираемых данных для обучения поиска при сохранении вовлеченности асессоров.

Описание

Какую задачу решает

Патент решает задачу оптимизации работы краудсорсинговой цифровой платформы (например, Яндекс.Задания/Толока). Он направлен на разрешение фундаментального конфликта интересов: необходимость поддерживать вовлеченность и удовлетворенность исполнителей (оценщиков или асессоров), показывая им интересные задачи, против необходимости максимизировать качество и точность собираемых данных для заказчиков (владельцев заданий). Это изобретение улучшает качество данных, используемых для обучения ML-моделей Яндекса.

Что запатентовано

Запатентован способ формирования и ранжирования списка цифровых задач, предоставляемых конкретному асессору. Суть изобретения заключается в применении алгоритма машинного обучения (MLA) для оптимизации комплексного параметра качества ранжирования. Этот параметр одновременно учитывает вероятность того, что асессор выберет задачу, и вероятность того, что он выполнит ее правильно.

Как это работает

Система рассчитывает два ключевых показателя для каждой пары «асессор-задача». Первый — параметр взаимодействий оценщика (вероятность выбора задачи, исходя из профиля асессора). Второй — параметр точности выполнения (вероятность правильного выполнения, исходя из навыков асессора). Затем MLA (упоминаются CatBoost и Yeti) ранжирует задачи. Цель оптимизации — максимизировать точность выполнения (качество данных) при сохранении удовлетворенности асессора на заранее заданном уровне.

Актуальность для SEO

Высокая (для инфраструктуры сбора данных). Качество человеческих оценок критически важно для обучения и валидации современных поисковых алгоритмов и метрик качества (например, Proxima). Оптимизация процесса сбора этих данных с использованием передовых ML-методов является актуальной задачей для повышения качества поиска.

Важность для SEO

Влияние на SEO минимальное (1/10). Патент носит исключительно инфраструктурный характер и не описывает алгоритмы ранжирования веб-сайтов. Он описывает внутренние механизмы краудсорсинговой платформы Яндекса. Прямых рекомендаций для SEO-специалистов по оптимизации сайтов извлечь нельзя. Однако он имеет стратегическое значение, так как подчеркивает, насколько серьезно Яндекс подходит к обеспечению точности асессорских данных, лежащих в основе машинного обучения.

Детальный разбор

Термины и определения

MLA (Алгоритм машинного обучения): Алгоритм, используемый для ранжирования цифровых задач. В патенте упоминаются CatBoost (ансамбль деревьев решений), алгоритм стохастического ранжирования и алгоритм ранжирования Йети (YetiRank).
Оценщик (Асессор): Пользователь краудсорсинговой платформы, выполняющий цифровые задачи.
Параметр взаимодействий оценщика (rel): Метрика, указывающая на значение вероятности выбора оценщиком конкретной цифровой задачи. Определяется на основе параметров профиля оценщика.
Параметр точности выполнения (acc): Метрика, указывающая на значение вероятности правильного выполнения цифровой задачи конкретным оценщиком.
Параметр удовлетворенности платформой владельца задания: Метрика, отражающая ожидаемое качество выполнения задач в списке. Определяется на основе агрегированных параметров точности выполнения (acc). Система стремится максимизировать этот параметр.
Параметр удовлетворенности платформой пользователя: Метрика, отражающая удовлетворенность асессора списком задач. Определяется на основе агрегированных параметров взаимодействий оценщика (rel). Система стремится поддерживать этот параметр на заданном уровне.
Вектор признаков оценщика/задачи: Численное представление (эмбеддинг) асессора или задачи. Используется для определения близости между ними на этапе отбора кандидатов.

Ключевые утверждения (Анализ Claims)

Патент описывает систему оптимизации выдачи задач на краудсорсинговой платформе путем балансировки вовлеченности асессоров и качества получаемых данных.

Claim 1 (Независимый пункт): Описывает основной способ ранжирования.

Система получает запрос от асессора и множество доступных задач.
Для каждой пары (асессор, задача) вычисляются:
- (i) Параметр взаимодействий (rel): вероятность выбора задачи.
- (ii) Параметр точности выполнения (acc): вероятность правильного выполнения.
MLA ранжирует задачи путем оптимизации параметра качества ранжирования. Этот параметр сочетает:
- (а) Удовлетворенность пользователя (асессора): основана на (i).
- (б) Удовлетворенность владельца задания: основана на (ii).
Ключевой механизм оптимизации: Максимизация значения (б) при сохранении значения (а) на заранее заданном уровне. То есть, максимизировать качество, не теряя лояльность асессоров.

Claim 2 (Зависимый от 1): Описывает этап предварительного отбора кандидатов (Retrieval/Candidate Generation).

Перед ранжированием система может выбрать подмножество задач. Для этого формируются векторы признаков асессора и задач. Отбор осуществляется на основе близости этих векторов, что позволяет быстро отобрать релевантные кандидаты из большого пула.

Claims 6, 7, 8: Уточняют методы определения Параметра точности выполнения (acc): использование контрольных задач (honeypots), сравнение с ответами других асессоров (консенсус), или на основе набора навыков асессора для конкретного вида задач.

Claim 9 (Зависимый от 1): Приводит конкретную формулу для параметра качества ранжирования.

$$ \alpha\sum_{r\in R}\sum_{i=1}^{20}\frac{rel(w_{r},c(F(r),i))}{\log(i+1)}+\beta\sum_{r\in R}\sum_{i=1}^{20}\frac{acc(r,w_{r},c(F(r),i))}{\log(i+1)}\rightarrow \max_{c\in C} $$

Формула представляет собой взвешенную сумму двух метрик, аналогичных Discounted Cumulative Gain (DCG):

Первая часть (вес $\alpha$) — это DCG по взаимодействиям (rel).
Вторая часть (вес $\beta$) — это DCG по точности (acc).
Логарифмическое дисконтирование ($\log(i+1)$) снижает вес задач, находящихся ниже в списке (позиции с 1 по 20).

Claim 12 (Независимый пункт): Описывает альтернативный вариант способа с иным фокусом оптимизации.

После отбора кандидатов (аналогично Claim 2), ранжирование оптимизирует параметр качества на основе:

(а) Параметра взаимодействий оценщика.
(б) Параметра смещенной задачи: указывает на негативное влияние перемещения другой задачи с более высокой позиции на более низкую на удовлетворенность пользователя.

Оптимизация здесь включает максимизацию (а) при сохранении (б) на заданном уровне. То есть, максимизировать вероятность взаимодействия, минимизируя негативный эффект от смещения предпочтительных задач вниз.

Где и как применяется

Важно понимать, что этот патент НЕ применяется в слоях веб-поиска (CRAWLING, INDEXING, RANKING, BLENDER).

Он относится исключительно к инфраструктуре Слоя Качества и Метрик (QUALITY & GOVERNANCE LAYER), а именно к функционированию Краудсорсинговой цифровой платформы Яндекса.

Взаимодействие: Система взаимодействует с базой данных профилей асессоров (навыки, история) и базой доступных задач.
На входе: Запрос от асессора, его профиль/вектор признаков.
На выходе: Персонализированный ранжированный список задач, оптимизированный по точности и вовлеченности.
Технические особенности: Использование двухэтапного подхода (векторный мэтчинг для отбора кандидатов, тяжелое ранжирование с помощью CatBoost/Yeti) и оптимизация сложной целевой функции.

На что влияет

Патент не влияет напрямую на ранжирование конкретных типов контента, запросов или тематик в основном поиске.

Он влияет на качество и эффективность сбора человеческих оценок. Эти оценки используются для обучения и валидации основных алгоритмов ранжирования и расчета метрик качества поиска (например, Proxima). Таким образом, патент косвенно способствует повышению качества поиска за счет улучшения качества обучающих данных.

Когда применяется

Алгоритм применяется в режиме реального времени каждый раз, когда асессор (толокер) заходит на платформу или обновляет список доступных для выполнения заданий.

Пошаговый алгоритм

Процесс формирования списка задач для асессора:

Получение запроса: Асессор запрашивает список доступных задач.
Отбор кандидатов (Retrieval) (Опционально, Claim 2):
- Извлечение/формирование вектора признаков асессора и векторов признаков задач.
- Выбор Топ-M кандидатов на основе векторной близости (мэтчинг).
Вычисление признаков (Scoring): Для каждой задачи-кандидата и данного асессора вычисляются:
- Параметр взаимодействий (rel): Прогноз вероятности выбора задачи.
- Параметр точности выполнения (acc): Прогноз качества выполнения на основе навыков, контрольных заданий или консенсуса (Claims 6, 7, 8).
Ранжирование (Ranking): Применение MLA (CatBoost, YetiRank) для сортировки задач.
- Цель: Оптимизация Параметра качества ранжирования (Формула из Claim 9).
- Условие оптимизации (Claim 1): Максимизировать агрегированную точность (Удовлетворенность владельца) при поддержании агрегированной вероятности взаимодействия (Удовлетворенность пользователя) на заданном уровне.
Формирование списка: Выбор Топ-N задач с наивысшим рангом и предоставление их асессору.

Какие данные и как использует

Данные на входе

Система использует данные, связанные исключительно с краудсорсинговой платформой. Стандартные SEO-факторы (контентные, ссылочные, технические факторы веб-страниц) в этом патенте не упоминаются и не используются.

Данные профиля оценщика (Пользовательские факторы):
- Набор навыков (skill set) (Claim 8).
- Исторические данные о взаимодействиях (какие задачи выбирал ранее).
- Исторические данные о точности выполнения.
Данные о задачах:
- Признаки и тип задачи.
Данные для валидации:
- Контрольные цифровые задачи (Honeypots) (Claim 6).
- Ответы других оценщиков (для определения точности через консенсус) (Claim 7).

Какие метрики используются и как они считаются

Вектор признаков оценщика / Задачи: Численные представления, используемые для расчета близости на этапе отбора кандидатов (Claim 2).
Параметр взаимодействий (rel): Прогнозируемое значение вероятности (от 0 до 1), что асессор выберет задачу.
Параметр точности выполнения (acc): Прогнозируемое значение вероятности (от 0 до 1), что задача будет выполнена верно.
Параметр качества ранжирования (Целевая функция): Рассчитывается по формуле (Claim 9), которая является линейной комбинацией двух метрик типа DCG (Discounted Cumulative Gain): DCG по взаимодействиям и DCG по точности.

$$ \alpha \cdot DCG_{rel} + \beta \cdot DCG_{acc} $$

Алгоритмы машинного обучения: Упоминаются конкретные реализации: CatBoost (Claim 11), алгоритм стохастического ранжирования и алгоритм ранжирования Йети (YetiRank) (Claim 10).

Выводы

Патент описывает внутренние процессы Яндекс по оптимизации краудсорсинговой платформы и не дает прямых рекомендаций для SEO-оптимизации сайтов. Основные выводы:

Инфраструктура, а не Поиск: Изобретение не описывает ранжирование веб-сайтов. Оно целиком посвящено оптимизации распределения задач между асессорами.
Критическая важность качества данных для ML: Патент демонстрирует значительные инвестиции Яндекса в обеспечение максимальной точности человеческих оценок. Это подтверждает, что данные от асессоров играют фундаментальную роль в обучении поисковых алгоритмов.
Сложная Двойная Оптимизация: Система решает задачу балансировки конфликтующих целей — максимизации точности выполнения задач (Accuracy) и поддержания вовлеченности асессоров (Interaction). Приоритет отдается качеству при условии сохранения лояльности (Claim 1).
Применение основного стека ML во внутренних инструментах: Те же передовые технологии, что используются в основном поиске (CatBoost, YetiRank, векторный поиск), применяются для оптимизации внутренних процессов сбора данных.

Практика

Патент является инфраструктурным и не дает практических выводов для SEO-специалистов по оптимизации веб-сайтов.

Best practices (это мы делаем)

Патент не содержит информации, которая могла бы напрямую повлиять на лучшие практики в SEO (контент, ссылки, техническая оптимизация).

Косвенно, он подтверждает, что Яндекс постоянно совершенствует свою способность точно измерять качество с помощью людей, гарантируя, что оценки дают наиболее квалифицированные асессоры. Следовательно, долгосрочная стратегия ориентации на реальное качество сайта, полезность контента и соответствие принципам E-E-A-T остается критически важной.

Worst practices (это делать не надо)

Патент не описывает механизмы борьбы с SEO-манипуляциями.

Однако, по мере того как Яндекс улучшает качество своих обучающих данных (цель этого патента), алгоритмам становится легче распознавать низкокачественный контент и попытки обмана метрик искусственными сигналами. Игнорирование человеческого восприятия качества становится более рискованным.

Стратегическое значение

Стратегическое значение патента заключается в понимании того, как Яндекс обеспечивает качество данных, на которых обучаются его ключевые ML-модели (включая Proxima). Система стремится получать максимально точные оценки от асессоров. Для долгосрочной SEO-стратегии это означает, что фокус должен быть на соответствии критериям качества, которые оцениваются людьми, так как фундамент алгоритмов Яндекса строится на валидированных человеческих оценках.

Практические примеры

Практических примеров применения данного патента в работе SEO-специалиста нет, так как он описывает внутреннюю систему управления асессорами.

Вопросы и ответы

Описывает ли этот патент, как Яндекс ранжирует сайты в поисковой выдаче?

Нет, этот патент не имеет отношения к ранжированию веб-сайтов. Он описывает исключительно способ ранжирования списка задач (заданий), которые предлагаются асессорам (оценщикам) на внутренней краудсорсинговой платформе Яндекса (например, Яндекс.Задания/Толока).

Почему SEO-специалисту должно быть интересно, как Яндекс управляет своими асессорами?

Это важно стратегически, потому что асессорские оценки являются эталоном качества (Ground Truth) для обучения алгоритмов поиска Яндекса и расчета ключевых метрик, таких как Proxima. Этот патент показывает, что Яндекс активно работает над повышением точности и надежности этих оценок. Чем точнее оценки асессоров, тем лучше работают алгоритмы ранжирования.

Какие две главные цели балансирует Яндекс в этом патенте?

Яндекс балансирует между (1) Удовлетворенностью асессора (Параметр взаимодействий) — показывать задачи, которые асессор готов выполнять, чтобы сохранить его вовлеченность; и (2) Удовлетворенностью владельца задания (Параметр точности выполнения) — показывать задачи тем асессорам, которые выполнят их максимально качественно. Приоритет отдается качеству при условии сохранения вовлеченности.

Что такое «Параметр точности выполнения» и как он определяется?

Это прогноз вероятности того, что конкретный асессор правильно выполнит конкретную задачу. Он определяется на основе исторических данных: результатов выполнения контрольных задач (honeypots), сравнения ответов асессора с ответами других исполнителей (консенсус) и оценки его навыков для задач определенного типа.

В патенте упоминаются CatBoost и Yeti (Йети). Это значит, что они используются для ранжирования моего сайта?

CatBoost и Yeti действительно являются ключевыми технологиями ранжирования в Яндексе. Однако в контексте этого патента они используются для ранжирования задач для асессоров, а не для ранжирования веб-сайтов. Это показывает, что Яндекс применяет свои самые передовые ML-технологии также и для оптимизации внутренних процессов.

Что означает формула, приведенная в Claim 9?

Эта формула описывает целевую функцию оптимизации. Она представляет собой взвешенную сумму двух метрик типа DCG (Discounted Cumulative Gain). Одна метрика рассчитывается по вероятности взаимодействия (rel), а вторая — по вероятности правильного выполнения (acc). Это позволяет алгоритму учитывать оба фактора одновременно при сортировке задач, придавая больший вес верхним позициям.

Как этот патент связан с E-E-A-T или Proxima?

Связь косвенная. Метрики качества, такие как Proxima (которая учитывает аспекты E-E-A-T), обучаются на основе асессорских оценок. Этот патент описывает механизм, направленный на повышение качества этих оценок путем подбора наиболее квалифицированных исполнителей. Следовательно, он позволяет обучать более качественные модели Proxima, но сам не является частью алгоритма Proxima.

Используется ли в этой системе векторный поиск?

Да, в патенте описан механизм предварительного отбора кандидатов (Claim 2). Для этого формируются векторы признаков (эмбеддинги) для асессора и для задач. Система быстро выбирает наиболее близкие задачи к асессору в векторном пространстве, чтобы затем передать их на этап основного ранжирования.

Есть ли в этом патенте какие-либо практические инсайты для SEO-специалистов?

Прямых практических рекомендаций по оптимизации сайтов в патенте нет. Он носит инфраструктурный характер. Главный вывод — Яндекс прилагает значительные усилия для обеспечения высокого качества человеческих оценок, которые лежат в основе его алгоритмов, что подтверждает стратегическую важность создания качественных сайтов.

Каков главный вывод из этого патента для долгосрочной SEO-стратегии?

Главный вывод — качество данных, на которых обучается поиск, является для Яндекса высшим приоритетом. Алгоритмы стремятся аппроксимировать человеческое восприятие качества. Поэтому долгосрочная стратегия должна фокусироваться на создании реальной ценности для пользователей (Helpful Content) и демонстрации экспертизы (E-E-A-T), а не на поиске лазеек в алгоритмах.