Как Яндекс объединяет машинное обучение и асессоров для эффективной оценки качества и сбора данных

Яндекс использует гибридную систему для выполнения задач оценки (например, классификации контента или оценки релевантности). Система одновременно запрашивает результат у человека-асессора и у алгоритма машинного обучения (MLA). На основе совпадения ответов и показателей надежности (Quality Score) обоих рассчитывается уровень уверенности (Confidence Level). Если уверенность высока, задача считается выполненной. Это позволяет Яндексу быстрее и дешевле генерировать надежные данные для обучения ранжирующих моделей.

Описание

Какую задачу решает

Патент решает задачу повышения эффективности (снижения стоимости и времени) краудсорсинговых систем оценки. Традиционные методы требуют привлечения нескольких асессоров для достижения нужного уровня достоверности результата (перекрытие), что дорого и медленно. Изобретение направлено на сокращение количества необходимых человеческих оценок при сохранении заданного уровня уверенности в конечном результате.

Что запатентовано

Запатентован метод выполнения задачи с использованием гибридного подхода: параллельное выполнение задачи человеком-асессором (Human Assessor) и алгоритмом машинного обучения (Machine Learning Algorithm, MLA). Суть изобретения заключается в использовании MLA в качестве валидатора для человеческой оценки и в статистическом методе расчета уровня уверенности (Confidence Level Parameter) в результате, основанном на показателях качества (Quality Score) как асессора, так и MLA.

Как это работает

Система отправляет задачу одному асессору и одновременно выполняет ее с помощью MLA. У обоих есть заранее рассчитанный Quality Score (надежность), основанный на исторических данных выполнения контрольных заданий (Honeypot Tasks). Сервер рассчитывает Confidence Level Parameter (вероятность того, что результат асессора верен), используя Байесовскую функцию, учитывающую оба результата и их Quality Scores. Если этот параметр превышает заданный порог (Pre-defined Threshold Probability, EPS), задача считается выполненной. Если нет, задача передается дополнительным асессорам, и рассчитывается взвешенный мажоритарный результат (Weighted Majority Result) до достижения нужного уровня уверенности.

Актуальность для SEO

Высокая. Интеграция машинного обучения в процессы асессорской оценки (Human-in-the-loop или ML-assisted labeling) является стандартом в индустрии для масштабирования сбора данных и генерации обучающих выборок. Описанный метод оптимизации этого процесса критически актуален для повышения эффективности работы поисковых систем.

Важность для SEO

Влияние на SEO низкое (3/10). Это инфраструктурный патент. Он не описывает алгоритмы ранжирования или факторы, на которые можно повлиять. Он описывает внутренний механизм Яндекса для сбора и валидации оценочных данных (Ground Truth), которые затем используются для обучения ранжирующих моделей (например, Proxima) и классификации контента (например, фильтрации взрослого контента). Для SEO-специалиста патент важен для понимания того, насколько статистически обоснована и эффективна инфраструктура оценки качества в Яндексе.

Детальный разбор

Термины и определения

Confidence Level Parameter (Параметр уровня уверенности, $a_j$): Метрика, указывающая на апостериорную вероятность того, что данный результат (например, результат первого асессора или Weighted Majority Result) является правильным. Рассчитывается с использованием Байесовской функции.
EPS (Pre-defined threshold probability, Заданная пороговая вероятность): Минимально необходимый уровень уверенности в результате, при достижении которого задача считается выполненной (например, в патенте упоминается 92%).
Error Probability Parameter (Параметр вероятности ошибки, $e_w$): Вероятность того, что асессор или MLA предоставит неправильный результат. Рассчитывается на основе Quality Score.
Honeypot Task (Контрольное задание, «Ханипот»): Задача, правильный ответ на которую известен заранее. Используется для определения Quality Score асессоров и MLA.
Human Assessor (Человек-асессор): Человек, выполняющий краудсорсинговую задачу (оценку, классификацию).
MLA (Machine Learning Algorithm, Алгоритм машинного обучения): Алгоритм, обученный выполнять тот же тип задач, что и асессоры. В патенте используется как дополнительный «виртуальный» асессор для валидации человеческих ответов.
Quality Score (Показатель качества, Вес, $q_w$): Метрика, указывающая на надежность (reliability) асессора или MLA. Определяется как процент правильно выполненных Honeypot Tasks или рассчитывается по специальной формуле с параметром сглаживания (K).
Weighted Majority Result (Взвешенный мажоритарный результат, $\hat{z}_j$): Результат задачи, который поддерживается наибольшим совокупным весом (Quality Score) асессоров и MLA, предоставивших этот результат. Используется как априорное определение возможного правильного результата.

Ключевые утверждения (Анализ Claims)

Патент описывает метод оптимизации процесса выполнения задач за счет интеграции MLA в процесс валидации.

Claim 1 (Независимый пункт): Описывает базовый механизм выполнения задачи.

Сервер получает первый результат задачи от человека-асессора (у которого есть Quality Score).
Сервер выполняет ту же задачу с помощью MLA (у которого также есть Quality Score) и получает второй результат.
Сервер рассчитывает Confidence Level Parameter (вероятность того, что первый результат верен). Расчет основан на первом результате, втором результате и Quality Scores обоих участников.
Сервер проверяет, превышает ли Confidence Level Parameter заданный порог (EPS).
Если превышает, задача считается выполненной с первым результатом.

Claim 4 и 5 (Зависимые пункты): Детализируют расчет уверенности.

Система определяет Error Probability Parameter (вероятность ошибки) для асессора и для MLA.
Расчет Confidence Level Parameter выполняется с использованием Байесовской функции (Bayesian function), учитывающей эти параметры и Quality Scores.

Claim 15 (Зависимый от Claim 1): Описывает итеративный процесс, если уверенности недостаточно (Confidence < EPS).

Если вероятность, указанная в первом Confidence Level Parameter, ниже порога:
Сервер получает дополнительный результат от по крайней мере одного дополнительного асессора.
Сервер определяет Weighted Majority Result. Это результат, который имеет наибольший совокупный Quality Score среди всех полученных результатов (первый результат, второй (MLA) результат, дополнительные результаты).
Сервер рассчитывает второй Confidence Level Parameter, указывающий на вероятность того, что Weighted Majority Result верен.
Если эта новая вероятность превышает порог, задача считается выполненной с Weighted Majority Result.

Где и как применяется

Этот патент не относится напрямую к основным слоям архитектуры поиска (Ranking, Query Processing), а скорее к инфраструктуре обеспечения качества и сбора данных.

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Это основная область применения патента. Механизм используется для эффективного сбора достоверных оценок (Ground Truth), которые служат основой для:

Генерации обучающих данных: Создание данных для обучения моделей ранжирования (CatBoost, YATI) и метрик качества (Proxima, Anti-Quality).
Оценки экспериментов: Валидация результатов A/B тестов и новых внедрений.

Вероятно, этот механизм интегрирован в краудсорсинговые платформы Яндекса (например, Яндекс.Толока).

INDEXING – Индексирование (Косвенно)
Если задачей является классификация контента, результаты работы системы передаются в индекс для разметки документов. В патенте прямо упоминается использование этой технологии для фильтрации нежелательного контента (например, взрослого контента) для обеспечения режима «безопасного поиска для детей» (child safe browsing modes).

На что влияет

Типы контента и задач: Патент упоминает широкий спектр задач: категоризация, оценка веб-страниц, анализ результатов поиска, опрос, запрос релевантности, анализ описания продукта, анализ документа. Документом может быть изображение, текст, часть веб-страницы и т.д.
Конкретные ниши: Особенно влияет на области, требующие массовой классификации и высокой точности, например, фильтрация Adult-контента или модерация контента (включая YMYL тематики).

Когда применяется

Алгоритм применяется, когда необходимо выполнить задачу, требующую субъективного суждения или классификации, и при этом требуется достичь определенного уровня достоверности результата (пороговой вероятности EPS).

Триггер активации: Поступление задачи на оценку.
Условие завершения: Достижение уровня уверенности (Confidence Level Parameter), превышающего порог EPS, или достижение максимального лимита итераций (если он установлен, в патенте упоминается пример N_MAX=5).

Пошаговый алгоритм

Подготовительный этап (Офлайн)

Обучение MLA: MLA обучается на наборе тренировочных задач с известными результатами.
Определение Quality Scores: Асессоры и MLA выполняют набор Honeypot Tasks. На основе результатов рассчитываются их показатели качества ($q_w$) и вероятности ошибки ($e_w$).

Этап выполнения задачи (Онлайн)

Инициализация: Сервер получает задачу. Определяется пороговая вероятность (EPS).
Первая итерация (Human + MLA):
1. Задача выполняется MLA (генерация второго результата).
2. Задача отправляется первому асессору (генерация первого результата).
Расчет уверенности (Первичный): Сервер рассчитывает Confidence Level Parameter ($a_j$) для первого результата, используя Байесовскую функцию, учитывая оба результата и их Quality Scores.
Проверка условия завершения: Сравнение $a_j$ с EPS.
- Если $a_j > EPS$: Задача завершена с первым результатом.
- Если $a_j \le EPS$: Переход к следующей итерации.
Дополнительные итерации (Human):
1. Задача отправляется дополнительному асессору (генерация нового результата).
2. Расчет Weighted Majority Result ($\hat{z}_j$) на основе всех полученных результатов (включая MLA).
3. Расчет нового Confidence Level Parameter ($a_j$) для $\hat{z}_j$.
Цикл проверки: Повторение шагов 5 и 6 до тех пор, пока $a_j$ не превысит EPS (или не будет достигнут лимит итераций N_MAX). Задача завершается с финальным Weighted Majority Result.

Какие данные и как использует

Данные на входе

Патент фокусируется на метаданных процесса оценки, а не на факторах ранжирования контента.

Данные о задаче: Сам объект оценки (изображение, текст, веб-страница, результат поиска и т.д.).
Исторические данные (Honeypots): Наборы задач с известными правильными ответами, используемые для тренировки и тестирования.
Системные данные (Quality Scores): Предварительно рассчитанные показатели надежности ($q_w$) для каждого доступного асессора и для MLA.
Параметры конфигурации: Заданная пороговая вероятность (EPS), параметр сглаживания (K).

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик для управления процессом оценки.

Quality Score (Вес асессора/MLA, $q_w$): Рассчитывается на основе выполнения Honeypot Tasks. Может быть простым процентом правильных ответов или рассчитываться по формуле сглаживания (Formula 1):
$$ q_{w} := (K+c_{w})/(2K+t_{w}) $$
Где K — параметр сглаживания (в патенте предложено K=10), $c_w$ — количество правильных ответов, $t_w$ — общее количество выполненных заданий.
Error Probability Parameter (Вероятность ошибки, $e_w$): Рассчитывается на основе Quality Score:
$$ e_{w} := (1-q_{w})/(|Y|-1) $$
Где $|Y|$ — количество возможных вариантов ответа.
Weighted Majority Result ($\hat{z}_j$): Определяется как результат, набравший максимальный совокупный вес (Formula 2):
$$ \hat{z}_{j} := argmax_{z\in Y}\sum_{i=1}^{n}q_{w_{i}}*I(y_{j}^{w_{i}}=z) $$
Где $I(…)$ — индикаторная функция (1 если условие верно, 0 если нет).
Confidence Level Parameter ($a_j$): Апостериорная вероятность того, что Weighted Majority Result ($\hat{z}_j$) верен. Рассчитывается с помощью Байесовской функции (Formula 3 в патенте), учитывающей веса ($q_w$) и вероятности ошибок ($e_w$) всех участников. При условии равномерного априорного распределения результатов, формула принимает вид:
$$ a_j = P(\hat{z}_j=z_j|D) = \frac{\prod_{i=1}^{n} q_{w_i}^{I(y_j^{w_i}=\hat{z}_j)} e_{w_i}^{I(y_j^{w_i} \ne \hat{z}_j)}}{\sum_{z \in Y} \prod_{i=1}^{n} q_{w_i}^{I(y_j^{w_i}=z)} e_{w_i}^{I(y_j^{w_i} \ne z)}} $$

Выводы

Патент описывает внутренние процессы Яндекса, связанные с инфраструктурой оценки качества, без прямых рекомендаций для SEO. Основные выводы для понимания работы поиска:

Гибридный подход к оценке (Human + MLA): Яндекс активно использует машинное обучение не только для ранжирования, но и для валидации работы асессоров. MLA выступает в роли дополнительного, автоматизированного асессора (ML-assisted labeling).
Эффективность и масштабируемость: Цель системы — минимизировать затраты (время и деньги) на получение достоверных оценок за счет сокращения количества необходимых человеческих проверок (перекрытия).
Статистическая строгость оценок: Яндекс применяет сложные математические методы (Байесовский вывод) для расчета уверенности в каждой отдельной оценке. Это гарантирует высокое качество данных (Ground Truth), используемых для обучения.
Важность контрольных заданий (Honeypots): Надежность как асессоров, так и MLA постоянно измеряется и контролируется с помощью Honeypot Tasks.
Применение для классификации контента: Одним из прямых применений является массовая классификация контента, например, для фильтрации взрослого контента и обеспечения безопасного поиска.

Практика

Патент является инфраструктурным и описывает методологию сбора данных, а не алгоритмы ранжирования. Он не дает прямых практических выводов для SEO-оптимизации контента или ссылочного профиля. Однако он дает стратегическое понимание того, как Яндекс подходит к оценке качества.

Best practices (это мы делаем)

Фокус на реальном качестве (Асессорская оценка): Поскольку эта система предназначена для генерации высококачественных данных для обучения моделей (таких как Proxima), SEO-стратегия должна быть направлена на соответствие критериям качества, которые проверяют асессоры. Система гарантирует, что эти оценки статистически достоверны.
Четкая классификация контента: Для сайтов с разнородным контентом (например, UGC) важно иметь четкую внутреннюю классификацию и модерацию, особенно в отношении взрослого или нежелательного контента, так как Яндекс использует описанный механизм для эффективной фильтрации такого контента из безопасного поиска.

Worst practices (это делать не надо)

Игнорирование критериев оценки качества: Предположение, что оценки Яндекса случайны или их легко обойти. Патент демонстрирует, что инфраструктура оценки статистически надежна, постоянно валидируется (Honeypots) и оптимизируется по эффективности (Human+MLA).

Стратегическое значение

Стратегическое значение патента заключается в демонстрации того, как Яндекс интегрирует машинное обучение в свою инфраструктуру оценки качества для повышения эффективности. Это позволяет Яндексу быстрее и дешевле генерировать большие объемы достоверных данных (Ground Truth). Эти данные являются фундаментом для обучения всех основных ML-моделей поиска, включая ранжирование и метрики качества. Для SEO это означает, что модели Яндекса обучаются на очень чистых и статистически проверенных данных, что повышает их точность и устойчивость к манипуляциям.

Практические примеры

Поскольку патент описывает внутренний процесс оценки, прямых примеров применения для SEO нет. Но можно смоделировать сценарий оценки релевантности, который проходит через эту систему.

Сценарий 1: Оценка релевантности (Согласие)

Задача: Определить, является ли Документ А релевантным Запросу Б. Порог уверенности (EPS) = 90%.

Подготовка: У Яндекса есть Асессор 1 (Quality Score 85%) и MLA для оценки релевантности (Quality Score 75%).
Итерация 1:
- MLA оценивает: Релевантен.
- Асессор 1 оценивает: Релевантен.
Расчет уверенности: Система использует Байесовскую функцию. Так как оба ответа совпали и имеют относительно высокие Quality Scores, расчетный Confidence Level Parameter составляет 92%.
Результат: 92% > 90% (EPS). Задача выполнена. Результат: Релевантен. Этот результат записывается в базу данных как достоверный и может быть использован для обучения ранжирования.

Сценарий 2: Оценка релевантности (Конфликт оценок)

Итерация 1:
- MLA (75%) оценивает: Нерелевантен.
- Асессор 1 (85%) оценивает: Релевантен.
Расчет уверенности: Из-за конфликта ответов, расчетный Confidence Level Parameter для ответа Асессора 1 (как более надежного источника) составляет, например, 65%.
Итерация 2: 65% < 90%. Система привлекает Асессора 2 (Quality Score 90%).
- Асессор 2 оценивает: Релевантен.
Расчет Weighted Majority Result:
- За «Релевантен»: Вес Асессора 1 (0.85) + Вес Асессора 2 (0.90) = 1.75.
- За «Нерелевантен»: Вес MLA (0.75).
- Weighted Majority Result = Релевантен.
Расчет новой уверенности: Система пересчитывает уверенность для результата «Релевантен» с учетом всех трех оценок. Новый Confidence Level Parameter = 91%.
Результат: 91% > 90%. Задача выполнена. Результат: Релевантен.

Вопросы и ответы

Что такое MLA в контексте этого патента и зачем он нужен?

MLA (Machine Learning Algorithm) — это алгоритм машинного обучения, обученный выполнять те же задачи, что и асессоры (например, классифицировать контент или оценивать релевантность). В данной системе он используется как «виртуальный асессор». Его основная цель — валидировать ответы людей-асессоров. Если ответ человека и MLA совпадает, уровень уверенности в результате значительно возрастает, что позволяет быстрее завершить задачу и сократить расходы на привлечение дополнительных людей.

Описывает ли этот патент алгоритм ранжирования?

Нет, этот патент не описывает, как Яндекс ранжирует сайты. Он описывает инфраструктуру и методологию для сбора оценочных данных. Эта система используется для генерации достоверных данных (Ground Truth), которые затем применяются для обучения и валидации реальных алгоритмов ранжирования и метрик качества, таких как Proxima.

Что такое Quality Score асессора и как он определяется?

Quality Score — это показатель надежности конкретного асессора или MLA. Он определяется с помощью Honeypot Tasks (контрольных заданий), правильные ответы на которые известны системе заранее. Quality Score рассчитывается как доля правильных ответов на эти задания, часто с применением формул сглаживания для большей статистической точности.

Что такое Confidence Level Parameter и зачем нужен порог (EPS)?

Confidence Level Parameter — это рассчитываемая в реальном времени вероятность того, что полученный результат задачи является правильным. Он рассчитывается с помощью Байесовской функции на основе ответов асессоров/MLA и их Quality Scores. Порог (EPS) — это минимально допустимый уровень уверенности (например, 92%). Задача считается выполненной только тогда, когда Confidence Level Parameter превышает этот порог, что гарантирует надежность собранных данных.

Как этот патент влияет на мою SEO-стратегию?

Прямого влияния на тактики SEO (ключевые слова, ссылки) этот патент не оказывает. Однако он подчеркивает, что Яндекс обладает сложной и статистически надежной инфраструктурой для оценки качества. Это означает, что модели ранжирования Яндекса обучаются на очень чистых данных. Следовательно, долгосрочная SEO-стратегия должна фокусироваться на реальном качестве сайта и контента, соответствующем асессорским критериям, а не на поиске уязвимостей в алгоритмах.

Используется ли эта система для фильтрации контента?

Да, в патенте прямо указано, что одним из применений является фильтрация нежелательного контента, например, взрослого контента, для обеспечения работы режимов «безопасного поиска» (child safe browsing modes). Гибридный подход Human+MLA позволяет эффективно и масштабируемо классифицировать большие объемы контента.

Что происходит, если асессор и MLA дают разные ответы?

Если ответы различаются, Confidence Level Parameter будет значительно ниже, чем если бы они совпали. В этом случае система, скорее всего, определит, что текущий уровень уверенности ниже требуемого порога (EPS). Тогда задача будет автоматически отправлена дополнительному человеку-асессору для получения еще одной оценки, после чего уровень уверенности будет пересчитан с учетом всех данных.

Что такое Weighted Majority Result?

Это механизм разрешения конфликтов, когда получено несколько разных ответов. Система не просто выбирает самый частый ответ, а учитывает Quality Score (вес) каждого участника. Weighted Majority Result — это ответ, который поддерживается наибольшим совокупным весом асессоров и MLA. Например, ответ надежного асессора может перевесить ответы двух менее надежных.

Может ли MLA иметь более высокий Quality Score, чем человек?

Да, это возможно. В патенте упоминается, что в некоторых случаях MLA может иметь показатели качества, приближающиеся или превышающие показатели надежных людей-асессоров (например, 90%). В таких сценариях система может быть настроена так, что человек используется для подтверждения результата MLA, а не наоборот.

Какое значение этот патент имеет для понимания метрики Proxima?

Proxima — это метрика качества, основанная на машинном обучении, которое, в свою очередь, обучается на оценках асессоров. Этот патент описывает, как именно собираются эти оценки и как гарантируется их достоверность. Понимание этого механизма показывает, что Proxima базируется на фундаменте из статистически проверенных данных, полученных эффективным гибридным методом.