Как Яндекс динамически оценивает качество асессоров и фильтрует мошенников для улучшения обучающих данных ML-алгоритмов

Яндекс патентует метод повышения качества данных, собираемых через краудсорсинг (например, Толока) для обучения ML-алгоритмов (включая ранжирование и Proxima). Система динамически корректирует оценки качества асессоров на основе взвешенного консенсуса, а не только по контрольным заданиям. Это позволяет эффективнее выявлять недобросовестных исполнителей и обеспечивать более чистые данные (Ground Truth) для тренировки поисковых моделей.

Описание

Какую задачу решает

Патент решает задачу обеспечения качества размеченных данных (labelled training data), получаемых через краудсорсинговые платформы (например, Яндекс.Толока) и используемых для обучения алгоритмов машинного обучения (MLA). Основная проблема — «шум» в данных из-за разного уровня экспертизы асессоров (assessors), наличия ботов или мошенников (fraudsters). Традиционный метод контроля через контрольные задания (honey pots) уязвим, так как мошенники учатся их распознавать, а создание новых заданий увеличивает стоимость. Патент предлагает механизм динамической оценки качества асессоров без исключительной опоры на предопределенные правильные ответы.

Что запатентовано

Запатентована система динамического управления качеством асессоров в процессе генерации обучающих данных. Суть изобретения заключается в итеративном определении «надежного результата» (Reliable Result) для задания на основе агрегированного мнения асессоров, взвешенного по их текущим оценкам качества (Quality Scores или Skill). Затем оценки качества асессоров обновляются в зависимости от того, совпал ли их ответ с этим надежным результатом.

Как это работает

Система работает итеративно. Для задания собираются ответы от группы асессоров с текущими оценками качества. Система вычисляет Aggregate Quality Metric для каждого варианта ответа, агрегируя оценки качества асессоров, выбравших этот вариант. Ответ с максимальной метрикой признается Reliable Result (наиболее вероятный правильный ответ). Затем оценки качества асессоров корректируются: увеличиваются у тех, чей ответ совпал с надежным, и уменьшаются у тех, чей не совпал. Используется коэффициент скорости изменения ($\lambda$). Если обновленная оценка асессора падает ниже порога, он исключается из пула для следующих заданий, что позволяет автоматически очищать пул от некачественных исполнителей.

Актуальность для SEO

Высокая. Качество обучающих данных (Ground Truth) является критическим фактором для эффективности современных ML-моделей, используемых в поиске (ранжирование, антиспам, Proxima). Эффективное управление краудсорсинговыми ресурсами и обеспечение качества разметки является ключевой задачей для поддержания качества поиска Яндекса.

Важность для SEO

Прямое влияние на SEO низкое (3/10), но стратегическое значение велико. Патент не описывает алгоритмы ранжирования. Он описывает инфраструктуру, которая обеспечивает качество данных, на которых эти алгоритмы обучаются. Для SEO это означает, что Яндекс обладает усовершенствованным механизмом для формирования «эталонных» оценок качества. Более чистые данные от асессоров ведут к более точной работе метрик качества (таких как Proxima) и основных алгоритмов ранжирования, делая их более чувствительными к реальному качеству контента и E-E-A-T.

Детальный разбор

Термины и определения

Aggregate Quality Metric (Агрегированная метрика качества): Значение, рассчитываемое для каждого варианта ответа на задание. Оно отражает совокупную «силу» (качество) асессоров, выбравших этот вариант. Используется для определения Reliable Result.
Assessor (Асессор): Исполнитель на краудсорсинговой платформе, выполняющий задания для генерации размеченных данных.
Control Digital Task / Honey Pot (Контрольное задание): Задание с заранее известным правильным ответом. Патент стремится уменьшить зависимость от этого механизма контроля качества.
Digital Task / HIT (Цифровое задание): Задача, выполняемая асессором (например, оценка релевантности документа запросу, классификация контента).
Fraudsters (Мошенники): Асессоры или боты, которые выполняют задания некачественно или обманывают систему контроля для максимизации дохода.
MLA (Machine-Learning Algorithm): Алгоритм машинного обучения (например, CatBoost, нейронная сеть), который обучается на данных, сгенерированных асессорами (например, Proxima).
Multiplicative Coefficient (λ) (Мультипликативный коэффициент): Коэффициент, определяющий скорость изменения оценки качества асессора. Может рассматриваться как скорость обучения (Learning Rate) или уровень штрафа (Penalizing Rate).
Quality Score / Skill (Оценка качества / Скилл): Численная мера качества работы конкретного асессора. Индикатор вероятности того, что асессор выполнит задание правильно. Динамически обновляется.
Reliable Result (Надежный результат): Ответ на задание, который система определила как наиболее вероятный правильный ответ (Inferred Ground Truth). Определяется как вариант ответа с максимальным значением Aggregate Quality Metric.
Sliding Window (w) (Скользящее окно): Механизм для усреднения оценки качества асессора на основе последних w выполненных заданий для стабилизации оценки и учета актуальной производительности.

Ключевые утверждения (Анализ Claims)

Патент защищает метод генерации обучающих данных, основанный на динамическом управлении пулом асессоров и их оценками качества.

Claim 1 (Независимый пункт): Описывает основной итеративный процесс.

Получение данных о выполнении задания текущим набором асессоров (ответы и их текущие Quality Scores).
Для каждого варианта ответа: подсчет количества его выборов и расчет Aggregate Quality Metric на основе оценок выбравших его асессоров.
Идентификация Reliable Result как ответа с максимальной Aggregate Quality Metric.
Обновление Quality Scores всех асессоров: увеличение оценки на предопределенную величину, если ответ совпал с Reliable Result; уменьшение, если не совпал.
Фильтрация асессоров: формирование обновленного набора асессоров путем включения только тех, чья обновленная оценка выше или равна пороговому значению (Predetermined Quality Score Threshold).
Передача следующего задания обновленному набору асессоров и генерация обучающих данных.

Claim 2 и 3: Уточняют методы расчета Aggregate Quality Metric.

Claim 2 описывает расчет как простую сумму скиллов асессоров, выбравших данный результат (Формула 1):

$$S(y)=\sum_{i=1}^{n}skill_{i}\cdot I(y_{i}=y)$$

Claim 3 описывает расчет как ожидаемое значение (Expected Value), учитывающее вероятность ошибки (Формула 2):

$$E(y)=\sum_{i=1}^{n}skill_{i}\cdot I(y_{i}=y)+\sum_{i=1}^{n}\frac{1-skill_{i}}{L-1}\cdot I(y_{i}\ne y)$$

Где L — количество альтернативных ответов.

Claim 4, 5 и 6: Уточняют механизм обновления Quality Score (Формула 3).

Обновление происходит на основе разницы ($d_i$) между текущим скиллом асессора и бинарным значением (1, если ответ совпал с Reliable Result, 0 — если нет), умноженной на коэффициент $\lambda$ (Multiplicative Coefficient).

$$skill_{i,t}\leftarrow skill_{i,t-1}+\lambda d_{i}$$

Claim 7 и 8: Уточняют механизм стабилизации оценки с использованием скользящего окна (Формула 4).

Финальная оценка качества может быть усреднена по последним W заданиям:

$$skill_{i,t} = \frac{\sum_{j=t-w+1}^{t} skill_{i,j}}{w}$$

Где и как применяется

Этот патент описывает внутренние процессы Яндекса, связанные с инфраструктурой обеспечения качества данных, а не прямые механизмы ранжирования. Он не применяется непосредственно в слоях CRAWLING, INDEXING, QUERY PROCESSING или RANKING в реальном времени.

Его применение относится к Офлайн-процессам обучения ML-моделей и инфраструктуре, обеспечивающей QUALITY & GOVERNANCE LAYER.

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)

Механизм применяется на краудсорсинговых платформах (например, Яндекс.Толока), которые используются для сбора данных для обучения ключевых компонентов поиска:

Proxima и E-E-A-T: Метрики качества страницы, которые являются ML-моделями, обученными на асессорских оценках полезности и достоверности.
Ранжирование (L3/L4): Основные формулы ранжирования обучаются на оценках релевантности, которые дают асессоры.
Anti-Quality: Классификаторы спама и мошенничества также обучаются на размеченных данных.

Описанный метод обеспечивает высокое качество этих обучающих данных.

На что влияет

Качество ML-моделей: Влияет на точность и надежность всех алгоритмов, которые тренируются на этих данных. Это затрагивает все типы контента и тематик.
Сложные тематики (YMYL): Влияние особенно критично для YMYL, где требуется высокая точность асессорской оценки для корректного обучения моделей E-E-A-T.

Когда применяется

Условия применения: Алгоритм применяется непрерывно в процессе выполнения заданий на краудсорсинговой платформе.
Частота применения: Итеративно, после выполнения каждого задания или серии заданий.
Исключения: В патенте (Claim 9) указано, что начальный Quality Score может быть определен на основе контрольного задания (Control Digital Task), но дальнейшее обновление происходит динамически.

Пошаговый алгоритм

Процесс динамического обновления качества асессоров и генерации обучающих данных.

Инициализация и Сбор Ответов: Система отправляет задание текущему набору асессоров. Собираются ответы и извлекаются текущие Quality Scores (скиллы) этих асессоров.
Агрегация качества: Для каждого уникального варианта ответа рассчитывается Aggregate Quality Metric. Это может быть сумма скиллов асессоров, выбравших этот результат (Формула 1), или ожидаемая величина (Формула 2).
Идентификация надежного результата: Результат с максимальным значением Aggregate Quality Metric определяется как Reliable Result (наиболее вероятный правильный ответ).
Расчет обновления оценок: Для каждого асессора определяется, совпал ли его ответ с Reliable Result (бинарная маска: 1 или 0). Рассчитывается значение обновления ($d_i$) на основе разницы между маской и текущим скиллом.
Корректировка оценок: Обновление Quality Scores путем добавления разницы ($d_i$), умноженной на коэффициент скорости обучения/пенализации $\lambda$ (Формула 3). Происходит повышение за совпадение и понижение за несовпадение.
Усреднение (Опционально): Применение скользящего окна для усреднения оценки качества на основе истории последних заданий (Формула 4).
Фильтрация асессоров: Сравнение обновленных оценок с заданным порогом (Predetermined Quality Score Threshold). Формирование обновленного набора асессоров, включающего только тех, кто превысил порог.
Итерация и генерация данных: Передача следующего задания обновленному набору асессоров. Сбор их ответов для формирования итогового набора обучающих данных.

Какие данные и как использует

Данные на входе

Патент сосредоточен исключительно на данных о производительности асессоров и результатах выполнения заданий. Традиционные SEO-факторы (контентные, технические, ссылочные, поведенческие факторы пользователей сайта и т.д.) в этом алгоритме не используются.

Данные о производительности: Current Quality Scores (текущие оценки качества или скиллы) асессоров, отражающие их прошлую эффективность.
Данные о задании: Само цифровое задание (Digital Task) и множество результатов (Plurality of Results), предоставленных асессорами в ответ на это задание.
Системные параметры: Коэффициент скорости обучения ($\lambda$), порог качества, ширина скользящего окна (w).

Какие метрики используются и как они считаются

Quality Score (Skill): Мера вероятности того, что асессор выполнит задание правильно (например, от 0 до 1).
Aggregate Quality Metric (S(y) или E(y)): Рассчитывается по одной из двух формул:
- Простая сумма скиллов (Формула 1): $$S(y)=\sum_{i=1}^{n}skill_{i}\cdot I(y_{i}=y)$$
- Ожидаемое значение (Формула 2): $$E(y)=\sum_{i=1}^{n}skill_{i}\cdot I(y_{i}=y)+\sum_{i=1}^{n}\frac{1-skill_{i}}{L-1}\cdot I(y_{i}\ne y)$$
Механизм обновления оценки (Score Update): Использует коэффициент скорости обучения ($\lambda$) и разницу ($d_i$) между ответом асессора (в виде бинарной маски относительно Reliable Result) и его текущим скиллом (Формула 3): $$skill_{i,t}\leftarrow skill_{i,t-1}+\lambda d_{i}$$
Sliding Window Average (Среднее по скользящему окну): Усреднение производительности по последним W заданиям (Формула 4): $$skill_{i,t} = \frac{\sum_{j=t-w+1}^{t} skill_{i,j}}{w}$$
Пороговые значения: Используется Predetermined Quality Score Threshold для фильтрации асессоров на последующие задания.

Выводы

Инфраструктурный фокус: Патент описывает внутренние процессы Яндекса по генерации обучающих данных (например, в Толоке), а не алгоритмы ранжирования поиска. Он не дает прямых практических выводов для SEO.
Борьба с низким качеством краудсорсинга: Яндекс активно борется с шумом, ошибками и мошенничеством при разметке данных. Система разработана для снижения зависимости от уязвимых контрольных заданий (Honey Pots).
Динамическая оценка качества асессоров: Качество асессоров оценивается динамически и итеративно. Система постоянно пересчитывает Quality Scores на основе текущей производительности.
Взвешенная «Мудрость толпы»: Система использует коллективное мнение, взвешенное по скиллам участников (Aggregate Quality Metric), для определения истины (Reliable Result). Голос более опытного асессора весит больше.
Автоматическая фильтрация: Система автоматически отсеивает ботов и недобросовестных исполнителей, чьи ответы систематически расходятся с взвешенным консенсусом.
Обеспечение качества ML-моделей: Эта методология направлена на обеспечение высокого качества входных данных (Ground Truth) для обучения ключевых ML-алгоритмов Яндекса. Алгоритмы, оценивающие качество сайтов (например, Proxima), обучаются на данных, прошедших этот строгий контроль.

Практика

Best practices (это мы делаем)

Поскольку патент описывает внутренний механизм оценки асессоров, прямых действий по оптимизации сайта он не предполагает. Однако он дает стратегическое понимание подхода Яндекса к качеству.

Фокус на фундаментальном качестве (E-E-A-T и Proxima): Патент подтверждает, что Яндекс инвестирует значительные ресурсы в качество своих ML-моделей. Метрики качества поиска обучаются на данных, прошедших многоступенчатую верификацию. Это означает, что модели, оценивающие качество сайта и E-E-A-T, базируются на надежных данных. Необходимо продолжать инвестировать в создание высококачественного, экспертного и достоверного контента.
Соответствие критериям качества асессоров: Поскольку алгоритмы обучаются на человеческих оценках, долгосрочная SEO-стратегия должна фокусироваться на реальном качестве, экспертизе и удовлетворении пользователя, соответствуя критериям, которые оценивают асессоры.

Worst practices (это делать не надо)

Имитация качества и поверхностные манипуляции: Попытки имитировать качество с помощью SEO-трюков без реальной ценности становятся менее эффективными. Если система обучения ML становится точнее благодаря чистым данным (обеспеченным этим патентом), она лучше распознает низкокачественный контент и его имитацию.
Игнорирование сигналов низкого качества: Наличие на сайте признаков, которые асессоры могут расценить как низкокачественные (недостоверная информация, кликбейт, агрессивная реклама), приведет к формированию негативных обучающих примеров, что ухудшит работу ML-моделей в отношении вашего сайта.

Стратегическое значение

Патент подчеркивает фундаментальную важность высококачественных данных в ML-ориентированном подходе Яндекса. Он демонстрирует, что метрики, определяющие качество поиска, строятся на прочном фундаменте верифицированных человеческих оценок. Для Senior SEO-специалистов это сигнал о том, что система оценки качества Яндекса постоянно совершенствуется, базируется на чистых данных, и разрыв между реальным качеством и его имитацией будет увеличиваться. Стратегия должна базироваться на реальном улучшении продукта и контента.

Практические примеры

Практических примеров для прямого применения в SEO нет. Ниже приведен пример, иллюстрирующий работу алгоритма оценки асессоров.

Сценарий: Оценка релевантности документа

Задание: Оценить релевантность документа (Да/Нет).

Исполнители и текущие скиллы (Quality Scores):
- Асессор A (Skill=0.9)
- Асессор B (Skill=0.8)
- Асессор C (Skill=0.5)
Ответы: A: Да, B: Да, C: Нет.
Расчет Aggregate Quality Metric (по Формуле 1):
- Метрика для «Да» = 0.9 + 0.8 = 1.7
- Метрика для «Нет» = 0.5
Определение Reliable Result: Максимальная метрика у «Да». Reliable Result = Да.
Обновление скиллов (Предположим, коэффициент $\lambda$=0.5, по Формуле 3):
- Асессор A: Совпал (Бинарная маска=1). Разница $d_i$ = 1 — 0.9 = 0.1. Новый скилл = 0.9 + (0.5 * 0.1) = 0.905.
- Асессор B: Совпал (1). Разница $d_i$ = 1 — 0.8 = 0.2. Новый скилл = 0.8 + (0.5 * 0.2) = 0.9.
- Асессор C: Не совпал (0). Разница $d_i$ = 0 — 0.5 = -0.5. Новый скилл = 0.5 + (0.5 * -0.5) = 0.25.
Фильтрация: Если порог (Threshold) = 0.3, Асессор C будет исключен из пула для следующего задания.

Вопросы и ответы

Какое отношение этот патент имеет к SEO, если он описывает оценку асессоров?

Патент имеет важное косвенное значение. Алгоритмы ранжирования Яндекса и метрики качества (например, Proxima) — это алгоритмы машинного обучения (MLA). Они обучаются на данных, которые размечают асессоры (Ground Truth). Этот патент описывает, как Яндекс обеспечивает чистоту и надежность этих обучающих данных, эффективно отфильтровывая плохих асессоров. Чем чище данные, тем точнее работает алгоритм ранжирования.

Что такое Proxima и как она связана с этим патентом?

Proxima — это ключевая метрика качества страницы в Яндексе, оценивающая полезность и достоверность (аналог E-E-A-T). Proxima — это ML-модель, обученная на оценках асессоров. Механизм, описанный в патенте, гарантирует, что данные, используемые для обучения Proxima, являются максимально надежными, что напрямую влияет на точность этой метрики в оценке сайтов.

Что такое «Надежный результат» (Reliable Result) и как он определяется?

Надежный результат — это ответ на задание, который система считает наиболее вероятным правильным ответом. Он определяется не простым большинством голосов, а на основе взвешенного консенсуса. Система суммирует текущие оценки качества (Quality Scores) асессоров, выбравших определенный вариант ответа. Вариант, набравший максимальную сумму (Aggregate Quality Metric), признается надежным.

Заменяет ли этот механизм использование контрольных заданий («honey pots»)?

Патент стремится уменьшить зависимость от контрольных заданий, так как они дороги в создании и могут быть распознаны мошенниками. Описанный механизм позволяет оценивать асессоров динамически на реальных задачах, используя консенсус. Однако в патенте (Claim 9) упоминается, что первичные оценки качества все еще могут быть основаны на контрольных заданиях.

Как система наказывает или поощряет асессоров?

Если ответ асессора совпадает с Надежным результатом, его оценка качества увеличивается. Если не совпадает — уменьшается. Скорость изменения регулируется специальным коэффициентом ($\lambda$). Если оценка асессора падает ниже установленного порога, он исключается из пула исполнителей для следующих заданий.

Как это влияет на оценку сложных тематик, например YMYL?

Влияние положительное. В сложных тематиках особенно важна точность оценки авторитетности и достоверности (E-E-A-T). Если Яндекс может гарантировать, что обучающие данные для YMYL-тематик размечены наиболее квалифицированными и честными асессорами (благодаря этому механизму фильтрации), то и алгоритмы ранжирования будут работать точнее.

Могу ли я как SEO-специалист повлиять на этот механизм?

Напрямую повлиять на механизм оценки асессоров нельзя. Однако можно повлиять на то, как асессоры оценивают ваш сайт. Создавая контент, который однозначно воспринимается как высококачественный, полезный и достоверный, вы увеличиваете вероятность того, что высококвалифицированные асессоры оценят его положительно, формируя позитивный консенсус (Reliable Result).

Что такое скользящее окно (Sliding Window) в контексте патента?

Это механизм стабилизации оценки качества асессора (Claim 7, 8). Вместо того чтобы использовать только оценку, полученную после последнего задания, система может усреднять оценки за последние W заданий. Это помогает сгладить случайные колебания и более точно определить реальный текущий уровень квалификации асессора.

Означает ли этот патент, что Яндекс лучше распознает качество сайтов?

Да, это один из компонентов, который способствует этому. Эффективная система контроля качества асессоров означает, что Яндекс получает более точное представление о том, что такое «хороший сайт» и «плохой сайт». Это позволяет лучше обучать ML-модели для распознавания качества в масштабах всего интернета.

Каков ключевой вывод из этого патента для SEO-стратега?

Ключевой вывод заключается в том, что Яндекс применяет строгие математические методы для обеспечения качества данных человеческой оценки, на которых обучаются его алгоритмы. Это подтверждает, что ML-модели Яндекса для оценки качества сайтов сложны и основаны на чистых, верифицированных данных, поэтому фокусироваться нужно на реальном качестве ресурса.