Как Яндекс использует динамическую агрегацию ответов для точной маркировки данных из анонимных и шумных источников (например, CAPTCHA или Толока)

Яндекс патентует метод повышения точности и эффективности сбора размеченных данных из краудсорсинговых сред, где качество и личность асессоров неизвестны (например, CAPTCHA). Система использует инкрементальную разметку: она запрашивает ответы до тех пор, пока модель машинного обучения не достигнет заданного порога уверенности в одном из вариантов. Это позволяет получать точные метки (например, распознавать текст) с минимальным количеством запросов, отфильтровывая ботов и ошибки.

Описание

Какую задачу решает

Патент решает задачу получения высококачественных размеченных данных (labeled data) из шумных и анонимных краудсорсинговых сред. Основная проблема — традиционные методы агрегации (например, Majority Vote) плохо работают, когда значительная часть ответов генерируется ботами (упоминается более 55% для CAPTCHA) или неквалифицированными пользователями, а история асессоров неизвестна. Это особенно критично для задач с потенциально бесконечным числом правильных ответов (например, распознавание текста/OCR). Изобретение улучшает качество данных, используемых для обучения ML-алгоритмов Яндекса.

Что запатентовано

Запатентована система инкрементальной (динамической) разметки данных. Суть изобретения заключается в адаптивном определении количества необходимых ответов для достижения заданной точности метки. Вместо фиксированного числа оценок система использует Модель Уверенности (Confidence Model), основанную на машинном обучении, чтобы определить момент прекращения сбора данных (Stopping Trigger). Сбор продолжается до тех пор, пока уверенность в лидирующем ответе не превысит заданный порог.

Как это работает

Система собирает ответы на задачу (например, ввод текста с картинки) последовательно. После достижения минимального числа ответов ($N_{min}$) активируется Confidence Model. Эта модель анализирует все уникальные варианты ответов и рассчитывает вероятность правильности каждого из них. Расчет базируется на различных признаках: популярность ответа, характеристики ввода (время, скорость), схожесть с предсказаниями внутренней OCR-модели и т.д. Если самый вероятный ответ превышает порог уверенности (t), он принимается как финальная метка, и сбор данных прекращается. Если уверенность низкая, система запрашивает дополнительный ответ и повторяет анализ, пока не будет достигнут порог уверенности или максимальное число попыток ($N_{max}$).

Актуальность для SEO

Высокая. Эффективный сбор больших объемов качественных данных для обучения ML-моделей (включая нейросети для ранжирования, компьютерного зрения и метрики качества, такие как Proxima) является критически важной задачей для Яндекса. Описанные методы борьбы с шумом и ботами в системах типа CAPTCHA и краудсорсинговых платформах (Толока) крайне актуальны.

Важность для SEO

Влияние на SEO косвенное (4/10). Патент не описывает алгоритмы ранжирования. Он относится к инфраструктуре сбора данных и обеспечению качества обучения ML-моделей. Для SEO-специалистов важно понимать, что этот патент позволяет Яндексу более точно и эффективно обучать свои основные алгоритмы. Это ведет к более высокому качеству поиска в целом, но не дает прямых рекомендаций по оптимизации сайтов.

Детальный разбор

Термины и определения

Confidence Model (Модель Уверенности): Алгоритм машинного обучения (MLA, например, градиентный бустинг), обученный предсказывать вероятность того, что данный конкретный ответ является правильным для данной задачи.
Confidence Parameter (Параметр уверенности, $C_{a,w}$): Численная оценка, генерируемая Confidence Model, представляющая вероятность того, что ответ ‘a’ является правильным для задачи ‘w’.
Control Object / Control Task (Контрольный объект/задача, $W_c$): Задача с заранее известным ответом. Используется для оценки надежности асессора в моменте. Если асессор ошибается в контрольной задаче, его ответ на основную (неизвестную) задачу может быть отброшен.
Crowd-sourced Environment (Краудсорсинговая среда): Компьютерная среда (например, CAPTCHA или Яндекс.Толока), где задачи выполняются распределенной группой асессоров (людей и/или ботов).
Incremental Relabelling / Dynamic Relabelling (Инкрементальная/Динамическая разметка): Процесс сбора данных, при котором количество запрашиваемых ответов для одной задачи не фиксировано, а определяется адаптивно на основе накопленных данных и уровня уверенности.
Levenshtein distance (LD) (Расстояние Левенштейна): Метрика схожести строк, измеряющая минимальное количество односимвольных редакций, необходимых для превращения одной строки в другую.
Majority Vote (MV) (Голосование большинством): Стандартный метод агрегации, при котором в качестве итогового ответа выбирается вариант, получивший наибольшее количество голосов.
$N_{min}$ (Minimum Answer Threshold): Минимальное количество ответов, которое необходимо собрать перед запуском Confidence Model.
$N_{max}$ (Maximum Number of Solicited Responses): Максимальное количество ответов, которое система будет запрашивать для одной задачи. Если уверенность не достигнута, задача считается нерешаемой.
Stopping Trigger (Триггер остановки): Условие, при выполнении которого процесс сбора данных прекращается. В данном патенте это достижение заданного порога уверенности (t) для лидирующего ответа.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе динамического определения момента завершения сбора краудсорсинговых данных на основе рассчитываемой уверенности в ответе.

Claim 1 (Независимый пункт): Описывает базовый процесс инкрементальной разметки.

Система получает набор ответов на цифровую задачу от краудсорсинговых асессоров.
Проверяется, достигнуто ли минимальное количество ответов ($N_{min}$).
Если достигнуто, то для КАЖДОГО полученного ответа генерируется параметр уверенности (вероятность того, что этот ответ правильный).
Ответы ранжируются по этому параметру, определяется лидирующий ответ (Top Response).
Проверяется Stopping Trigger: превышает ли уверенность лидирующего ответа заданный минимальный порог (t).
Если ДА: Значение лидирующего ответа присваивается как метка задачи, и выполнение задачи прекращается.
Если НЕТ: Система запрашивает дополнительный ответ у другого асессора.

Claim 2 и 5 (Зависимые пункты): Дополняют процесс введением ограничения на максимальное число попыток ($N_{max}$).

Если уверенность низкая, система проверяет, не достигнут ли $N_{max}$. Дополнительный ответ запрашивается, только если лимит не достигнут (Claim 2). Если $N_{max}$ достигнут, система определяет, что задача не может быть выполнена (Claim 5).

Claim 6 (Зависимый пункт): Уточняет область применения.

Метод применим к задачам, имеющим бесконечное число возможных правильных ответов (например, распознавание произвольного текста/OCR).

Claim 11 и 12 (Зависимые пункты): Описывают механизм генерации параметра уверенности.

Параметр уверенности генерируется с помощью Алгоритма Машинного Обучения (MLA) (Claim 11).
MLA использует вектор признаков, включающий измерения, связанные с самим ответом, с задачей и с другими полученными ответами (Claim 12).

Claim 18 (Зависимый пункт): Описывает использование контрольных задач для фильтрации ответов.

Задача состоит из неизвестной части и контрольной части (с известной меткой). Если ответ асессора на контрольную часть неверен, ответ на неизвестную часть отбрасывается.

Где и как применяется

Изобретение не применяется напрямую в real-time компонентах поиска (CRAWLING, INDEXING, RANKING). Оно относится к инфраструктуре сбора и подготовки данных, которая обеспечивает работу поисковых компонентов.

Сбор данных (Data Acquisition)
Основное применение — сбор данных через системы, где пользователи анонимны или их идентификация ненадежна (например, CAPTCHA). Система позволяет использовать ответы пользователей для разметки новых данных (например, распознавания текста, который не смогла распознать автоматическая OCR-система).

QUALITY & GOVERNANCE LAYER – Слой Качества и Метрик
Метод применяется для генерации Ground Truth — эталонных размеченных наборов данных. Эти данные используются для обучения ключевых ML-моделей поиска:

Обучения моделей компьютерного зрения (OCR).
Обучения моделей ранжирования и метрик качества (например, Proxima, CatBoost), если метод применяется на платформе Яндекс.Толока для агрегации ответов асессоров.

Входные данные: Цифровая задача (например, изображение), набор полученных ответов (Guesses), метаданные ввода (время, скорость).

Выходные данные: Агрегированная метка (Label) с высоким уровнем уверенности или заключение о невозможности решения задачи.

На что влияет

Типы контента: В первую очередь влияет на способность Яндекса понимать контент, который сложно анализировать автоматически (например, OCR). Это улучшает качество Поиска по Картинкам и понимание визуального контента на страницах.
Качество поиска в целом: Повышая точность и эффективность сбора данных через краудсорсинг (Толока), метод улучшает качество обучения всех основных ML-алгоритмов поиска.

Когда применяется

Алгоритм применяется в процессе сбора размеченных данных при использовании шумного или анонимного источника ответов.

Триггеры активации: Процесс анализа активируется после получения каждого нового ответа, при условии, что общее количество ответов достигло минимального порога ($N_{min}$).
Stopping Trigger: Процесс останавливается при выполнении одного из условий: (1) Уверенность в лидирующем ответе >= t; (2) Достигнуто максимальное число попыток $N_{max}$.

Пошаговый алгоритм

Процесс агрегации ответа для задачи (w).

Инициализация параметров: Определение $N_{min}$, $N_{max}$ и порога уверенности (t).
Сбор данных (Последовательный запрос): Система запрашивает ответ у асессора. Задача может включать неизвестный объект (w) и контрольный объект ($W_c$).
Предварительная фильтрация (Опционально): Если используется контрольный объект, система проверяет правильность ответа на него. Если ответ неверный, ответ на неизвестный объект отбрасывается, и система возвращается к шагу 2.
Накопление ответов: Ответ добавляется в пул накопленных ответов (Guesses, $G_w$).
Проверка минимального порога: Система проверяет, достигло ли количество ответов в $G_w$ значения $N_{min}$. Если нет, возврат к шагу 2.
Генерация признаков: Все накопленные ответы группируются по уникальным значениям ($U_w$). Для каждого уникального ответа (a) генерируется вектор признаков ($f_{w,a}$), описывающий популярность ответа, характеристики ввода, сам ответ и т.д.
Расчет уверенности (Confidence Model): Модель машинного обучения (MLA) обрабатывает векторы признаков и рассчитывает параметр уверенности ($C_{a,w}$) для каждого уникального ответа (a).
Ранжирование и выбор лидера: Определяется ответ ($a_w^*$) с максимальным параметром уверенности.
Проверка Stopping Trigger:
- Если $C_{a_w^*,w} >= t$: Процесс завершается. $a_w^*$ принимается как финальная метка.
- Если $C_{a_w^*,w} < t$ И текущее число ответов < $N_{max}$: Возврат к шагу 2 для запроса дополнительного ответа.
- Если текущее число ответов >= $N_{max}$: Процесс завершается. Задача помечается как нерешаемая/нечитаемая.

Какие данные и как использует

Система использует разнообразные данные для обучения Confidence Model. Эти признаки показывают, какие факторы Яндекс считает индикаторами правильного (человеческого) ответа по сравнению с ошибкой или ответом бота.

Данные на входе

Контентные факторы (Ответы): Текстовое содержание ответов. Анализируется наличие заглавных букв, пунктуации, цифр, символов Кириллицы или Латиницы.
Поведенческие/Временные факторы (Метаданные ввода):
- Время ввода (Input time): медианное, среднее, минимальное, максимальное.
- Нормализованное время ввода (относительно длины ответа в символах).
- Время суток, когда был получен ответ.
Системные данные (Внешние сигналы):
- Предсказание внутренней автоматической OCR-модели для данной задачи.
- Уверенность внутренней OCR-модели в своем предсказании.
Контекстные факторы (Специфично для CAPTCHA): Позиция неизвестного слова относительно контрольного слова (слева или справа).

Какие метрики используются и как они считаются

Метрики рассчитываются на основе накопленного пула ответов ($G_w$) для оценки популярности и согласованности.

Fraction of votes (Доля голосов): Доля голосов за конкретный ответ (a) среди всех накопленных ответов ($G_w$).
Majority Vote (MV) Answer: Ответ, набравший максимальное количество голосов.
Расстояние Левенштейна (LD):
- LD между ответом (a) и MV ответом.
- LD между ответом (a) и предсказанием OCR-модели.
Отношение голосов: Отношение количества голосов за ответ (a) к количеству голосов за MV ответ.

Методы машинного обучения:

Используется модель машинного обучения (в патенте упоминается Gradient Boosting Decision Tree, что подразумевает CatBoost) для предсказания уверенности. Ключевая особенность обучения:

Модель обучается предсказывать условную вероятность $P(a=t_w|f_{w,a})$ — вероятность того, что ответ ‘a’ является истинным ответом $t_w$ при заданном векторе признаков $f_{w,a}$.
Целевая переменная бинарна: 1, если ответ совпадает с Ground Truth, и 0 в противном случае. Такой подход позволяет использовать классификатор для задач с бесконечным числом классов (например, OCR).

Выводы

Качество данных — приоритет инфраструктуры: Яндекс активно инвестирует в технологии, позволяющие получать максимально точные размеченные данные для обучения ML-моделей, даже из очень шумных и анонимных источников (CAPTCHA, краудсорсинг).
Динамическая разметка вместо фиксированных оценок: Система не полагается на фиксированное количество оценок или простое голосование большинством (Majority Vote). Используется адаптивный подход (Incremental Relabelling), который оптимизирует затраты, запрашивая ровно столько ответов, сколько нужно для достижения заданной уверенности.
Сложная модель уверенности для фильтрации ботов: Confidence Model использует комбинацию признаков (популярность, время ввода, внешние сигналы OCR) для идентификации правильных ответов и фильтрации шума/ботов, что критично при отсутствии истории асессоров.
Инновационный подход к обучению для бесконечных классов: Метод обучения ML-модели предсказывать вероятность правильности конкретного ответа (а не классифицировать задачу) позволяет применять систему для задач типа OCR, где число возможных ответов не ограничено.
Улучшение компьютерного зрения и качества поиска: Патент напрямую способствует улучшению OCR Яндекса и повышает качество данных для обучения алгоритмов ранжирования и метрик качества (Proxima).

Практика

Best practices (это мы делаем)

Патент носит инфраструктурный характер и описывает внутренние процессы Яндекса по сбору данных. Прямых рекомендаций для SEO-оптимизации сайтов он не содержит. Однако можно сделать следующие выводы о приоритетах Яндекса:

Понимание роли асессоров (Толока) и E-E-A-T: Патент подчеркивает сложность и важность точной агрегации оценок асессоров. Для SEO-специалистов это напоминание о том, что качество сайта оценивается людьми (чьи ответы затем агрегируются подобными сложными методами для обучения Proxima), и необходимо фокусироваться на удовлетворении требований инструкций для асессоров (E-E-A-T).
Обеспечение читаемости визуального контента: Поскольку Яндекс активно улучшает свои OCR-технологии (используя этот патент для обучения), текст на изображениях (инфографика, баннеры) должен быть четким и читаемым. Это увеличивает вероятность его корректного распознавания и индексации.
Использование ALT-текстов: Несмотря на развитие OCR, классические методы оптимизации изображений (заполнение атрибута ALT) остаются важными, так как они предоставляют чистый текстовый сигнал.

Worst practices (это делать не надо)

Использование текста на изображениях вместо HTML: Полагаться на то, что Яндекс идеально распознает ключевой текст с изображений, рискованно. HTML-текст всегда предпочтительнее для индексации.
Недооценка алгоритмов качества: Не стоит предполагать, что алгоритмы качества Яндекса (Proxima) легко обмануть из-за шумных обучающих данных. Патент демонстрирует сложные методы обеспечения точности этих данных.

Стратегическое значение

Стратегическое значение патента заключается в демонстрации уровня зрелости инфраструктуры машинного обучения Яндекса. Способность эффективно и точно извлекать знания из шумных данных позволяет быстрее и качественнее обучать основные поисковые алгоритмы. Для SEO это означает, что система ранжирования Яндекса постоянно совершенствуется на основе высококачественных данных, что требует от специалистов аналогичного фокуса на качестве контента и пользовательском опыте.

Практические примеры

Практических примеров применения данного патента в работе SEO-специалиста нет, так как патент описывает внутреннюю инфраструктуру сбора и разметки данных Яндекса. Приведем пример работы алгоритма.

Сценарий: Валидация данных для обучения Proxima через Толоку

Яндекс собирает оценки качества сайта для обучения Proxima. Задание: оценить достоверность информации (Да/Нет).

Запрос оценок (N_min=3):
- Асессор 1 (Бот): Ответ «Да». Время ввода: 0.5 сек.
- Асессор 2 (Человек): Ответ «Нет». Время ввода: 15 сек.
- Асессор 3 (Бот): Ответ «Да». Время ввода: 0.6 сек.
Анализ (Majority Vote): По большинству голосов (2 vs 1) побеждает «Да».
Анализ (Confidence Model из патента):
- Модель анализирует признаки. Ответ «Да» популярен, но время ввода аномально быстрое и одинаковое.
- Ответ «Нет» менее популярен, но время ввода реалистично.
- MLA вычисляет достоверность: C(«Да») = 0.4; C(«Нет») = 0.7.
Решение: Если порог t=0.8, то ни один ответ не принят. Система запрашивает 4-й ответ.
Дополнительный ответ:
- Асессор 4 (Человек): Ответ «Нет». Время ввода: 20 сек.
Повторный анализ: Теперь консенсус 50/50. Модель пересчитывает достоверность. C(«Да») = 0.3; C(«Нет») = 0.85.
Результат: Ответ «Нет» принимается (0.85 > 0.8). Сбор данных остановлен. Яндекс получил точную метку, отфильтровав ответы ботов, несмотря на их изначальное большинство.

Вопросы и ответы

Описывает ли этот патент новый фактор ранжирования?

Нет, этот патент не описывает факторы ранжирования сайтов в поисковой выдаче. Он посвящен методам сбора и агрегации размеченных данных из краудсорсинговых источников (таких как CAPTCHA или Толока). Эти данные затем используются для обучения алгоритмов ранжирования, но сам метод агрегации напрямую на позиции сайтов не влияет.

Что такое инкрементальная разметка (Incremental Relabelling) и зачем она нужна?

Это подход к сбору данных, при котором количество запросов на одну задачу не фиксировано. Система последовательно запрашивает ответы и после каждого нового ответа оценивает свою уверенность в результате. Как только достигается заданный порог уверенности, сбор прекращается. Это позволяет оптимизировать затраты: для простых задач достаточно нескольких ответов, а сложные задачи получают больше внимания.

Почему Яндекс не может просто использовать голосование большинством (Majority Vote)?

В патенте указано, что в анонимных средах, таких как CAPTCHA, значительная часть ответов (более 55%) может генерироваться ботами (автоматическими решателями). Боты часто дают одинаковый неправильный ответ. В таких условиях Majority Vote может привести к выбору ответа бота, а не правильного человеческого ответа. Описанная Confidence Model использует более сложные признаки для фильтрации такого шума.

Как система определяет, что ответ дан человеком, а не ботом, если пользователи анонимны?

Система не идентифицирует пользователя напрямую, но анализирует характеристики ввода и самого ответа. Например, Confidence Model учитывает время ввода ответа относительно его длины, популярность ответа и схожесть с предсказанием внутренней OCR-модели. Аномально быстрое или слишком «идеальное» время ввода может быть индикатором бота.

Что такое задача с бесконечным числом классов и почему это важно?

Это задача, где число возможных правильных ответов не ограничено фиксированным набором (например, распознавание произвольного текста на картинке (OCR)). Стандартные методы классификации здесь не работают. Яндекс решил эту проблему, обучив модель предсказывать не сам ответ, а вероятность того, что *данный конкретный* ответ является правильным (бинарная задача: да/нет), что позволяет работать с любыми вариантами ответов.

Как этот патент влияет на работу Яндекс.Толоки и асессоров?

Хотя патент фокусируется на анонимных источниках (CAPTCHA), описанная методология инкрементальной разметки и Confidence Model применяется и в Толоке для агрегации ответов асессоров. Это позволяет Яндексу быстрее получать качественные данные для обучения поисковых алгоритмов (Proxima, Anti-Quality) и точнее оценивать качество сайтов на основе агрегированных мнений.

Влияет ли этот патент на Поиск по Картинкам?

Да, косвенно, но значительно. Основной пример применения в патенте — это распознавание текста на изображениях (OCR). Данный метод позволяет Яндексу генерировать более точные наборы данных для обучения своих моделей компьютерного зрения. Это напрямую улучшает способность системы распознавать текст внутри изображений, улучшая ранжирование в Поиске по Картинкам.

Что такое контрольная задача (Control Task) в контексте этого патента?

Это задача с заранее известным ответом (Honeypot), которая предъявляется пользователю вместе с основной (неизвестной) задачей. Она служит для проверки надежности пользователя в реальном времени. Если пользователь ошибается в контрольной задаче, его ответ на основную задачу отбрасывается. Это эффективный фильтр против ботов и невнимательных пользователей.

Могу ли я как SEO-специалист повлиять на работу этого алгоритма?

Напрямую повлиять на внутренний процесс агрегации данных вы не можете. Однако, понимая, что Яндекс совершенствует свои OCR-технологии и механизмы оценки качества, стоит уделять внимание читаемости текста на изображениях на вашем сайте и фокусироваться на фундаментальных факторах качества (E-E-A-T).

Какие признаки используются для определения уверенности в ответе?

Используется множество признаков, разделенных на группы. Ключевые из них: популярность ответа (доля голосов, сравнение с Majority Vote), временные характеристики (скорость и время ввода), характеристики самого ответа (наличие цифр, пунктуации) и внешние сигналы (насколько ответ похож на предсказание автоматической OCR-модели Яндекса).