Как Яндекс использует ИИ для симуляции оценок асессоров и повышения качества разметки данных

Яндекс патентует метод повышения точности разметки данных для обучения ИИ (например, ранжирующих моделей). Система обучает алгоритм машинного обучения предсказывать, какую метку поставит конкретный асессор, учитывая векторное представление самой задачи и векторный профиль асессора (включая его историю и скрытые смещения). Это позволяет симулировать оценки высококачественных асессоров и генерировать точные метки автоматически.

Описание

Какую задачу решает

Патент решает проблему зашумленности и низкого качества данных, получаемых с краудсорсинговых платформ (например, Яндекс.Толока). Известно, что краудсорс-работники (асессоры) часто не являются профессионалами, имеют разный уровень знаний и подвержены смещениям (003). Изобретение направлено на формирование более точной разметки (Abstract) путем создания системы, которая может имитировать процесс выбора метки, выполняемый экспертами или асессорами с высокими показателями качества (007).

Что запатентовано

Запатентована система автоматического формирования меток для цифровых задач с использованием алгоритма машинного обучения (MLA), обученного на данных краудсорсинга. Ядром изобретения является специфический метод обучения MLA с использованием Триплета обучающих объектов (Triplet of Training Objects). Этот триплет состоит из: (1) Векторного представления задачи, (2) Векторного представления работника (асессора), учитывающего его историю и смещения, и (3) Метки, которую этот работник поставил этой задаче (Claim 1).

Как это работает

Система моделирует как саму задачу, так и индивидуального асессора в виде векторов. Векторное представление работника включает его историю действий и вычисленные смещения (Латентные параметры) по отношению к характеристикам задачи (Латентные признаки) (014). MLA обучается предсказывать, какую метку конкретный асессор присвоит конкретной задаче. На этапе использования система применяет обученный MLA для автоматической генерации меток для новых задач. Для этого она использует векторные профили известных (например, высококачественных) асессоров (011, 012) и агрегирует предсказанные метки (например, путем мажорирования) для определения финального результата (009, 0108).

Актуальность для SEO

Высокая. Патент подан в конце 2022 и опубликован в конце 2024 года. Использование машинного обучения для улучшения конвейеров разметки данных (Data-Centric AI) является ключевым трендом. Эта технология напрямую влияет на качество обучающих данных (Ground Truth) для моделей ранжирования Яндекса.

Важность для SEO

Влияние на SEO умеренное (4/10). Это инфраструктурный патент. Он не описывает факторы ранжирования или алгоритмы, используемые в живом поиске. Однако он предоставляет критически важное понимание того, как Яндекс генерирует данные (Ground Truth), используемые для обучения моделей ранжирования и оценки качества (например, Proxima). Понимание этого процесса помогает оценить сложность и проработанность инфраструктуры оценки качества Яндекса.

Детальный разбор

Термины и определения

MLA (Алгоритм машинного обучения): Модель, которая обучается прогнозировать метки для цифровых задач (126).
Crowdsourcing Digital Platform (Краудсорсинговая цифровая платформа): Среда (например, Толока), где работники-люди (асессоры) выполняют задачи (059).
Digital Task / Digital Training Task (Цифровая задача / Цифровая обучающая задача): Задача, предлагаемая работникам (например, классификация изображений, оценка релевантности, попарное сравнение) (061, 065).
Label (Метка): Результат выполнения задачи, предоставленный работником (например, выбор категории «Кошка» или «Собака») (074).
Task Vector Representation (Векторное представление задачи): Численное представление (эмбеддинг) цифровой задачи, которое может основываться на ее латентных признаках (087).
Worker Vector Representation (Векторное представление работника): Численное представление (эмбеддинг) работника (асессора), основанное на его истории действий и вычисленных смещениях (088).
Latent Features (Латентные признаки): Признаки задачи, которые могут влиять на решение работника из-за его необъективности, но не связаны с качеством или правильностью ответа (например, размер шрифта, размер изображения, расположение кнопок выбора) (063, 016).
Latent Parameter (Латентный параметр): Метрика, указывающая на степень смещения (bias) работника в направлении конкретных латентных признаков (014, 089).
Matrix of Inconsistencies (Матрица несоответствий): Данные, используемые для анализа ответов работника и определения его латентных параметров/смещений (014, 089).
Triplet of Training Objects (Триплет обучающих объектов): Основная единица обучающих данных: {Векторное представление задачи, Векторное представление работника, Метка} (020, 093).

Ключевые утверждения (Анализ Claims)

Патент защищает метод обучения ML-модели для автоматизации процесса разметки данных с учетом индивидуальных особенностей асессоров.

Claim 1 (Независимый пункт, Способ): Описывает основной процесс, состоящий из двух этапов.

Этап обучения:

Получение обучающей задачи, меток от множества работников и историй их действий.
Обучение MLA включает:
1. Генерацию Векторного представления задачи.
2. Генерацию Векторного представления работника. Критически важный момент: это включает определение латентного параметра работника (степени смещения) в направлении латентных признаков задачи путем анализа матрицы несоответствий.
3. Формирование Триплета: {Вектор задачи, Вектор работника, Метка}.
4. Использование Триплета для обучения MLA прогнозированию Метки на основе Вектора задачи и Вектора работника.

Этап использования:

Получение новой цифровой задачи и определение ее Векторного представления.
Прогнозирование множества меток для этой задачи с использованием обученного MLA на основе Вектора задачи и набора Векторных представлений работников (профилей известных работников).
Определение финальной метки (например, путем агрегации).

Claim 7 (Зависимый пункт): Уточняет формирование Векторного представления задачи (из п.1). Оно включает определение одного или более латентных признаков обучающей задачи, которые влияют на выбор метки работником, и формирование вектора на основе этих признаков.

Claim 9 (Независимый пункт, Система): Описывает систему (сервер, процессор), сконфигурированную для выполнения способа, описанного в Claim 1. Техническая суть идентична Claim 1.

Где и как применяется

Этот патент не применяется напрямую ни на одном из этапов живого поиска (CRAWLING, INDEXING, QUERY PROCESSING, RANKING, BLENDER).

Он относится к Слою Качества и Метрик (QUALITY & GOVERNANCE LAYER), а именно к инфраструктуре офлайн-процессов и разметки данных.

Система используется внутри инфраструктуры краудсорсинговой платформы (например, Толока) (059) для повышения качества и эффективности генерации размеченных данных (Ground Truth), которые затем используются для обучения и валидации поисковых алгоритмов.

Взаимодействие с компонентами:

Взаимодействует с базой данных цифровых задач (121) для получения задач.
Взаимодействует с базой данных журналов (124) для получения историй действий работников и оценок качества.
Выполняется краудсорсинговым приложением (118) на сервере (102).

Входные и выходные данные:

На входе (Обучение): Обучающие цифровые задачи, сырые метки от асессоров, истории действий асессоров.
На выходе (Обучение): Обученный алгоритм MLA, способный предсказывать метки.
На входе (Использование): Новая цифровая задача, набор векторных профилей асессоров.
На выходе (Использование): Финальная (агрегированная) метка для новой задачи.

Ключевые технические особенности:

Использование векторных представлений (эмбеддингов) как для задач, так и для асессоров.
Моделирование индивидуальных смещений (bias) асессоров (латентные параметры).
Упоминание использования методов анализа смещений, таких как CONAL (Common Noise Adaptation Layers), Dawid-Skene или GLAD (089).

На что влияет

Качество данных для обучения: Основное влияние — повышение качества Ground Truth данных, которые используются для обучения других ML-моделей Яндекса, включая модели ранжирования и расчет метрик качества (например, Proxima).
Типы задач: Влияет на любые задачи, требующие человеческой оценки: классификация контента (065), попарное сравнение (например, оценка релевантности SERP) (069).
Ниши и География: Алгоритм агностичен к тематикам и географии, он применяется универсально ко всему конвейеру разметки данных.

Когда применяется

Алгоритм применяется в двух режимах:

Обучение: Выполняется офлайн, итеративно, по мере накопления новых данных от краудсорс-работников (095).
Использование (Инференс): Активируется, когда требуется получить метку для новой цифровой задачи. Система может использовать MLA вместо отправки задачи живым асессорам или в дополнение к ним (0113).
Условия применения: На этапе использования система выбирает набор векторных представлений работников, соответствующих заранее заданному условию (011). Как правило, это условие соответствует работникам с предыдущим коэффициентом успешности (оценкой качества), превышающим заданный порог (012, 0101). То есть система симулирует поведение только качественных асессоров.

Пошаговый алгоритм

Фаза А: Обучение MLA (Офлайн) (082)

Сбор данных: Обучающая цифровая задача (302) отправляется набору асессоров (304-308). Получаются сырые метки (312-316) (086). Из базы логов (124) извлекаются истории действий этих асессоров (088).
Векторизация Задачи: Анализ задачи (302) для идентификации латентных признаков (087). Генерация Векторного представления задачи (318).
Векторизация Работника и Анализ Смещений: Анализ историй действий и матриц несоответствий для определения латентных параметров (смещений) каждого асессора (089). Генерация Векторных представлений работников (322-326).
Формирование Триплетов: Создание обучающих объектов (330-334). Например: {Вектор задачи 318, Вектор работника 322, Метка 312}.
Обучение MLA: Обучение алгоритма (126) с использованием триплетов. Цель — научить модель предсказывать Метку по Вектору задачи и Вектору работника (094).

Фаза Б: Использование (Инференс/Продакшн) (096)

Получение Задачи: Поступление новой цифровой задачи (408) (099).
Выбор Профилей Работников: Идентификация набора подходящих профилей (историй) работников на основе заранее заданных критериев (например, высокая оценка качества для данного типа задач) (0101). Генерация соответствующего набора Векторных представлений работников (418).
Векторизация Задачи: Генерация Векторного представления задачи (416) для новой задачи (0105).
Прогнозирование (Симуляция): Использование обученного MLA (126) для прогнозирования метки для задачи, как если бы ее выполнял каждый из выбранных профилей работников (вводя Вектор задачи 416 и каждый Вектор работника из 418) (0106). Это дает набор предсказанных меток (420).
Агрегация: Объединение предсказанных меток (420) для определения финальной «истинной» метки. Используются методы мажорирования или взвешенного мажорирования (например, Dawid-Skene/GLAD) (0108).

Какие данные и как использует

Данные на входе

Контентные / Данные о задаче: Содержание самой цифровой задачи (текст, изображения, доступные варианты выбора) (066).
Поведенческие / Исторические данные (Истории действий работников): (077)
- Время регистрации асессора.
- Количество выполненных задач и время их выполнения.
- Количество задач в час.
- Виды выполненных задач.
- Идентификаторы выполненных задач и выбранные для них метки.
- Оценка качества или коэффициент успешности асессора (077).
Латентные признаки (Вычисляемые): (068) Характеристики задачи, которые могут вызывать смещения: размер шрифта, тип задачи, предполагаемая сложность, размер изображения, количество и местоположение меток для выбора. Для задач сравнения также учитываются лингвистические признаки (морфология, синтаксис, семантика) (069).

Какие метрики используются и как они считаются

Оценка качества / Коэффициент успешности: Измеряет надежность работника. Определяется на основе «задач-ловушек» (honeypots) (078) или путем сравнения с установленными истинными метками (079).
Векторное представление задачи: Генерируется с использованием ML-методов. В патенте упоминаются LSTM, BERT, CNN как возможные варианты реализации (087).
Векторное представление работника: Генерируется с использованием ML-методов (LSTM, BERT, CNN) (088). Может инициализироваться случайным вектором и улучшаться методом обратного распространения (090).
Латентный параметр: Указывает на степень смещения работника. Рассчитывается путем анализа Матрицы несоответствий. Для расчета могут использоваться методы CONAL (Common Noise Adaptation Layers), Dawid-Skene или GLAD (089).
Метрики агрегации: Мажорирование (Majority Vote) (074, 0108) и Взвешенная мажоритарная система (Weighted Majority) (0108).

Выводы

Инфраструктурный фокус: Патент полностью сосредоточен на конвейере разметки данных и не описывает алгоритмы ранжирования поиска.
Моделирование Асессора: Яндекс глубоко инвестирует в моделирование не только задачи, но и индивидуального асессора. Система признает, что человеческая оценка субъективна и подвержена смещениям (bias).
Явное моделирование смещений: Система эксплицитно моделирует смещения асессоров (латентные параметры) относительно характеристик задачи (латентные признаки).
Симуляция экспертов: Цель технологии — использовать ML для симуляции поведения высококачественных асессоров. Это позволяет Яндексу генерировать высококачественные обучающие данные автоматически, быстрее и, возможно, дешевле, чем полагаясь исключительно на людей.
Приоритет качества данных (Ground Truth): Качество данных, используемых для обучения алгоритмов ранжирования, имеет первостепенное значение. Этот патент демонстрирует сложные методы, которые Яндекс применяет для обеспечения этого качества.

Практика

ВАЖНО: Этот патент описывает внутренние процессы Яндекса для разметки данных и не дает прямых рекомендаций для SEO-тактик (таких как изменение контента, ссылок или технических настроек).

Best practices (это мы делаем)

Практики касаются понимания подхода Яндекса к качеству:

Осознание сложности оценки качества Яндексом: Необходимо понимать, что Яндекс не просто принимает голоса асессоров за чистую монету. Они анализируют самих асессоров, их историю, надежность и даже их скрытые смещения (bias).
Фокус на объективном качестве: Стратегия должна быть направлена на создание контента и пользовательского опыта, который соответствует стандартам высококачественных, непредвзятых экспертов. Система спроектирована так, чтобы отфильтровывать шум и имитировать экспертные оценки.

Worst practices (это делать не надо)

Недооценка системы оценки качества: Ошибочно полагать, что оценка качества Яндекса примитивна (например, основана на простом большинстве голосов низкоквалифицированных работников).
Попытки манипулировать оценкой: Попытки «обмануть» процесс оценки, полагаясь на поверхностные элементы, которые могут повлиять на низкокачественных асессоров, неэффективны. Система Яндекса явно пытается моделировать и потенциально игнорировать эти смещения, фокусируясь на профилях высококачественных работников.

Стратегическое значение

Стратегическое значение этого патента заключается в понимании фундамента ML-driven поиска Яндекса. Алгоритмы ранжирования (YATI, CatBoost, Proxima) хороши настолько, насколько хороши данные, на которых они обучаются. Этот патент демонстрирует приверженность Яндекса подходу Data-Centric AI, обеспечивая высочайшее качество обучающих данных за счет использования ИИ для валидации и генерации человекоподобных оценок. Это подтверждает, что понимание «качества» Яндексом является надежным и постоянно совершенствуется.

Практические примеры

Практических примеров для SEO по оптимизации сайта на основе этого патента нет, так как он касается исключительно внутренней инфраструктуры разметки данных.

Вопросы и ответы

Описывает ли этот патент новый фактор ранжирования?

Нет. Этот патент не описывает факторы или алгоритмы, используемые в ранжировании поисковой выдачи. Он полностью посвящен внутренней инфраструктуре Яндекса для разметки данных (Data Labeling) с использованием краудсорсинга и машинного обучения.

Какова основная цель этой технологии?

Основная цель — повысить точность разметки данных, получаемых через краудсорсинг. Вместо того чтобы просто агрегировать шумные данные от разных асессоров, Яндекс обучает модель ИИ симулировать поведение конкретных (особенно высококачественных) асессоров, учитывая их индивидуальные особенности и смещения.

Что такое «Векторное представление работника» и почему оно важно?

Это численный профиль (эмбеддинг) конкретного асессора. Он формируется на основе истории его действий и анализа его смещений (Latent Parameters). Это важно, потому что позволяет модели предсказать, как именно этот асессор отреагирует на задачу, вместо того чтобы рассматривать всех асессоров одинаково.

Что такое «Латентные признаки» и «Латентные параметры»?

Латентные признаки — это характеристики задачи, которые могут неосознанно влиять на асессора (например, размер шрифта, расположение кнопок). Латентные параметры — это мера того, насколько конкретный асессор подвержен смещению под влиянием этих признаков. Яндекс явно моделирует эти смещения.

Как это влияет на обучающие данные для моделей ранжирования Яндекса?

Это напрямую повышает качество Ground Truth данных. Модели ранжирования (например, использующие CatBoost или YATI) и метрики качества (например, Proxima) обучаются на этих данных. Чем точнее разметка, тем лучше будут работать алгоритмы ранжирования в реальном поиске.

Означает ли это, что Яндекс заменяет живых асессоров на ИИ?

Не полностью, но частично. Система обучается на данных живых асессоров (Этап обучения). Но на Этапе использования она может генерировать метки автоматически, симулируя поведение асессоров. Патент также упоминает возможность использования ИИ в дополнение к живым асессорам (0113).

Как система выбирает, чьи профили асессоров симулировать?

Патент указывает, что выбираются профили, соответствующие заранее заданному условию (011). Обычно это условие — высокий коэффициент успешности (Quality Score) асессора, превышающий определенный порог (012). То есть система стремится симулировать только лучших асессоров.

Как это связано с метрикой Proxima?

Proxima — это метрика качества страницы, которая обучается на оценках асессоров. Технология, описанная в этом патенте, используется для генерации этих самых оценок (меток). Чем точнее и надежнее эти метки, тем более качественной и объективной будет модель Proxima.

Как я могу применить эти знания в своей SEO-стратегии?

Прямых тактических применений нет. Однако это знание критически важно для понимания того, насколько серьезно Яндекс подходит к оценке качества. Не стоит рассчитывать на то, что оценка качества Яндекса примитивна или ее легко обмануть. Необходимо фокусироваться на создании объективно качественных ресурсов, которые высоко оценили бы эксперты.

Связано ли это с обработкой запросов (Query Processing) или ранжированием (Ranking)?

Нет. Эта технология работает офлайн в рамках Слоя Качества и Метрик (Quality & Governance Layer). Она не участвует в обработке живых поисковых запросов или ранжировании документов в реальном времени, но предоставляет данные для обучения этих систем.