Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс повышает качество обучающих данных для ML-алгоритмов путем оптимизации пула асессоров

    METHOD AND SYSTEM FOR GENERATING TRAINING DATA FOR A MACHINE-LEARNING ALGORITHM (Метод и система генерации обучающих данных для алгоритма машинного обучения)
    • US20220292396A1
    • Yandex LLC
    • 2022-09-15
    • 2022-01-14
    2022 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

    Яндекс патентует метод улучшения качества данных, используемых для обучения ключевых ML-алгоритмов (включая ранжирование и метрики качества). Система анализирует согласованность ответов асессоров и их индивидуальные оценки качества. На основе этого вычисляется «Метрика Согласованности» (Consistency Metric), которая максимизируется для отбора наиболее надежных асессоров и фильтрации зашумленных данных. Это позволяет повысить точность работы алгоритмов, основанных на машинном обучении.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу повышения качества и снижения зашумленности (noise) обучающих данных, получаемых через краудсорсинговые платформы (например, Яндекс.Толока) для обучения алгоритмов машинного обучения (MLA). Основная проблема существующих подходов — зависимость от контрольных заданий («honey pots») для оценки качества асессоров. Это неэффективно, так как мошенники (fraudsters) могут научиться распознавать контрольные задания и выполнять их точно, при этом выполняя остальные задания некачественно. Патент предлагает метод контроля качества данных и отбора асессоров, не требующий увеличения количества контрольных заданий.

    Что запатентовано

    Запатентована система генерации и валидации обучающих данных для MLA. Суть изобретения заключается в вычислении и максимизации «Метрики Согласованности» (Consistency Metric) группы асессоров. Эта метрика оценивает апостериорную вероятность того, что большинство асессоров дало правильный ответ на задание, учитывая их индивидуальные оценки качества (Quality Scores). Система использует эту метрику для двух целей: (1) отбора оптимального набора асессоров для будущих заданий и (2) фильтрации уже собранных данных, отбрасывая те, где согласованность ниже порога.

    Как это работает

    Система анализирует результаты выполнения задания группой асессоров, а также их исторические Quality Scores. Используя специальную формулу (подробно описанную в патенте), система вычисляет Consistency Metric — вероятность того, что ответ большинства является верным. Если метрика низкая, система итеративно исключает асессоров, чьи ответы отличаются от большинства, до тех пор, пока метрика не достигнет порогового значения. Полученный оптимизированный набор асессоров используется для последующих заданий. Кроме того, уже собранные данные проверяются: если их Consistency Metric ниже порога, они отбраковываются и не используются для обучения MLA.

    Актуальность для SEO

    Высокая. Качество обучающих данных является критическим фактором для эффективности современных поисковых систем, которые полагаются на сложные ML-модели (ранжирование, классификаторы, метрики качества типа Proxima). Описанные методы оптимизации работы асессорских пулов и контроля качества разметки крайне актуальны для повышения точности этих моделей.

    Важность для SEO

    Влияние на SEO среднее и косвенное (6/10). Патент описывает внутренние процессы Яндекса по генерации обучающих данных и не содержит прямых рекомендаций для SEO. Однако он имеет важное стратегическое значение. Улучшение качества обучающих данных напрямую ведет к повышению точности и робастности ML-алгоритмов Яндекса, включая ранжирование и метрики качества (Proxima). Это означает, что алгоритмы будут лучше отличать подлинное качество и релевантность от попыток манипуляций, так как они обучаются на более чистом и согласованном наборе данных.

    Детальный разбор

    Термины и определения

    Assessor (Асессор)
    Человек, выполняющий цифровые задания (digital tasks) на краудсорсинговой платформе для генерации размеченных данных.
    Consistency Metric (Метрика Согласованности)
    Ключевая метрика патента. Представляет собой апостериорную вероятность (a posteriori probability) того, что результат, предоставленный большинством асессоров, является правильным ответом на данное задание. Вычисляется на основе индивидуальных ответов и оценок качества асессоров.
    Control Digital Task / Honey Pot (Контрольное задание)
    Задание с заранее известным правильным ответом. Используется для оценки точности работы асессора и вычисления его Quality Score.
    Digital Task / HIT (Цифровое задание)
    Задача, выполняемая асессором (например, классификация изображений, оценка релевантности документа запросу).
    Fraudster (Мошенник)
    Асессор, который может научиться распознавать контрольные задания и выполнять их верно для поддержания высокого Quality Score, при этом выполняя остальные задания некачественно или случайно.
    Machine-Learning Algorithm (MLA) (Алгоритм машинного обучения)
    Алгоритм (например, нейронная сеть, градиентный бустинг), который обучается на размеченных данных. В контексте поиска это могут быть алгоритмы ранжирования, классификаторы или метрики качества.
    Majority Vote (Голос большинства)
    Результат выполнения задания, который выбрало большинство асессоров в группе.
    Quality Score (Оценка качества асессора)
    Метрика, оценивающая качество работы конкретного асессора, часто основанная на точности выполнения им контрольных заданий. Используется как входной параметр для расчета Consistency Metric.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на двух основных применениях Метрики Согласованности: отбор асессоров и фильтрация данных.

    Claim 1 (Независимый пункт): Описывает метод генерации обучающих данных путем оптимизации пула асессоров.

    1. Система получает данные асессоров, включая их прошлую производительность и результаты выполнения текущего задания.
    2. На основе этих результатов определяется набор асессоров таким образом, чтобы Consistency Metric для этого набора была максимизирована.
    3. Критически важно: Consistency Metric определяется как апостериорная вероятность того, что результат большинства является корректным.
    4. Последующее задание отправляется этому оптимизированному набору асессоров.
    5. Результаты выполнения последующего задания используются для генерации обучающих данных для MLA.

    Цель — сформировать группу асессоров, которая с максимальной вероятностью даст согласованные и корректные ответы на будущие задания. Это достигается путем максимизации метрики, учитывающей как согласие большинства, так и индивидуальное качество участников.

    Claim 2 (Зависимый от 1): Уточняет формулу для расчета Consistency Metric.

    Этот пункт фиксирует конкретную математическую реализацию метрики (см. раздел 4.2), которая позволяет взвешивать ответы асессоров на основе их Quality Scores ($q_{wi}$). Формула учитывает вероятность правильного ответа ($q_{wi}$) и вероятность ошибки ($(1-q_{wi})/(K-1)$, где K — количество вариантов ответа) для каждого асессора в контексте голоса большинства ($Z^{MV}$).

    Claim 11 (Независимый пункт): Описывает метод определения качества уже сгенерированных обучающих данных.

    1. Система получает набор данных, включающий множество ответов на задание от группы асессоров.
    2. Вычисляется Consistency Metric для этого набора ответов.
    3. Если метрика равна или превышает предопределенный порог согласованности (predetermined consistency threshold), набор данных используется для обучения MLA.
    4. Если метрика ниже порога, набор данных отбрасывается.

    Цель — обеспечить, чтобы только высококачественные и согласованные данные использовались для обучения алгоритмов, фильтруя зашумленные или спорные результаты.

    Где и как применяется

    Этот патент описывает инфраструктурные процессы, связанные с обучением ML-моделей, а не с онлайн-обработкой поисковых запросов. Он применяется на этапе подготовки данных для обучения алгоритмов, используемых в поиске.

    QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)

    Изобретение напрямую связано с этим слоем, так как он отвечает за генерацию метрик качества, таких как Proxima. Proxima обучается на оценках асессоров. Описанный в патенте механизм применяется для:

    • Оптимизации пула асессоров: Отбор наиболее надежных и согласованных асессоров для разметки данных, используемых при обучении Proxima и других метрик качества.
    • Фильтрации обучающих данных: Валидация собранных оценок и отбраковка тех, где наблюдается низкая согласованность (Consistency Metric ниже порога).

    RANKING (Ранжирование) — Офлайн Компоненты

    Алгоритмы ранжирования (например, CatBoost) также обучаются на данных, размеченных асессорами (оценки релевантности). Механизм применяется для повышения качества этих обучающих данных.

    Система взаимодействует с краудсорсинговой платформой (например, Толока) и базами данных асессоров (Assessor Database) и заданий (Task Database).

    • Входные данные: Идентификаторы асессоров, их исторические Quality Scores, результаты выполнения заданий.
    • Выходные данные: Оптимизированные наборы асессоров для будущих заданий; валидированные (очищенные) обучающие данные для MLA.

    На что влияет

    Патент влияет на качество и точность всех систем Яндекса, использующих машинное обучение, обученное на краудсорсинговых данных.

    • Метрики Качества (Proxima): Повышение точности оценки качества сайтов и страниц.
    • Ранжирование: Повышение точности определения релевантности.
    • Классификаторы: Улучшение работы классификаторов контента (например, определение тематик, спама, YMYL-признаков).

    Влияние не ограничено конкретными типами контента, запросов, нишами или языками, так как методология применима к любым задачам разметки данных.

    Когда применяется

    Алгоритм применяется в процессе генерации и валидации обучающих данных.

    • Условия активации (Отбор асессоров): При получении нового задания система может активировать процесс оптимизации пула асессоров на основе их прошлой согласованности (Claim 1). Также может применяться периодически для переоценки пула.
    • Условия активации (Фильтрация данных): После сбора результатов выполнения задания группой асессоров для проверки качества собранных данных (Claim 11).
    • Пороговые значения: Ключевым элементом является predetermined consistency threshold. Если Consistency Metric ниже этого порога, активируется процесс максимизации (путем исключения асессоров) или данные отбраковываются.

    Пошаговый алгоритм

    Процесс А: Оптимизация набора асессоров (на основе Claim 1)

    1. Сбор данных: Система получает данные о выполнении задания группой асессоров. Эти данные включают ответы каждого асессора и их текущие Quality Scores.
    2. Определение большинства: Идентификация ответа, который дало большинство асессоров (Majority Vote, $Z^{MV}$).
    3. Вычисление метрики: Расчет исходного значения Consistency Metric для всей группы по формуле из патента.
    4. Проверка порога: Сравнение метрики с предопределенным порогом согласованности.
    5. Максимизация (Итеративная оптимизация): Если метрика ниже порога:
      1. Идентификация асессоров, чьи ответы отличаются от Majority Vote.
      2. Исключение одного или нескольких таких асессоров из группы.
      3. Перерасчет Consistency Metric для нового состава группы.
      4. Повторение процесса до тех пор, пока метрика не превысит порог или пока дальнейшее исключение невозможно.
    6. Фиксация набора: Определение финального оптимизированного набора асессоров.
    7. Применение: Использование этого набора асессоров для выполнения последующих заданий.

    Процесс Б: Фильтрация обучающих данных (на основе Claim 11)

    1. Получение данных: Система извлекает набор уже собранных данных (ответы группы асессоров на задание).
    2. Вычисление метрики: Расчет Consistency Metric для этого набора данных.
    3. Принятие решения:
      • Если метрика ≥ порога: Данные принимаются и используются для обучения MLA.
      • Если метрика < порога: Данные отбраковываются (Discarding).

    Какие данные и как использует

    Данные на входе

    Патент фокусируется исключительно на данных, связанных с процессом ассессмента. В нем не упоминаются контентные, ссылочные, технические или поведенческие факторы ранжирования сайтов.

    • Assessor Data (Данные асессоров):
      • Идентификаторы асессоров.
      • Quality Scores ($S_{wi}$ или $q_{wi}$): Индивидуальные оценки качества (надежности) каждого асессора. В патенте указано, что они могут быть определены на основе выполнения контрольных заданий (control digital tasks).
      • Данные о прошлой производительности (past performance).
    • Task Data (Данные о заданиях):
      • Результаты выполнения задания ($y_{wi}$): Конкретные ответы (метки, оценки), данные каждым асессором.
      • Тип задания и количество возможных ответов (K).

    Какие метрики используются и как они считаются

    Единственной ключевой вычисляемой метрикой является Consistency Metric.

    Consistency Metric (Метрика Согласованности)

    Метрика рассчитывается по следующей формуле (Equation 1 в патенте):

    $$Pr(z^{MV}|y_{w_{1}},…,y_{w_{n}}) = \frac{\prod_{i=1,…,n} q_{w_{i}}^{\delta(z^{MV}=y_{w_{i}})}((1-q_{w_{i}})/(K-1))^{\delta(z^{MV} \neq y_{w_{i}})}}{\sum_{z=1,…,K} \prod_{i=1,…,n} q_{w_{i}}^{\delta(z=y_{w_{i}})}((1-q_{w_{i}})/(K-1))^{\delta(z \neq y_{w_{i}})}}$$

    Где:

    • $Z^{MV}$ — результат, выбранный большинством (Majority Vote).
    • $y_{wi}$ — результат, предоставленный асессором $i$.
    • $q_{wi}$ — взвешенная оценка качества (Quality Score) асессора $i$ (например, $S_{wi}/100$).
    • $K$ — количество возможных классов (вариантов ответа).
    • $\delta$ — бинарная функция (1, если условие верно, иначе 0).

    Интерпретация формулы:

    Формула рассчитывает вероятность того, что голос большинства ($Z^{MV}$) является истинным ответом, учитывая набор полученных ответов ($y_{w1}…y_{wn}$).

    • Числитель оценивает вероятность наблюдаемого набора ответов при условии, что $Z^{MV}$ верен. Для асессоров, согласившихся с большинством, учитывается их вероятность дать правильный ответ ($q_{wi}$). Для несогласных учитывается вероятность ошибки ($(1-q_{wi})/(K-1)$).
    • Знаменатель является нормализующим коэффициентом, суммирующим вероятности по всем возможным истинным ответам (z).

    Эта формула позволяет численно оценить надежность агрегированного мнения группы, взвешивая его по качеству участников.

    Пороговые значения:

    • Predetermined Consistency Threshold: Порог для Consistency Metric. В патенте приводятся примеры значений 0.7, 0.8 или 0.9.

    Выводы

    1. Качество данных для ML — стратегический приоритет: Патент демонстрирует, что Яндекс инвестирует в сложные математические методы для обеспечения высокого качества обучающих данных, получаемых от асессоров. Это фундамент для работы всех ML-систем в поиске.
    2. Отход от простых оценок качества асессоров: Яндекс не полагается только на индивидуальные Quality Scores (основанные на контрольных заданиях). Вместо этого используется комплексная оценка согласованности группы (Consistency Metric), которая учитывает и индивидуальное качество, и мнение большинства.
    3. Повышение точности Proxima и Ранжирования: Прямым следствием внедрения этого метода является повышение качества данных для обучения ключевых алгоритмов, таких как Proxima и основная формула ранжирования. Алгоритмы будут обучаться на более чистых, менее зашумленных и более согласованных данных.
    4. Усиление роли человеческого восприятия: Алгоритмы, обученные на таких данных, будут лучше аппроксимировать согласованное человеческое восприятие качества и релевантности.
    5. Борьба с мошенничеством в разметке: Метод позволяет эффективнее выявлять асессоров, дающих несогласованные ответы (включая ботов или мошенников), даже если им удается обходить стандартные контрольные задания.

    Практика

    Best practices (это мы делаем)

    Патент описывает внутренние процессы Яндекса по генерации обучающих данных и не дает прямых рекомендаций для SEO. Однако он подтверждает важность следующих стратегических направлений:

    • Фокус на качестве, соответствующем человеческому восприятию: Поскольку Яндекс совершенствует методы сбора и очистки асессорских оценок, его ML-алгоритмы (включая Proxima) будут все точнее отражать согласованное мнение людей о качестве контента. Стратегия должна быть направлена на создание контента, который высоко оценит живой человек (асессор).
    • Обеспечение однозначности и достоверности контента: Контент, который вызывает споры или неоднозначную трактовку у асессоров, может привести к низкой Consistency Metric при разметке. Хотя это внутренний процесс Яндекса, он подчеркивает важность ясности, точности и достоверности информации на сайте (элементы E-E-A-T).
    • Анализ выдачи с позиции асессора: При анализе SERP и конкурентов необходимо оценивать сайты с точки зрения инструкций асессоров (насколько сайт полезен, достоверен, удобен). Это позволяет лучше понять целевые показатели качества, которые закладываются в обучающие данные.

    Worst practices (это делать не надо)

    • Ставка на эксплуатацию алгоритмических слабостей: По мере того как обучающие данные становятся чище, ML-модели становятся более робастными и устойчивыми к шуму и манипуляциям. Тактики, основанные на использовании «серых зон» алгоритмов, становятся менее эффективными.
    • Имитация качества: Попытки имитировать сигналы качества без реального улучшения пользовательского опыта будут менее успешными, так как улучшенные метрики качества (обученные на более чистых данных) смогут лучше распознавать подделку.

    Стратегическое значение

    Патент имеет важное стратегическое значение, подтверждая курс Яндекса на Data-Driven подход к качеству поиска. Улучшение инфраструктуры сбора и валидации обучающих данных — это долгосрочная инвестиция в качество ML-алгоритмов. Для SEO это означает, что разрыв между тем, что считает качественным человек, и тем, что считает качественным алгоритм, будет сокращаться. Долгосрочная SEO-стратегия должна базироваться на фундаментальных принципах качества, полезности и удовлетворенности пользователя, так как именно эти параметры лежат в основе данных, качество которых оптимизирует данный патент.

    Практические примеры

    Практических примеров применения для SEO нет, так как патент описывает внутреннюю инфраструктуру Яндекса по управлению асессорами и генерации обучающих данных. SEO-специалисты не могут напрямую взаимодействовать с описанной системой или влиять на расчет Consistency Metric.

    Вопросы и ответы

    Влияет ли этот патент напрямую на ранжирование сайтов?

    Нет, напрямую не влияет. Патент не описывает алгоритм ранжирования. Он описывает метод повышения качества обучающих данных (training data), которые используются для тренировки алгоритмов машинного обучения Яндекса, включая алгоритмы ранжирования и метрики качества. Влияние косвенное: чем лучше обучающие данные, тем точнее работает ранжирование.

    Как этот патент связан с метрикой Proxima?

    Связь прямая. Proxima — это метрика качества, основанная на машинном обучении, которое тренируется на оценках асессоров. Патент описывает механизм отбора лучших асессоров и фильтрации некачественных (несогласованных) оценок. Внедрение этого метода позволяет обучать Proxima на более чистых и надежных данных, что повышает точность ее работы в оценке качества сайтов.

    Что такое Consistency Metric (Метрика Согласованности)?

    Это ключевое понятие патента. Consistency Metric — это апостериорная вероятность того, что ответ, данный большинством асессоров, является правильным. Она рассчитывается по сложной формуле, которая учитывает не только количество голосов за тот или иной вариант, но и индивидуальные оценки качества (Quality Scores) каждого асессора. Высокая метрика означает, что группа надежных асессоров пришла к консенсусу.

    Зачем нужна эта метрика, если у асессоров уже есть оценка качества (Quality Score)?

    Индивидуальные Quality Scores часто основаны на контрольных заданиях («honey pots»), которые асессоры-мошенники могут научиться распознавать. Consistency Metric позволяет оценить качество работы группы на реальных заданиях и выявить несогласованность, которая может указывать на сложность задания, ошибки в инструкции или наличие ненадежных асессоров в группе, даже если их формальный Quality Score высок.

    Как Яндекс использует эту метрику?

    Патент описывает два основных применения. Первое — оптимизация пула асессоров: система исключает из группы тех, кто систематически не согласен с большинством, максимизируя Consistency Metric, и использует оптимизированный пул для будущих заданий. Второе — фильтрация данных: если Consistency Metric для уже собранных данных ниже заданного порога (например, ниже 0.7), эти данные отбраковываются и не используются для обучения ML-алгоритмов.

    Что это значит для будущего SEO?

    Стратегически это означает, что алгоритмы Яндекса будут становиться «умнее» и точнее. Поскольку они обучаются на более качественных данных, они будут лучше отличать подлинное качество и релевантность от манипуляций. Это подтверждает необходимость фокусироваться на создании ценности для пользователя и соответствии критериям E-E-A-T, так как алгоритмы все лучше аппроксимируют человеческое восприятие качества.

    Может ли мой сайт быть пессимизирован из-за этого патента?

    Сам патент не является механизмом пессимизации. Однако, если ваш сайт продвигается методами, которые эксплуатируют шумы или неточности в алгоритмах, то по мере улучшения качества обучающих данных (благодаря этому патенту) эти методы перестанут работать. Алгоритмы качества (как Proxima) станут более чувствительными к низкокачественному контенту, что может привести к снижению позиций таких сайтов.

    Нужно ли мне что-то менять на сайте в связи с этим патентом?

    Конкретных технических изменений этот патент не требует. Он служит подтверждением того, что необходимо продолжать работу над улучшением качества сайта, его удобства, полезности и достоверности контента. Убедитесь, что ваш контент однозначно полезен и решает задачу пользователя, так как именно это оценивают асессоры, чьи данные валидируются с помощью этого патента.

    Влияет ли это на поведенческие факторы (ПФ) пользователей в поиске?

    В патенте поведенческие факторы пользователей на сайте не упоминаются. Речь идет исключительно о поведении асессоров при выполнении заданий (их ответах и согласованности). Патент не описывает сбор или использование данных о кликах пользователей в выдаче или их поведении на сайтах.

    Является ли этот метод заменой контрольных заданий для асессоров?

    Нет, он дополняет их. Контрольные задания по-прежнему используются для расчета базовых индивидуальных оценок качества асессоров (Quality Scores). Однако описанный метод использует эти оценки как входные данные для расчета Consistency Metric, что позволяет контролировать качество разметки более эффективно, не увеличивая количество контрольных заданий.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.