Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс отбирает лучших асессоров для оценки новых типов задач, чтобы повысить качество обучения ML-алгоритмов

    METHODS AND SYSTEMS FOR GENERATING TRAINING DATA FOR COMPUTER-EXECUTABLE MACHINE LEARNING ALGORITHM WITHIN A COMPUTER-IMPLEMENTED CROWDSOURCE ENVIRONMENT (Методы и системы генерации обучающих данных для компьютерно-исполняемого алгоритма машинного обучения в компьютерно-реализованной краудсорсинговой среде)
    • US12353968B2
    • Yandex LLC
    • 2025-07-08
    • 2022-02-14
    2025 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс Холодный старт

    Яндекс патентует метод повышения качества обучающих данных (Training Data) для алгоритмов машинного обучения (MLA), генерируемых через краудсорсинг. Система решает проблему «холодного старта», прогнозируя эффективность асессора для нового типа задач на основе его прошлой производительности в других категориях, взвешенной по сложности выполненных заданий. Это гарантирует, что новые типы контента оцениваются наиболее квалифицированными исполнителями.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу обеспечения высокого качества обучающих данных (Training Data), генерируемых человеческими асессорами (Human Assessors) на краудсорсинговой платформе (например, Толока). Качество этих данных критично для обучения алгоритмов машинного обучения (MLA), включая поисковое ранжирование. Основная техническая проблема — «холодный старт»: как точно предсказать качество работы асессора для нового типа задачи (Digital Task), которую он ранее не выполнял. Неверный выбор исполнителя ведет к ошибкам в разметке, что ухудшает производительность MLA.

    Что запатентовано

    Запатентована система и метод отбора асессоров для генерации Training Data. Суть изобретения заключается в прогнозировании качества работы асессора на новом типе задач путем анализа его прошлой производительности (Past Performance) на других задачах. Система рассчитывает Class Score — метрику, агрегирующую успехи асессора в определенной категории задач с обязательным учетом их сложности (Difficulty).

    Как это работает

    Система анализирует историю выполнения задач. Задачи делятся на типы (Type) и классы (Class). Для каждого типа задач строится ранжированный список асессоров на основе их успешности, при этом применяются весовые коэффициенты (weighted coefficient) в зависимости от сложности задачи. Затем для асессора вычисляется относительный скор (например, перцентиль) по каждому типу. Эти скоры комбинируются для получения интегральной оценки Class Score. Когда появляется новая задача, система ранжирует асессоров по их Class Score (даже если задача из нового класса, согласно Claim 1) и назначает ее лучшим исполнителям.

    Актуальность для SEO

    Высокая. Качество и надежность обучающих данных являются фундаментом для современных систем машинного обучения, включая поисковое ранжирование и оценку качества контента (например, E-E-A-T, Proxima). Методы интеллектуального управления краудсорсинговыми ресурсами и обеспечения качества разметки критически важны для Яндекса.

    Важность для SEO

    Влияние на SEO значительно, но косвенное (7/10). Этот патент не описывает алгоритм ранжирования, но он описывает инфраструктуру, которая обеспечивает качество данных, на которых эти алгоритмы обучаются. Для SEO это означает, что Яндекс обладает высоконадежными данными об оценке качества сайтов (включая E-E-A-T и релевантность), особенно при оценке новых типов контента или сложных тематик (YMYL). Это снижает вероятность того, что низкокачественный контент будет высоко ранжироваться из-за ошибок в обучении ML-моделей.

    Детальный разбор

    Термины и определения

    Assessor (Асессор)
    Человек (исполнитель на краудсорсинговой платформе), выполняющий задачи для генерации обучающих данных. В контексте SEO — это люди, чьи оценки используются для обучения алгоритмов ранжирования и метрик качества.
    Class (Класс задач)
    Широкая категория задач, объединяющая несколько схожих типов. Например, «Перевод текстов» или «Оценка качества страниц».
    Class Score (Оценка класса)
    Интегральная метрика, рассчитываемая для асессора по определенному классу задач. Она является комбинацией оценок (Scores) за отдельные типы задач внутри этого класса. Используется для прогнозирования успешности асессора.
    Difficulty (Сложность)
    Характеристика задачи, указывающая на уровень требуемых усилий или квалификации. В патенте сложность используется для взвешивания успехов асессора.
    Digital Task (Цифровая задача, HIT)
    Конкретное задание, выполняемое асессором. Например, оценка релевантности документа запросу.
    Machine Learning Algorithm (MLA) (Алгоритм машинного обучения)
    Алгоритм (например, CatBoost, YATI, Proxima), который обучается на данных, сгенерированных асессорами.
    Past Performance (Прошлая производительность)
    Данные об успешности выполнения асессором прошлых задач, часто выраженные как Success Rate (доля правильных ответов).
    Score (Оценка, Скор)
    Метрика, указывающая на производительность асессора относительно других асессоров для конкретного типа задач. Часто реализуется как Percentile Score (перцентиль).
    Training Data (Обучающие данные)
    Набор данных (размеченные примеры), используемый для обучения MLA. Цель патента — повысить качество этих данных.
    Type (Тип задач)
    Конкретный вид задачи внутри класса.
    Weighted Coefficient (Взвешенный коэффициент)
    Множитель, применяемый к оценке выполнения задачи, основанный на ее сложности (Difficulty). Используется при построении ранжированных списков асессоров.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на методе выбора наиболее подходящего асессора для выполнения нового типа задачи, для которой у асессоров еще нет истории выполнения.

    Claim 1 (Независимый пункт): Описывает основной процесс отбора асессоров.

    1. Система получает доступ к данным асессоров, включая их прошлую производительность (Past Performance) на задачах Типа 1 и Типа 2, принадлежащих к Классу 1. Данные включают информацию о сложности (Difficulty) выполненных задач.
    2. Генерируются два ранжированных списка асессоров (для Типа 1 и Типа 2).
    3. Критически важно: Ранжирование основывается на прошлой производительности с учетом сложности. Для каждой выполненной задачи назначается взвешенный коэффициент (weighted coefficient) на основе ее сложности, который применяется к оценке выполнения этой задачи.
    4. Для конкретного асессора вычисляются Оценка 1 (для Типа 1) и Оценка 2 (для Типа 2). Эти оценки показывают его результативность относительно других асессоров (например, перцентиль).
    5. Вычисляется Class Score для Класса 1 путем комбинации Оценки 1 и Оценки 2.
    6. Поступает запрос на выполнение новой задачи Типа 3. В данном пункте (Claim 1) указано, что эта задача относится к Классу 2 (отличному от Класса 1), и асессоры ранее не выполняли задачи Класса 2.
    7. Асессоры ранжируются на основе их Class Scores, рассчитанных для Класса 1. Выбирается асессор с высоким рангом.
    8. Задача Типа 3 передается выбранному асессору, и его ответ используется для генерации Training Data для MLA.

    Ядро изобретения — это прогнозирование кросс-доменной эффективности. Система использует зафиксированную эффективность в известном классе задач (Класс 1), взвешенную по сложности, для прогнозирования эффективности в совершенно неизвестном классе задач (Класс 2). Это подразумевает, что Яндекс считает общую компетентность и успешность в одной области показателем потенциальной компетентности в другой.

    Где и как применяется

    Этот патент не является частью онлайн-процесса ранжирования поисковой выдачи. Он относится к офлайн-инфраструктуре Яндекса по управлению качеством данных и обучению моделей.

    QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)
    Это основная область применения изобретения. Система используется внутри краудсорсинговой платформы (например, Толока) для управления пулом асессоров и обеспечения качества Ground Truth данных.

    • Входные данные: История выполнения задач асессорами (Past Performance Data), включая типы, классы, сложность и процент успеха (Success Rate). Запрос на выполнение новой задачи.
    • Процесс: Система прогнозирует, какие асессоры лучше всего справятся с новой задачей, используя механизм Class Score. Это особенно важно при запуске новых проектов по оценке качества поиска или при оценке сложных/новых типов контента.
    • Выходные данные: Высококачественные размеченные данные (Training Data).

    RANKING (Ранжирование)
    Влияние на ранжирование косвенное. Training Data, сгенерированные с помощью этого метода, используются для обучения и валидации MLA, которые работают на слоях ранжирования (например, L3, где применяются тяжелые ML-модели и метрики качества типа Proxima).

    На что влияет

    • Качество обучения ML-моделей: Основное влияние — повышение точности и надежности алгоритмов ранжирования и классификаторов качества за счет обучения на более чистых данных.
    • Оценка новых типов контента: Система позволяет Яндексу быстро и качественно оценивать новые или редкие типы контента, для которых еще нет устоявшихся правил оценки, выбирая наиболее квалифицированных асессоров.
    • Сложные тематики (YMYL): Оценка YMYL контента часто является сложной задачей (High Difficulty). Патент описывает механизм, который учитывает сложность при ранжировании асессоров, гарантируя, что такие задачи достаются только самым опытным исполнителям, успешно справлявшимся со сложными задачами в прошлом.

    Когда применяется

    Алгоритм применяется всякий раз, когда на краудсорсинговой платформе необходимо назначить задачу асессорам для генерации Training Data.

    • Триггер активации: Появление новой задачи (Тип 3), для которой необходимо выбрать исполнителей, особенно если этот тип задачи ранее не выполнялся доступными асессорами (проблема «холодного старта»).
    • Условие работы: Наличие у асессоров истории выполнения других задач (Тип 1, Тип 2), позволяющей рассчитать Class Score.

    Пошаговый алгоритм

    Процесс выбора асессора для новой задачи.

    1. Сбор данных (Офлайн): Система агрегирует данные о прошлой производительности (Past Performance) всех асессоров. Для каждой выполненной задачи сохраняется ее Тип, Класс, Сложность (Difficulty) и результат (Успех/Неудача).
    2. Ранжирование по Типам (Офлайн):
      1. Для каждого существующего Типа задач (например, Тип 1) система строит ранжированный список асессоров.
      2. При расчете позиции в списке учитывается Success Rate асессора, но с применением весовых коэффициентов (weighted coefficient) на основе сложности задач (Claim 1). Успешное выполнение сложных задач дает больший вклад в ранг.
    3. Расчет относительных оценок (Офлайн): Для каждого асессора и каждого Типа задач вычисляется относительная оценка (Score). Эта оценка показывает его позицию относительно других (например, Percentile Score).
    4. Расчет Class Score (Офлайн): Для каждого Класса задач вычисляется Class Score. Он рассчитывается как комбинация (например, сумма) относительных оценок по разным типам задач внутри класса.
    5. Получение новой задачи (Онлайн): Поступает запрос на выполнение задачи нового Типа 3.
    6. Ранжирование асессоров для новой задачи (Онлайн):
      • Если Тип 3 принадлежит к существующему Классу А: Асессоры ранжируются по их Class Score для Класса А.
      • Если Тип 3 принадлежит к новому Классу С (как описано в Claim 1): Асессоры ранжируются по их существующим Class Scores (например, по Классу А или агрегированной оценке по нескольким классам), чтобы найти исполнителей с лучшей общей производительностью.
    7. Назначение задачи (Онлайн): Задача Типа 3 назначается асессору, занявшему верхнюю позицию в ранжированном списке.
    8. Генерация данных (Онлайн): Ответ, полученный от выбранного асессора, используется как Training Data для MLA.

    Какие данные и как использует

    Данные на входе

    Патент описывает использование исключительно данных о производительности асессоров на краудсорсинговой платформе. Он не использует контентные, ссылочные, поведенческие (в смысле поведения пользователей на сайте) или технические SEO-факторы.

    • Данные об асессорах и задачах:
      • Идентификаторы асессоров и задач.
      • Классификация задач: Class (Класс) и Type (Тип).
      • Difficulty (Сложность): Метка сложности для каждой задачи (например, easy, medium, hard).
      • Past Performance (Прошлая производительность) / Success Rate: Результаты выполнения задач асессорами.

    Какие метрики используются и как они считаются

    • Ranking Score (Ранговый балл): Метрика для построения ранжированного списка. Рассчитывается на основе Success Rate с применением взвешенных коэффициентов (weighted coefficient), зависящих от Difficulty (Claim 1). Конкретная формула расчета в патенте не приводится.
    • Score / Percentile Score (Относительная оценка / Перцентиль): После построения ранжированного списка позиция асессора конвертируется в относительную оценку. В патенте (Claims 6, 7, 13, 14) указывается, что это может быть перцентильный балл.
    • Class Score (Оценка класса): Агрегированная метрика. Рассчитывается как комбинация относительных оценок (Scores) по разным типам задач внутри одного класса.
    • Aggregate Class Score (Агрегированная оценка класса): В описании патента упоминается возможность использования суммы Class Scores по разным классам для оценки общей квалификации асессора при работе с совершенно новыми классами задач.

    Выводы

    1. Качество данных — приоритет Яндекса: Патент демонстрирует, что Яндекс инвестирует в сложную инфраструктуру для обеспечения максимального качества обучающих данных, используемых для ML-алгоритмов (включая ранжирование и оценку качества, например, Proxima).
    2. Интеллектуальный отбор асессоров: Система не просто использует любых доступных асессоров. Она активно профилирует их навыки и прогнозирует их успешность на новых задачах, используя трансфер навыков внутри класса или даже между разными классами задач.
    3. Учет сложности задач (Difficulty): Ключевым элементом является взвешивание производительности асессора по сложности выполненных задач (Claim 1). Это гарантирует, что сложные задачи (например, оценка YMYL-контента или сложный анализ релевантности) поручаются только тем, кто доказал свою способность справляться с высокой сложностью.
    4. Надежность оценок E-E-A-T: Для SEO это означает, что оценки качества, на которых обучаются метрики вроде Proxima, с высокой вероятностью генерируются квалифицированными и профильными специалистами. Надежность этих данных высока.
    5. Быстрая адаптация к новому контенту: Механизм позволяет Яндексу быстро получать качественные оценки для новых типов контента или новых поисковых сценариев, решая проблему «холодного старта».

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает внутренние процессы Яндекса по управлению асессорами, он дает важное понимание надежности системы оценки качества, что влияет на SEO-стратегию.

    • Фокус на подлинном качестве и E-E-A-T: Необходимо ориентироваться на создание контента, который удовлетворит квалифицированного и внимательного human assessor. Патент подтверждает, что Яндекс стремится использовать именно таких асессоров для генерации обучающих данных. Не стоит рассчитывать на то, что низкое качество останется незамеченным из-за «шума» в обучающих данных.
    • Глубокая проработка YMYL-тематик: Оценка YMYL-контента является сложной задачей (High Difficulty). Система Яндекса отбирает для таких задач асессоров, которые имеют высокий ранг с учетом сложности. Это требует соответствия самым строгим стандартам качества, экспертности и достоверности.
    • Специализация и экспертность в нише: Система идентифицирует асессоров с высоким Class Score в конкретных областях. Это означает, что нишевый контент, вероятно, будет оцениваться людьми, хорошо разбирающимися в данной тематике. Контент должен удовлетворять запросы экспертов.

    Worst practices (это делать не надо)

    • Попытки обмана асессоров или ML-моделей: Использование тактик, рассчитанных на невнимательность асессора или на «зашумленность» обучающих данных. Описанная система направлена на минимизацию такого шума и повышение квалификации исполнителей.
    • Поверхностный контент в сложных тематиках: Создание неэкспертного контента в YMYL или других сложных нишах с расчетом на то, что его будут оценивать неквалифицированные исполнители. Система Яндекса приоритизирует опытных асессоров для сложных задач.
    • Игнорирование инструкций для асессоров: Понимание критериев, по которым асессоры оценивают качество, критически важно, так как именно эти критерии лежат в основе Training Data, генерируемых лучшими исполнителями.

    Стратегическое значение

    Патент подтверждает стратегическую важность инфраструктуры оценки качества для Яндекса. Качество поиска напрямую зависит от качества обучающих данных. Для SEO это означает, что долгосрочная стратегия должна строиться на фундаментальном качестве ресурса и соответствии критериям E-E-A-T, так как система оценки Яндекса становится все более надежной и точной, способной быстро адаптироваться к новым типам контента и выявлять манипуляции даже в сложных тематиках.

    Практические примеры

    Сценарий: Оценка нового типа медицинского контента (YMYL)

    1. Задача Яндекса: Необходимо обучить MLA оценивать качество сайтов по новой узкой медицинской тематике (например, «Протоколы лечения нового штамма вируса»). Это сложная задача (High Difficulty), Класс: «Медицина», Тип: «Новый штамм» (новый).
    2. Действие системы (по патенту): Система анализирует прошлую работу асессоров на других медицинских задачах (Типы: «Кардиология», «Фармакология»). Она строит ранжированные списки, отдавая предпочтение тем, кто успешно выполнял сложные задачи в этих типах (учет Difficulty и weighted coefficient).
    3. Расчет Class Score: Вычисляется Class Score для класса «Медицина».
    4. Выбор асессоров: Для оценки нового типа контента («Новый штамм») выбираются асессоры с наивысшим Class Score в классе «Медицина».
    5. Результат для SEO: Сайты по этой новой тематике будут оцениваться наиболее квалифицированными в медицине асессорами. Только сайты с высоким уровнем экспертности, авторитетности и достоверности (E-E-A-T) получат высокие оценки, которые лягут в основу обучения MLA. Поверхностный контент будет быстро и точно классифицирован как низкокачественный.

    Вопросы и ответы

    Описывает ли этот патент новый фактор ранжирования?

    Нет, этот патент не описывает фактор ранжирования сайтов в поисковой выдаче. Он описывает внутренний механизм Яндекса для управления качеством работы асессоров на краудсорсинговой платформе. Цель этого механизма — повысить качество обучающих данных (Training Data), которые затем используются для обучения алгоритмов машинного обучения, включая алгоритмы ранжирования.

    Какова основная проблема, которую решает этот патент?

    Основная проблема — это «холодный старт» для асессоров при появлении новых типов задач. Сложно предсказать, насколько хорошо конкретный асессор справится с задачей, которую он никогда раньше не выполнял. Патент предлагает метод прогнозирования этой успешности на основе анализа его прошлой работы над другими, смежными или даже несвязанными задачами, с учетом их сложности.

    Что такое Class Score и как он используется?

    Class Score — это интегральная оценка квалификации асессора в рамках определенного класса задач (например, «Оценка медицинского контента» или «Классификация изображений»). Он рассчитывается путем комбинирования оценок (Scores) асессора за выполнение различных типов задач внутри этого класса, взвешенных по сложности. Class Score используется для ранжирования асессоров и выбора лучших исполнителей для новых задач.

    Как система учитывает сложность (Difficulty) задач?

    Система учитывает сложность при построении ранжированных списков асессоров. В Claim 1 явно указано, что к оценке выполнения задачи применяется взвешенный коэффициент (weighted coefficient), основанный на ее сложности. Это означает, что асессоры, успешно выполняющие сложные задачи, получают более высокий рейтинг, чем те, кто выполняет только легкие задачи, даже если их общий процент успеха (Success Rate) одинаков.

    Как это влияет на оценку YMYL-сайтов?

    Влияние критически важно. Оценка YMYL-контента (медицина, финансы) считается задачей высокой сложности. Благодаря описанному механизму, Яндекс гарантирует, что такие задачи поручаются только тем асессорам, которые доказали свою способность успешно справляться со сложными заданиями в прошлом. Это повышает надежность оценок E-E-A-T и качество обучения ML-моделей (например, Proxima), ответственных за ранжирование YMYL-тематик.

    Что произойдет, если появится задача совершенно нового класса?

    Патент (Claim 1) описывает и этот сценарий. Если задача относится к совершенно новому классу, в котором ни у кого нет опыта, система ранжирует асессоров на основе их Class Scores в других, уже существующих классах. Это позволяет выбрать асессоров, которые демонстрируют высокую общую производительность и способность адаптироваться к разным типам задач, предполагая, что они лучше справятся с новым классом.

    Какое стратегическое значение этот патент имеет для SEO-специалистов?

    Стратегическое значение заключается в понимании того, что Яндекс обладает высоконадежной инфраструктурой для генерации обучающих данных. Это означает, что ML-модели ранжирования обучаются на очень качественных оценках. Ставка на манипуляции или попытки обмануть систему становятся менее эффективными. Необходимо фокусироваться на подлинном качестве и экспертности контента, который удовлетворит квалифицированного специалиста.

    Используется ли машинное обучение в самом этом методе отбора асессоров?

    В патенте не указано, что для расчета Ranking Score или Class Score используется машинное обучение. Описанный метод основан на статистическом анализе, ранжировании, расчете перцентилей и применении взвешенных коэффициентов на основе сложности задач. MLA упоминается только как потребитель обучающих данных, генерируемых этой системой.

    Могу ли я как SEO-специалист повлиять на метрики, описанные в патенте (Class Score, Difficulty)?

    Нет, напрямую повлиять на эти метрики невозможно. Это внутренние метрики краудсорсинговой платформы Яндекса, используемые для управления асессорами. SEO-специалист должен сосредоточиться на качестве своего сайта, понимая, что его будут оценивать (через обучение ML-моделей) на основе данных от лучших доступных асессоров.

    Означает ли этот патент, что Яндекс использует только ручную оценку сайтов для ранжирования?

    Нет. Яндекс использует автоматизированное ранжирование на основе алгоритмов машинного обучения (MLA). Однако эти алгоритмы обучаются на данных, подготовленных людьми (асессорами). Этот патент описывает, как Яндекс обеспечивает высокое качество этих подготовительных данных, чтобы автоматические алгоритмы работали максимально точно.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.