Яндекс патентует метод создания обучающих данных (Ground Truth) для ML-алгоритмов ранжирования. Вместо поиска «единственно верной» оценки релевантности система вычисляет распределение вероятных оценок, учитывая уровень экспертизы асессоров, их личные тенденции (Bias) и сложность задачи. Это позволяет обучать модели на более реалистичных данных, признавая субъективность человеческих оценок.
Описание
Какую задачу решает
Патент решает фундаментальную проблему подготовки качественных обучающих данных (Ground Truth) для алгоритмов машинного обучения (MLA) в поиске. Ключевая проблема заключается в «помехах» (шуме), ошибках и субъективности оценок релевантности, предоставляемых людьми (асессорами или краудсорсерами). Традиционные методы (например, голосование большинства) исходят из предположения о существовании «единственной истинной отметки». Патент устраняет этот недостаток, признавая, что из-за сложности задачи или личных предпочтений (например, относительно важности новизны, дизайна или бренда) даже опытные эксперты могут расходиться во мнениях, и единой истины может не существовать.
Что запатентовано
Запатентован способ создания обучающего объекта для MLA. Суть изобретения — отказ от поиска единственной усредненной оценки релевантности. Вместо этого система генерирует распределение средней отметки (Distribution of the Average Mark). Это распределение представляет собой диапазон воспринимаемых отметок (Perceived Marks) — субъективных, но истинных интерпретаций релевантности — и связанных с ними вероятностей.
Как это работает
Система анализирует оценки, полученные от нескольких экспертов для одного документа. Ключевой механизм — моделирование разницы между тем, что эксперт воспринял как истинную оценку (Воспринимаемая отметка), и тем, что он фактически выбрал (Выбранная отметка). Для этого учитываются параметр экспертизы (навыки эксперта), параметр тенденции (склонность эксперта завышать/занижать оценки) и параметр сложности самой задачи. Агрегируя эти данные, система вычисляет вероятностное распределение (например, 80% вероятность оценки 5; 20% вероятности оценки 4), которое используется для обучения ранжирующей модели.
Актуальность для SEO
Высокая. Качество обучающих данных критически важно для эффективности современных ML-алгоритмов ранжирования. Поскольку Яндекс активно использует краудсорсинг (упоминается YANDEX TOLOKA) для сбора оценок, методы обработки шумных и субъективных данных являются ключевым элементом инфраструктуры качества поиска.
Важность для SEO
Прямое влияние на SEO низкое (3/10). Это инфраструктурный патент, описывающий внутренние процессы подготовки данных для обучения ранжирующих моделей (таких как Proxima или основная формула). Он не описывает факторы ранжирования, на которые могут влиять SEO-специалисты. Однако он имеет высокое стратегическое значение, так как раскрывает философию Яндекса: релевантность не абсолютна, а вероятностна и субъективна. Это подчеркивает важность того, как сайт воспринимается людьми (асессорами).
Детальный разбор
Термины и определения
- Алгоритм машинного обучения (MLA)
- Алгоритм ранжирования (например, CatBoost), который обучается на подготовленных данных для упорядочивания результатов поиска.
- Воспринимаемая отметка (Perceived Mark/Label)
- Отметка релевантности, которую эксперт субъективно считает наиболее правильной для данного документа. Может отличаться от Выбранной отметки из-за ошибок или предвзятости.
- Выбранная отметка (Selected Mark/Label)
- Фактическая оценка, которую эксперт поставил документу.
- Обучающий объект (Training Object)
- Единица данных для обучения MLA. Включает цифровой обучающий документ (например, пару запрос-документ) и назначенную отметку (в данном патенте — Распределение средней отметки).
- Параметр сложности (Difficulty/Complexity Parameter)
- Метрика, определяющая, насколько сложно оценить данный документ. Не зависит от эксперта.
- Параметр тенденции (Tendency/Bias Parameter)
- Характеристика поведения эксперта, основанная на истории его оценок. Например, склонность выбирать только крайние значения (категоричный эксперт) или только средние (нерешительный эксперт)-[0071].
- Параметр экспертизы (Expertise Parameter)
- Метрика, оценивающая общий уровень навыков эксперта. Не зависит от конкретного документа.
- Присущая эксперту оценка вероятности (Inherent Expert Probability)
- Вероятность того, что эксперт выберет определенную отметку, исходя из его Параметра тенденции.
- Распределение средней отметки (Distribution of the Average Mark)
- Ядро изобретения. Итоговая оценка релевантности документа в виде диапазона Воспринимаемых отметок и связанных с ними вероятностей. Используется как целевая переменная (Ground Truth) при обучении MLA.
- Условная оценка вероятности (Conditional Probability)
- Вероятность того, что эксперт выбрал отметку Y, при условии, что он воспринял отметку Z как истинную. Рассчитывается на основе Параметра экспертизы и Параметра сложности.
- Эксперт (Асессор)
- Человек, оценивающий релевантность. Может быть профессионалом или участником краудсорсинга (Толока).
Ключевые утверждения (Анализ Claims)
Патент защищает метод генерации обучающих данных, который признает отсутствие единой истины и моделирует субъективность оценок.
Claim 1 (Независимый пункт, п.1): Описывает основной процесс.
- Получение цифрового обучающего документа.
- Передача документа множеству экспертов с указанием диапазона отметок релевантности.
- Получение набора Выбранных отметок.
- Создание Распределения средней отметки. Это распределение представляет собой диапазон Воспринимаемых отметок и оценку вероятности для каждой из них.
- Обучение MLA с использованием этого распределения вместо единственной оценки.
Claim 2 и 3 (п.2 и п.3): Уточняют параметры моделирования.
На основе выбранных отметок система определяет:
- Параметр экспертизы для каждого эксперта (независим от документа).
- Параметр сложности для документа (независим от эксперта).
Claim 4 и 5 (п.4 и п.5): Описывают механизм расчета распределения через агрегацию конкретных для эксперта распределений.
Для этого рассчитывается:
- Присущая эксперту оценка вероятности (вероятность восприятия отметки, зависит от Параметра тенденции (Claims 6, 7)).
- Условная оценка вероятности (вероятность ошибки выбора при данном восприятии, зависит от Параметра экспертизы и Параметра сложности).
Claim 8 (п.8): Определяет математическую основу. Распределение получают путем максимизации вероятности (правдоподобия) наблюдаемых (выбранных) отметок с помощью формулы:
$$L(\{y_{j}^{w}\})=\prod_{w\in W_{j}}\Sigma_{z_{j}^{w}\in\mathfrak{y}}Pr(z_{j}^{w})Pr(y_{j}^{w}|Z_{j}=z_{j}^{w}).$$
Где $Pr(z_{j}^{w})$ — это присущая вероятность восприятия отметки $z$ (зависит от тенденции), а $Pr(y_{j}^{w}|Z_{j}=z_{j}^{w})$ — условная вероятность выбора отметки $y$ при восприятии $z$ (зависит от экспертизы и сложности).
Где и как применяется
Важно понимать, что этот патент НЕ описывает алгоритм, работающий в реальном времени. Он применяется в ОФЛАЙН-ПРОЦЕССАХ подготовки данных и обучения моделей.
Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Методология применяется для генерации обучающих выборок (Ground Truth), которые используются для обучения ключевых метрик качества, таких как Proxima, и основных алгоритмов ранжирования. Система обрабатывает сырые данные с платформ краудсорсинга (например, Толока) или от штатных асессоров.
RANKING – Ранжирование (Обучение моделей)
Основное применение — это фаза обучения (Training Phase) алгоритмов машинного обучения (MLA), используемых на этапах L2/L3 (например, CatBoost).
- Входные данные: Набор Выбранных отметок от экспертов для пары запрос-документ, история оценок экспертов.
- Выходные данные: Обучающий объект с Распределением средней отметки (вероятностное распределение релевантности).
На что влияет
Патент влияет на качество и точность обучающих данных, что косвенно влияет на качество работы алгоритмов ранжирования по всем типам запросов и контента.
- Конкретные ниши и тематики: Особенно важно для сложных и субъективных тематик (например, YMYL, дизайн, искусство), где разногласия между экспертами наиболее выражены. Методология позволяет системе лучше понять эту неоднозначность.
Когда применяется
- Условия применения: При обработке результатов человеческой разметки, когда один объект оценивается несколькими экспертами (перекрытие).
- Триггеры активации: Наличие разногласий («помех») в полученных оценках.
- Частота применения: Во время подготовки новых обучающих выборок или обновления существующих моделей ранжирования (оффлайн-процесс).
Пошаговый алгоритм
Процесс создания обучающего объекта.
- Сбор данных:
- Определение цифрового обучающего документа (запрос-URL) и шкалы оценок.
- Передача документа множеству экспертов (асессоров).
- Получение набора «Выбранных отметок».
- Анализ истории и Оценка Параметров (Итеративный процесс):
- Анализ истории экспертов для определения «Параметров тенденции» (предвзятости).
- На основе собранных Выбранных отметок вычисление (например, с помощью принципа минимакса энтропии):
- «Параметра экспертизы» для каждого эксперта.
- «Параметра сложности» для данного документа.
- Расчет Вероятностей:
- Вычисление «Присущей эксперту оценки вероятности» (зависит от Тенденции).
- Вычисление «Условной оценки вероятности» (вероятность ошибки между восприятием и выбором, зависит от Экспертизы и Сложности).
- Генерация Распределения:
- Расчет конкретного для эксперта распределения воспринимаемой отметки.
- Агрегация распределений всех экспертов с использованием статистической модели (например, модифицированной GLAD или Dawid-Skene) для максимизации функции правдоподобия (Формула из Claim 8). На выходе получается «Распределение средней отметки».
- Обучение MLA: Передача документа и его Распределения средней отметки в алгоритм ранжирования для обучения.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на данных, связанных с процессом разметки. Он не использует контентные, ссылочные или поведенческие факторы ранжирования.
- Данные разметки:
- Набор Выбранных отметок (сырые оценки от каждого эксперта).
- Диапазон возможных отметок (шкала оценки).
- Исторические данные (Поведенческие данные Асессоров): История предыдущих оценок экспертов. Используется для вычисления Параметра тенденции и Параметра экспертизы.
Какие метрики используются и как они считаются
- Параметр экспертизы ($e^w$), сложности ($d_j$), тенденции: Оценки квалификации эксперта, сложности задачи и смещения (bias) эксперта.
- Присущая эксперту оценка вероятности ($Pr(z)$): Вероятность восприятия определенной отметки.
- Условная оценка вероятности ($Pr(y|z)$): Вероятность выбора отметки Y при восприятии Z.
- Функция правдоподобия (Likelihood function): Ключевая формула (Claim 8), которую система стремится максимизировать для нахождения наиболее вероятного распределения отметок и параметров модели:
$$L(\{y_{j}^{w}\})=\prod_{w\in W_{j}}\Sigma_{z_{j}^{w}\in\mathfrak{y}}Pr(z_{j}^{w})Pr(y_{j}^{w}|Z_{j}=z_{j}^{w}).$$
- Статистические модели агрегации: Патент упоминает использование модифицированных версий известных моделей: (i) Модель Дэвида-Скена (Dawid-Skene), (ii) Генеративная модель отметок, возможностей и сложностей (GLAD), и (iii) Принцип минимакса энтропии (MME).
- Распределение Дирихле (Dirichlet Distribution): Упоминается как способ моделирования вектора вероятностей воспринимаемых отметок для документа.
Выводы
- Релевантность субъективна, и Яндекс это учитывает: Ключевой вывод — Яндекс на методологическом уровне признает, что для многих задач не существует единственной «истинной» оценки релевантности. Разногласия между асессорами рассматриваются не только как ошибки, но и как отражение субъективности или сложности задачи.
- Ground Truth является распределением: Обучающие данные (Ground Truth) для тренировки основных формул ранжирования (включая Proxima) представляют собой не абсолютные оценки, а вероятностные распределения (Распределение средней отметки). Это позволяет создавать более устойчивые к шуму модели.
- Сложное моделирование качества асессоров: Система не доверяет всем асессорам одинаково. Она рассчитывает индивидуальные параметры Экспертизы и Тенденции (Bias), а также Сложность каждой задачи, чтобы скорректировать итоговое распределение.
- Фокус на Восприятии, а не Выборе: Система стремится смоделировать, что эксперт действительно думал (Воспринимаемая отметка), а не только то, что он выбрал (Выбранная отметка), тем самым нивелируя ошибки и предвзятость.
- Инфраструктурный характер: Патент описывает внутренние процессы подготовки данных (Data Preparation Pipeline). Он не вводит новых факторов ранжирования и не предлагает прямых действий для SEO.
Практика
Патент описывает внутренние процессы Яндекс по генерации обучающих данных без прямых рекомендаций для SEO. Практическое применение ограничено пониманием методологии Яндекса.
Best practices (это мы делаем)
- Фокус на удовлетворении человеческого восприятия качества (E-E-A-T): Поскольку Ground Truth формируется на основе смоделированного человеческого восприятия, критически важно соответствовать критериям, которые используют асессоры. В патенте упоминается, что оценка зависит от множества аспектов: релевантность, новизна, охват, бренд, дизайн. Это подтверждает важность комплексной работы над E-E-A-T.
- Создание однозначного и понятного контента: Если контент сложен для восприятия или неоднозначен, это повысит Параметр сложности и приведет к большему разбросу в распределении оценок (неуверенность системы). Создание четкого, структурированного контента, однозначно отвечающего на интент, может снизить эту сложность и привести к более концентрированному распределению высоких оценок.
Worst practices (это делать не надо)
- Попытки манипулировать оценками асессоров/Толокеров: Система разработана специально для фильтрации шума, выявления некомпетентных экспертов (низкий Параметр экспертизы) и учета их смещений (Параметр тенденции). Попытки повлиять на конкретных оценщиков статистически неэффективны благодаря этой методологии агрегации.
- Создание неоднозначного или спорного контента: Контент, который поляризует аудиторию (часть считает его отличным, часть — плохим), получит широкое распределение оценок. В контексте обучения ML это может быть менее предпочтительно, чем стабильно хорошее восприятие.
Стратегическое значение
Патент имеет высокое стратегическое значение для понимания того, как устроено обучение качества в Яндексе. Он демонстрирует глубину статистического аппарата, используемого для обработки человеческих оценок, признавая их субъективность. Это подтверждает, что метрики качества (например, Proxima), обученные на этих данных, являются высоконадежными и устойчивыми к шуму. Для SEO это означает, что фокус должен быть на реальном качестве ресурса, которое будет положительно воспринято людьми.
Практические примеры
Практических примеров применения для SEO нет, так как патент описывает внутренний процесс обработки данных для обучения ML. Однако можно смоделировать, как работает алгоритм обработки оценок.
Сценарий: Обработка оценок для пары Запрос-Документ
- Задача: Оценить релевантность статьи по запросу (Шкала 1-5).
- Входные данные (Выбранные отметки):
- Асессор A (Высокая экспертиза, нейтральный): Оценка 4.
- Асессор B (Средняя экспертиза, склонен завышать): Оценка 5.
- Асессор C (Низкая экспертиза): Оценка 2.
- Обработка системой:
- Оценка Асессора C имеет минимальный вес из-за низкого Параметра экспертизы.
- Оценка Асессора B корректируется с учетом его Параметра тенденции (завышение). Система предполагает, что он мог воспринять 4, но выбрал 5.
- Оценка Асессора A имеет наибольший вес.
- Традиционный подход (Среднее): (4+5+2)/3 = 3.66.
- Подход по патенту (Распределение средней отметки): Система вычисляет вероятностное распределение, например: {Оценка 4: 75%, Оценка 5: 20%, Оценка 3: 5%}. Этот результат используется для обучения MLA.
Вопросы и ответы
Что такое «Распределение средней отметки» и чем оно лучше обычной средней оценки?
«Распределение средней отметки» — это вероятностное распределение возможных оценок релевантности. Например, вместо того чтобы сказать, что релевантность документа равна 4.2, система говорит: «С вероятностью 60% оценка равна 4, с вероятностью 40% оценка равна 5». Это лучше, потому что сохраняет информацию о разногласиях и неуверенности асессоров, позволяя обучать алгоритмы ранжирования на более реалистичных данных, учитывающих субъективность.
Означает ли этот патент, что Яндекс считает релевантность субъективной?
Да, именно так. В патенте прямо говорится, что традиционные подходы, предполагающие существование «единственной истинной отметки», неэффективны, так как даже опытные эксперты могут расходиться во мнениях. Яндекс признает, что объект обладает распределением возможных истинных воспринимаемых отметок, и стремится это распределение вычислить.
Как система отличает хорошего асессора от плохого?
Система вычисляет «Параметр экспертизы» для каждого асессора. Это делается статистически, путем анализа того, насколько часто его оценки согласуются с оценками других асессоров по множеству задач, с учетом сложности этих задач. Модели типа GLAD или Dawid-Skene, упомянутые в патенте, позволяют одновременно оценить и истинные метки, и качество экспертов.
Что такое «Параметр тенденции» асессора?
Это склонность (bias) асессора к выбору определенных оценок. В патенте приводятся примеры: «категоричный эксперт» (ставит только 1 или 5) или «нерешительный эксперт» (ставит только средние значения). Система анализирует историю оценок асессора, выявляет эти тенденции и учитывает их при расчете итогового распределения, чтобы нейтрализовать смещение.
Влияет ли этот алгоритм на ранжирование моего сайта в реальном времени?
Нет, этот алгоритм не работает в реальном времени. Он используется оффлайн для подготовки обучающих данных (Ground Truth). Однако он напрямую влияет на качество алгоритмов ранжирования (MLA), которые обучаются на этих данных. Более качественное обучение приводит к более точному ранжированию в продакшене.
Как этот патент связан с метрикой Proxima?
Proxima — это метрика качества страницы, которая сама является моделью машинного обучения, обученной на оценках асессоров. Этот патент описывает методологию подготовки тех самых оценок, на которых обучается Proxima. Использование этого метода делает обучающие данные для Proxima более чистыми и реалистичными, что повышает точность самой метрики.
Применяется ли это только к краудсорсингу (Толока) или и к штатным асессорам?
Патент упоминает, что технология особенно полезна для платформ краудсорсинга (включая Яндекс.Толоку), где оценки сильно различаются («с помехами»). Однако методология применима и к профессиональным экспертам, так как разногласия возникают и у них.
Что такое «Воспринимаемая отметка» и «Выбранная отметка»?
«Воспринимаемая отметка» — это то, что асессор посчитал правильным ответом. «Выбранная отметка» — это то, что он фактически нажал. Они могут отличаться из-за ошибки, невнимательности или предвзятости. Патент описывает механизм моделирования вероятности этой разницы с учетом экспертизы асессора и сложности задачи.
Могу ли я как SEO-специалист повлиять на параметры, описанные в патенте?
Вы не можете повлиять на параметры экспертизы или тенденции асессоров. Однако вы можете косвенно повлиять на «Параметр сложности». Если ваш контент качественный, четко структурированный и однозначно отвечает на запрос, задача оценки становится проще, разногласий меньше, и вероятность высокой итоговой оценки увеличивается.
Какие аспекты качества учитываются при оценке, согласно патенту?
В патенте упоминается, что для правильного установления отметки необходимо учитывать множество аспектов объекта. Приводятся примеры таких аспектов: релевантность, новизна, охват (полнота ответа), бренд и дизайн. Это еще раз подтверждает комплексный подход Яндекса к оценке качества страниц (E-E-A-T).