Как Яндекс выявляет и устраняет предвзятость (Bias) асессоров для повышения качества обучения алгоритмов поиска

Яндекс патентует метод математической очистки данных, собранных через краудсорсинг (например, Толоку). Система использует алгоритм машинного обучения для выявления и нейтрализации систематических искажений в оценках асессоров (например, позиционной предвзятости или влияния размера шрифта). Это позволяет получать объективные данные о качестве (Ground Truth) для обучения ключевых ML-моделей ранжирования и метрик качества, таких как Proxima.

Описание

Какую задачу решает

Патент решает проблему загрязнения данных (Data Contamination), используемых для обучения и валидации алгоритмов поиска, из-за предвзятости (Bias) людей-асессоров. При выполнении задач сравнения (например, Side-by-Side оценка) асессоры могут предпочитать один результат другому не из-за его качества, а из-за артефактов представления — например, позиции на экране (Position Bias), размера шрифта или изображения (Presentation Bias). Использование таких «шумных» данных искажает обучение ML-моделей. Изобретение направлено на нейтрализацию этого влияния и получение объективной, непредвзятой оценки качества.

Что запатентовано

Запатентована система и метод обработки меток (оценок), полученных в краудсорсинговой среде (например, Яндекс.Толока). Суть изобретения — применение специализированного алгоритма машинного обучения (MLA), основанного на вероятностной модели (Mixture Model), для разделения фактического качества сравниваемых объектов и индивидуальной предвзятости асессоров по отношению к скрытым признакам предвзятости.

Как это работает

Система идентифицирует потенциальные скрытые признаки предвзятости в задаче сравнения (позиция, форматирование). После сбора оценок от асессоров запускается MLA. Этот алгоритм моделирует поведение каждого асессора индивидуально, определяя вероятность и степень его предвзятости. Используя метод максимального правдоподобия (Maximum Likelihood Estimation — MLE), система вычисляет параметр непредвзятого предпочтения — оценку, очищенную от влияния идентифицированных признаков.

Актуальность для SEO

Высокая. Современные поисковые системы критически зависят от качества эталонных данных (Ground Truth) для обучения ML-моделей (ранжирование, Proxima). Методы борьбы с шумом и предвзятостью (Debiasing) в краудсорсинге являются ключевым направлением для обеспечения качества поиска.

Важность для SEO

Влияние на SEO косвенное, но стратегически важное (4/10). Патент не описывает факторы ранжирования, а инфраструктуру подготовки данных для их обучения. Для Senior SEO-специалистов это означает, что Яндекс целенаправленно повышает точность своих метрик качества (таких как Proxima), обучая их на чистых сигналах и игнорируя шум. Это подчеркивает необходимость фокусироваться на фундаментальном качестве ресурса (E-E-A-T), так как система становится более устойчивой к искажениям в оценках.

Детальный разбор

Термины и определения

Асессор (Оценщик, $w_k$): Человек, выполняющий задачу в краудсорсинговой среде (например, Толока) и выносящий суждение (метку).
Задача сравнения (Comparison Task): Задача, в которой асессору предлагается сравнить два объекта ($d_i, d_j$) и указать предпочтение. Обычно это задача парного сравнения (Pairwise Comparison), например, Side-by-Side (SbS).
Метка (Label): Результат выполнения задачи асессором (воспринимаемое предпочтение).
Скрытые признаки предвзятости (Набор скрытых признаков предвзятости, $x_{kij}$): Признаки в задаче, которые могут влиять на восприятие асессора, но не связаны с фактическим качеством объектов. Примеры: позиция объекта (слева/справа), размер шрифта, размер изображения.
MLA (Алгоритм машинного обучения): В данном контексте — вероятностная модель (Mixture Model), параметры которой оптимизируются с помощью метода максимального правдоподобия (MLE).
Параметр скрытой оценки (Latent Score Parameter, $s_i, s_j$): Внутренняя оценка «истинного» качества объекта, которую система вычисляет. Разница между этими оценками формирует непредвзятое предпочтение.
Прогнозный параметр вероятности предвзятости (Predictive Bias Probability Parameter, $y_k$): Параметр, генерируемый для определенного асессора, указывающий вероятность того, что его воспринимаемое предпочтение является одним из предвзятого и непредвзятого.
Прогнозный параметр степени предвзятости (Predictive Bias Degree Parameter, $r_k$): Оценка того, насколько сильно конкретный асессор ($k$) подвержен влиянию конкретных скрытых признаков предвзятости (например, насколько сильно он предпочитает левый объект).
Параметр непредвзятого предпочтения (Unbiased Preference Parameter): Итоговая оценка предпочтения, очищенная от влияния скрытых признаков предвзятости. Является целью работы алгоритма.

Ключевые утверждения (Анализ Claims)

Патент описывает метод очистки краудсорсинговых данных от систематических искажений, вызванных презентационными факторами.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система получает множество меток (предпочтений) от асессоров для задачи сравнения двух объектов.
Система анализирует задачу для определения набора скрытых признаков предвзятости (например, позиция объектов), которые могут повлиять на восприятие.
Исполняется MLA, который для каждого асессора генерирует:

Параметры скрытой оценки ($s_i, s_j$).
Прогнозный параметр вероятности предвзятости ($y_k$).
Прогнозный параметр степени предвзятости ($r_k$).

Генерируется параметр непредвзятого предпочтения на основе логистической функции параметров скрытых оценок.
Критически важно: Генерация всех параметров выполняется на основе максимального правдоподобия (MLE). Модель подбирает параметры так, чтобы наилучшим образом объяснить наблюдаемые метки.
Система использует параметр непредвзятого предпочтения как финальную (очищенную) метку.

Claim 2 (Зависимый от п. 1): Определяет математическую модель (Уравнение 1), лежащую в основе MLA. Это логарифмическая функция правдоподобия (L). (Примечание: в тексте патента присутствуют опечатки в индексах формулы, ниже представлена логически корректная версия).

$$ \mathcal{L}=\sum_{(w_{k},d_{i},d_{j})\in P}log(f(y_{k})f(s_{i}-s_{j})+(1-f(y_{k}))f()) $$

Эта формула представляет собой Mixture Model (Смешанную модель). Она предполагает, что оценка асессора ($w_k$) может быть сгенерирована одним из двух процессов:

Непредвзятый процесс: С вероятностью $f(y_k)$ асессор выносит суждение объективно. Вероятность предпочесть $d_i$ над $d_j$ определяется разницей их скрытых оценок качества: $f(s_i — s_j)$. ($f$ — логистическая функция).
Предвзятый процесс: С вероятностью $(1-f(y_k))$ асессор выносит суждение под влиянием искажений. Вероятность предпочтения определяется взаимодействием между скрытыми признаками предвзятости ($x_{kij}$) и степенью предвзятости асессора ($r_k$): $f()$.

Цель MLA — найти такие параметры $y_k, s_i, s_j, r_k$, которые максимизируют общее правдоподобие $\mathcal{L}$ для всех наблюдаемых оценок P.

Claim 3 (Зависимый от п. 2): Описывает целевую функцию оптимизации (Т), которая включает регуляризацию (R) для стабилизации обучения и предотвращения переобучения.

$$ T=\mathcal{L}+\lambda\mathcal{R} $$

Регуляризация включает сравнение скрытых оценок объектов с параметром скрытой оценки виртуального объекта ($S_0$), который служит для анкорения (anchoring) шкалы оценок.

Claim 6: Уточняет примеры скрытых признаков предвзятости: размер шрифта, размер изображения и позиционирование.

Claim 11: Указывает, что агрегированные непредвзятые параметры используются для обучения второго MLA (например, основной формулы ранжирования или Proxima).

Где и как применяется

Этот патент не относится к онлайн-процессам обработки запросов (CRAWLING, INDEXING, RANKING). Он относится к офлайн-инфраструктуре подготовки данных и контроля качества.

QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик)
Изобретение применяется на этапе сбора и обработки данных от асессоров (например, через Толоку).

Сбор данных: Асессоры выполняют задачи сравнения (например, Side-by-Side оценка релевантности или качества SERP).
Обработка и Очистка: Вместо простого усреднения оценок, система применяет описанный MLA для обработки сырых меток и устранения предвзятости.
Выходные данные: На выходе система получает Параметры непредвзятого предпочтения — очищенные метки качества (Ground Truth).

Взаимодействие с компонентами поиска:
Очищенные данные затем используются для:

Обучения Ранжирования (RANKING LAYER): Для обучения основных формул ранжирования (CatBoost, YATI).
Обучения Метрик Качества: Для обучения и калибровки метрик Proxima и Anti-Quality.
Оценки Экспериментов: Для корректной оценки A/B тестов и влияния изменений в алгоритмах.

На что влияет

Алгоритм влияет на качество обучающих данных для всех аспектов поиска, где применяется человеческая оценка в формате сравнения:

Типы контента и Ниши: Влияет на все типы контента и все ниши (включая YMYL), так как позволяет более точно и объективно измерять их качество и релевантность, устраняя шум в оценках.
Точность метрик: Повышает надежность и точность метрик качества, используемых в поиске.

Когда применяется

Временные рамки: Алгоритм применяется в офлайн-режиме при обработке пакетов результатов краудсорсинговых задач.
Условия работы: Наличие задачи парного сравнения (Claim 4) и множества меток от разных асессоров.
Триггеры активации: Необходимость агрегации и очистки результатов краудсорсинговой задачи перед их использованием в ML-конвейере.

Пошаговый алгоритм

Подготовка задачи и Извлечение признаков: Определение задачи сравнения (объекты $d_i, d_j$). Идентификация и кодирование потенциальных скрытых признаков предвзятости ($x_{kij}$) (например, позиция, размер шрифта). (Claims 5, 6).
Векторизация признаков: Для каждого признака генерируется вектор скрытого признака, указывающий на его присутствие или отсутствие у сравниваемых объектов (Claims 7, 8).
Сбор данных (Краудсорсинг): Получение множества меток (P) от асессоров ($w_k$).
Инициализация модели (MLA): Задание начальных значений для параметров модели: скрытых оценок объектов ($s_i, s_j$), параметров вероятности предвзятости ($y_k$) и параметров степени предвзятости ($r_k$).
Итеративная оптимизация (MLE): Выполнение алгоритма максимизации правдоподобия (MLE) для целевой функции T (Claim 3). Алгоритм итеративно подстраивает параметры $s, y, r$, чтобы максимизировать вероятность наблюдения собранных данных P, используя смешанную модель (Claim 2).
Генерация выходных данных: После сходимости алгоритма система получает финальные значения параметров.
Расчет непредвзятого предпочтения: Использование финальных скрытых оценок ($s_i, s_j$) для расчета Параметра непредвзятого предпочтения (через логистическую функцию их разности $f(s_i — s_j)$).
Использование: Агрегация полученных непредвзятых параметров (Claim 10) и их использование для обучения второго MLA (Claim 11).

Какие данные и как использует

Данные на входе

Система использует данные, связанные исключительно с процессом оценки, а не с контентом оцениваемых объектов в интернете.

Поведенческие факторы (в рамках краудсорсинга): Сырые метки (Labels) от асессоров, указывающие, какой объект они предпочли в задаче сравнения.
Структурные/Презентационные факторы (в задаче): Скрытые признаки предвзятости. Это метаданные о том, как именно объекты были показаны асессору. В патенте явно упоминаются (Claim 6):

Позиционирование (слева/справа, сверху/снизу).
Размер шрифта.
Размер изображения.

Эти признаки кодируются в виде векторов (Claim 7, 8).

Пользовательские данные (Асессоры): Идентификаторы асессоров, позволяющие моделировать их поведение индивидуально.

Какие метрики используются и как они считаются

Метрики Качества Объектов: Параметр скрытой оценки ($s_i$). Вычисляется в процессе оптимизации MLE.
Метрики Поведения Асессоров:

Прогнозный параметр вероятности предвзятости ($y_k$).
Прогнозный параметр степени предвзятости ($r_k$).

Алгоритмы и Методы:

Maximum Likelihood Estimation (MLE): Основной метод оптимизации параметров модели. Система ищет параметры, при которых вероятность наблюдать фактически полученные метки максимальна.
Mixture Model (Смешанная модель): Вероятностная модель, предполагающая наличие нескольких источников генерации данных (предвзятый и непредвзятый процессы). Описана формулой в Claim 2.
Логистическая функция (f): Используется для преобразования разницы оценок или степени предвзятости в вероятность предпочтения.
Регуляризация (R): Метод для предотвращения переобучения и стабилизации модели (Claim 3).

Выводы

Инфраструктурный характер патента: Патент описывает внутренние процессы Яндекса по подготовке данных (Ground Truth) для машинного обучения. Он не дает прямых тактических рекомендаций для SEO-оптимизации сайтов.
Активная борьба с предвзятостью (Bias): Яндекс инвестирует в сложные методы очистки данных от когнитивных и презентационных искажений асессоров (например, позиционной предвзятости). Цель — максимально объективная оценка качества.
Сложное моделирование поведения асессоров: Используются продвинутые вероятностные модели (Mixture Models, MLE) для индивидуального моделирования поведения каждого асессора, разделяя его склонность к предвзятости и его способность оценивать реальное качество.
Повышение точности ML-моделей: Применение этого метода повышает качество обучения ключевых алгоритмов поиска, включая ранжирование и метрики качества (Proxima). Модели, обученные на очищенных данных, лучше распознают истинное качество контента.
Стратегический фокус на фундаментальном качестве: Для SEO это сигнал о том, что система оценки качества Яндекса становится все более совершенной и устойчивой к шуму. Стратегия должна быть направлена на реальное улучшение пользовательского опыта и экспертности (E-E-A-T).

Практика

Best practices (это мы делаем)

Патент описывает внутренние процессы Яндекса и не содержит прямых инструкций для SEO. Однако он подтверждает важность фундаментальных стратегий:

Фокус на реальном качестве и E-E-A-T: Поскольку Яндекс активно очищает свои обучающие данные от предвзятости, его алгоритмы (включая Proxima) становятся лучше в определении истинного качества, экспертности и достоверности контента. Необходимо инвестировать в создание глубокого, полезного и авторитетного контента.
Улучшение пользовательского опыта (UX): Обеспечивайте отличный пользовательский опыт. Метрики качества, обученные на чистых данных, будут более точно оценивать сайты, которые эффективно решают задачи пользователей.
Объективность при собственных тестах: При проведении собственных A/B тестов или оценок качества следует учитывать возможность позиционной и презентационной предвзятости у пользователей, аналогично тому, как это учитывает Яндекс у асессоров.

Worst practices (это делать не надо)

Надеяться на ошибки или предвзятость системы оценки Яндекса: Не стоит предполагать, что алгоритмы Яндекса можно обмануть или что их система оценки качества подвержена простым искажениям. Патент демонстрирует сложный математический аппарат для борьбы с такими искажениями.
Фокусироваться на поверхностных факторах вместо сути: Алгоритмы, обученные на очищенных данных, будут отдавать приоритет сути контента и его полезности, а не внешнему виду или агрессивному форматированию (если оно не улучшает UX).

Стратегическое значение

Патент подчеркивает высокую степень зрелости инфраструктуры машинного обучения Яндекса и критическую важность качества данных (Data Quality). Стратегически это означает, что разрыв между сайтами с реальным качеством и сайтами, пытающимися его имитировать, будет увеличиваться. Точность измерения качества (через Proxima и другие метрики) растет благодаря подобным методам очистки данных, что делает инвестиции в E-E-A-T и UX единственной надежной долгосрочной стратегией.

Практические примеры

Патент не предлагает практических примеров для SEO. Он описывает внутреннюю систему обработки оценок асессоров.

Пример работы системы (Внутренний процесс Яндекса):

Задача: Оценить качество двух сайтов (А и Б) в формате Side-by-Side. Сайт А показан слева, Сайт Б — справа.
Скрытый признак предвзятости: Позиция на экране (позиционная предвзятость).
Сбор данных: 100 асессоров оценивают пару. 70 предпочитают Сайт А (слева), 30 — Сайт Б (справа).
Анализ (MLA): Система анализирует исторические данные и определяет, что многие асессоры имеют высокую степень предвзятости ($r_k$) в пользу левого результата. Модель также оценивает вероятность предвзятости ($y_k$) для каждого асессора.
Оптимизация (MLE): Система рассчитывает скрытые оценки ($s_A, s_B$). Она может определить, что реальное качество Сайта А и Сайта Б примерно одинаково ($s_A \approx s_B$), а перевес 70/30 обусловлен исключительно позиционным эффектом.
Результат: Система генерирует Параметр непредвзятого предпочтения, указывающий на ничью (близко к 0.5). Эти очищенные данные используются для обучения Proxima.

Вопросы и ответы

Описывает ли этот патент новый фактор ранжирования?

Нет, этот патент не описывает фактор ранжирования. Он описывает метод обработки и очистки данных, которые собираются от асессоров (например, через Толоку). Эти очищенные данные затем используются для обучения алгоритмов ранжирования и метрик качества (таких как Proxima), но сам механизм ранжирования в патенте не раскрывается.

Что такое «Скрытые признаки предвзятости»?

Это характеристики того, как задача представлена асессору, которые могут повлиять на его выбор, но не связаны с реальным качеством сравниваемых объектов. В патенте приводятся примеры: позиционирование объекта (слева или справа), размер шрифта или размер изображения в интерфейсе задачи. Система стремится нейтрализовать их влияние.

Как этот патент связан с метрикой Proxima?

Proxima — это ключевая метрика качества страницы в Яндексе, основанная на машинном обучении и оценках асессоров. Для ее обучения требуются качественные и объективные данные (Ground Truth). Метод, описанный в патенте, позволяет получать такие чистые данные, устраняя предвзятость из сырых оценок асессоров. Это делает Proxima более точной и надежной метрикой.

Означает ли это, что Яндекс игнорирует позиционную предвзятость (Position Bias) в реальной выдаче?

Нет, это разные вещи. Патент борется с Position Bias в *задачах для асессоров* (когда асессор предпочитает левый результат в Side-by-Side сравнении). Position Bias в реальной выдаче (когда пользователи чаще кликают на первый результат) — это другое явление, которое учитывается моделями ранжирования и поведенческими факторами иначе.

Что такое MLA и Mixture Model в контексте этого патента?

MLA (Алгоритм машинного обучения) здесь реализуется как Mixture Model (Смешанная модель). Это вероятностная модель, которая предполагает, что оценка асессора может быть результатом одного из двух процессов: либо асессор оценивает объективно (на основе качества), либо он подвержен предвзятости (на основе презентации). Модель рассчитывает вероятность каждого сценария для каждого асессора.

Моделирует ли система асессоров индивидуально?

Да, это ключевая особенность метода. Система генерирует индивидуальные параметры для каждого асессора: «Прогнозный параметр вероятности предвзятости» (насколько часто он бывает предвзят или непредвзят) и «Прогнозный параметр степени предвзятости» (насколько сильно он подвержен конкретным искажениям, например, позиционному).

Каков главный вывод для Senior SEO-специалиста из этого патента?

Главный вывод — Яндекс обладает сложной инфраструктурой для измерения качества поиска и активно борется с шумом в данных. Это означает, что полагаться нужно исключительно на фундаментальное качество сайта (E-E-A-T, UX, ценность контента), так как алгоритмы Яндекса становятся все более точными в его измерении и устойчивыми к манипуляциям.

Применяется ли этот алгоритм в реальном времени при обработке запроса пользователя?

Нет. Этот алгоритм применяется в офлайн-режиме для обработки пакетов данных, собранных через краудсорсинговые платформы. Он является частью конвейера подготовки данных для машинного обучения, а не частью онлайн-ранжирования.

Что такое метод Максимального Правдоподобия (MLE)?

MLE (Maximum Likelihood Estimation) — это статистический метод оценки параметров модели. В данном случае система ищет такие значения для истинного качества объектов и уровней предвзятости асессоров, при которых наблюдаемые результаты голосования (метки) были бы наиболее вероятными. Это позволяет найти модель, которая лучше всего объясняет собранные данные.

Можно ли использовать этот метод для улучшения своего сайта?

Напрямую применить этот сложный математический метод для оптимизации сайта нельзя. Однако можно применять сам принцип: при анализе поведения пользователей на своем сайте или при проведении A/B тестов следует учитывать, что факторы презентации (например, расположение элементов, цвета, шрифты) могут искажать данные о том, что пользователи действительно предпочитают.