Как Яндекс очищает данные асессоров от когнитивных искажений для улучшения качества обучения ML-моделей ранжирования

Яндекс патентует метод повышения качества данных, используемых для обучения алгоритмов ранжирования (включая Proxima). Система анализирует оценки, полученные от краудсорсинговых асессоров (например, в Толоке), и выявляет когнитивные искажения, вызванные нерелевантными факторами (позиция на экране, цвет, шрифт). Используя модель машинного обучения, Яндекс отделяет истинную оценку качества от этих искажений, гарантируя, что алгоритмы ранжирования обучаются на чистых данных.

Описание

Какую задачу решает

Патент решает критическую проблему качества данных (Ground Truth), используемых для обучения алгоритмов машинного обучения в поиске. Основная задача — минимизация шума и когнитивных искажений (cognitive biases) в оценках, получаемых от краудсорсинговых асессоров (например, пользователей Яндекс.Толока). Асессоры могут неосознанно предпочитать один результат другому из-за факторов, не связанных с релевантностью, таких как позиция на экране, дизайн или размер шрифта. Если обучать модели ранжирования и метрики качества (например, Proxima) на таких «грязных» данных, они будут ошибочно интерпретировать эти нерелевантные факторы как сигналы качества, что ухудшит поисковую выдачу.

Что запатентовано

Запатентована система и метод для идентификации и коррекции предвзятости асессоров при выполнении задач сравнения (например, попарное сравнение SERP). Суть изобретения заключается в использовании алгоритма машинного обучения (MLA) для разделения истинного предпочтения асессора (Unbiased Preference Parameter) и предпочтения, вызванного «скрытыми искажающими признаками» (Latent Biasing Features). Система моделирует вероятность того, что конкретная оценка была дана на основе качества объекта или на основе когнитивного искажения.

Как это работает

Система анализирует задачу сравнения и определяет набор потенциальных искажающих признаков (например, «объект слева»). Затем, используя данные оценок от множества асессоров, MLA (реализованный как Mixture Model) одновременно вычисляет три типа параметров: (1) Внутреннюю оценку качества самих объектов (Latent Score Parameter); (2) Вероятность того, что данный асессор подвержен искажениям (Predicted Bias Probability Parameter); (3) Степень влияния конкретных искажающих признаков на данного асессора (Predicted Bias Degree Parameter). Это достигается с помощью метода максимального правдоподобия (Maximum Likelihood Estimation), который моделирует процесс оценки как смесь объективного суждения и предвзятости. На выходе система генерирует очищенную, непредвзятую оценку.

Актуальность для SEO

Высокая. Качество обучающих данных (Ground Truth) является фундаментом для систем поиска, основанных на машинном обучении. Поскольку Яндекс полагается на краудсорсинг для сбора больших объемов данных для обучения и валидации моделей ранжирования (включая нейросети и CatBoost), методы очистки этих данных от систематических ошибок и когнитивных искажений критически важны.

Важность для SEO

Влияние на SEO значительно (6.5/10), но носит косвенный, инфраструктурный характер. Патент не описывает алгоритм ранжирования, а описывает инфраструктуру подготовки данных для его обучения. Для SEO-специалистов это важно, так как подтверждает, что Яндекс активно работает над тем, чтобы его модели ранжирования учились распознавать истинную релевантность и качество (например, сигналы E-E-A-T), игнорируя поверхностные или случайные факторы, которые могли бы повлиять на асессоров. Это делает модели ранжирования более точными.

Детальный разбор

Термины и определения

Assessor (Асессор, $w_k$): Человек, выполняющий задачу разметки данных в краудсорсинговой среде (например, в Яндекс.Толока).
Comparison Task (Задача сравнения): Задача, в которой асессору предлагается выбрать лучший объект из двух вариантов (попарное сравнение, Pairwise Comparison). Например, сравнение двух версий поисковой выдачи (SERP) или двух документов ($d_i, d_j$).
Latent Biasing Features (Скрытые искажающие признаки, $x_{kij}$): Признаки задачи или интерфейса, которые не имеют отношения к качеству сравниваемых объектов, но могут влиять на восприятие и выбор асессора (например, позиция объекта на экране, цвет фона, размер шрифта, наличие картинок).
Latent Score Parameter (Параметр скрытой оценки, $s_i, s_j$): Внутренняя (истинная) оценка качества или релевантности объекта, которую система пытается определить, очистив ее от искажений.
MLA (Machine Learning Algorithm): Алгоритм машинного обучения, используемый в патенте для моделирования процесса оценки. Основан на методе максимального правдоподобия (Maximum Likelihood Estimation) и реализован как Mixture Model.
Predicted Bias Degree Parameter (Параметр прогнозируемой степени предвзятости, $r_k$): Оценка того, насколько сильно конкретный асессор подвержен влиянию конкретных скрытых искажающих признаков.
Predicted Bias Probability Parameter (Параметр прогнозируемой вероятности предвзятости, $\gamma_k$): Оценка вероятности того, что данное суждение асессора является предвзятым (biased) или непредвзятым (unbiased).
Unbiased Preference Parameter (Параметр непредвзятого предпочтения): Итоговая оценка предпочтения одного объекта над другим, очищенная от влияния скрытых искажающих признаков. Является целью работы системы. Рассчитывается как логистическая функция разницы скрытых оценок $f(s_i — s_j)$.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе очистки данных путем моделирования и компенсации когнитивных искажений асессоров.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Получение множества меток (воспринимаемых предпочтений) от асессоров для задачи сравнения (Объект А vs Объект Б).
Анализ задачи для определения набора Latent Biasing Features.
Применение MLA для каждого асессора, который вычисляет:

Latent Score Parameters для Объекта А и Б.
Predicted Bias Probability Parameter.
Predicted Bias Degree Parameter.

Генерация Unbiased Preference Parameter на основе логистической функции от разницы Latent Score Parameters.
Ключевой механизм: Вычисление всех параметров (п.3) производится путем максимизации правдоподобия (Maximum Likelihood Estimation) наблюдаемых предпочтений как функции этих параметров.
Использование Unbiased Preference Parameter в качестве финальной метки для задачи.

Claim 2 и 3 (Зависимые пункты): Детализируют математическую модель, лежащую в основе MLA. Модель представляет собой Mixture Model (смесь распределений), которая предполагает, что наблюдаемое предпочтение может быть результатом либо объективной оценки качества, либо предвзятости.

Формула (Equation 1) для логарифма правдоподобия (L):

$$L = \sum_{(w_k, d_i, d_j) \in P} \log\left( f(\gamma_k)f(s_i — s_j) + (1 — f(\gamma_k))f() \right)$$

Формула интерпретируется следующим образом: Вероятность выбора объекта $d_i$ асессором $w_k$ равна сумме двух сценариев:

Асессор непредвзят (с вероятностью $f(\gamma_k)$) И он выбрал $d_i$ на основе разницы их качества ($f(s_i — s_j)$).
Асессор предвзят (с вероятностью $1 — f(\gamma_k)$) И он выбрал $d_i$ под влиянием искажающих признаков (скалярное произведение векторов признаков и степени предвзятости $f()$).

Система оптимизирует эту формулу (с добавлением регуляризации, Claim 3), чтобы найти такие значения параметров ($s_i, \gamma_k, r_k$), которые лучше всего объясняют наблюдаемые данные.

Claim 6, 7, 8 (Зависимые пункты): Описывают примеры Latent Biasing Features (размер шрифта, размер изображения, позиционирование) и способ их кодирования в виде векторов. Например (Claim 8), признак кодируется как +1, если он присутствует только у первого объекта, -1, если только у второго, и 0, если у обоих или ни у одного.

Где и как применяется

Этот патент не описывает компоненты живого поискового конвейера (CRAWLING, INDEXING, RANKING). Он относится к инфраструктуре обеспечения качества и подготовки данных.

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)

Изобретение применяется на этапе обработки результатов асессорской оценки (как внутренней, так и краудсорсинговой, например, Яндекс.Толока).

Подготовка обучающих данных: Основное применение. Данные, собранные от асессоров, проходят через эту систему очистки перед тем, как использоваться для обучения моделей ранжирования.
Обучение Метрик Качества (Proxima Training): Метрика Proxima обучается на асессорских оценках. Применение этого патента гарантирует, что Proxima учится предсказывать истинное качество страницы, а не факторы, которые вводят асессоров в заблуждение.
Оценка Экспериментов (A/B Testing): При сравнении двух версий ранжирования этот метод позволяет определить, какая версия действительно лучше, исключив влияние когнитивных искажений (например, позиционного смещения) на результаты сравнения.

Система принимает на вход сырые оценки асессоров и метаданные о задаче, а на выходе возвращает очищенные метки (Unbiased Preference Parameters).

На что влияет

Типы контента и форматы: В первую очередь влияет на задачи, где важна визуальная оценка или сравнение сложных объектов: попарное сравнение поисковых выдач (SERP vs SERP), оценка дизайна страниц, сравнение изображений или видео.
Точность ML-моделей: Влияет на точность всех моделей ранжирования и метрик качества, которые обучаются на данных (Ground Truth), обработанных этим методом.

Когда применяется

Временные рамки: Применяется в офлайн-режиме, после сбора достаточного количества оценок от асессоров и перед этапом обучения ML-моделей.
Триггеры активации: Активируется для задач разметки, где предполагается наличие Latent Biasing Features, особенно в задачах попарного сравнения.

Пошаговый алгоритм

Процесс очистки асессорских данных:

Идентификация признаков (Предобработка): Анализ интерфейса задачи сравнения для определения потенциальных Latent Biasing Features (например, позиция, шрифт, цвет).
Векторизация признаков: Кодирование Latent Biasing Features для каждой конкретной задачи в виде векторов (например, если объект А слева, объект Б справа).
Сбор данных: Множество асессоров выполняют задачи сравнения и предоставляют свои предпочтения (метки).
Инициализация MLA: Запуск алгоритма машинного обучения, основанного на Mixture Model.
Оптимизация (Maximum Likelihood Estimation): Итеративный процесс максимизации функции правдоподобия (Формула из Claim 2) для нахождения оптимальных параметров модели. На этом шаге система одновременно учится понимать:

Насколько хорош каждый объект (оценка $s_i$).
Насколько предвзят каждый асессор (оценка $\gamma_k$).
К каким именно признакам предвзят асессор (оценка $r_k$).

Генерация очищенных оценок: Вычисление Unbiased Preference Parameter для каждой оценки на основе выученных Latent Score Parameters ($s_i, s_j$).
Агрегация: Агрегация очищенных оценок (например, путем голосования) для формирования финального набора данных (Ground Truth) для обучения ранжирования.

Какие данные и как использует

Данные на входе

Система использует специфический набор данных, собранных в ходе краудсорсингового процесса. Стандартные SEO-факторы (ссылочные, технические, поведенческие из поиска) здесь не используются.

Данные Асессоров: Идентификаторы асессоров ($w_k$).
Данные Объектов: Идентификаторы сравниваемых объектов ($d_i, d_j$) (например, URL документов или идентификаторы SERP).
Метки (Labels): Сырые предпочтения, указанные асессорами.
Структурные/Визуальные факторы (Интерфейс задачи): Векторизованное представление Latent Biasing Features ($x_{kij}$). Это ключевой входной набор данных, описывающий контекст, в котором была дана оценка. В патенте упоминаются: размер шрифта, размер изображения, позиционирование объектов, цвет фона.

Какие метрики используются и как они считаются

Модель оценки: Используется вероятностная модель, основанная на логистической функции (logistic function), что является стандартом для моделирования вероятности бинарного выбора.
Метод обучения: Maximum Likelihood Estimation (MLE). Система ищет параметры, которые максимизируют вероятность наблюдения фактически полученных данных.
Mixture Model (Смесь распределений): Ключевая особенность. Модель предполагает, что данные генерируются смесью двух процессов: объективной оценки и предвзятой оценки (как описано в анализе Claim 2).
Вычисляемые параметры:

$s_i$ (Latent Score): Истинное качество объекта.
$\gamma_k$ (Bias Probability): Вероятность непредвзятости асессора.
$r_k$ (Bias Degree): Вектор, показывающий чувствительность асессора к различным искажающим признакам.

Регуляризация: В формуле оптимизации (Claim 3) используется регуляризационный член (R) для предотвращения переобучения и стабилизации решения ($T = L + \lambda R$).

Выводы

Фундаментальная важность качества данных для ML: Патент демонстрирует, насколько серьезно Яндекс подходит к чистоте данных (Ground Truth), используемых для обучения алгоритмов ранжирования. Качество поиска напрямую зависит от способности фильтровать шум в обучающей выборке.
Моделирование когнитивных искажений: Яндекс не просто агрегирует оценки асессоров (например, большинством голосов), а использует сложные статистические модели (Mixture Models, MLE) для выявления и компенсации систематических когнитивных искажений (Cognitive Biases), таких как позиционное смещение.
Персонализация оценки асессоров: Система не считает всех асессоров одинаковыми. Она вычисляет индивидуальные параметры предвзятости (вероятность и степень) для каждого исполнителя, что позволяет более точно корректировать их оценки.
Изоляция истинного качества: Цель системы — изолировать Latent Score (истинное качество/релевантность) от Latent Biasing Features (визуальные/структурные артефакты). Это означает, что модели ранжирования (включая Proxima) обучаются распознавать именно качество контента и его релевантность.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние процессы Яндекса по подготовке данных и не дает прямых рекомендаций по оптимизации сайтов, он подтверждает важность фундаментальных SEO-стратегий:

Фокус на фундаментальном качестве и релевантности: Сосредоточьтесь на создании контента, который максимально полно отвечает на запрос пользователя и обладает высокими показателями E-E-A-T. Патент подтверждает, что Яндекс прилагает значительные усилия, чтобы его алгоритмы обучались именно на этих сигналах, отфильтровывая все остальное как шум.
Приоритет содержания над формой: Поскольку система нейтрализует влияние презентационных факторов (шрифт, цвет, расположение) на оценку асессоров, улучшение содержания более эффективно, чем попытки манипулировать восприятием за счет дизайна.
Обеспечение лучшего пользовательского опыта (UX): Создавайте сайты, которые действительно решают задачу пользователя лучше, чем конкуренты. Именно это является тем «истинным качеством» (Latent Score), которое система пытается измерить для обучения моделей.

Worst practices (это делать не надо)

Попытки манипулировать восприятием (асессоров или пользователей): Не стоит полагаться на то, что более яркое оформление, агрессивный дизайн или визуальные трюки помогут в ранжировании, если релевантность низкая. Система специально разработана для того, чтобы отделить визуальную привлекательность от истинной релевантности при обучении моделей.
Игнорирование сути E-E-A-T: Создание видимости экспертности без реального содержания. Очищенные данные от асессоров помогут Яндексу точнее идентифицировать настоящий E-E-A-T.

Стратегическое значение

Стратегическое значение патента заключается в понимании того, как строится фундамент машинного обучения в Яндексе. Он показывает, что Яндекс стремится к максимально объективной оценке качества, используя сложные математические методы для борьбы с человеческим фактором (когнитивными искажениями) при разметке данных. Для SEO это означает, что долгосрочная стратегия должна быть направлена исключительно на развитие фундаментальных показателей качества ресурса, так как именно они являются целью измерения и обучения поисковых алгоритмов.

Практические примеры

Патент описывает инфраструктурный процесс Яндекса. Практических примеров для применения в работе SEO-специалиста по продвижению сайтов нет. Однако можно смоделировать сценарий работы системы и его последствия.

Сценарий: Оценка качества двух страниц о медицинском препарате (YMYL).

Сравниваемые объекты:

Страница А: Сайт с современным дизайном, крупными шрифтами, но поверхностным контентом без указания источников.
Страница Б: Сайт с устаревшим дизайном, но подробным контентом, написанным врачом со ссылками на исследования (высокий E-E-A-T).

Задача асессора: Сравнить Страницу А и Страницу Б на предмет качества и достоверности. В интерфейсе задачи Страница А расположена слева.
Сбор данных (Сырые оценки): 60% асессоров выбрали Страницу А. Они могли быть подвержены влиянию дизайна («дизайн-bias») и позиции («positional bias»).
Действие системы (по патенту): MLA анализирует результаты. Он замечает корреляцию: асессоры, которые систематически выбирают объекты слева или объекты с более привлекательным дизайном (независимо от их содержания), чаще выбирали Страницу А.
Коррекция: Система вычисляет высокие параметры предвзятости для этих асессоров и корректирует итоговую оценку, опираясь на мнение непредвзятых асессоров.
Результат (Unbiased Preference): После коррекции консенсус смещается в пользу Страницы Б.
Последствия для SEO: Обучающие данные Яндекса помечают Страницу Б как более качественную. Алгоритмы ранжирования (и метрики типа Proxima) учатся предпочитать содержание и E-E-A-T (Страница Б) поверхностному дизайну (Страница А).

Вопросы и ответы

Является ли описанный в патенте механизм алгоритмом ранжирования?

Нет. Это не алгоритм ранжирования. Патент описывает систему контроля качества данных, которые собираются от асессоров (например, через Яндекс.Толоку). Эта система очищает данные от шума и когнитивных искажений, прежде чем они будут использованы для обучения настоящих алгоритмов ранжирования (таких как CatBoost или YATI) или расчета метрик качества (таких как Proxima).

Что такое «Скрытые искажающие признаки» (Latent Biasing Features)?

Это любые элементы интерфейса задачи или особенности представления контента, которые могут неосознанно повлиять на выбор асессора, но не имеют отношения к релевантности или качеству сравниваемых объектов. Примеры, приведенные в патенте, включают позицию объекта на экране (слева или справа), размер шрифта, размер изображения, цвет фона. Система пытается нейтрализовать их влияние.

Как этот патент влияет на метрику Proxima?

Влияние прямое и положительное. Proxima — это метрика качества, которая обучается на асессорских оценках. Если эти оценки содержат шум и когнитивные искажения (например, асессор выбрал сайт из-за его позиции в интерфейсе оценки, а не из-за качества), Proxima будет учиться неправильно. Описанный метод очищает эти оценки от искажений, позволяя Proxima обучаться на более чистых данных и точнее измерять истинное качество сайтов.

Что такое Mixture Model (Модель смеси), упоминаемая в патенте?

Это статистическая модель, которая предполагает, что наблюдаемые данные (оценки асессоров) генерируются смесью нескольких разных процессов. В данном патенте модель предполагает два процесса: (1) объективная оценка качества и (2) оценка под влиянием когнитивного искажения. Система вычисляет вероятность того, какой из этих процессов привел к конкретной оценке, и использует это для очистки данных.

Означает ли это, что дизайн сайта не важен для SEO?

Нет, дизайн и UX по-прежнему крайне важны для поведенческих факторов пользователей (удовлетворенность, время на сайте, конверсии). Однако этот патент показывает, что при обучении моделей оценки *качества контента* (через асессоров) Яндекс стремится игнорировать влияние дизайна, фокусируясь на содержании, релевантности и E-E-A-T.

Как система определяет, предвзят ли конкретный асессор?

Система использует метод максимального правдоподобия (MLE). Она анализирует все ответы асессора и ищет корреляции между его выбором и наличием Latent Biasing Features. Если асессор систематически предпочитает объекты, расположенные слева (независимо от их содержания), система присвоит ему высокую степень предвзятости к позиции (Bias Degree) и высокую вероятность предвзятости (Bias Probability).

Применяется ли этот метод только к краудсорсингу (Толока) или и к штатным асессорам?

Патент сфокусирован на краудсорсинговой среде, так как там уровень шума и разнообразие исполнителей выше. Однако описанная методология может применяться для контроля качества и выявления когнитивных искажений у любых групп асессоров, включая штатных сотрудников, поскольку никто не застрахован от неосознанных предубеждений.

Если большинство асессоров предпочли сайт А, может ли система решить, что сайт Б лучше?

Да, абсолютно. Если система определит, что большинство асессоров, выбравших сайт А, были подвержены сильному когнитивному искажению (например, позиционному смещению), а объективные асессоры выбрали сайт Б, то система скорректирует результат в пользу сайта Б. Это и есть цель изобретения — уйти от простого подсчета голосов к пониманию истинного качества.

Применяется ли этот механизм только для попарных сравнений?

Патент фокусируется на задачах сравнения (Comparison Task), и примеры в основном касаются попарных сравнений (Pairwise Comparison), так как это распространенный метод оценки качества SERP или документов. Теоретически, подход может быть адаптирован и для других типов задач, но в данном патенте речь идет именно о сравнениях.

Какое ключевое знание я должен вынести из этого патента для своей SEO стратегии?

Ключевое знание — это подтверждение того, что фундаментом ранжирования в Яндексе являются ML-модели, обученные на высококачественных данных. Яндекс инвестирует в сложные методы очистки этих данных от любых искажений. Это означает, что ваша стратегия должна быть на 100% сфокусирована на фундаментальной релевантности, E-E-A-T и решении задачи пользователя, так как именно эти сигналы Яндекс стремится измерить и использовать.