Как Яндекс комбинирует клики пользователей и оценки асессоров для обучения нейросетевых моделей ранжирования (например, YATI)

Патент Яндекса описывает многоэтапный процесс обучения моделей ранжирования (вероятно, трансформеров типа YATI). Система сначала обучается на огромном массиве данных о кликах пользователей, а затем дообучается на меньшем, но более качественном наборе оценок асессоров. Ключевая идея — использовать дообученную модель для генерации «синтезированных меток асессоров» для данных, где есть только клики, объединяя таким образом оба типа сигналов для финального обучения.

Описание

Какую задачу решает

Патент решает фундаментальную проблему обучения моделей ранжирования: как эффективно использовать разнородные данные. С одной стороны, есть огромные объемы данных о кликах пользователей (параметр прошлых пользовательских действий), которые легко собрать, но они зашумлены и подвержены смещениям (например, кликбейт). С другой стороны, есть сформированные оценщиком метки (асессорские оценки), которые являются эталоном качества, но дороги и ограничены по объему. Изобретение предлагает метод, позволяющий модели одновременно использовать масштаб кликовых данных и точность человеческих суждений о релевантности.

Что запатентовано

Запатентован компьютерный способ многоэтапного обучения моделей машинного обучения для ранжирования. Суть изобретения заключается в последовательном обучении модели: сначала на данных о поведении пользователей, затем на данных асессоров. Ключевым механизмом является генерация синтезированных меток оценщика для большого набора поведенческих данных, что позволяет перенести знания, полученные от асессоров, на весь массив данных о кликах.

Как это работает

Процесс обучения разбит на этапы:

Первый этап: Модель (например, трансформер) обучается на большом наборе данных с кликами предсказывать будущие действия пользователей. На этом этапе также может применяться предварительное обучение семантике (например, через Masked Language Modeling).
Второй этап: Та же модель дообучается (fine-tuning) на меньшем наборе данных с оценками асессоров, чтобы научиться предсказывать эти оценки.
Обогащение данных: Обученная модель применяется к первому (большому) набору данных для генерации синтезированных меток оценщика для объектов, где были только клики.
Финальное обучение: Модель обучается на обогащенном наборе данных (клики + синтезированные метки) для определения финального параметра релевантности. Патент также указывает, что этот параметр может использоваться как признак для другой модели ранжирования, например, CatBoost.

Актуальность для SEO

Высокая. Описанная методология (последовательное дообучение, self-training, объединение больших зашумленных и малых чистых данных) является передовой практикой для обучения больших нейронных сетей в поиске. Учитывая дату публикации (2023) и упоминание трансформеров и MLM, этот патент, вероятно, описывает актуальный пайплайн обучения моделей Яндекса, таких как YATI.

Важность для SEO

Влияние на SEO значительно (8.5/10). Хотя патент описывает офлайн-процесс обучения моделей, он раскрывает, как именно Яндекс формирует свое понимание релевантности и качества. Он демонстрирует конкретный механизм балансировки поведенческих сигналов (то, на что кликают) и экспертной оценки качества (то, что высоко оценивают асессоры, например, Proxima/E-E-A-T). Это подчеркивает необходимость комплексной SEO-стратегии, направленной как на удовлетворение интента пользователя, так и на соответствие критериям качества Яндекса.

Детальный разбор

Термины и определения

CatBoost: Модель обучения на основе деревьев решений (градиентный бустинг). В патенте (п. 22) упоминается как финальная модель ранжирования, которая использует параметры релевантности, сгенерированные первой моделью (например, трансформером), в качестве входных признаков.
Masked Language Modeling (MLM) / Маскирование токенов: Метод предварительного обучения языковых моделей (например, BERT, YATI). В п. 2 описывается как маскирование части токенов в тексте (запрос, заголовок, контент, URL) и обучение модели предсказывать их на основе контекста.
NDCG (Нормализованный дисконтированный кумулятивный показатель): Метрика качества ранжирования. Упоминается в п. 14 как способ измерения улучшения модели на разных этапах обучения.
Многоэтапное обучение: Процесс последовательного обучения модели машинного обучения на разных наборах данных или с разными задачами для постепенного улучшения ее качества.
Параметр прошлых пользовательских действий: Данные, указывающие на действия прошлых пользователей с объектом. В п. 4 уточняется, что это определяется на основе данных о кликах.
Параметр прогнозируемых пользовательских действий: Прогноз модели относительно того, как будущие пользователи будут взаимодействовать с цифровым объектом (например, вероятность клика).
Параметр релевантности: Финальная оценка, определяемая моделью, указывающая на степень релевантности цифрового объекта поисковому запросу. Может включать параметр семантической релевантности (п. 2).
Синтезированная метка оценщика: Метка, сгенерированная моделью машинного обучения, которая имитирует оценку релевантности, которую поставил бы асессор-человек. Используется для обогащения данных о кликах.
Сформированная оценщиком метка: Реальная оценка релевантности, назначенная асессором-человеком.
Трансформер (Модель обучения на основе трансформера): Архитектура нейронной сети (например, YATI). Упоминается в п. 16 и 19 как предпочтительный вариант реализации модели машинного обучения.

Ключевые утверждения (Анализ Claims)

Патент защищает гибкий пайплайн обучения моделей ранжирования, позволяющий комбинировать различные источники данных разного качества и объема.

Claim 1 (Независимый пункт): Описывает базовый многоэтапный процесс обучения.

Этап 1 (Обучение на кликах): Получение первого множества объектов с параметром прошлых пользовательских действий (кликами). Обучение модели предсказывать будущие действия пользователей.
Этап 2 (Дообучение на асессорах): Получение второго множества объектов с первой сформированной оценщиком меткой. Последовательное дообучение той же модели на этих данных для предсказания оценок асессоров.
Обогащение данных (Data Enrichment): Применение модели (обученной на Этапе 2) к первому множеству (кликовым данным) для генерации и добавления синтезированной метки оценщика. Формируется первое дополненное множество.
Финальное обучение: Обучение модели на первом дополненном множестве (содержащем и клики, и синтетические метки) для определения финального параметра релевантности.

Claim 2 и 3 (Зависимые от 1): Описывают интеграцию семантического предварительного обучения (Pre-training) в Этап 1.

Используется метод Masked Language Modeling (MLM). Метаданные документа (включая заголовок, контент, веб-адрес/URL) и связанный поисковый запрос преобразуются в текст. Часть токенов маскируется, и модель учится их предсказывать по контексту. Это позволяет модели выучить параметр семантической релевантности.

Claim 6 (Зависимый от 1): Описывает добавление промежуточного этапа дообучения (Этап 3) для уточнения меток.

После Этапа 2 может быть добавлен Этап 3 с использованием третьего множества данных с асессорскими метками. Модель дообучается для определения уточненной синтезированной метки оценщика. Согласно п. 8, это множество обычно меньше Второго, что подразумевает иерархию качества данных (например, экспертные оценки).

Claim 9 (Зависимый от 1): Описывает дополнительный этап финального дообучения (Fine-tuning) после основного цикла для калибровки уточненного параметра релевантности.

Claim 17 (Зависимый от 1): Уточняет архитектуру. Система может использовать две разные модели: первая генерирует синтетические метки, вторая обучается на финальном этапе.

Claim 21 и 22 (Зависимые от 1): Описывают интеграцию в систему ранжирования.

Финальное ранжирование может осуществляться другой моделью обучения, которая использует параметры релевантности, сгенерированные первой моделью (например, трансформером из п. 16/19), как входные признаки. В п. 22 явно указано, что этой другой моделью может быть CatBoost.

Где и как применяется

Этот патент описывает офлайн-процесс обучения моделей, а не обработку запроса в реальном времени. Эти модели затем используются в слое ранжирования.

Офлайн-процессы (Обучение моделей)
Весь описанный механизм многоэтапного обучения происходит в инфраструктуре Яндекса до того, как модель будет выкачена в продакшн. Он требует обработки больших объемов исторических данных (логов кликов) и асессорских разметок.

RANKING – Ранжирование (L2/L3)
Результат работы — обученная модель машинного обучения (например, трансформер типа YATI). Эта модель применяется на этапах Middle Ranking (L2) или Upper Reranking (L3) для вычисления параметра релевантности.

Критически важным является взаимодействие, описанное в п. 21 и 22: Гибридная архитектура ранжирования. Модель, обученная по этому патенту (Трансформер/YATI), генерирует мощные признаки (параметры релевантности), которые затем поступают на вход основной ранжирующей модели — CatBoost. CatBoost агрегирует эти и сотни других признаков для определения финального порядка выдачи.

На что влияет

Поскольку этот патент описывает обучение базовых моделей релевантности, он влияет на все аспекты поиска:

Семантическая релевантность: Благодаря этапу предварительного обучения (MLM, п. 2), модель учится понимать глубокую семантическую связь между запросом и контентом, заголовком и URL документа.
Качество контента и E-E-A-T: Благодаря интеграции асессорских оценок (Этапы 2 и 3), модель учится различать уровни качества и релевантности так, как это делают люди-эксперты. Механизм синтетических меток масштабирует это знание на весь индекс.
Интерпретация Поведенческих факторов: Клики являются базовым сигналом (Этап 1), но их интерпретация корректируется моделью, обученной на асессорских данных, что снижает эффективность кликбейта и накруток.

Когда применяется

Алгоритм применяется периодически в офлайн-режиме, когда инженеры Яндекса переобучают и обновляют основные модели ранжирования (например, YATI). Это происходит по мере накопления новых данных (кликов и оценок асессоров) или при внедрении улучшений в архитектуру моделей.

Пошаговый алгоритм

Описание офлайн-пайплайна многоэтапного обучения модели (например, Трансформера).

Подготовка данных:

Сбор Первого множества (Dataset 1): Огромный набор данных с кликами.
Сбор Второго множества (Dataset 2): Большой набор данных с асессорскими метками 1 (например, стандартные оценки).
(Опционально) Сбор Третьего множества (Dataset 3): Меньший набор данных с асессорскими метками 2 (например, экспертные оценки).

Процесс Обучения:

(Опционально) Предварительное обучение (Pre-training). Использование текстовых данных (запросы, заголовки, контент, URL). Применение Masked Language Modeling (MLM) для изучения семантики.
Обучение на кликах. Использование Dataset 1. Цель: Обучить модель предсказывать вероятность клика.
Дообучение на асессорах (Fine-tuning). Использование Dataset 2. Цель: Дообучить модель (используя веса из предыдущего этапа) предсказывать Асессорскую Метку 1.
(Опционально) Уточняющее дообучение. Использование Dataset 3. Цель: Дообучить модель предсказывать Асессорскую Метку 2.
Этап Обогащения (Enrichment). Применение дообученной модели к Dataset 1. Цель: Сгенерировать синтезированную метку оценщика для каждого объекта в Dataset 1, создав Дополненное множество.
Финальный Этап Обучения. Использование Дополненного множества (Клики + Синтезированные метки). Цель: Обучить финальную модель определять итоговый параметр релевантности.
(Опционально) Финальное дообучение. Использование Dataset 2 или 3 для финальной калибровки модели.

Применение в Ранжировании:

Обученная модель (Трансформер) используется в продакшене для генерации параметра релевантности для пары Запрос-Документ.
Этот параметр используется как входной признак для другой модели ранжирования — CatBoost, которая определяет финальный ранг документа.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Являются основой Первого множества. Используется параметр прошлых пользовательских действий, основанный на данных о кликах (п. 4, 5).
Контентные факторы: Используются на этапе предварительного обучения (MLM, п. 2). В п. 3 указаны: обучающий поисковый запрос, заголовок цифрового документа, контент цифрового документа.
Технические/Структурные факторы: В п. 3 также упоминается веб-адрес (URL) как часть метаданных для MLM.
Асессорские данные: Используются во Втором и Третьем множествах. Это сформированные оценщиком метки, указывающие на степень релевантности с точки зрения человека (п. 1, 6).

Какие метрики используются и как они считаются

Параметр прогнозируемых пользовательских действий: Целевая метрика на Этапе 1 (вероятно, вероятность клика).
Синтезированная метка оценщика (и Уточненная): Целевая метрика на Этапах 2 и 3. Предсказание оценки асессора.
Параметр релевантности (и Уточненный): Финальная целевая метрика. Комплексная оценка релевантности.
NDCG (Нормализованный дисконтированный кумулятивный показатель): Используется для оценки эффективности процесса обучения на разных этапах (п. 14).

Алгоритмы машинного обучения:

Трансформеры (Transformer-based models): Явно указаны как архитектура для модели, проходящей многоэтапное обучение (п. 16, 19). Вероятно, речь идет о моделях типа YATI.
Masked Language Modeling (MLM): Метод обучения, используемый для предварительного обучения трансформеров (п. 2).
CatBoost: Модель градиентного бустинга. Используется как финальный ранжирующий алгоритм, принимающий на вход признаки, сгенерированные трансформером (п. 22).

Выводы

Гибридная архитектура ранжирования подтверждена: Патент явно подтверждает (п. 21, 22), что Яндекс использует гибридную модель. Тяжелые нейронные сети (Трансформеры/YATI) не ранжируют выдачу напрямую, а генерируют ключевые признаки (параметры релевантности), которые затем используются основной формулой ранжирования на базе CatBoost.
Объединение кликов и асессорских оценок: Ключевой механизм патента — генерация синтезированных меток оценщика для всего массива кликовых данных. Это позволяет Яндексу преодолеть ограничения разных типов данных: клики дают масштаб, асессорские оценки — качество.
Последовательное обучение (Sequential Fine-tuning): Модели обучаются итеративно. Сначала они учатся предсказывать поведение пользователей, затем дообучаются предсказывать оценки асессоров. Это позволяет модели учитывать предпочтения пользователей, но корректировать их с учетом стандартов качества.
Иерархия данных и качества: Патент предполагает наличие нескольких уровней асессорских данных (Второе и Третье множества), отличающихся по размеру и, вероятно, качеству (например, обычные асессоры и эксперты). Более качественные данные используются на поздних этапах для уточнения модели (п. 6, 8).
Семантическое понимание через MLM: Подтверждается использование предварительного обучения в стиле BERT/YATI (Masked Language Modeling) для формирования базового семантического понимания текстов (запросов, заголовков, контента и URL) (п. 2, 3).

Практика

Best practices (это мы делаем)

Соответствие критериям качества асессоров (E-E-A-T/Proxima): Критически важно. Асессорские оценки используются для дообучения и коррекции модели (Этапы 2 и 3). Знания асессоров масштабируются на весь индекс через синтезированные метки. Необходимо строго следовать принципам создания качественного, экспертного и достоверного контента.
Обеспечение высоких поведенческих метрик: Данные о кликах являются самым массовым сигналом обучения (Этап 1). Необходимо максимизировать CTR на выдаче и обеспечивать высокое вовлечение на сайте (решение задачи пользователя). Это формирует позитивный базовый сигнал.
Создание семантически богатого контента: Модель предварительно обучается с помощью MLM (п. 2) для понимания семантики. Контент должен быть полным, использовать естественный язык и покрывать тему широко, включая связанные сущности и QBST фразы.
Оптимизация заголовков и URL: Заголовки и веб-адреса явно указаны (п. 3) как данные, используемые для предварительного обучения (MLM). Они должны быть семантически релевантны содержанию страницы.

Worst practices (это делать не надо)

Кликбейт и манипуляция поведением: Использование обманных сниппетов для генерации кликов. Хотя клики используются на Этапе 1, Этап 2 (асессоры) призван скорректировать модель и научить ее игнорировать такие зашумленные сигналы, отдавая предпочтение качеству.
Игнорирование E-E-A-T и создание низкокачественного контента: Контент, который асессоры оценили бы низко, будет получать низкие синтезированные метки оценщика в процессе обучения, что приведет к низкому параметру релевантности на этапе ранжирования.
Переоптимизация и неестественные тексты: Использование устаревших методов текстовой оптимизации неэффективно для моделей, обученных с помощью MLM, которые ориентированы на понимание естественного языка и контекста.

Стратегическое значение

Этот патент имеет высокое стратегическое значение, так как описывает, как именно Яндекс обучает свои самые современные модели ранжирования (YATI). Он подтверждает стратегию Яндекса на синергию машинного обучения и человеческой экспертизы. Для SEO это означает, что невозможно сфокусироваться только на одном аспекте (например, только на ПФ или только на тексте). Долгосрочная стратегия должна быть направлена на создание ресурсов, которые одновременно высоко ценятся пользователями (генерируют позитивные ПФ) и соответствуют строгим критериям качества асессоров (E-E-A-T).

Практические примеры

Сценарий: Обучение модели различению кликбейта и качества в YMYL

Исходные данные: Имеется два документа по запросу «лечение простуды». Документ А (Кликбейт-статья на форуме) имеет высокий CTR. Документ Б (Статья врача на сайте клиники) имеет средний CTR.
Этап 1 (Обучение на кликах): Модель учится, что признаки Документа А хорошо предсказывают клик, и дает ему высокую предварительную оценку.
Этап 2 (Дообучение на асессорах): Асессоры размечают выборку. Документ А получает низкую оценку (недостоверная информация, низкий E-E-A-T), Документ Б — высокую. Модель дообучается и корректирует свои веса: признаки Документа А начинают ассоциироваться с низкой оценкой асессора.
Обогащение: Модель генерирует синтезированные метки для всего массива данных. Сайты, похожие на Документ А, получают низкие синтезированные метки, даже если у них высокий CTR.
Финальное обучение: Модель обучается на комбинированных данных. Она учится предпочитать документы с высоким CTR И высокой (реальной или синтезированной) меткой асессора.
Результат в ранжировании: Обученная модель генерирует более низкий параметр релевантности для Документа А и более высокий для Документа Б. CatBoost использует эти параметры как признаки и ранжирует Документ Б выше.

Вопросы и ответы

Описывает ли этот патент алгоритм YATI?

Хотя название YATI не упоминается, патент описывает многоэтапное обучение моделей на основе трансформеров (п. 16, 19) с использованием предварительного обучения MLM (п. 2) для ранжирования в поиске Яндекса. Это полностью соответствует архитектуре и принципам обучения, которые лежат в основе современных моделей Яндекса, включая YATI. С высокой вероятностью, патент описывает актуальный пайплайн обучения YATI.

Что такое «Синтезированная метка оценщика» и зачем она нужна?

Это оценка, которую генерирует сама модель машинного обучения, имитируя решение асессора-человека. Она нужна для решения проблемы нехватки реальных асессорских оценок. Модель сначала учится на небольшом наборе реальных оценок, а затем генерирует синтетические метки для огромного массива данных о кликах. Это позволяет масштабировать знания, полученные от асессоров, на весь объем обучающих данных.

Патент подтверждает, что CatBoost все еще используется для ранжирования?

Да, абсолютно. В пунктах 21 и 22 явно указано, что финальное ранжирование может осуществляться другой моделью, которая использует результаты работы первой модели (трансформера) в качестве входных признаков. В качестве примера этой другой модели приводится CatBoost. Это подтверждает гибридную архитектуру ранжирования Яндекса: Трансформеры (YATI) для генерации сложных признаков, CatBoost для финального ранжирования.

Что важнее для обучения модели: клики или оценки асессоров?

Важны оба типа данных, и система спроектирована для их синергии. Клики (Этап 1) обеспечивают масштаб и базовое понимание того, что интересует пользователей. Оценки асессоров (Этапы 2 и 3) обеспечивают качество, точность и коррекцию смещений, присущих кликовым данным (например, кликбейта). Модель последовательно учится на обоих источниках, чтобы найти оптимальный баланс.

Что такое многоэтапное обучение, описанное в патенте?

Это последовательный процесс. Вместо того чтобы смешивать все данные (клики и оценки) и обучать модель один раз, Яндекс обучает модель итеративно. Сначала на кликах, затем дообучает (fine-tuning) на оценках асессоров, затем использует механизм обогащения данных и обучает снова. Это позволяет модели постепенно усваивать сложные зависимости и улучшать качество (измеряемое через NDCG, п. 14).

Что означает упоминание MLM (Masked Language Modeling) в патенте?

Это метод предварительного обучения (п. 2), используемый в моделях типа BERT и YATI. Система берет текст (запрос, заголовок, контент, URL), скрывает часть слов и учит модель предсказывать скрытые слова по контексту. Это позволяет модели выучить глубокое семантическое понимание языка и связи между терминами еще до того, как она начнет учиться ранжированию.

В патенте упоминаются Первое, Второе и Третье множества данных. Чем они отличаются?

Первое множество — это данные о кликах (самый большой объем). Второе и Третье — это данные с асессорскими оценками. Патент (п. 8) указывает, что размер множеств обычно уменьшается (Первое > Второе > Третье). Это может означать иерархию качества: Клики > Стандартные асессорские оценки > Высококачественные или экспертные оценки (например, для YMYL-тематик).

Как этот патент связан с E-E-A-T и Proxima?

Он напрямую связан через использование асессорских оценок (Второе и Третье множества). Асессоры оценивают контент, руководствуясь инструкциями, которые базируются на принципах E-E-A-T и используются для расчета метрик типа Proxima. Обучаясь предсказывать эти оценки, модель машинного обучения фактически учится определять E-E-A-T на уровне документа и масштабировать это знание.

Использует ли система URL для определения релевантности?

Да. В пункте 3 явно указано, что веб-адрес (URL) используется как часть метаданных документа на этапе предварительного обучения (MLM). Это означает, что семантика URL может влиять на то, как модель интерпретирует содержание документа и его релевантность запросу.

Как SEO-специалисту использовать информацию из этого патента?

Необходимо принять комплексный подход. Во-первых, оптимизировать сайт для максимального удовлетворения пользователя (улучшать ПФ), так как клики — это базовый сигнал. Во-вторых, уделять первостепенное внимание качеству контента и соответствию критериям E-E-A-T, так как асессорские оценки корректируют и уточняют модель. В-третьих, создавать семантически насыщенный и естественный контент, так как модель использует MLM для понимания текстов.