Как Яндекс обучает трансформерные модели ранжирования (YATI), комбинируя данные о кликах и оценки асессоров

Яндекс патентует многоэтапный процесс обучения трансформерных моделей (типа BERT/YATI) для ранжирования. Система сначала обучается на огромном массиве данных о кликах и метаданных, а затем дообучается на оценках асессоров. Ключевой шаг — использование этой модели для генерации «синтетических асессорских оценок» для всего массива кликов и финальное обучение на этих обогащенных данных.

Описание

Какую задачу решает

Патент решает фундаментальную проблему обучения больших языковых моделей (в частности, трансформеров типа BERT) для задач поискового ранжирования. Основная сложность заключается в том, как эффективно объединить различные типы обучающих данных: огромные массивы поведенческих данных (клики), которые являются шумным сигналом релевантности, и небольшие, но высококачественные наборы данных с оценками асессоров. Также патент решает задачу интеграции нетекстовых метаданных (например, URL, регион запроса) непосредственно в архитектуру трансформера для улучшения понимания контекста.

Что запатентовано

Запатентована методология многофазного обучения (Multi-Phase Training) модели машинного обучения (конкретно, трансформера) для определения параметра релевантности (Relevance Parameter). Суть изобретения заключается в последовательном обучении модели сначала на данных о кликах, затем на данных от асессоров, с последующим ключевым этапом: использованием обученной модели для генерации «синтетических асессорских оценок» (Synthetic Assessor-Generated Labels) для огромного набора данных о кликах. Финальная модель обучается на этом массивно обогащенном наборе данных.

Как это работает

Процесс обучения состоит из нескольких фаз. Сначала модель может быть предобучена на неразмеченных текстах. Затем следует основная фаза предобучения на миллиардах записей о кликах (Clicks Dataset). На этом этапе модель учится предсказывать вероятность клика и одновременно обучается с помощью Masked Language Modeling (MLM), причем в модель подаются не только тексты запроса и документа, но и их метаданные (URL, заголовки, регионы) в токенизированном виде. Далее модель дообучается (Finetuning) на меньшем наборе данных с оценками асессоров (Relevance Datasets). После этого модель используется для разметки всего Clicks Dataset синтетическими оценками. Наконец, модель переобучается на этом обогащенном наборе данных.

Актуальность для SEO

Высокая. Описанная методология точно соответствует современным тенденциям в Information Retrieval, где используются большие трансформерные модели (как YATI у Яндекса). Использование методов Semi-Supervised Learning и Distillation (перенос знаний от «учителя», обученного на асессорах, к «ученику» через синтетические метки) для масштабирования качественных сигналов на большие данные является передовой практикой.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает не конкретный фактор ранжирования, а методологию обучения основных ранжирующих моделей Яндекса. Это дает стратегическое понимание приоритетов поиска: система стремится эмулировать суждения асессоров (E-E-A-T, релевантность), но делает это в масштабе, используя поведенческие данные как основу. Также критически важно понимание того, что метаданные (URL, Title) обрабатываются трансформером наравне с основным текстом.

Детальный разбор

Термины и определения

Assessor-Generated Label (Асессорская оценка): Метка релевантности документа запросу, присвоенная человеком-асессором. Считается эталоном качества, но данные дорогие и их мало.
Clicks Dataset (Набор данных о кликах): Огромный набор данных (в патенте упоминается 23 миллиарда записей), содержащий запрос, документ и информацию о взаимодействии пользователя (клик/не клик). Используется для основного предобучения.
Digital Object (Цифровой объект): Единица данных для обучения или ранжирования. Обычно включает запрос, документ и связанные с ними метки и метаданные.
Masked Language Modeling (MLM): Метод обучения языковых моделей (типа BERT), при котором часть входных токенов маскируется, и модель учится их предсказывать на основе контекста. Используется для изучения семантики и синтаксиса.
Metadata (Метаданные): Дополнительная информация о запросе (например, географический регион) и документе (например, заголовок, URL). В этом патенте метаданные токенизируются и подаются в трансформер наравне с текстом.
Relevance Parameter (Параметр релевантности): Выходное значение обученной модели, указывающее, насколько документ релевантен запросу.
Synthetic Assessor-Generated Label (Синтетическая асессорская оценка): Метка релевантности, сгенерированная моделью машинного обучения, которая была обучена предсказывать реальные асессорские оценки. Используется для разметки больших наборов данных (например, Clicks Dataset).
Transformer (Трансформер): Архитектура глубокого обучения, основанная на механизме внимания (Attention). Является основой для моделей типа BERT и YATI. В патенте используется как основная обучаемая модель.
User Interaction Parameter (Параметр взаимодействия пользователя): Данные о поведении пользователя, обычно клики. В патенте упоминается полезность использования «long clicks» (длинных кликов) как более точного индикатора релевантности.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения, а не на архитектуре модели.

Claim 1 (Независимый пункт): Описывает основной процесс многофазного обучения.

Получение первого набора данных (Clicks Dataset), где каждый объект связан с past user interaction parameter (например, кликом).
Первая фаза обучения: Обучение модели на этом наборе данных для предсказания predicted user interaction parameter (вероятности клика).
Получение второго набора данных (Relevance Dataset), где каждый объект связан с first assessor-generated label (оценкой асессора).
Вторая фаза обучения (следует за первой): Дообучение модели на втором наборе данных для предсказания synthetic assessor-generated label (предсказания оценки асессора).
Аугментация данных: Применение обученной модели к первому (большому) набору данных для добавления к нему синтетических асессорских оценок. Это создает first augmented plurality of training digital objects.
Финальное обучение: Обучение модели на этом аугментированном наборе данных для определения финального relevance parameter.

Claim 2 (Зависимый от 1): Уточняет, как обрабатываются метаданные документа в первой фазе обучения.

Метаданные конвертируются в текстовое представление (токены). Часть этих токенов маскируется (MLM). Модель обучается предсказывать эти замаскированные токены на основе контекста. Это позволяет модели изучать семантические связи, включающие метаданные.

Claim 6 (Зависимый от 1): Описывает итеративный процесс улучшения (Refinement).

После второй фазы может следовать третья фаза. Получается третий набор данных (например, более свежий или качественный набор асессорских оценок). Модель дообучается на нем для предсказания refined synthetic assessor-generated label. Затем происходит повторная аугментация большого набора данных этими улучшенными метками и финальное переобучение.

Где и как применяется

Этот патент описывает офлайн-процесс обучения моделей машинного обучения. Он не применяется напрямую в реальном времени при обработке запроса, но определяет, как создаются модели, которые затем используются на этапе ранжирования.

RANKING – Ранжирование
Результатом работы описанного в патенте процесса является обученная модель (например, трансформер типа YATI). Эта модель применяется на поздних стадиях ранжирования (вероятно, L3/L4) для вычисления Relevance Parameter для пар запрос-документ. В патенте упоминается, что этот параметр может быть использован для ранжирования напрямую, либо как входной признак (input feature) для другой модели ранжирования, например, CatBoost decision tree learning model.

Взаимодействие с компонентами системы:

Система обучения взаимодействует с хранилищами неразмеченных документов (для начального MLM).
Взаимодействует с логами пользовательского поведения (для формирования Clicks Dataset).
Взаимодействует с базами данных асессорских оценок (для формирования Relevance Datasets).

На что влияет

Все типы запросов и контента: Поскольку это методология обучения основной модели релевантности, она влияет на ранжирование по всем типам запросов и для всех типов контента.
Интерпретация поведенческих факторов: Патент показывает механизм, как шумные данные о кликах трансформируются в более чистый сигнал релевантности, приближенный к асессорским оценкам.
Оценка семантической релевантности: Использование MLM на всех этапах обучения гарантирует, что модель глубоко понимает семантические связи между запросом и документом.
Учет метаданных: Влияет на то, как учитываются URL, заголовки и региональность при определении релевантности.

Когда применяется

Процесс обучения применяется офлайн, по мере накопления новых данных (кликов, асессорских оценок) и при необходимости обновления основных ранжирующих моделей. Частота применения зависит от скорости устаревания моделей и вычислительных ресурсов Яндекса.

Пошаговый алгоритм

Процесс обучения модели ранжирования.

Фаза 0: Начальное предобучение (Опционально)

Сбор данных: Получение большого корпуса неразмеченных документов (Docs Dataset, в патенте упоминается 600 млн документов).
Токенизация и маскирование: Документы токенизируются, часть токенов маскируется.
Обучение (MLM): Модель (Трансформер) обучается предсказывать замаскированные токены. Цель — изучить базовые языковые паттерны.

Фаза 1: Предобучение на кликах (Second Pretraining Phase)

Сбор данных: Получение Clicks Dataset (в патенте упоминается 23 млрд записей). Каждая запись содержит запрос, документ (включая метаданные) и факт клика (User Interaction Parameter).
Токенизация метаданных: Запрос, документ и их метаданные (URL, Title, регион) токенизируются в единую последовательность. Часть токенов маскируется.
Обучение (MLM + Click Prediction): Модель обучается одновременно решать две задачи: предсказывать замаскированные токены (MLM) и предсказывать вероятность клика (Click Prediction Loss).

Фаза 2: Дообучение на релевантности (Finetuning Phase — Этап 1)

Сбор данных: Получение Relevance Dataset (например, Rel-Big, 50 млн записей) с асессорскими оценками.
Обучение (Relevance Prediction): Модель дообучается предсказывать асессорскую оценку (Assessor-Generated Label).

Фаза 3: Аугментация и Переобучение (Finetuning Phase — Этап 2)

Генерация синтетических меток: Модель, полученная в Фазе 2, применяется ко всему Clicks Dataset для генерации Synthetic Assessor-Generated Labels.
Переобучение: Модель (возможно, та же самая или другая архитектура — процесс дистилляции) обучается на этом массивном, аугментированном наборе данных.

Фаза 4: Итеративное улучшение (Опционально)

Фазы 2 и 3 могут повторяться с использованием более качественных/свежих, но меньших наборов данных (Rel-Mid, Rel-Small) для последовательного уточнения модели и генерации более точных синтетических меток.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст запроса, текст документа, заголовок документа (Title). Используются на всех этапах обучения.
Поведенческие факторы: Данные о кликах (Click Information). В патенте особо отмечается использование «long clicks» (например, более 120 секунд) как более надежного показателя релевантности, чем простые клики. Это основной сигнал в Clicks Dataset.
Технические факторы (Метаданные): Веб-адрес документа (URL). Токенизируется и используется в обучении MLM.
Географические факторы (Метаданные): Географический регион, откуда пришел запрос (Query Metadata). Токенизируется и используется в обучении MLM.
Асессорские данные: Оценки релевантности, присвоенные людьми (Assessor-Generated Labels). Используются на этапах Finetuning.

Какие метрики используются и как они считаются

MLM Loss: Функция потерь (обычно Cross-Entropy Loss), рассчитываемая на основе разницы между предсказанными и реальными замаскированными токенами. Используется для обучения языковой модели понимать контекст.
Click Prediction Loss: Функция потерь (Cross-Entropy Loss), рассчитываемая на основе разницы между предсказанной вероятностью клика и фактом клика в логах.
Relevance Prediction Loss: Функция потерь (Cross-Entropy Loss), рассчитываемая на основе разницы между предсказанной оценкой релевантности (Synthetic Label) и реальной оценкой асессора (Ground Truth).
Normalized Discounted Cumulative Gain (NDCG): Метрика качества ранжирования. В патенте упоминается как способ оценки улучшения модели на разных этапах обучения.

Алгоритмы машинного обучения:

Transformer (BERT-like): Основная архитектура модели, использующая механизм внимания (Multi-Head Attention Layer) и слои прямой связи (Feed-Forward Neural Network Layer).
CatBoost: Алгоритм градиентного бустинга. Упоминается как возможный потребитель выхода трансформерной модели (Relevance Parameter) для финального ранжирования.

Выводы

Трансформеры — ядро ранжирования: Патент подтверждает, что Яндекс использует большие трансформерные модели (типа BERT/YATI) для оценки релевантности.
Синергия кликов и асессоров: Ключевая стратегия Яндекса — использовать масштаб поведенческих данных (кликов) и качество асессорских оценок. Это достигается через механизм генерации синтетических асессорских меток (дистилляция/аугментация).
Асессоры определяют Ground Truth: Цель обучения финальной модели — максимально точно предсказать суждение асессора. Это подчеркивает критическую важность факторов E-E-A-T и качества контента.
Метаданные как часть семантики: URL, заголовки (Title) и регион запроса токенизируются и обрабатываются трансформером наравне с обычным текстом. Они участвуют в формировании семантического понимания документа и запроса через MLM.
Важность «длинных кликов»: Патент явно указывает на использование «long clicks» как предпочтительного сигнала взаимодействия по сравнению с обычными кликами, что подтверждает фокус на удовлетворенности пользователя, а не только на CTR.
Многоэтапное улучшение качества: Процесс обучения является итеративным, начиная с грубых оценок на основе кликов и постепенно уточняя их с помощью разных наборов асессорских данных.

Практика

Best practices (это мы делаем)

Фокус на E-E-A-T и качестве контента: Поскольку конечная цель модели — эмулировать суждения асессоров, стратегический приоритет должен отдаваться качеству, экспертности и достоверности контента. Модель обучается распознавать эти характеристики.
Оптимизация под удовлетворенность пользователя (Long Clicks): Необходимо работать над тем, чтобы пользователь, перейдя на сайт, оставался на нем для решения своей задачи. Патент прямо указывает на использование «long clicks» в обучении. Это требует глубокой проработки контента и хорошего UX.
Оптимизация технических метаданных (Title и URL): Заголовки и URL являются не просто факторами ранжирования, а частью данных, которые трансформер анализирует для понимания семантики документа (через MLM). Они должны быть релевантными, чистыми и отражать содержание страницы.
Глубокое семантическое покрытие темы: Благодаря обучению с помощью MLM, модель хорошо понимает семантику и контекст. Контент должен быть полным и использовать разнообразную тематическую лексику (QBST фразы), чтобы модель могла установить прочные семантические связи.
Учет региональности: Регион запроса явно используется как метаданные при обучении модели. Для локального SEO критически важно обеспечивать четкие сигналы региональной принадлежности.

Worst practices (это делать не надо)

Кликбейт и оптимизация под CTR в ущерб качеству: Стратегии, направленные на получение клика любой ценой, будут неэффективны, так как модель обучается на «long clicks» и асессорских оценках, которые штрафуют кликбейт.
Игнорирование структуры URL и качества Title: Использование неинформативных, переоптимизированных или автоматически сгенерированных URL и заголовков ухудшает способность модели понять контекст документа.
Поверхностный контент: Контент, не удовлетворяющий интент пользователя и приводящий к быстрым возвратам на выдачу (короткие клики), будет негативно влиять на обучение моделей в отношении данного сайта/документа.

Стратегическое значение

Патент демонстрирует высокий уровень зрелости Яндекса в применении глубокого обучения для ранжирования. Стратегически это означает, что разрыв между сайтами, инвестирующими в качество (E-E-A-T, UX, контент), и сайтами, использующими устаревшие SEO-тактики, будет увеличиваться. Система построена так, чтобы масштабировать признаки качества на весь веб. Попытки манипулировать поведенческими факторами становятся менее эффективными, когда эти факторы проходят через «фильтр» асессорских оценок посредством синтетических меток.

Практические примеры

Сценарий 1: Использование URL и Title в обучении (MLM)

Данные на входе: Запрос, Документ с Title «Лучшая шарлотка с яблоками» и URL «site.ru/recipes/sharlotka-apple».
Токенизация: Вся информация объединяется в последовательность токенов: … …
Обучение (MLM): Система маскирует токен, например,: … …
Результат: Модель учится предсказывать на основе контекста, включающего слова запроса и доменное имя. Это позволяет модели понять, что URL-структура «/recipes/» семантически связана с кулинарными запросами, и учитывает это при расчете релевантности.

Сценарий 2: Генерация синтетических меток и переобучение

Ситуация: Есть кликбейтный сайт А, который получает много коротких кликов по запросу, и экспертный сайт Б, который получает меньше кликов, но они длинные.
Фаза 1 (Обучение на кликах): Модель может посчитать сайт А достаточно релевантным из-за большого количества кликов.
Фаза 2 (Обучение на асессорах): Модель дообучается на данных, где асессоры помечают кликбейтные сайты как нерелевантные или низкокачественные, а экспертные — как высококачественные (YMYL-контекст).
Фаза 3 (Аугментация): Модель применяется к исходным данным о кликах. Она генерирует низкую синтетическую оценку для сайта А и высокую для сайта Б, несмотря на исходное распределение кликов.
Финальное обучение: Финальная модель обучается на этих синтетических метках и будет ранжировать сайт Б выше сайта А.

Вопросы и ответы

В чем ключевая инновация этого патента?

Ключевая инновация — это метод масштабирования качественных, но малочисленных асессорских оценок на огромный массив шумных данных о кликах. Это достигается путем генерации «синтетических асессорских оценок» (Synthetic Assessor-Generated Labels). Модель, обученная на асессорах, размечает миллиарды записей о кликах, после чего финальная модель переобучается на этом обогащенном наборе данных. Это позволяет объединить масштаб кликов и качество асессорских суждений.

Описывает ли этот патент алгоритм YATI?

Патент не упоминает название YATI, но он описывает методологию обучения больших трансформерных моделей (BERT-like) для поискового ранжирования в Яндексе. Поскольку YATI является основной трансформерной моделью Яндекса, с высокой вероятностью эта методология применяется именно для ее обучения. Патент дает представление о том, как устроены процессы обучения современных нейросетевых моделей в поиске.

Заменяет ли эта модель CatBoost (MatrixNet)?

Нет, не обязательно. Патент описывает, как обучить модель (Трансформер) генерировать высококачественный «Параметр Релевантности» (Relevance Parameter). В тексте прямо указано, что этот параметр может использоваться для ранжирования напрямую ИЛИ как входной признак (input feature) для другой модели ранжирования, в качестве примера которой приведен CatBoost. Вероятно, эта модель генерирует мощные признаки для финальной формулы ранжирования.

Какие метаданные использует эта система и как?

Патент явно упоминает метаданные запроса (географический регион) и метаданные документа (заголовок Title, веб-адрес URL). Критически важно, что эти метаданные токенизируются и подаются на вход трансформера вместе с текстом. Они участвуют в обучении через Masked Language Modeling (MLM), что позволяет модели учитывать их при понимании семантики и контекста документа.

Что такое Masked Language Modeling (MLM) и зачем он нужен в ранжировании?

MLM — это процесс, когда система скрывает часть входных слов (или токенов метаданных) и пытается их предсказать по контексту. В ранжировании это используется для того, чтобы модель глубоко изучила семантические связи между запросом, документом и его метаданными. Это позволяет модели понимать релевантность на смысловом уровне, а не только по совпадению ключевых слов.

Какова роль асессоров в этой системе?

Асессоры играют критически важную роль — они определяют эталон (Ground Truth) релевантности и качества. Хотя их оценок мало, именно они используются для дообучения (Finetuning) модели и последующей генерации синтетических меток. Конечная цель всей системы — научить модель ранжировать так, как это сделал бы асессор.

Как этот патент влияет на важность E-E-A-T?

Влияние высокое. Поскольку модель стремится эмулировать суждения асессоров, она неизбежно обучается распознавать сигналы качества, экспертности, авторитетности и достоверности (E-E-A-T), которыми руководствуются асессоры. Это делает работу над E-E-A-T стратегическим приоритетом.

Какие типы кликов учитываются при обучении?

Патент явно подчеркивает полезность использования «long clicks» (длинных кликов, например, более 120 секунд) как индикатора релевантности. Это означает, что система ценит не просто факт перехода на сайт (CTR), а удовлетворенность пользователя и время, проведенное за изучением контента. Короткие клики (быстрые возвраты) интерпретируются иначе.

Что означает многофазность обучения?

Это означает, что модель обучается последовательно на разных наборах данных для решения разных задач. Сначала она учится понимать язык (MLM), затем предсказывать клики (на большом наборе данных), затем предсказывать оценки асессоров (на маленьком наборе данных), и в конце переобучается на обогащенных данных. Каждая фаза улучшает понимание моделью релевантности.

Как SEO-специалисту использовать знание о токенизации URL и Title?

Это знание подтверждает, что URL и Title должны быть максимально чистыми, семантически связанными с контентом и интентом пользователя. Трансформер анализирует их структуру и содержание для понимания контекста страницы. Следует избегать неинформативных идентификаторов в URL и переоптимизированных или нерелевантных заголовков, так как они вносят шум в процесс обучения и анализа модели.