Как Яндекс обучает трансформерные модели (YATI) для ранжирования, комбинируя данные о кликах и оценки асессоров

Яндекс использует многоэтапный процесс для обучения трансформерных моделей (типа BERT/YATI). Модель сначала обучается на миллиардах кликов (прогнозируя поведение), затем дообучается на миллионах оценок асессоров (понимая качество). Ключевой этап — перенос знаний от асессоров обратно на данные о кликах (Knowledge Distillation) для масштабирования качества. Также в патенте описано, как метаданные (URL, Title) обрабатываются трансформером как семантические единицы.

Описание

Какую задачу решает

Патент решает фундаментальную проблему обучения моделей ранжирования: как эффективно объединить масштабные, но «шумные» данные о поведении пользователей (клики) с высококачественными, но малочисленными и дорогими данными от асессоров. Данные о кликах не всегда точно отражают фактическую релевантность. Патент предлагает метод, который позволяет масштабировать качество асессорских оценок на весь объем данных о кликах. Кроме того, он решает задачу интеграции нетекстовых метаданных (таких как URL, заголовки, географический регион) непосредственно в трансформерные модели на этапе предварительного обучения.

Что запатентовано

Запатентован метод многоэтапного обучения модели машинного обучения (в частности, трансформерной модели типа BERT / YATI) для ранжирования. Суть изобретения заключается в последовательном применении предварительного обучения и точной настройки, связанных этапом переноса знаний (Knowledge Distillation или Дистилляция). Модель сначала учится прогнозировать поведение пользователей на огромном наборе данных о кликах, а затем дообучается на меньшем наборе асессорских оценок. После этого модель используется как «учитель» для повторной разметки исходного набора данных о кликах синтезированными оценками релевантности.

Как это работает

Процесс обучения состоит из нескольких этапов:

Предварительное обучение: Трансформерная модель обучается на миллиардах записей о кликах. Она учится одновременно предсказывать действия пользователя (например, «длинный клик») и понимать язык через MLM (Masked Language Modeling). Важно, что метаданные (URL, Title, Geo) токенизируются и обрабатываются как текст.
Точная настройка: Модель дообучается на меньшем наборе данных с оценками асессоров, чтобы научиться предсказывать именно релевантность, а не только кликабельность.
Перенос знаний и Повторное обучение: Модель, настроенная на асессорах, используется для генерации «синтезированных меток» для всего огромного набора данных о кликах. Затем модель переобучается на этом дополненном наборе.

Результатом является модель, генерирующая Параметр Релевантности, который может использоваться как признак в основной формуле ранжирования (например, CatBoost).

Актуальность для SEO

Крайне высокая. Описанный процесс является фундаментом для обучения современных нейросетевых моделей ранжирования, таких как YATI в Яндексе. Использование Knowledge Distillation для объединения поведенческих сигналов и человеческих оценок является передовой практикой (State-of-the-Art) в Information Retrieval.

Важность для SEO

Влияние на SEO критическое (9/10). Хотя патент описывает инфраструктуру обучения, он точно раскрывает, на каких данных Яндекс обучает свои ключевые модели релевантности. Он демонстрирует прямую связь между поведением пользователей (особенно «длинными кликами»), оценками асессоров (качество контента/E-E-A-T) и финальными сигналами ранжирования. Кроме того, он подчеркивает, что метаданные (URL, Title) обрабатываются семантически трансформером, что повышает их значимость как факторов ранжирования.

Детальный разбор

Термины и определения

Clicks Dataset (Набор данных «Clicks»): Огромный набор данных (например, 23 миллиарда объектов), содержащий запрос, документ и информацию о клике. Используется для предварительного обучения.
Knowledge Distillation (Перенос знаний / Дистилляция знаний): Процесс, при котором одна модель («Учитель») размечает набор данных, который затем используется для обучения другой модели («Ученик»). В данном патенте используется для переноса понимания релевантности с малой выборки на большую.
Long Click (Длинный клик): Клик, при котором пользователь остается на документе продолжительное время (например, 120 секунд). Используется как сильный индикатор релевантности и удовлетворенности пользователя.
Metadata (Метаданные): Данные, связанные с запросами (например, географический регион) или документами (например, заголовок Title, URL). В патенте они преобразуются в текстовые токены и обрабатываются трансформером.
MLM (Masked Language Modeling / Маскированное языковое моделирование): Метод обучения, при котором часть входных токенов скрывается («маскируется»), и модель учится предсказывать их на основе контекста. Используется для обучения семантическому пониманию языка.
Relevance Datasets (Наборы данных о релевантности): Наборы данных меньшего размера (например, 1-50 миллионов объектов), размеченные асессорами-людьми (например, Rel-Big, Rel-Mid, Rel-Small). Используются для точной настройки.
Relevance Parameter (Параметр релевантности): Выходное значение обученной модели машинного обучения, указывающее на степень релевантности документа запросу. Используется как сигнал ранжирования.
Synthesized Label (Синтезированная метка): Оценка релевантности, сгенерированная моделью машинного обучения (обычно после настройки на асессорах), имитирующая оценку человека.
Transformer Model (Трансформерная модель): Модель глубокого обучения (типа BERT или YATI), используемая в качестве основы для модели ранжирования.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Определяет основной многоэтапный процесс обучения модели ранжирования.

Получение первого множества данных (Dataset 1), связанного с прошлыми пользовательскими действиями (например, Clicks Dataset).
Этап 1 Обучения: Обучение модели на Dataset 1 для определения параметра прогнозируемых пользовательских действий (например, вероятности клика).
Получение второго множества данных (Dataset 2), связанного с запросом и первой меткой (оценкой асессора) (например, Relevance Dataset).
Этап 2 Обучения: Обучение модели на Dataset 2 для определения синтезированной метки (прогноза релевантности).
Аугментация (Перенос знаний): Применение обученной модели к Dataset 1 для дополнения его Синтезированными метками, формируя первое дополненное множество.
Финальное обучение: Обучение модели на Дополненном множестве 1 для определения финального Параметра Релевантности.

Критическое дополнение в Claim 1: Патент специфицирует, что во время Этапа 1 Обучения происходит дополнительный процесс:

Преобразование метаданных документа в текстовое представление (токены).
Маскирование части токенов (MLM).
Обучение модели предсказанию маскированных токенов на основе контекста.

Это гарантирует, что финальный Параметр Релевантности также указывает на параметр семантической релевантности. То есть модель обучается одновременно и поведенческим сигналам, и семантике текста и метаданных.

Где и как применяется

Важно понимать, что этот патент описывает инфраструктуру обучения (Офлайн-процессы), а не сам процесс ранжирования в реальном времени. Он описывает, как создается модель (например, YATI), которая затем используется в поиске.

Взаимодействие с компонентами системы:

CRAWLING & DATA ACQUISITION: Система обучения использует данные, собранные на этом слое — логи пользовательских взаимодействий (для Clicks Dataset) и неразмеченные документы (для предварительного обучения MLM).
QUALITY LAYER (Асессоры): Система использует данные от асессоров (Relevance Datasets) для точной настройки и определения эталона качества.

Выход процесса обучения: Обученная Трансформерная Модель.

Применение обученной модели в Поиске (RANKING – Уровни L3/L4):

Обученная модель применяется на поздних стадиях ранжирования (L3/Upper Reranking).

Модель получает на вход пару (Запрос, Документ), включая их метаданные.
Происходит токенизация текста и метаданных (URL, Title, Geo).
Трансформер обрабатывает входные данные и генерирует Параметр Релевантности.
Этот параметр используется как один из признаков (features) в основной модели ранжирования. Патент явно указывает, что может использоваться другая модель обучения, например, CatBoost, для финального ранжирования с использованием этого параметра как входного признака (Claim 20, 21).

На что влияет

Определение релевантности: Этот процесс формирует базовое понимание релевантности для всей поисковой системы, объединяя поведенческие и семантические сигналы.
Вес поведенческих факторов: Подчеркивает критическую важность поведенческих сигналов, в частности «длинных кликов», как основного источника обучающих данных.
Роль метаданных (URL, Title): Влияет на то, как оцениваются Заголовки и URL-адреса. Они обрабатываются не как отдельные технические факторы, а как семантические токены внутри трансформерной модели наравне с основным контентом.
Географические факторы: Региональность запроса также учитывается как входной признак трансформера.

Когда применяется

Процесс обучения выполняется офлайн и носит итеративный характер. Он применяется по мере накопления новых данных о кликах и получения новых оценок от асессоров.

Последовательность: Патент описывает прогрессивное улучшение. Обучение начинается на больших и, возможно, более старых наборах данных (Clicks, Rel-Big) и последовательно уточняется на меньших и более новых наборах (Rel-Mid, Rel-Small).
Условие активации: Наличие достаточного объема данных в Clicks Dataset и Relevance Datasets для запуска цикла обучения.

Пошаговый алгоритм

Многоэтапный процесс обучения модели машинного обучения (на основе Фиг. 5).

Этап 0: Предварительное обучение на текстах (Опционально)

Получение большого корпуса неразмеченных документов (Docs Dataset).
Токенизация текстов и маскирование части токенов (MLM).
Обучение базовой языковой модели предсказанию маскированных токенов.

Этап 1: Предварительное обучение на кликах и метаданных

Получение первого набора данных (Clicks Dataset) – миллиарды записей (Запрос, Документ, Прошлые действия/Клик).
Токенизация запроса и документа. Критически важно: метаданные (URL, Title, Geo) также токенизируются как текст. Маскирование части токенов.
Обучение модели одновременно двум задачам:
- a) Определение параметра прогнозируемых действий (вероятность клика).
- b) Предсказание маскированных токенов (MLM) – для семантического понимания текста и метаданных.

Этап 2: Точная настройка на асессорах

Получение второго набора данных (Relevance Dataset, например, Rel-Big) – миллионы записей (Запрос, Документ, Метка асессора).
Обучение модели (предварительно обученной на Этапе 1) определению Синтезированной метки (прогнозированию оценки асессора).

Этап 3: Перенос знаний (Knowledge Distillation)

Применение модели, настроенной на Этапе 2 («Учитель»), к первому набору (Clicks Dataset).
Генерация Синтезированных меток для миллиардов записей. Формирование Дополненного набора данных.

Этап 4: Финальное обучение

Точная настройка модели («Ученик») с использованием Дополненного набора данных для определения финального Параметра Релевантности.

Примечание: Этапы 2-4 могут повторяться итеративно с использованием других наборов данных о релевантности (Rel-Mid, Rel-Small) для последовательного уточнения модели.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Основной массив данных для обучения (Clicks Dataset). Особо выделяются «длинные клики» (например, более 120 секунд) как показатель релевантности и удовлетворенности пользователя.
Контентные факторы: Текст запроса и текст документа.
Технические/Структурные факторы (Метаданные документа): Заголовок документа (Title) и Веб-адрес (URL). Эти данные преобразуются в токены и обрабатываются трансформером наравне с текстом.
Географические факторы (Метаданные запроса): Географический регион, из которого отправлен запрос. Также обрабатывается как входной признак трансформера.
Данные Асессоров: Оценки релевантности, полученные от людей (краудсорсинг), используемые как эталон качества (Relevance Datasets).

Какие метрики используются и как они считаются

Модели Машинного Обучения: Используются модели на основе архитектуры Трансформер (BERT-like, YATI).
Методы Обучения:
- MLM (Masked Language Modeling): Используется для обучения семантическому пониманию языка без учителя.
- Классификация: Используется для прогнозирования вероятности клика и оценки релевантности.
Функции Потерь: Для всех задач обучения (MLM, прогноз кликов, прогноз релевантности) упоминается использование потерь кросс-энтропии (Cross-entropy loss).
Токенизация: Упоминается схема кодирования пар байтов WordPiece для создания словаря токенов, который включает как естественный язык, так и метаданные (URL, Title).
Метрики Качества: Для оценки улучшения модели на этапах точной настройки используется метрика на основе Нормализованного дисконтированного кумулятивного показателя (NDCG).
Интеграция: Выход модели (Relevance Parameter) предназначен для использования в качестве признака в другой модели ранжирования. Явно упоминается модель на основе деревьев решений CatBoost.

Выводы

Синергия Поведения и Качества: Яндекс использует сложный многоэтапный процесс для объединения сильных сторон разных источников данных. Масштабные данные о кликах обеспечивают широкое покрытие, а качественные данные асессоров задают эталон релевантности. Knowledge Distillation является ключевым механизмом для этой синергии.
Приоритет «Длинных Кликов»: Поведение пользователей, особенно «длинные клики» (указывающие на удовлетворенность), формируют основу для обучения модели на самом первом и масштабном этапе.
Метаданные как Семантические Сигналы: Критически важный вывод для SEO — метаданные (URL, Заголовок Title, Гео-регион) токенизируются и обрабатываются трансформерной моделью наравне с основным текстом. Они участвуют в семантическом анализе (MLM) и напрямую влияют на Параметр Релевантности.
Асессоры как «Учителя» для Алгоритма: Оценки асессоров (и связанные с ними метрики качества, такие как Proxima) используются для точной настройки и калибровки модели, обучая ее отличать простую кликабельность от истинной релевантности и качества.
Трансформер как Генератор Признаков: Обученная модель (YATI) не является финальной формулой ранжирования. Она генерирует мощный сигнал (Параметр Релевантности), который затем используется в основной модели градиентного бустинга (CatBoost).

Практика

Best practices (это мы делаем)

Максимизация Вовлеченности (Фокус на «Длинных Кликах»): Стратегически работайте над удержанием пользователя на странице (например, более 120 секунд). Это основной позитивный сигнал, на котором модель обучается на самом масштабном этапе. Используйте качественный контент, внутреннюю перелинковку, видео и интерактивные элементы для увеличения времени на сайте и глубины взаимодействия.
Оптимизация под Критерии Асессоров (E-E-A-T / Proxima): Поскольку асессорские данные являются эталоном качества для обучения модели (Этап 2 и Дистилляция), соответствие этим критериям (экспертность, авторитетность, достоверность, удобство) критически важно. Модель учится предпочитать сайты, которые понравились бы асессорам.
Семантическая Оптимизация Title и URL: Патент подтверждает, что Title и URL обрабатываются трансформером как семантические единицы наравне с текстом. Используйте естественные, релевантные и информативные формулировки в этих элементах, так как они напрямую участвуют в оценке семантической релевантности.
Учет Региональности: Географический контекст запроса используется как входной признак трансформера. Для локального бизнеса и геозависимых запросов важно обеспечивать четкие сигналы региональной принадлежности.

Worst practices (это делать не надо)

Накрутка CTR и Коротких Кликов: Манипуляции поведением, которые не приводят к «длинным кликам» и удовлетворенности пользователя, будут неэффективны. Система при обучении фокусируется на продолжительном взаимодействии как на позитивном сигнале.
Игнорирование Качества Контента: Сайты, которые собирают трафик (клики), но не соответствуют критериям качества асессоров, будут ограничены в росте. Модель на этапе точной настройки и дистилляции учится понижать такие ресурсы.
Переоптимизация URL и Title: Использование неестественных конструкций, спама ключевыми словами в URL или заголовках может негативно повлиять на семантическую оценку, так как трансформер анализирует эти элементы в контексте всего документа и запроса.

Стратегическое значение

Патент детально раскрывает механизм, с помощью которого Яндекс интегрирует поведенческие факторы и метрики качества в свои самые современные нейросетевые модели ранжирования. Он подтверждает стратегический приоритет Яндекса на удовлетворенность пользователя (измеряемую через длинные клики) и соответствие высоким стандартам качества (измеряемым через асессоров). Долгосрочная SEO-стратегия должна фокусироваться на комплексном улучшении продукта и контента, чтобы одновременно максимизировать вовлеченность пользователей и соответствовать ожиданиям асессоров.

Практические примеры

Сценарий: Оптимизация страницы листинга интернет-магазина

Цель: Улучшить ранжирование страницы категории «Беспроводные наушники».
Действия на основе патента:
- Оптимизация Метаданных: Убедиться, что Title («Купить беспроводные наушники в Москве — цены, отзывы») и URL (/catalog/audio/besprovodnye-naushniki/) семантически релевантны и естественны. Эти данные будут обработаны трансформером.
- Улучшение Вовлеченности: Добавить на страницу полезные фильтры, сравнения товаров, краткие видеообзоры популярных моделей и блок с отзывами. Цель — удержать пользователя на странице, стимулируя его изучать ассортимент (генерация «длинного клика»).
- Повышение Качества (Асессоры): Убедиться в актуальности цен, наличии товаров, корректной работе функционала и отсутствии агрессивной рекламы.
Ожидаемый результат: Длинные клики служат позитивными примерами на Этапе 1 обучения. Соответствие критериям качества коррелирует с высокими оценками на Этапе 2. В результате, при ранжировании модель сгенерирует высокий Параметр Релевантности для этой страницы, учитывая как поведенческие, так и семантические сигналы (включая Title и URL).

Вопросы и ответы

Что такое Knowledge Distillation (Перенос знаний) в контексте этого патента?

Это ключевой механизм, позволяющий объединить масштаб данных о кликах с качеством асессорских оценок. Модель сначала обучается на небольшом наборе качественных данных от асессоров (становится «Учителем»). Затем этот «Учитель» используется для автоматической разметки огромного набора данных о кликах, генерируя «синтезированные метки». Наконец, финальная модель («Ученик») обучается на этом огромном, автоматически размеченном наборе. Это позволяет масштабировать понимание качества на весь поиск.

Почему в патенте уделяется особое внимание «длинным кликам»?

«Длинные клики» (например, более 120 секунд) рассматриваются как сильный индикатор удовлетворенности пользователя и релевантности документа. В отличие от обычных кликов, которые могут быть случайными или ошибочными, длительное взаимодействие предполагает, что пользователь нашел полезную информацию. Именно эти данные используются на самом масштабном этапе предварительного обучения модели как позитивные примеры.

Как этот патент меняет понимание роли URL и Title в SEO?

Патент показывает, что URL и Title — это не просто технические метаданные, а полноценные семантические сигналы. Они токенизируются и подаются на вход трансформерной модели (YATI) наравне с основным текстом документа и запроса. Это означает, что они напрямую участвуют в оценке семантической релевантности и должны быть оптимизированы с точки зрения естественности и информативности, а не только наличия ключевых слов.

Заменяет ли эта обученная модель основную формулу ранжирования (CatBoost)?

Нет, не заменяет. Патент явно указывает, что выход этой модели (Параметр Релевантности) используется как входной признак (feature) для другой модели обучения, обученной ранжированию. В качестве примера такой модели приводится CatBoost. То есть, эта трансформерная модель (YATI) является мощным генератором признаков для основной формулы ранжирования.

Как связаны оценки асессоров (и метрики типа Proxima) с этим механизмом?

Оценки асессоров (Relevance Datasets) являются эталоном качества (Ground Truth) для точной настройки модели. Модель учится предсказывать, какую оценку поставил бы асессор. Метрики типа Proxima, которые также основаны на асессорских данных, тесно коррелируют с этими обучающими наборами. Соответствие критериям асессоров критически важно для получения высоких оценок от обученной модели.

Что такое MLM и зачем его используют одновременно с прогнозом кликов?

MLM (Masked Language Modeling) — это задача предсказания скрытых слов в предложении. Она используется для обучения модели семантическому пониманию языка и контекста. Обучение одновременно на MLM и прогнозе кликов позволяет модели не только понять, на что кликают пользователи, но и почему это релевантно с точки зрения содержания (семантики) запроса, документа и его метаданных (URL, Title).

Какие именно метаданные обрабатывает трансформер согласно патенту?

В патенте явно указаны метаданные документа: заголовок (Title) и веб-адрес (URL). Также указаны метаданные запроса, например, географический регион. Все эти данные преобразуются в токены и подаются на вход модели вместе с текстом запроса и документа.

В чем разница между обучением на Этапе 1 (клики) и Этапе 2 (асессоры)?

На Этапе 1 модель учится на огромном объеме данных прогнозировать поведение пользователей (кликабельность). Это дает базовое, но потенциально «шумное» понимание релевантности. На Этапе 2 модель дообучается на гораздо меньшем, но более качественном наборе данных, чтобы прогнозировать истинную релевантность, как ее понимают асессоры. Этап 2 калибрует и уточняет то, что было выучено на Этапе 1.

Актуален ли этот патент, если он описывает только процесс обучения, а не ранжирование?

Да, крайне актуален. То, как система обучается, напрямую определяет то, как она будет ранжировать. Понимание обучающих данных и процесса позволяет SEO-специалистам понять приоритеты поисковой системы и сфокусироваться на факторах, которые используются для обучения ключевых моделей релевантности (длинные клики, качество контента, семантика метаданных).

Как SEO-специалисту напрямую повлиять на этот процесс обучения?

Необходимо сфокусироваться на генерации тех сигналов, которые используются как позитивные примеры при обучении. В первую очередь, это обеспечение «длинных кликов» за счет высокой вовлеченности и удовлетворенности пользователя. Во вторую очередь, это соответствие критериям качества асессоров, так как эти данные используются для точной настройки и валидации модели.