Как Яндекс использует двухэтапное обучение трансформерных моделей (BERT/YATI) для персонализированного ранжирования на основе истории кликов

Яндекс патентует двухэтапный метод обучения трансформерных моделей (типа BERT/YATI) для предсказания вероятности клика конкретного пользователя на документ. Сначала модель предварительно обучается на широком наборе данных (все показанные результаты), а затем точно настраивается только на тех документах, с которыми пользователь реально взаимодействовал. Это повышает эффективность обучения и значительно улучшает качество персонализированного ранжирования.

Описание

Какую задачу решает

Патент решает задачу эффективного обучения больших нейросетевых моделей на основе архитектуры Трансформер (например, BERT или YATI) для целей ранжирования поиска. Основная проблема — как эффективно интегрировать нетекстовые данные, такие как информация о кликах пользователя, в процесс обучения этих моделей и как сделать обучение эффективным при ограниченном объеме данных. Изобретение направлено на повышение качества прогнозирования релевантности результата поиска для конкретного пользователя, то есть на улучшение персонализированного ранжирования.

Что запатентовано

Запатентован способ двухэтапного обучения алгоритма машинного обучения (MLA) на основе трансформера для ранжирования результатов поиска. Суть изобретения заключается в специфической подготовке обучающих данных для двух последовательных этапов: предварительного обучения (pre-training) и точной настройки (fine-tuning). На первом этапе модель обучается на широком наборе данных предсказывать факт взаимодействия, а на втором этапе дообучается только на положительных примерах (документах, с которыми пользователь взаимодействовал) для прогнозирования вероятности будущих взаимодействий.

Как это работает

Система использует исторические данные пользователя: прошлые запросы, показанные результаты и факты взаимодействия (клики, длинные клики). Обучение MLA на основе трансформера происходит в два этапа:

Этап 1 (Предварительное обучение): Модель обучается на наборе данных, включающем прошлые запросы и связанные с ними документы (как те, на которые кликнули, так и те, на которые нет). Задача модели — предсказать, было ли взаимодействие с каждым документом. Это позволяет модели изучить больше данных и определить предварительные веса.
Этап 2 (Точная настройка): Модель дообучается на наборе данных, включающем прошлые запросы и ТОЛЬКО те документы, с которыми пользователь реально взаимодействовал. Задача — точно настроить веса для прогнозирования вероятности взаимодействия с будущими документами.

Обученная модель используется для расчета персонализированной релевантности (вероятности клика) во время ранжирования.

Актуальность для SEO

Высокая. Использование трансформерных моделей (например, YATI) является основой современного поиска Яндекса. Методология предварительного обучения с последующей точной настройкой — стандарт де-факто в NLP и машинном обучении. Персонализация выдачи на основе поведенческих данных остается ключевым направлением развития поисковых систем в 2025 году.

Важность для SEO

Влияние на SEO значительно (8/10). Хотя патент описывает внутренний процесс обучения моделей, он имеет критическое значение для понимания механизмов ранжирования Яндекса. Он демонстрирует, как именно поведенческие данные (клики, длинные клики) используются для обучения глубоких нейронных сетей, отвечающих за персонализацию. Это подчеркивает, что для достижения высоких позиций в персонализированной выдаче критически важно максимизировать вовлеченность и удовлетворенность целевой аудитории.

Детальный разбор

Термины и определения

Алгоритм Машинного Обучения (MLA, Machine Learning Algorithm): В контексте патента — модель, используемая для ранжирования. В частности, подразумевается модель на основе трансформера, но также упоминается CatBoost как другой MLA, который может использовать результаты работы основного MLA.
BERT (Bidirectional Encoder Representations from Transformers): Конкретный пример архитектуры трансформера, упоминаемый в патенте как основа для реализации MLA. На практике Яндекс использует собственные аналоги (например, YATI).
Взаимодействие пользователя (User Interaction): Действие пользователя в отношении результата поиска. В патенте конкретно упоминаются «клик» и «длинный клик» (взаимодействие более заданного периода времени, например, 120 секунд). Является ключевым сигналом для обучения.
Интерактивная поисковая платформа: Система, способная выполнять поиск в ответ на запросы (например, поисковая система Яндекс или Яндекс Маркет).
Обучающий цифровой объект: Единица данных для обучения модели. Состоит из прошлого запроса и одного или нескольких прошлых цифровых документов.
Параметр релевантности / Значение вероятности взаимодействия: Выходное значение, которое прогнозирует обученный MLA. Указывает на вероятность того, что пользователь взаимодействует с документом. Используется для ранжирования.
Прошлый цифровой документ: Документ (веб-страница, видео, товар), который был показан пользователю в ответ на прошлый запрос.
Трансформер (Transformer): Архитектура глубокой нейронной сети, использующая механизм внимания для обработки последовательностей данных. Является основой для MLA в этом патенте.
Этап 1 (Предварительное обучение / Pre-training): Первый этап обучения, на котором MLA обучается на широком наборе данных (включая документы без взаимодействий) для определения начальных весов.
Этап 2 (Точная настройка / Fine-tuning): Второй этап обучения, на котором MLA дообучается только на документах, с которыми пользователь взаимодействовал, для точной настройки весов и прогнозирования будущей релевантности.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения модели, а не на самой архитектуре модели.

Claim 1 (Независимый пункт, способ обучения): Описывает основной процесс двухэтапного обучения MLA для определения релевантности.

Получение обучающих данных: прошлые запросы, показанные документы и параметры прошлых взаимодействий (основанные на данных о прошлых «кликах»).
Первый этап обучения:
- Подготовка первого набора обучающих объектов. Каждый объект = Прошлый запрос + Заранее заданное количество прошлых документов (независимо от того, был ли клик).
- Обучение MLA предсказывать для каждого из этих документов: взаимодействовал ли с ним пользователь.
Второй этап обучения (следует за первым):
- Подготовка второго набора обучающих объектов. Каждый объект = Прошлый запрос + Только те прошлые документы, с которыми пользователь ВЗАИМОДЕЙСТВОВАЛ.
- Обучение MLA (используя веса из Этапа 1) определять параметр релевантности (вероятность взаимодействия) для будущих документов.

Claim 2 (Зависимый): Уточняет, что на первом этапе прошлые документы могут выбираться случайным образом из всех показанных документов.

Claim 7 (Независимый пункт, способ ранжирования): Описывает применение обученной модели.

Получение запроса этапа использования.
Получение набора документов-кандидатов.
Применение MLA (обученного по методу из Claim 1) к каждому документу для формирования параметра релевантности.
Использование этих параметров релевантности для ранжирования документов.

Claim 8 и 9 (Зависимые): Уточняют механизм ранжирования. Параметры релевантности, полученные от основного MLA (трансформера), вводятся в качестве входных данных в другой алгоритм MLA для финального ранжирования. Этот другой MLA конкретно идентифицируется как ансамбль деревьев решений CatBoost (Claim 9).

Где и как применяется

Изобретение затрагивает офлайн-процессы обучения моделей и онлайн-процессы ранжирования.

Офлайн-процессы (Обучение моделей)

Основная часть патента посвящена процессу обучения MLA на основе трансформера. Это ресурсоемкий процесс, происходящий офлайн с использованием исторических данных из логов поиска (поисковая база данных). Система анализирует прошлые запросы, показанные документы и клики конкретного пользователя для формирования обучающих наборов для Этапа 1 и Этапа 2.

RANKING – Ранжирование (Уровни L3/L4 Personalization)

Обученная модель применяется на этапе ранжирования (In-use Phase).

Расчет признаков: Когда пользователь отправляет запрос, система применяет обученный MLA к документам-кандидатам. MLA токенизирует запрос и документ и вычисляет параметр релевантности (персонализированную вероятность взаимодействия).
Интеграция в формулу: Вычисленные параметры релевантности не используются напрямую для ранжирования. Вместо этого они передаются как входные данные (признаки) в другой алгоритм MLA, которым является основная формула ранжирования (CatBoost). CatBoost использует этот персонализированный сигнал наряду с сотнями других факторов для определения финального порядка выдачи.

На что влияет

Персонализация выдачи: Патент напрямую влияет на персонализированное ранжирование. Чем больше истории у пользователя, тем сильнее может быть влияние этого механизма.
Типы контента: Влияет на все типы цифровых документов, которые могут быть проиндексированы и показаны в поиске, включая текстовые документы, аудио, видео.
Поведенческие факторы: Механизм усиливает влияние поведенческих факторов (кликабельность, время на сайте) на ранжирование, так как они являются прямым обучающим сигналом для трансформерной модели.

Когда применяется

Алгоритм применяется на этапе ранжирования при обработке поискового запроса.

Условия применения: Для обучения и эффективной работы модели требуется наличие исторических данных о поведении конкретного пользователя (прошлые запросы и клики).
Триггеры активации: Активируется во время фазы ранжирования для расчета персонализированных признаков релевантности для передачи в CatBoost.

Пошаговый алгоритм

Фаза А: Офлайн-обучение (Двухэтапный процесс)

Сбор данных: Получение обучающих данных, связанных с пользователем: множество прошлых запросов, наборы показанных прошлых документов и параметры прошлых взаимодействий (метки кликов/длинных кликов).
Этап 1: Предварительное обучение (Pre-training)
1. Подготовка Данных 1: Формирование первого набора обучающих объектов. Каждый объект содержит прошлый запрос и заранее заданное количество документов из выдачи по нему (выбранных, например, случайно; включаются как кликнутые, так и не кликнутые документы). Метки кликов скрываются от модели на этом этапе.
2. Обучение 1: Обучение MLA (Трансформера) прогнозировать факт взаимодействия (клик/не клик) для каждого документа на основе контекста запроса и документа.
3. Определение весов: Корректировка весов модели (например, с помощью функции потерь кросс-энтропии) для минимизации разницы между прогнозом и реальным фактом взаимодействия. Формирование первоначальных весов модели.
Этап 2: Точная настройка (Fine-tuning)
1. Подготовка Данных 2: Формирование второго набора обучающих объектов. Каждый объект содержит прошлый запрос и ТОЛЬКО те документы, с которыми пользователь взаимодействовал (положительные примеры).
2. Обучение 2: Дообучение MLA (используя веса из Этапа 1) для определения значения вероятности взаимодействия пользователя с документом.
3. Корректировка весов: Точная настройка первоначальных весов для оптимизации прогнозирования вероятности.

Фаза Б: Онлайн-ранжирование (Этап использования)

Получение запроса: Система получает запрос от пользователя.
Подготовка объектов: Формирование набора цифровых объектов этапа использования (Запрос + Документ-кандидат).
Токенизация: Преобразование объектов в токены, понятные для MLA (Трансформера).
Прогнозирование: Применение обученного MLA для расчета персонализированного значения вероятности взаимодействия для каждого объекта.
Интеграция в ранжирование: Передача рассчитанных значений вероятности в качестве входных данных (признаков) в другой MLA (CatBoost).
Финальное ранжирование: CatBoost формирует ранжированный набор документов.
Выдача: Отправка Топ-N результатов пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются данные о прошлых «кликах» пользователя. Упоминаются также «длинные клики» (например, более 120 секунд) и пребывание на документе в течение заданного периода. Эти данные формируют метки для обучения.
Контентные факторы: Тексты прошлых запросов и тексты прошлых цифровых документов. Они необходимы для работы трансформерной модели, которая преобразует их в токены.
Метаданные (Опционально): Патент упоминает возможность использования метаданных запроса (например, географический регион) и метаданных документа (заголовок, URL).

Какие метрики используются и как они считаются

MLA на основе Трансформера (BERT-like): Используется архитектура, включающая стек трансформеров, слои многоголового внимания (multi-head attention) и слои нейронной сети прямого распространения.
Токенизация: Для преобразования текста в числовые векторы используется токенизатор. Упоминается схема кодирования WordPiece.
Параметр релевантности / Вероятность взаимодействия: Основная метрика, которую вычисляет обученная модель. Это оценка вероятности того, что конкретный пользователь кликнет на конкретный документ по конкретному запросу.
Функции потерь: Для обучения модели и корректировки весов используются функции потерь, минимизирующие разницу между прогнозом и реальными данными. Упоминаются кросс-энтропия, среднеквадратичная ошибка (MSE), функция потерь по Губеру.
CatBoost: Алгоритм градиентного бустинга, который используется как финальная модель ранжирования и принимает на вход результаты работы трансформерной модели.

Выводы

Персонализация через Deep Learning: Патент подтверждает, что Яндекс активно использует сложные трансформерные модели (например, BERT/YATI) не только для понимания текста, но и для глубокой персонализации ранжирования на основе истории поведения пользователя.
Поведенческие сигналы как основа обучения: Клики и, особенно, длинные клики являются прямыми обучающими сигналами (Ground Truth) для этих нейронных сетей. Удовлетворенность пользователя напрямую влияет на то, как модель будет ранжировать контент для него в будущем.
Эффективность двухэтапного обучения: Яндекс применяет методологию Pre-training/Fine-tuning к задаче ранжирования. Предварительное обучение (Этап 1) на широких данных позволяет модели получить базовое понимание взаимодействий, а точная настройка (Этап 2) на положительных примерах повышает точность прогнозирования релевантности.
Архитектура ранжирования (Трансформер + CatBoost): Патент четко описывает взаимодействие компонентов: Трансформерная модель выступает генератором сложных персонализированных признаков (вероятности взаимодействия), которые затем используются основной формулой ранжирования на базе CatBoost.

Практика

Best practices (это мы делаем)

Максимизация удовлетворенности пользователя (User Satisfaction): Поскольку модель дообучается (Этап 2) исключительно на положительных взаимодействиях (клики, длинные клики), критически важно создавать контент, который полностью решает задачу пользователя и удерживает его внимание. Это формирует позитивный обучающий сигнал для персонализированной модели.
Оптимизация под длинные клики (Long Clicks): Патент явно упоминает длинные клики. Необходимо работать над глубиной контента, его структурой и внутренней перелинковкой, чтобы увеличить время вовлеченного взаимодействия пользователя с сайтом.
Повышение CTR на выдаче: Высокая кликабельность сниппетов необходима для получения взаимодействия, которое затем используется для обучения. Оптимизируйте заголовки и описания для повышения релевантности и привлекательности.
Построение лояльности и бренда: Система улучшает персонализированное ранжирование. Пользователи, которые лояльны к вашему бренду и часто выбирают ваш сайт, обучают свои персонализированные модели предпочитать ваш контент. Развивайте прямые заходы и брендовый трафик.

Worst practices (это делать не надо)

Кликбейт и обман ожиданий: Привлечение клика с последующим быстрым уходом пользователя (короткий клик, возврат к выдаче). Хотя Этап 2 фокусируется на положительных примерах, общее неудовлетворение пользователя негативно скажется на ранжировании через другие механизмы и не создаст сильных положительных сигналов (длинных кликов) для обучения этой модели.
Игнорирование вовлеченности: Создание контента, который формально релевантен запросу (по ключевым словам), но не интересен или не полезен целевой аудитории. Такой контент не получит преимуществ от персонализации.
Накрутка поведенческих факторов: Попытки манипулировать обучающими данными. Сложность трансформерных моделей и использование реальных пользовательских логов делают такие манипуляции крайне сложными и легко обнаруживаемыми системами антифрода.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на поведенческие факторы и персонализацию. Он демонстрирует, что удовлетворенность пользователя — это не просто один из факторов, а фундаментальный сигнал для обучения самых сложных моделей ранжирования. Для SEO это означает, что долгосрочная стратегия должна быть сосредоточена на построении качественного ресурса с лояльной аудиторией. Техническая оптимизация и ключевые слова остаются важными, но решающее преимущество в конкурентных нишах будет определяться реальным поведением пользователей.

Практические примеры

Сценарий: Персонализация выдачи для пользователя с историей

История пользователя: Пользователь регулярно ищет информацию по теме «Инвестиции в криптовалюты» и часто совершает длинные клики (более 2 минут) на сайт «crypto-expert-blog.ru», игнорируя при этом новостные агрегаторы.
Обучение модели (Офлайн):
- Этап 1: Модель обучается на всех показанных результатах, включая новостные агрегаторы и «crypto-expert-blog.ru», предсказывая вероятность клика.
- Этап 2: Модель точно настраивается ТОЛЬКО на положительных взаимодействиях. Объекты, включающие «crypto-expert-blog.ru» и запросы про криптовалюты, используются для усиления связи между этим пользователем и этим типом контента/сайтом.
Новый запрос (Онлайн): Пользователь вводит новый запрос «прогноз курса Ethereum 2026».
Ранжирование: Обученный MLA (Трансформер) рассчитывает высокую персонализированную вероятность взаимодействия для статьи на «crypto-expert-blog.ru» и низкую для новостных сайтов.
Результат: CatBoost получает эти сигналы и повышает «crypto-expert-blog.ru» в выдаче для этого конкретного пользователя, даже если для среднего пользователя этот сайт мог бы находиться ниже.

Вопросы и ответы

В чем ключевое отличие между первым и вторым этапом обучения модели?

Первый этап (Pre-training) использует широкий набор данных: прошлые запросы и связанные с ними документы, независимо от того, кликнул на них пользователь или нет. Задача — предсказать факт взаимодействия. Второй этап (Fine-tuning) использует только те документы, с которыми пользователь реально взаимодействовал (положительные примеры). Задача — точно настроить модель для прогнозирования вероятности будущих взаимодействий и повышения качества персонализации.

Какая модель используется в этом патенте: Трансформер или CatBoost?

Используются обе модели, но на разных этапах. Основной MLA, который обучается двухэтапным методом, — это модель на основе Трансформера (например, BERT или YATI). Она отвечает за расчет персонализированной вероятности взаимодействия. Затем этот расчет передается как признак (входные данные) в CatBoost, который является финальной моделью ранжирования и определяет порядок результатов в выдаче.

Какие именно поведенческие факторы использует эта система?

Патент явно указывает на использование данных о прошлых «кликах». Кроме того, конкретно упоминаются «длинные клики» (например, взаимодействие более 120 секунд) и общее время пребывания на документе. Эти положительные сигналы взаимодействия являются основой для обучения модели.

Как этот патент влияет на SEO для новых сайтов без истории трафика?

Патент описывает механизм персонализации, который опирается на историю взаимодействия пользователя с контентом. Для новых сайтов это создает дополнительный барьер, так как у них нет накопленных положительных сигналов для обучения персонализированных моделей пользователей. Это подчеркивает важность стратегии быстрого привлечения целевого трафика и обеспечения максимальной вовлеченности первых посетителей, чтобы начать формировать позитивную историю взаимодействий.

Означает ли это, что текстовая релевантность больше не важна?

Нет, текстовая релевантность остается критически важной. Трансформерная модель анализирует текст запроса и документа для определения вероятности взаимодействия. Если контент нерелевантен текстуально, он вряд ли попадет в число кандидатов на ранжирование. Однако этот патент показывает, что при прочих равных, предпочтение будет отдано документу, который с большей вероятностью удовлетворит конкретного пользователя, исходя из его истории.

Второй этап обучения использует только положительные примеры (клики). Учитывает ли система негативный опыт (например, быстрый возврат к выдаче)?

Конкретно этот патент описывает механизм, где точная настройка (Этап 2) фокусируется на положительных взаимодействиях для прогнозирования будущей релевантности. Однако это не означает, что Яндекс игнорирует негативный опыт. Негативные сигналы (короткие клики, возвраты) учитываются другими компонентами системы ранжирования (например, метриками Профицит, Anti-Quality) и, вероятно, влияют на общую оценку качества сайта и документа.

Как я могу повлиять на обучение персонализированной модели моих пользователей?

Единственный способ — это стабильно предоставлять высококачественный контент, который вызывает положительный отклик у вашей целевой аудитории. Максимизируйте CTR, работайте над удержанием пользователя на сайте (длинные клики), стимулируйте повторные визиты. Чем чаще и дольше пользователи взаимодействуют с вашим сайтом, тем сильнее их персонализированные модели будут предпочитать ваш контент в будущем.

Насколько быстро модель переобучается на новых данных о поведении?

Патент не указывает частоту переобучения моделей. Обучение больших трансформерных моделей — ресурсоемкий процесс, который происходит офлайн. Вероятно, полное переобучение происходит периодически, но не в реальном времени. Однако использование рассчитанных признаков в CatBoost позволяет учитывать изменения в поведении быстрее, если сама модель CatBoost обновляется чаще.

Применяется ли этот механизм для пользователей в режиме «Инкогнито»?

Патент основан на анализе обучающих данных, связанных с пользователем. Если поисковая система не может идентифицировать пользователя и связать его текущую сессию с историей прошлых запросов и кликов (как в режиме «Инкогнито» или при удаленных cookies), этот механизм персонализации применить невозможно. В таких случаях будет использоваться стандартное, неперсонализированное ранжирование.

Усиливает ли этот механизм «пузырь фильтров» (Filter Bubble)?

Да, это потенциальный побочный эффект. Поскольку модель обучается предсказывать то, что пользователь кликал раньше (Этап 2), она может начать чрезмерно предпочитать определенные типы контента или конкретные сайты, с которыми пользователь уже знаком. Это может снизить разнообразие (Diversity) выдачи. Вероятно, Яндекс использует дополнительные алгоритмы на этапе Метапоиска и Пост-обработки для обеспечения разнообразия и противодействия чрезмерному замыканию пользователя в пузыре фильтров.