Как Яндекс использует двухфазное обучение Трансформеров (YATI/BERT) на истории пользователя для персонализированного ранжирования

Яндекс патентует метод двухфазного обучения Трансформерных моделей (таких как BERT или YATI) для персонализации поиска. Модель сначала обучается предсказывать прошлые клики пользователя на широком наборе данных (Фаза 1), а затем дообучается только на документах, с которыми пользователь позитивно взаимодействовал (Фаза 2). Это позволяет точнее предсказывать вероятность будущих кликов, которая затем используется как фактор в основном ранжировании (CatBoost).

Описание

Какую задачу решает

Патент решает задачу повышения эффективности обучения и качества работы сложных моделей машинного обучения, в частности Transformer-based MLA (таких как BERT или YATI), для персонализированного ранжирования. Основная проблема — как эффективно использовать ограниченный объем исторических данных пользователя (логи взаимодействий) для обучения модели точно предсказывать его будущие предпочтения. Изобретение направлено на улучшение качества персонализированной выдачи.

Что запатентовано

Запатентован метод двухфазного обучения (Multi-Phase Training) алгоритма машинного обучения (MLA) для ранжирования результатов поиска. Суть изобретения заключается в специфической последовательности обучения и организации данных: предварительное обучение (First Training Phase) на широком наборе данных для инициализации весов модели и последующая тонкая настройка (Second Training Phase) исключительно на позитивных взаимодействиях пользователя.

Как это работает

Система использует историю поиска конкретного пользователя (прошлые запросы, показанные документы и клики) для обучения MLA (например, Трансформера).

Фаза 1 (Предварительное обучение): Модель обучается на широком наборе прошлых документов (как кликнутых, так и нет). Задача — предсказать, было ли взаимодействие с каждым документом. Это позволяет определить предварительные веса модели.
Фаза 2 (Тонкая настройка): Модель дообучается, используя только те прошлые документы, с которыми пользователь взаимодействовал (позитивные примеры). На этом этапе веса корректируются для точного предсказания вероятности (Likelihood Parameter) взаимодействия с новыми документами.

Предсказания обученной модели используются как признаки для основного алгоритма ранжирования (упоминается CatBoost).

Актуальность для SEO

Высокая. Персонализация и использование Трансформерных моделей (YATI) являются ключевыми элементами современного поиска Яндекса. Этот патент описывает актуальную методологию оптимизации обучения этих моделей для задач персонализированного ранжирования на основе поведенческих данных.

Важность для SEO

Влияние на SEO умеренно высокое (7/10). Патент описывает сложный внутренний механизм глубокой персонализации. Хотя напрямую оптимизировать сайт под историю каждого пользователя невозможно, понимание этого механизма критически важно для стратегии. Он подчеркивает необходимость фокусироваться на удержании аудитории (Retention), повышении лояльности к бренду и обеспечении стабильно высокого качества взаимодействий (долгие клики), чтобы стать предпочитаемым ресурсом для пользователя.

Детальный разбор

Термины и определения

CatBoost: Алгоритм градиентного бустинга. Упоминается как пример «другого MLA» (основной формулы ранжирования), который использует выходные данные персонализированной модели в качестве признака.
First Training Phase (Первая фаза обучения / Pre-training): Начальный этап обучения. Используется широкий набор прошлых документов (включая те, с которыми не было взаимодействия). Цель — определить начальные веса модели, научив ее предсказывать факт прошлого взаимодействия.
In-use Digital Document (Используемый/Новый документ): Документ-кандидат, ранжируемый в данный момент в ответ на текущий запрос пользователя.
Likelihood Parameter (Параметр вероятности): Выходные данные обученной модели. Персонализированная оценка вероятности того, что пользователь взаимодействует с данным документом (например, кликнет).
MLA (Machine-Learning Algorithm): Алгоритм машинного обучения. В данном патенте подразумевается модель на базе Трансформера.
Past User Interaction Parameter (Параметр прошлого взаимодействия пользователя / Метка): Метка (Label) в обучающих данных, указывающая, взаимодействовал ли пользователь с прошлым документом. Примерами взаимодействия являются клик, долгий клик (long click) и время пребывания (dwelling).
Second Training Phase (Вторая фаза обучения / Fine-tuning): Этап тонкой настройки модели. Используются только те прошлые документы, с которыми пользователь взаимодействовал (позитивные примеры). Цель — скорректировать веса для точного предсказания будущих взаимодействий.
Training Digital Object (Обучающий цифровой объект): Единица обучающих данных. Включает прошлый запрос и один или несколько связанных с ним прошлых документов. Структура отличается в Фазе 1 и Фазе 2.
Transformer-based MLA: Модель на основе архитектуры Трансформер. В патенте явно упоминается BERT как пример (что подразумевает возможность использования YATI).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод двухфазного обучения MLA для ранжирования документов, основанный на данных конкретного пользователя.

Получение данных: Система получает обучающие данные пользователя: (i) прошлые запросы; (ii) показанные документы; (iii) метки взаимодействия (User Interaction Parameter).

Первая фаза обучения (First Training Phase):

Данные организуются в Первый набор. Каждый объект включает: прошлый запрос и предопределенное количество релевантных документов (независимо от наличия кликов).
MLA обучается на этом наборе предсказывать факт взаимодействия пользователя с каждым из этих документов.

Вторая фаза обучения (Second Training Phase) (выполняется после Первой):

Данные организуются во Второй набор. Каждый объект включает: прошлый запрос и только те документы, с которыми пользователь взаимодействовал.
MLA дообучается на этом наборе для определения Likelihood Parameter (вероятности взаимодействия) для нового документа (In-use Digital Document).

Claim 2 (Зависимый пункт): Уточняет, что документы для Первой фазы могут выбираться случайным образом.

Claim 5, 6 и 7 (Зависимые пункты): Описывают применение обученной модели. MLA генерирует Likelihood Parameters для текущих документов. Эти параметры используются для ранжирования, в частности, подаются на вход другому MLA (например, ансамблю CatBoost).

Где и как применяется

Изобретение применяется в инфраструктуре обучения моделей и на этапе персонализированного ранжирования.

Офлайн-процессы (Offline Training)
Основная часть патента посвящена процессу обучения модели, который происходит офлайн. Система анализирует логи поведения пользователей (Training Data), формирует два типа обучающих выборок и выполняет двухфазное обучение Transformer-based MLA.

RANKING – Ранжирование (Уровень L4 Personalization)
Обученная модель применяется на поздних стадиях ранжирования для персонализации выдачи.

Генерация признаков: Для текущего запроса и документов-кандидатов модель предсказывает персонализированную вероятность клика (Likelihood Parameter), учитывая историю пользователя.
Интеграция в ранжирование: Эти предсказания не являются финальным рангом. Они передаются как признаки в основной алгоритм ранжирования (например, CatBoost), который учитывает их наряду с другими факторами.

На что влияет

Персонализация выдачи: Напрямую влияет на то, насколько результаты поиска адаптированы под историю и предпочтения конкретного пользователя. Влияние сильнее в тематиках, где пользователь проявляет активность и демонстрирует четкие предпочтения.
Типы контента и запросов: Метод универсален и может применяться ко всем типам документов (включая веб-страницы, видео, товары) и запросов.

Когда применяется

Условия применения: Алгоритм применяется при обработке запросов от пользователей, для которых накоплена достаточная история поиска и взаимодействий (Past Queries и User Interactions). Для новых пользователей или в режиме инкогнито этот механизм не эффективен.
Временные рамки: Обучение модели происходит офлайн (периодически). Применение модели происходит в реальном времени во время ранжирования.

Пошаговый алгоритм

Процесс А: Двухфазное обучение модели (Офлайн)

Сбор данных: Получение исторических данных пользователя: прошлые запросы (Q), показанные документы (D) и метки взаимодействия (I, например, клик/не клик).
Начало Первой фазы (Предварительное обучение):
- Формирование Первого набора: Организация данных в объекты. Документы D могут выбираться случайно, независимо от наличия кликов.
- Обучение на Первом наборе: MLA (Трансформер) обучается задаче классификации: предсказать метку I для каждого D. Определяются начальные веса модели.
Начало Второй фазы (Тонкая настройка):
- Формирование Второго набора: Организация данных в объекты. Используются только документы, на которые пользователь кликнул.
- Обучение на Втором наборе: MLA дообучается (fine-tuning) на основе весов из Первой фазы. Цель — максимизировать точность предсказания вероятности взаимодействия (Likelihood Parameter).

Процесс Б: Применение модели (Онлайн)

Получение запроса и Кандидатов: Система получает текущий запрос и набор релевантных документов.
Применение MLA: Обученная Трансформерная модель применяется к каждому документу для генерации персонализированного Likelihood Parameter.
Финальное ранжирование: Likelihood Parameter передается как признак в основной алгоритм ранжирования (например, CatBoost), который определяет финальный порядок выдачи.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Пользовательские факторы): Критически важные данные, основанные на истории конкретного пользователя. Используются логи прошлых взаимодействий (User Interactions), включая клики (click data), долгие клики (long click) и время пребывания на документе (dwelling). Эти данные формируют метки (User Interaction Parameter) для обучения.
Контентные факторы (Текстовые): Тексты прошлых запросов (Past Queries) и тексты/метаданные прошлых документов (Past Digital Documents). Они используются для генерации входных токенов для Трансформерной модели.
Географические факторы: В патенте упоминается, что метаданные запроса могут включать географический регион.

Какие метрики используются и как они считаются

User Interaction Parameter: Метка (обычно бинарная), указывающая на наличие или отсутствие взаимодействия.
Likelihood Parameter: Вероятность взаимодействия, предсказанная моделью.
Алгоритмы машинного обучения: Используется Transformer-based MLA (BERT/YATI) для анализа истории и CatBoost для финального ранжирования.
Методы анализа текста (NLP): Используется токенизация (упоминается WordPiece byte-pair encoding) для преобразования текста в эмбеддинги.
Функция потерь (Loss Function): Используется для обучения модели. Упоминаются Cross-Entropy Loss, Mean Squared Error Loss и другие.

Выводы

Глубокая персонализация на основе Трансформеров: Яндекс использует сложные Трансформерные модели (YATI/BERT) не только для анализа контента, но и для глубокого анализа истории поиска пользователя с целью персонализации ранжирования.
Двухфазное обучение как метод оптимизации: Описанный метод (Pre-training на широких данных, Fine-tuning на позитивных примерах) позволяет эффективно обучать сложные модели на ограниченных данных о кликах, повышая качество персонализации.
История взаимодействий как ключевой фактор: Прошлые клики и взаимодействия пользователя напрямую влияют на предсказание его будущих предпочтений. Модель учится связывать семантический контекст прошлых поисков с вероятностью клика на новые документы.
Интеграция с основной формулой: Предсказания персонализированной модели (Likelihood Parameter) интегрируются как один из множества признаков в основной алгоритм ранжирования (CatBoost), а не используются изолированно.
Стратегическое значение лояльности: Патент подтверждает, что сайты, формирующие лояльную аудиторию и генерирующие стабильные позитивные взаимодействия, получают преимущество в персонализированной выдаче.

Практика

Best practices (это мы делаем)

Патент описывает инфраструктуру машинного обучения для персонализации. Прямых тактических рекомендаций для SEO он не дает, но подтверждает важность следующих стратегических направлений:

Повышение лояльности и возвращаемости аудитории (Retention): Сайты, на которые пользователь уже переходил и позитивно взаимодействовал, могут получать существенное преимущество в его будущих поисках. Необходимо работать над узнаваемостью бренда и качеством контента для стимулирования повторных визитов.
Максимизация позитивных поведенческих сигналов: Качество взаимодействий (клики, долгие клики, dwell time) критически важно, так как они формируют обучающие данные (User Interaction Parameter) для этих моделей, особенно для Фазы 2. Необходимо обеспечивать высокий CTR и глубокую вовлеченность.
Построение Topical Authority и связи Бренд-Тематика: Стремитесь стать предпочтительным источником в вашей нише. Если пользователь систематически выбирает ваш сайт по определенной тематике, персонализированная модель уловит эту связь и будет отдавать предпочтение вашему контенту.

Worst practices (это делать не надо)

Игнорирование удержания аудитории: Стратегия, ориентированная только на привлечение нового трафика без работы над его удержанием, упускает возможность использовать преимущества персонализированного ранжирования.
Кликбейт и обман ожиданий: Использование кликбейта, ведущего к коротким кликам и низкому dwell time, формирует негативный опыт. Такие взаимодействия не попадут в Фазу 2 обучения и не будут способствовать формированию позитивного персонализированного профиля сайта для этого пользователя.
Игнорирование UX и скорости загрузки: Плохой пользовательский опыт снижает вероятность формирования позитивных сигналов (long clicks), необходимых для обучения модели.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на глубокую персонализацию поиска с использованием самых современных ML-технологий (Трансформеров). Выдача у разных пользователей может существенно различаться в зависимости от их истории. Для долгосрочной SEO-стратегии это означает необходимость смещения фокуса с универсальной релевантности на построение доверительных отношений с аудиторией и формирование позитивного опыта взаимодействия с сайтом.

Практические примеры

Сценарий: Усиление предпочтений пользователя

История пользователя: Пользователь регулярно ищет рецепты и часто переходит на сайт «TastyFood.com», проводя там много времени (позитивные взаимодействия, долгие клики).
Обучение модели: Персонализированная модель Яндекса обучается (используя двухфазный метод). Фаза 2 фокусируется на том, что пользователь предпочитает «TastyFood.com» для кулинарных запросов.
Новый запрос: Пользователь вводит запрос «рецепт пасты карбонара».
Генерация признака: Обученный MLA генерирует высокий Likelihood Parameter (персональная вероятность клика) для URL сайта «TastyFood.com».
Финальное ранжирование: Основная формула (CatBoost) получает этот сильный сигнал. Даже если общая релевантность или ссылочный профиль конкурентов сильнее, «TastyFood.com» может занять первую позицию в выдаче этого конкретного пользователя.

Вопросы и ответы

В чем основная цель двухфазного обучения, описанного в патенте?

Основная цель — повысить эффективность обучения Трансформерной модели для персонализированного ранжирования при ограниченном объеме данных о кликах. Первая фаза (предварительное обучение) позволяет модели изучить общие закономерности на широком наборе данных (включая документы без кликов). Вторая фаза (тонкая настройка) фокусирует модель на изучении именно позитивных примеров (документов с кликами), что позволяет точнее предсказывать будущие предпочтения пользователя.

Какие типы взаимодействий пользователя используются для обучения?

В патенте в качестве примеров User Interaction Parameter упоминаются клики (click data), долгие клики (long click — пребывание на документе дольше определенного времени, например, 120 секунд) и время пребывания на документе (dwelling). Эти позитивные данные служат метками (Labels) для обучения модели.

Описанная Трансформерная модель определяет финальное ранжирование?

Нет. Согласно патенту (Claims 6 и 7), выходные данные этой модели (Likelihood Parameter) используются как входные признаки (input) для другого алгоритма машинного обучения (other MLA). В качестве примера такого алгоритма приводится CatBoost, который и выполняет финальное ранжирование, учитывая этот и другие факторы.

Может ли SEO-специалист как-то повлиять на работу этого алгоритма?

Напрямую повлиять на историю поиска конкретного пользователя или на процесс обучения модели невозможно. Однако можно влиять косвенно. Создавая качественный контент, который стимулирует пользователей кликать на ваш сайт и проводить на нем время (долгие клики), вы формируете позитивные обучающие данные для этих моделей. Это повышает вероятность того, что в будущем ваш сайт будет ранжироваться выше в персонализированной выдаче этих пользователей.

Как этот патент влияет на важность работы над лояльностью аудитории (Retention)?

Он значительно повышает ее важность. Если пользователь регулярно посещает ваш сайт и позитивно с ним взаимодействует, система персонализации учится этому и с большей вероятностью предложит ваш сайт этому пользователю в будущем. Работа над удержанием аудитории и узнаваемостью бренда становится критически важным элементом долгосрочной SEO-стратегии.

Какая модель используется в этом патенте: BERT или YATI?

В патенте используется общий термин Transformer-based MLA и явно упоминается BERT как пример такой архитектуры. Учитывая, что патент подан Яндексом и описывает современные методы ранжирования, весьма вероятно, что на практике используется собственная разработка Яндекса на основе Трансформеров, такая как YATI, адаптированная для решения этой задачи.

В чем разница между данными, используемыми в Первой и Второй фазе обучения?

В Первой фазе используются прошлые запросы и связанный с ними набор документов, выбранных (например, случайным образом), независимо от того, были ли на них клики. Во Второй фазе используются те же прошлые запросы, но только те документы, на которые пользователь действительно кликнул (позитивные примеры). Вторая фаза фокусируется исключительно на изучении предпочтений пользователя.

Применяется ли этот механизм к новым пользователям или в режиме Инкогнито?

Для применения этого механизма необходима идентифицируемая история поиска пользователя (Training Data). Для совершенно новых пользователей или пользователей в режиме Инкогнито, у которых такой истории нет или она недоступна, этот конкретный механизм персонализации работать не будет. Для них будут применяться общие алгоритмы ранжирования.

Может ли этот механизм полностью игнорировать традиционные факторы ранжирования?

Он может оказывать очень сильное влияние. Если модель предсказывает очень высокую персонализированную вероятность взаимодействия (Likelihood Parameter), этот сигнал может перевесить другие факторы в основной формуле (CatBoost). Это может привести к тому, что предпочитаемый пользователем сайт будет ранжироваться выше, даже если его общие метрики (например, ссылочный профиль) слабее.

Применяется ли эта технология только к веб-поиску?

Патент описывает применение в контексте онлайн поисковой платформы (online search platform). Упоминается, что это может быть как поисковая система (search engine), так и платформа онлайн-объявлений (online listing platform, например, Яндекс Маркет). Механизм универсален и может применяться для ранжирования различных типов цифровых документов.