Как Яндекс использует двухмодельную архитектуру для эффективной персонализации ранжирования на основе долгосрочной и сессионной истории поиска

Яндекс патентует двухкомпонентную ML-архитектуру для глубокой персонализации. Первая модель офлайн обрабатывает долгосрочную историю поиска пользователя (недели/месяцы) и создает сжатый вектор его интересов. Вторая модель в реальном времени использует этот вектор вместе с данными текущей сессии для точного ранжирования результатов, повышая точность без увеличения задержек.

Описание

Какую задачу решает

Патент решает критическую проблему баланса между качеством глубокой персонализации поиска и вычислительными ресурсами сервера. Для точного ранжирования необходимо учитывать как долгосрочные интересы пользователя, так и его краткосрочный контекст (текущую сессию). Однако обработка большого объема исторических данных с помощью сложных моделей (например, Трансформеров) в реальном времени (онлайн) требует значительных ресурсов и увеличивает задержку ответа (latency). Изобретение предлагает архитектуру, которая повышает точность ранжирования за счет учета обширной истории пользователя, минимизируя при этом нагрузку на сервер в момент запроса.

Что запатентовано

Запатентована система и способ обучения алгоритма машинного обучения (MLA), состоящего из двух связанных моделей, для персонализированного ранжирования. Суть изобретения заключается в разделении обработки пользовательской истории: Первая ML-модель обрабатывает большой объем долгосрочных данных офлайн и сжимает его в векторное представление (эмбеддинг интересов пользователя). Вторая ML-модель в реальном времени использует этот сжатый вектор и свежие данные текущей сессии для финального ранжирования.

Как это работает

Система использует две совместно обучаемые модели, часто основанные на архитектуре Трансформер (например, BERT/YATI).

Обработка долгосрочной истории (Офлайн): Первая ML-модель анализирует историю запросов и действий пользователя за длительный период (недели, месяцы). Результатом является компактное Векторное представление (Эмбеддинг пользователя), агрегирующее его интересы (например, через выходной токен [CLS]). Этот процесс выполняется периодически в офлайн-режиме.
Ранжирование в реальном времени (Онлайн): Когда пользователь вводит запрос, Вторая ML-модель получает текущий запрос, документы-кандидаты, данные текущей сессии (свежая история) и заранее рассчитанный Эмбеддинг пользователя. Модель определяет вероятность действия пользователя (например, клика) для каждого документа и ранжирует их.

Такая архитектура позволяет учитывать обширную историю без ее прямой обработки в момент запроса, экономя ресурсы.

Актуальность для SEO

Высокая. Персонализация выдачи с использованием Трансформеров является стандартом в современных поисковых системах. Архитектурные решения для эффективного развертывания больших нейронных моделей и обработки больших объемов данных (например, гибридные офлайн/онлайн системы) крайне актуальны для высоконагруженных систем, таких как Яндекс.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает конкретную архитектуру, которую Яндекс использует для глубокой персонализации выдачи. Это означает, что релевантность документа сильно зависит не только от самого запроса, но и от долгосрочной истории пользователя и его действий в рамках текущей сессии. SEO-стратегии должны учитывать необходимость формирования долгосрочной лояльности аудитории и оптимизации под удовлетворение интента в рамках всей поисковой сессии.

Детальный разбор

Термины и определения

Алгоритм MLA (MLA, Machine Learning Algorithm): В контексте патента — система ранжирования, состоящая из двух совместно обучаемых моделей машинного обучения (Первой и Второй).
Векторное представление (Vector Representation / Эмбеддинг): Сжатое численное представление данных. В патенте это результат работы Первой ML-модели, инкапсулирующий долгосрочную историю пользователя. Служит профилем интересов пользователя.
Вторая ML-модель (Second ML Model): Модель, работающая в реальном времени (онлайн). Принимает на вход Векторное представление (от Первой модели) и данные текущей сессии для определения финальной вероятности действия пользователя.
Вторые данные предыстории (Second History Data): Свежие данные истории поиска, накопленные за короткий период (часы, дни) или в рамках прошлого/текущего пользовательского сеанса.
Первая ML-модель (First ML Model): Модель, обрабатывающая большой объем долгосрочной истории пользователя. Работает преимущественно в офлайн-режиме для генерации Векторного представления.
Первые данные предыстории (First History Data): Обширные данные истории поиска (запросы, документы, действия), накопленные за длительный период (недели, месяцы, годы).
Пользовательское действие (User Action): Взаимодействие пользователя с результатами поиска (клик, длинный клик, dwell time, добавление в избранное, сохранение контента). Является целевой переменной для обучения моделей.
Трансформер (Transformer): Архитектура глубокого обучения (BERT, GPT). Упоминается как предпочтительная реализация для Первой и Второй моделей.
[CLS] Токен: Специальный токен в трансформерных моделях, используемый для представления агрегированной информации о всей входной последовательности. В патенте его выходное значение используется как Векторное представление долгосрочной истории.

Ключевые утверждения (Анализ Claims)

Патент защищает как способ обучения двухкомпонентной системы (Claim 1), так и саму систему/сервер (Claim 10), фокусируясь на эффективном учете разных временных горизонтов истории пользователя.

Claim 1 (Независимый пункт — Способ обучения): Описывает процесс совместного обучения (joint training) двух моделей.

Получение двух наборов данных: (а) Первые данные предыстории (долгосрочные) и (б) Вторые данные предыстории (краткосрочные/сессионные, которые были короче и позднее). Оба набора содержат запросы, документы и метки действий пользователя.
Совместное обучение включает:
- Обучение Модели 1: Она учится формировать Векторное представление на основе Первых (долгосрочных) данных.
- Обучение Модели 2: Она учится определять вероятность действия пользователя, используя Вторые (краткосрочные) данные И Векторное представление, полученное от Модели 1.

Ключевым элементом является зависимость Второй модели от выхода Первой. Это позволяет перенести вычислительную сложность анализа долгосрочной истории на Первую модель, в то время как Вторая модель получает уже агрегированную информацию в виде вектора.

Claim 4 (Зависимый пункт — Способ использования): Описывает применение обученной системы в реальном времени (этап использования).

Получение текущего запроса и набора документов-кандидатов.
Получение данных текущей сессии (до момента запроса).
Формирование цифрового объекта, включающего: текущий запрос, кандидаты, данные текущей сессии И Векторное представление долгосрочной истории (рассчитанное ранее Первой моделью).
Ввод этого объекта во Вторую модель для определения значений вероятности действия.
Ранжирование документов согласно этим значениям вероятности.

Подтверждается архитектура онлайн/офлайн. В реальном времени работает только Вторая модель, используя результаты предварительных расчетов Первой модели.

Claims 5-7 (Зависимые пункты): Уточняют механизм обновления долгосрочной истории.

Долгосрочный профиль пользователя не статичен. Система предусматривает механизм регулярного обновления Первых данных и пересчета Векторного представления (Первой моделью в офлайн-режиме). Это может происходить путем сдвига или расширения временного окна сбора данных в направлении текущего момента времени с заданной частотой.

Где и как применяется

Изобретение описывает архитектуру для глубокой персонализации ранжирования, затрагивая офлайн-процессы и онлайн-ранжирование.

Офлайн-процессы и обработка данных (Data Acquisition / Feature Extraction)
Значительная часть работы происходит офлайн или асинхронно.

Сбор данных: Накопление логов пользовательской активности (запросы, показы, клики) за длительные периоды времени (Первые данные предыстории).
Вычисление Эмбеддинга Пользователя: Первая ML-модель периодически обрабатывает эти данные для генерации и обновления Векторного представления (Эмбеддинга пользователя). Этот эмбеддинг сохраняется (например, в профиле пользователя) для быстрого доступа.

RANKING – Ранжирование (Уровень L4 — Personalization)
Основное применение происходит на поздних стадиях ранжирования для персонализации выдачи. Вторая ML-модель работает в реальном времени.

Извлечение признаков в реальном времени: Система извлекает данные текущей сессии (Вторые данные предыстории) и быстро получает заранее рассчитанный Эмбеддинг пользователя.
Применение модели: Вторая ML-модель использует все эти данные (текущий запрос, документ, сессия, долгосрочный эмбеддинг) для расчета финального скора релевантности (вероятности действия).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, где история пользователя помогает уточнить интент (например, запрос «Наполеон» для историка и кулинара). Также влияет на запросы, связанные с продолжением предыдущего поиска.
Типы контента и ниши: Влияет на ранжирование всех типов контента, где возможна персонализация (веб-документы, видео, музыка, товары) и где у пользователя есть выраженные предпочтения.

Когда применяется

Система работает в двух режимах:

Офлайн/Периодически: Активация Первой ML-модели для обновления долгосрочного эмбеддинга пользователя. Частота может быть заданной (например, раз в сутки, неделю) или триггериться по событию,.
Онлайн: Активация Второй ML-модели происходит при обработке практически каждого поискового запроса пользователя, для которого доступна история (эмбеддинг и сессия).

Пошаговый алгоритм

Фаза 1: Офлайн-обработка и Обучение (Периодический процесс)

Сбор данных: Агрегация Первых (долгосрочных) и Вторых (краткосрочных) данных предыстории.
Совместное обучение:
1. Обучение Первой ML-модели на долгосрочных данных для генерации Векторного представления (Эмбеддинга).
2. Обучение Второй ML-модели на краткосрочных данных, обогащенных Эмбеддингом от Первой модели, для предсказания вероятности клика.
Обновление Эмбеддингов (Периодически): Применение обученной Первой модели к обновленной долгосрочной истории пользователей для генерации актуальных Векторных представлений и их сохранение в базе.

Фаза 2: Онлайн-ранжирование (В реальном времени)

Получение запроса: Пользователь отправляет запрос. Система находит документы-кандидаты.
Сбор контекста: Извлечение (а) данных текущей сессии и (б) сохраненного Векторного представления пользователя (из Фазы 1).
Формирование входного объекта: Компоновка всех данных (запрос, кандидаты, сессия, долгосрочный вектор) в единый входной объект.
Ранжирование (Вторая ML-модель): Ввод объекта во Вторую модель. Расчет вероятности действия пользователя для каждого документа.
Выдача результатов: Формирование SERP на основе рассчитанных вероятностей.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные для обеих моделей. Включают логи прошлых поисковых сессий: прошлые запросы, показанные документы и действия пользователя с ними. Конкретные примеры действий: выбор (клик), длинный клик (пребывание дольше заданного времени), остановка на документе (dwell time), добавление в избранное, сохранение контента.
Контентные факторы (Текстовые): Тексты прошлых и текущего запросов. Метаданные документов (упоминаются заголовки и URL). Эти данные токенизируются для ввода в модели.
Временные факторы: Система явно разделяет данные по времени сбора: долгосрочный период (Первые данные) и краткосрочный/сессионный период (Вторые данные).
Пользовательские факторы: Вся система привязана к конкретному пользователю. Упоминаются социально-демографические характеристики как возможные данные в базе, но их прямое использование в описанном алгоритме не детализировано. Персонализация основана на поведении.

Какие метрики используются и как они считаются

Алгоритмы машинного обучения: Основной упор сделан на Трансформеры (упоминаются BERT, GPT) как предпочтительную архитектуру для обеих моделей. Также упоминаются как возможные варианты: рекуррентные сети NN, LSTM, и модели на основе деревьев решений (CatBoost).
Векторное представление (User Embedding): Генерируется Первой моделью. Это плотный вектор, инкапсулирующий долгосрочные интересы. Технически часто реализуется как выходной токен [CLS] трансформера.
Целевая Метрика: Вероятность действия пользователя (Probability of User Action) с цифровым документом.
Обучение: Используется совместное обучение (Joint Training). Веса корректируются путем минимизации функции потерь (упоминается кросс-энтропия) между прогнозируемыми и фактическими действиями (метками) с использованием методов оптимизации (например, градиентный спуск).

Выводы

Гибридная архитектура персонализации: Яндекс использует сложную двухкомпонентную архитектуру, которая разделяет обработку долгосрочных интересов (офлайн) и краткосрочного контекста (онлайн). Это позволяет применять глубокое обучение к большим объемам данных без ущерба для скорости ответа.
Долгосрочные интересы как Эмбеддинг: Долгосрочная история пользователя (недели/месяцы) агрегируется в компактный вектор (Эмбеддинг) с помощью Первой ML-модели. Этот эмбеддинг является ключевым элементом, переносящим знания между офлайн и онлайн фазами.
Сессия и Эмбеддинг в реальном времени: Финальное ранжирование (Вторая ML-модель) учитывает и текущую сессию, и долгосрочный эмбеддинг. Релевантность определяется сочетанием немедленного контекста и общих интересов пользователя.
Поведенческие данные как основа: Вся система обучается на реальных действиях пользователей (клики, dwell time и т.д.). Позитивные поведенческие сигналы критически важны для формирования профиля интересов пользователя и, следовательно, для ранжирования сайта в его выдаче.
Динамические профили пользователей: Долгосрочные профили интересов не статичны. Патент предусматривает механизмы их регулярного обновления (Claims 5-7,), что позволяет системе адаптироваться к изменениям в поведении пользователя.

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и долгосрочной лояльности (Retention): Создавайте контент, который соответствует устойчивым интересам вашей целевой аудитории. Первая ML-модель фиксирует долгосрочное поведение. Если пользователь регулярно посещает ваш сайт по определенной тематике, это будет отражено в его эмбеддинге, повышая шансы сайта ранжироваться в его выдаче по смежным запросам.
Оптимизация под поисковую сессию (User Journey): Анализируйте не только целевой запрос, но и то, что пользователи ищут до и после него. Вторая ML-модель активно использует контекст сессии. Ваш контент должен быть лучшим ответом на текущем этапе поиска пользователя, учитывая его предыдущие шаги.
Максимизация качественных поведенческих сигналов: Обе модели обучаются на пользовательских действиях. Критически важно не просто получить клик, но и удержать пользователя (длинный клик, dwell time), стимулировать добавление в избранное или сохранение контента. Это формирует позитивную историю взаимодействий.
Работа с неоднозначными запросами: Для запросов с множественным интентом приоритет в выдаче будет определяться именно персонализацией. Убедитесь, что ваш контент четко сигнализирует о своей тематике, чтобы привлекать релевантную аудиторию и формировать правильные связи в моделях Яндекса.

Worst practices (это делать не надо)

Кликбейт и обман ожиданий: Привлечение нецелевого трафика или создание контента, который не удовлетворяет интент, приведет к негативным поведенческим сигналам (короткие клики, возвраты к выдаче). Это ухудшит как долгосрочный профиль интересов, связанный с вашим сайтом, так и краткосрочную оценку в рамках сессии.
Изолированная оптимизация под ключевые слова: Оптимизация страницы только под один запрос без учета контекста сессии и общих интересов пользователя становится менее эффективной, так как система ранжирования учитывает гораздо более широкий контекст.
Игнорирование лояльности аудитории: Рассматривать трафик как поток обезличенных визитов неэффективно. Отсутствие лояльной аудитории означает отсутствие персонализированного буста в ранжировании.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на глубокую персонализацию поиска, основанную на машинном обучении и анализе больших данных о поведении. Он показывает, как Яндекс решает инфраструктурные проблемы для внедрения сложных моделей в реальном времени. Для SEO это означает, что «средняя» релевантность уступает место релевантности для конкретного пользователя. Долгосрочная стратегия должна строиться на создании авторитетных ресурсов, которые становятся центром притяжения для пользователей и формируют положительный исторический опыт взаимодействия.

Практические примеры

Сценарий 1: Влияние долгосрочной истории на неоднозначный запрос

Пользователь А (Автолюбитель): Регулярно ищет обзоры машин, запчасти (зафиксировано в Первых данных предыстории).
Офлайн-обработка: Первая ML-модель генерирует Эмбеддинг пользователя А, отражающий интерес к авто.
Текущий запрос: Пользователь А вводит «Ягуар».
Онлайн-ранжирование: Вторая ML-модель использует Эмбеддинг (интерес к авто) и ранжирует страницы об автомобиле Jaguar выше, чем о животном. Для пользователя Б с историей поиска о животных результат будет обратным.

Сценарий 2: Влияние контекста сессии

Начало сессии: Пользователь ищет «установить Python на Windows». Кликает на результат. Затем ищет «лучшие библиотеки Python» (зафиксировано в данных сессии).
Следующий запрос: Пользователь ищет «Anaconda».
Онлайн-ранжирование: Вторая ML-модель анализирует запрос «Anaconda», учитывая контекст сессии (Python, установка, библиотеки).
Результат: Система понимает контекст программирования. Результаты о дистрибутиве Anaconda для Data Science ранжируются значительно выше, чем результаты о змеях или певице Ники Минаж.

Вопросы и ответы

В чем основное различие между Первой и Второй моделями машинного обучения в этом патенте?

Первая модель (First ML model) отвечает за обработку долгосрочной истории пользователя (недели, месяцы) и создание компактного векторного представления (эмбеддинга) его интересов. Она может работать офлайн. Вторая модель (Second ML model) работает в реальном времени и отвечает за финальное ранжирование. Она использует текущий запрос, данные сессии и заранее подготовленный эмбеддинг от Первой модели для предсказания вероятности клика.

Как эта архитектура помогает Яндексу экономить ресурсы и ускорять поиск?

Самая тяжелая операция — обработка большого массива долгосрочной истории пользователя. Патент предлагает вынести эту операцию в Первую модель, которая работает офлайн или периодически. В реальном времени Вторая модель работает только с небольшим объемом данных сессии и уже готовым компактным эмбеддингом. Это значительно снижает вычислительную нагрузку и задержку (latency) во время ответа на запрос пользователя.

Что такое Эмбеддинг пользователя (Векторное представление) в контексте этого патента?

Это численное представление долгосрочных интересов пользователя. Он генерируется Первой моделью (основанной на Трансформере), обычно с использованием выходного вектора токена. Этот эмбеддинг инкапсулирует, какие темы, сайты и типы контента пользователь предпочитал в прошлом, и используется Второй моделью для персонализации текущей выдачи.

Как часто обновляется долгосрочный профиль интересов пользователя (Эмбеддинг)?

Патент предусматривает гибкость. Обновление может происходить с заранее заданной частотой (например, раз в сутки, неделю или месяц). Для обновления временное окно сбора данных сдвигается или расширяется ближе к текущему моменту, что позволяет поддерживать актуальность профиля без необходимости пересчета в реальном времени.

Какие конкретно поведенческие факторы учитывает эта система?

Патент упоминает широкий спектр действий: выбор документа (клик), остановка на документе (dwell time), добавление в избранное, контакт с документом дольше порогового времени (длинный клик) и сохранение контента. Все эти сигналы используются для обучения обеих моделей и формирования профиля интересов пользователя.

Как SEO-специалисту оптимизировать сайт под долгосрочные интересы (Первую модель)?

Это требует стратегического подхода к Topical Authority и лояльности аудитории. Необходимо стать авторитетным источником в своей нише, чтобы пользователи регулярно возвращались на ваш сайт для решения задач в этой области. Чем чаще и качественнее пользователь взаимодействует с вашим сайтом в рамках определенной темы, тем сильнее эта тема будет выражена в его персональном эмбеддинге.

Как оптимизировать сайт под контекст сессии (Вторую модель)?

Необходимо анализировать всю поисковую сессию (User Journey). Понимайте, какие запросы предшествуют вашему целевому запросу и какие следуют за ним. Создавайте контент, который логично продолжает сессию пользователя. Например, если пользователь искал симптомы, а затем ищет лекарство, ваша страница с лекарством должна учитывать контекст поиска решения проблемы.

Используются ли в этой системе Трансформеры (BERT или YATI)?

Да, патент явно указывает Трансформеры (упоминая BERT и GPT) как предпочтительную архитектуру для реализации Первой и Второй моделей. Они используются для анализа последовательности действий пользователя (запросы и клики) подобно тому, как анализируются предложения в NLP. Логично предположить использование актуальных моделей Яндекса, таких как YATI.

Может ли один негативный опыт взаимодействия с сайтом испортить его ранжирование для этого пользователя?

Да, может. Негативный опыт (например, быстрый отказ) фиксируется в истории. Если это произошло в текущей сессии, это повлияет на обработку Второй моделью. Если негативный опыт повторяется систематически, это повлияет на долгосрочное Векторное представление, генерируемое Первой моделью. Система обучается предсказывать вероятность позитивного действия, поэтому сайты с историей негативных взаимодействий будут пессимизироваться в персонализированной выдаче.

Что важнее для ранжирования: долгосрочная история или текущая сессия?

Оба фактора критически важны, и они используются совместно во Второй модели для финального ранжирования. Долгосрочная история задает общий профиль интересов пользователя, а текущая сессия предоставляет непосредственный контекст и уточняет интент в реальном времени. Веса этих компонентов определяются в процессе машинного обучения и зависят от конкретной ситуации и запроса.