Яндекс патентует двухкомпонентную ML-архитектуру для глубокой персонализации. Первая модель офлайн обрабатывает долгосрочную историю поиска пользователя (недели/месяцы) и создает сжатый вектор его интересов. Вторая модель в реальном времени использует этот вектор вместе с данными текущей сессии для точного ранжирования результатов, повышая точность без увеличения задержек.
Описание
Какую задачу решает
Патент решает критическую проблему баланса между качеством глубокой персонализации поиска и вычислительными ресурсами сервера. Для точного ранжирования необходимо учитывать как долгосрочные интересы пользователя, так и его краткосрочный контекст (текущую сессию). Однако обработка большого объема исторических данных с помощью сложных моделей (например, Трансформеров) в реальном времени (онлайн) требует значительных ресурсов и увеличивает задержку ответа (latency). Изобретение предлагает архитектуру, которая повышает точность ранжирования за счет учета обширной истории пользователя, минимизируя при этом нагрузку на сервер в момент запроса.
Что запатентовано
Запатентована система и способ обучения алгоритма машинного обучения (MLA), состоящего из двух связанных моделей, для персонализированного ранжирования. Суть изобретения заключается в разделении обработки пользовательской истории: Первая ML-модель обрабатывает большой объем долгосрочных данных офлайн и сжимает его в векторное представление (эмбеддинг интересов пользователя). Вторая ML-модель в реальном времени использует этот сжатый вектор и свежие данные текущей сессии для финального ранжирования.
Как это работает
Система использует две совместно обучаемые модели, часто основанные на архитектуре Трансформер (например, BERT/YATI).
- Обработка долгосрочной истории (Офлайн): Первая ML-модель анализирует историю запросов и действий пользователя за длительный период (недели, месяцы). Результатом является компактное Векторное представление (Эмбеддинг пользователя), агрегирующее его интересы (например, через выходной токен [CLS]). Этот процесс выполняется периодически в офлайн-режиме.
- Ранжирование в реальном времени (Онлайн): Когда пользователь вводит запрос, Вторая ML-модель получает текущий запрос, документы-кандидаты, данные текущей сессии (свежая история) и заранее рассчитанный Эмбеддинг пользователя. Модель определяет вероятность действия пользователя (например, клика) для каждого документа и ранжирует их.
Такая архитектура позволяет учитывать обширную историю без ее прямой обработки в момент запроса, экономя ресурсы.
Актуальность для SEO
Высокая. Персонализация выдачи с использованием Трансформеров является стандартом в современных поисковых системах. Архитектурные решения для эффективного развертывания больших нейронных моделей и обработки больших объемов данных (например, гибридные офлайн/онлайн системы) крайне актуальны для высоконагруженных систем, таких как Яндекс.
Важность для SEO
Влияние на SEO значительно (8/10). Патент описывает конкретную архитектуру, которую Яндекс использует для глубокой персонализации выдачи. Это означает, что релевантность документа сильно зависит не только от самого запроса, но и от долгосрочной истории пользователя и его действий в рамках текущей сессии. SEO-стратегии должны учитывать необходимость формирования долгосрочной лояльности аудитории и оптимизации под удовлетворение интента в рамках всей поисковой сессии.
Детальный разбор
Термины и определения
- Алгоритм MLA (MLA, Machine Learning Algorithm)
- В контексте патента — система ранжирования, состоящая из двух совместно обучаемых моделей машинного обучения (Первой и Второй).
- Векторное представление (Vector Representation / Эмбеддинг)
- Сжатое численное представление данных. В патенте это результат работы Первой ML-модели, инкапсулирующий долгосрочную историю пользователя. Служит профилем интересов пользователя.
- Вторая ML-модель (Second ML Model)
- Модель, работающая в реальном времени (онлайн). Принимает на вход Векторное представление (от Первой модели) и данные текущей сессии для определения финальной вероятности действия пользователя.
- Вторые данные предыстории (Second History Data)
- Свежие данные истории поиска, накопленные за короткий период (часы, дни) или в рамках прошлого/текущего пользовательского сеанса.
- Первая ML-модель (First ML Model)
- Модель, обрабатывающая большой объем долгосрочной истории пользователя. Работает преимущественно в офлайн-режиме для генерации Векторного представления.
- Первые данные предыстории (First History Data)
- Обширные данные истории поиска (запросы, документы, действия), накопленные за длительный период (недели, месяцы, годы).
- Пользовательское действие (User Action)
- Взаимодействие пользователя с результатами поиска (клик, длинный клик, dwell time, добавление в избранное, сохранение контента). Является целевой переменной для обучения моделей.
- Трансформер (Transformer)
- Архитектура глубокого обучения (BERT, GPT). Упоминается как предпочтительная реализация для Первой и Второй моделей.
- [CLS] Токен
- Специальный токен в трансформерных моделях, используемый для представления агрегированной информации о всей входной последовательности. В патенте его выходное значение используется как Векторное представление долгосрочной истории.
Ключевые утверждения (Анализ Claims)
Патент защищает как способ обучения двухкомпонентной системы (Claim 1), так и саму систему/сервер (Claim 10), фокусируясь на эффективном учете разных временных горизонтов истории пользователя.
Claim 1 (Независимый пункт — Способ обучения): Описывает процесс совместного обучения (joint training) двух моделей.
- Получение двух наборов данных: (а) Первые данные предыстории (долгосрочные) и (б) Вторые данные предыстории (краткосрочные/сессионные, которые были короче и позднее). Оба набора содержат запросы, документы и метки действий пользователя.
- Совместное обучение включает:
- Обучение Модели 1: Она учится формировать Векторное представление на основе Первых (долгосрочных) данных.
- Обучение Модели 2: Она учится определять вероятность действия пользователя, используя Вторые (краткосрочные) данные И Векторное представление, полученное от Модели 1.
Ключевым элементом является зависимость Второй модели от выхода Первой. Это позволяет перенести вычислительную сложность анализа долгосрочной истории на Первую модель, в то время как Вторая модель получает уже агрегированную информацию в виде вектора.
Claim 4 (Зависимый пункт — Способ использования): Описывает применение обученной системы в реальном времени (этап использования).
- Получение текущего запроса и набора документов-кандидатов.
- Получение данных текущей сессии (до момента запроса).
- Формирование цифрового объекта, включающего: текущий запрос, кандидаты, данные текущей сессии И Векторное представление долгосрочной истории (рассчитанное ранее Первой моделью).
- Ввод этого объекта во Вторую модель для определения значений вероятности действия.
- Ранжирование документов согласно этим значениям вероятности.
Подтверждается архитектура онлайн/офлайн. В реальном времени работает только Вторая модель, используя результаты предварительных расчетов Первой модели.
Claims 5-7 (Зависимые пункты): Уточняют механизм обновления долгосрочной истории.
Долгосрочный профиль пользователя не статичен. Система предусматривает механизм регулярного обновления Первых данных и пересчета Векторного представления (Первой моделью в офлайн-режиме). Это может происходить путем сдвига или расширения временного окна сбора данных в направлении текущего момента времени с заданной частотой.
Где и как применяется
Изобретение описывает архитектуру для глубокой персонализации ранжирования, затрагивая офлайн-процессы и онлайн-ранжирование.
Офлайн-процессы и обработка данных (Data Acquisition / Feature Extraction)
Значительная часть работы происходит офлайн или асинхронно.
- Сбор данных: Накопление логов пользовательской активности (запросы, показы, клики) за длительные периоды времени (Первые данные предыстории).
- Вычисление Эмбеддинга Пользователя: Первая ML-модель периодически обрабатывает эти данные для генерации и обновления Векторного представления (Эмбеддинга пользователя). Этот эмбеддинг сохраняется (например, в профиле пользователя) для быстрого доступа.
RANKING – Ранжирование (Уровень L4 — Personalization)
Основное применение происходит на поздних стадиях ранжирования для персонализации выдачи. Вторая ML-модель работает в реальном времени.
- Извлечение признаков в реальном времени: Система извлекает данные текущей сессии (Вторые данные предыстории) и быстро получает заранее рассчитанный Эмбеддинг пользователя.
- Применение модели: Вторая ML-модель использует все эти данные (текущий запрос, документ, сессия, долгосрочный эмбеддинг) для расчета финального скора релевантности (вероятности действия).
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, где история пользователя помогает уточнить интент (например, запрос «Наполеон» для историка и кулинара). Также влияет на запросы, связанные с продолжением предыдущего поиска.
- Типы контента и ниши: Влияет на ранжирование всех типов контента, где возможна персонализация (веб-документы, видео, музыка, товары) и где у пользователя есть выраженные предпочтения.
Когда применяется
Система работает в двух режимах:
- Офлайн/Периодически: Активация Первой ML-модели для обновления долгосрочного эмбеддинга пользователя. Частота может быть заданной (например, раз в сутки, неделю) или триггериться по событию,.
- Онлайн: Активация Второй ML-модели происходит при обработке практически каждого поискового запроса пользователя, для которого доступна история (эмбеддинг и сессия).
Пошаговый алгоритм
Фаза 1: Офлайн-обработка и Обучение (Периодический процесс)
- Сбор данных: Агрегация Первых (долгосрочных) и Вторых (краткосрочных) данных предыстории.
- Совместное обучение:
- Обучение Первой ML-модели на долгосрочных данных для генерации Векторного представления (Эмбеддинга).
- Обучение Второй ML-модели на краткосрочных данных, обогащенных Эмбеддингом от Первой модели, для предсказания вероятности клика.
- Обновление Эмбеддингов (Периодически): Применение обученной Первой модели к обновленной долгосрочной истории пользователей для генерации актуальных Векторных представлений и их сохранение в базе.
Фаза 2: Онлайн-ранжирование (В реальном времени)
- Получение запроса: Пользователь отправляет запрос. Система находит документы-кандидаты.
- Сбор контекста: Извлечение (а) данных текущей сессии и (б) сохраненного Векторного представления пользователя (из Фазы 1).
- Формирование входного объекта: Компоновка всех данных (запрос, кандидаты, сессия, долгосрочный вектор) в единый входной объект.
- Ранжирование (Вторая ML-модель): Ввод объекта во Вторую модель. Расчет вероятности действия пользователя для каждого документа.
- Выдача результатов: Формирование SERP на основе рассчитанных вероятностей.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важные данные для обеих моделей. Включают логи прошлых поисковых сессий: прошлые запросы, показанные документы и действия пользователя с ними. Конкретные примеры действий: выбор (клик), длинный клик (пребывание дольше заданного времени), остановка на документе (dwell time), добавление в избранное, сохранение контента.
- Контентные факторы (Текстовые): Тексты прошлых и текущего запросов. Метаданные документов (упоминаются заголовки и URL). Эти данные токенизируются для ввода в модели.
- Временные факторы: Система явно разделяет данные по времени сбора: долгосрочный период (Первые данные) и краткосрочный/сессионный период (Вторые данные).
- Пользовательские факторы: Вся система привязана к конкретному пользователю. Упоминаются социально-демографические характеристики как возможные данные в базе, но их прямое использование в описанном алгоритме не детализировано. Персонализация основана на поведении.
Какие метрики используются и как они считаются
- Алгоритмы машинного обучения: Основной упор сделан на Трансформеры (упоминаются BERT, GPT) как предпочтительную архитектуру для обеих моделей. Также упоминаются как возможные варианты: рекуррентные сети NN, LSTM, и модели на основе деревьев решений (CatBoost).
- Векторное представление (User Embedding): Генерируется Первой моделью. Это плотный вектор, инкапсулирующий долгосрочные интересы. Технически часто реализуется как выходной токен [CLS] трансформера.
- Целевая Метрика: Вероятность действия пользователя (Probability of User Action) с цифровым документом.
- Обучение: Используется совместное обучение (Joint Training). Веса корректируются путем минимизации функции потерь (упоминается кросс-энтропия) между прогнозируемыми и фактическими действиями (метками) с использованием методов оптимизации (например, градиентный спуск).
Выводы
- Гибридная архитектура персонализации: Яндекс использует сложную двухкомпонентную архитектуру, которая разделяет обработку долгосрочных интересов (офлайн) и краткосрочного контекста (онлайн). Это позволяет применять глубокое обучение к большим объемам данных без ущерба для скорости ответа.
- Долгосрочные интересы как Эмбеддинг: Долгосрочная история пользователя (недели/месяцы) агрегируется в компактный вектор (Эмбеддинг) с помощью Первой ML-модели. Этот эмбеддинг является ключевым элементом, переносящим знания между офлайн и онлайн фазами.
- Сессия и Эмбеддинг в реальном времени: Финальное ранжирование (Вторая ML-модель) учитывает и текущую сессию, и долгосрочный эмбеддинг. Релевантность определяется сочетанием немедленного контекста и общих интересов пользователя.
- Поведенческие данные как основа: Вся система обучается на реальных действиях пользователей (клики, dwell time и т.д.). Позитивные поведенческие сигналы критически важны для формирования профиля интересов пользователя и, следовательно, для ранжирования сайта в его выдаче.
- Динамические профили пользователей: Долгосрочные профили интересов не статичны. Патент предусматривает механизмы их регулярного обновления (Claims 5-7,), что позволяет системе адаптироваться к изменениям в поведении пользователя.
Практика
Best practices (это мы делаем)
- Фокус на Topical Authority и долгосрочной лояльности (Retention): Создавайте контент, который соответствует устойчивым интересам вашей целевой аудитории. Первая ML-модель фиксирует долгосрочное поведение. Если пользователь регулярно посещает ваш сайт по определенной тематике, это будет отражено в его эмбеддинге, повышая шансы сайта ранжироваться в его выдаче по смежным запросам.
- Оптимизация под поисковую сессию (User Journey): Анализируйте не только целевой запрос, но и то, что пользователи ищут до и после него. Вторая ML-модель активно использует контекст сессии. Ваш контент должен быть лучшим ответом на текущем этапе поиска пользователя, учитывая его предыдущие шаги.
- Максимизация качественных поведенческих сигналов: Обе модели обучаются на пользовательских действиях. Критически важно не просто получить клик, но и удержать пользователя (длинный клик, dwell time), стимулировать добавление в избранное или сохранение контента. Это формирует позитивную историю взаимодействий.
- Работа с неоднозначными запросами: Для запросов с множественным интентом приоритет в выдаче будет определяться именно персонализацией. Убедитесь, что ваш контент четко сигнализирует о своей тематике, чтобы привлекать релевантную аудиторию и формировать правильные связи в моделях Яндекса.
Worst practices (это делать не надо)
- Кликбейт и обман ожиданий: Привлечение нецелевого трафика или создание контента, который не удовлетворяет интент, приведет к негативным поведенческим сигналам (короткие клики, возвраты к выдаче). Это ухудшит как долгосрочный профиль интересов, связанный с вашим сайтом, так и краткосрочную оценку в рамках сессии.
- Изолированная оптимизация под ключевые слова: Оптимизация страницы только под один запрос без учета контекста сессии и общих интересов пользователя становится менее эффективной, так как система ранжирования учитывает гораздо более широкий контекст.
- Игнорирование лояльности аудитории: Рассматривать трафик как поток обезличенных визитов неэффективно. Отсутствие лояльной аудитории означает отсутствие персонализированного буста в ранжировании.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на глубокую персонализацию поиска, основанную на машинном обучении и анализе больших данных о поведении. Он показывает, как Яндекс решает инфраструктурные проблемы для внедрения сложных моделей в реальном времени. Для SEO это означает, что «средняя» релевантность уступает место релевантности для конкретного пользователя. Долгосрочная стратегия должна строиться на создании авторитетных ресурсов, которые становятся центром притяжения для пользователей и формируют положительный исторический опыт взаимодействия.
Практические примеры
Сценарий 1: Влияние долгосрочной истории на неоднозначный запрос
- Пользователь А (Автолюбитель): Регулярно ищет обзоры машин, запчасти (зафиксировано в Первых данных предыстории).
- Офлайн-обработка: Первая ML-модель генерирует Эмбеддинг пользователя А, отражающий интерес к авто.
- Текущий запрос: Пользователь А вводит «Ягуар».
- Онлайн-ранжирование: Вторая ML-модель использует Эмбеддинг (интерес к авто) и ранжирует страницы об автомобиле Jaguar выше, чем о животном. Для пользователя Б с историей поиска о животных результат будет обратным.
Сценарий 2: Влияние контекста сессии
- Начало сессии: Пользователь ищет «установить Python на Windows». Кликает на результат. Затем ищет «лучшие библиотеки Python» (зафиксировано в данных сессии).
- Следующий запрос: Пользователь ищет «Anaconda».
- Онлайн-ранжирование: Вторая ML-модель анализирует запрос «Anaconda», учитывая контекст сессии (Python, установка, библиотеки).
- Результат: Система понимает контекст программирования. Результаты о дистрибутиве Anaconda для Data Science ранжируются значительно выше, чем результаты о змеях или певице Ники Минаж.
Вопросы и ответы
В чем основное различие между Первой и Второй моделями машинного обучения в этом патенте?
Первая модель (First ML model) отвечает за обработку долгосрочной истории пользователя (недели, месяцы) и создание компактного векторного представления (эмбеддинга) его интересов. Она может работать офлайн. Вторая модель (Second ML model) работает в реальном времени и отвечает за финальное ранжирование. Она использует текущий запрос, данные сессии и заранее подготовленный эмбеддинг от Первой модели для предсказания вероятности клика.
Как эта архитектура помогает Яндексу экономить ресурсы и ускорять поиск?
Самая тяжелая операция — обработка большого массива долгосрочной истории пользователя. Патент предлагает вынести эту операцию в Первую модель, которая работает офлайн или периодически. В реальном времени Вторая модель работает только с небольшим объемом данных сессии и уже готовым компактным эмбеддингом. Это значительно снижает вычислительную нагрузку и задержку (latency) во время ответа на запрос пользователя.
Что такое Эмбеддинг пользователя (Векторное представление) в контексте этого патента?
Это численное представление долгосрочных интересов пользователя. Он генерируется Первой моделью (основанной на Трансформере), обычно с использованием выходного вектора токена. Этот эмбеддинг инкапсулирует, какие темы, сайты и типы контента пользователь предпочитал в прошлом, и используется Второй моделью для персонализации текущей выдачи.
Как часто обновляется долгосрочный профиль интересов пользователя (Эмбеддинг)?
Патент предусматривает гибкость. Обновление может происходить с заранее заданной частотой (например, раз в сутки, неделю или месяц). Для обновления временное окно сбора данных сдвигается или расширяется ближе к текущему моменту, что позволяет поддерживать актуальность профиля без необходимости пересчета в реальном времени.
Какие конкретно поведенческие факторы учитывает эта система?
Патент упоминает широкий спектр действий: выбор документа (клик), остановка на документе (dwell time), добавление в избранное, контакт с документом дольше порогового времени (длинный клик) и сохранение контента. Все эти сигналы используются для обучения обеих моделей и формирования профиля интересов пользователя.
Как SEO-специалисту оптимизировать сайт под долгосрочные интересы (Первую модель)?
Это требует стратегического подхода к Topical Authority и лояльности аудитории. Необходимо стать авторитетным источником в своей нише, чтобы пользователи регулярно возвращались на ваш сайт для решения задач в этой области. Чем чаще и качественнее пользователь взаимодействует с вашим сайтом в рамках определенной темы, тем сильнее эта тема будет выражена в его персональном эмбеддинге.
Как оптимизировать сайт под контекст сессии (Вторую модель)?
Необходимо анализировать всю поисковую сессию (User Journey). Понимайте, какие запросы предшествуют вашему целевому запросу и какие следуют за ним. Создавайте контент, который логично продолжает сессию пользователя. Например, если пользователь искал симптомы, а затем ищет лекарство, ваша страница с лекарством должна учитывать контекст поиска решения проблемы.
Используются ли в этой системе Трансформеры (BERT или YATI)?
Да, патент явно указывает Трансформеры (упоминая BERT и GPT) как предпочтительную архитектуру для реализации Первой и Второй моделей. Они используются для анализа последовательности действий пользователя (запросы и клики) подобно тому, как анализируются предложения в NLP. Логично предположить использование актуальных моделей Яндекса, таких как YATI.
Может ли один негативный опыт взаимодействия с сайтом испортить его ранжирование для этого пользователя?
Да, может. Негативный опыт (например, быстрый отказ) фиксируется в истории. Если это произошло в текущей сессии, это повлияет на обработку Второй моделью. Если негативный опыт повторяется систематически, это повлияет на долгосрочное Векторное представление, генерируемое Первой моделью. Система обучается предсказывать вероятность позитивного действия, поэтому сайты с историей негативных взаимодействий будут пессимизироваться в персонализированной выдаче.
Что важнее для ранжирования: долгосрочная история или текущая сессия?
Оба фактора критически важны, и они используются совместно во Второй модели для финального ранжирования. Долгосрочная история задает общий профиль интересов пользователя, а текущая сессия предоставляет непосредственный контекст и уточняет интент в реальном времени. Веса этих компонентов определяются в процессе машинного обучения и зависят от конкретной ситуации и запроса.