Как Яндекс обучает модели рекомендательных систем, используя исторические «снимки» данных для повышения точности

Яндекс патентует метод обучения ML-моделей для систем рекомендаций (например, Дзен, Музыка). Для повышения точности и эффективности признаки разделяются: связанные с пользователем вычисляются в реальном времени, а глобальные признаки контента — периодически офлайн и хранятся в «Архивах Снимков». При обучении используются только данные, доступные строго ДО момента исторического события, что предотвращает «заглядывание в будущее» и устраняет искажения модели.

Описание

Какую задачу решает

Патент решает инфраструктурные и методологические проблемы обучения алгоритмов машинного обучения (ML) в рамках систем рекомендаций контента. Он не относится к веб-поиску. Ключевые задачи:

Устранение искажений модели (Data Leakage): Предотвращение проблемы «искаженного чрезмерного доверия» (biased overconfidence или lookahead bias). Это происходит, когда модель при обучении использует данные, которые не были доступны в момент исторического события (т.е. «заглядывает в будущее»).
Повышение вычислительной эффективности: Снижение нагрузки за счет вычисления ресурсоемких глобальных признаков в офлайн-режиме, а не в реальном времени для каждого события.
Предотвращение переобучения в двухэтапных моделях: Улучшение качества в сложных моделях (стекинг), где один модуль использует вывод другого, путем обучения их на разных выборках данных.

Что запатентовано

Запатентован способ обучения модуля предсказаний в системе рекомендаций, обеспечивающий темпоральную корректность данных (Point-in-Time Correctness). Суть изобретения — в разделении признаков на связанные с пользователем (User-related properties) и не связанные с пользователем (Non-user-related properties). Не связанные с пользователем свойства вычисляются периодически офлайн и сохраняются в Архивах Снимков (Snapshot Archives). Связанные с пользователем свойства вычисляются в реальном времени. При обучении на историческом событии система использует данные из последнего Архива Снимков, созданного СТРОГО ДО этого события.

Как это работает

Система функционирует в трех режимах:

Офлайн (Периодически): Вычисляются не связанные с пользователем свойства (например, глобальная популярность элемента, его скрытые векторы, рассчитанные через SVD). Эти данные сохраняются в Архив Снимков.
Обучение (Training): При обучении ML-модели на исторических событиях для каждого события извлекаются связанные с пользователем свойства, актуальные на момент события, и не связанные с пользователем свойства из последнего Снимка, созданного ДО этого события.
Онлайн (В реальном времени): При запросе рекомендаций вычисляются актуальные связанные с пользователем свойства. Модуль предсказаний использует эти данные и самый последний доступный Снимок для генерации рекомендаций.

Актуальность для SEO

Высокая (для инфраструктуры ML). Описанные принципы — предотвращение утечки данных (data leakage), темпоральная корректность при обучении на логах (Point-in-Time Correctness) и разделение офлайн/онлайн вычислений — являются фундаментальными для построения качественных и масштабируемых систем машинного обучения, особенно в рекомендательных сервисах (Дзен, Музыка и т.д.).

Важность для SEO

Влияние на SEO минимальное (1/10). Патент описывает внутренние процессы и инфраструктуру систем рекомендаций контента, а не алгоритмы ранжирования веб-поиска. Он не содержит прямых рекомендаций для SEO-специалистов, работающих над продвижением сайтов в органической выдаче. Он имеет значение для понимания работы ML в рекомендательных платформах Яндекса (например, Дзен), но не для классического SEO.

Детальный разбор

Термины и определения

Архив Снимков (Snapshot Archive)

База данных, содержащая предварительно вычисленные (офлайн) не связанные с пользователем свойства по состоянию на определенный момент времени. Снимки создаются периодически (например, раз в день/неделю).

Искаженное чрезмерное доверие (Biased Overconfidence / Lookahead Bias)

Термин, используемый в патенте для описания проблемы качества модели (data leakage или overfitting), возникающей, если обучение выполняется с использованием свойств, появившихся позже времени обучающего события («заглядывание в будущее»).

Модуль предсказаний (Prediction Module)

Компонент системы, выполняющий алгоритм машинного обучения для генерации рекомендаций. В патенте упоминается возможность двухэтапного подхода:

Основной модуль предсказания (First/Main): Создает окончательный список рекомендаций.
Предварительный/Вторичный модуль предсказания (Second/Preliminary): Создает признаки (например, скрытые векторы через SVD), которые используются как входные данные для основного модуля.

Не связанные с пользователем свойства (Non-user-related properties)

Признаки, касающиеся элементов контента (items) или системы в целом. Примеры: глобальная популярность элемента, жанр, цена, векторы скрытых переменных элемента (latent factors). Вычисляются офлайн и хранятся в Архивах Снимков.

Обучающее событие (Training Event)

Зафиксированное в логах взаимодействие пользователя с элементом (например, прослушивание трека, лайк, клик, пропуск), которое используется для обучения ML-модели.

Связанные с пользователем свойства (User-related properties)

Признаки, характеризующие конкретного пользователя и его историю. Примеры: количество событий в логе пользователя, соотношение типов событий, время с момента последней активности. Вычисляются в реальном или псевдореальном времени.

SVD (Singular Value Decomposition)

Алгоритм сингулярного разложения. Упоминается как возможный метод, используемый предварительным модулем предсказания для вычисления скрытых переменных элементов.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения ML-моделей для рекомендаций, обеспечивающей темпоральную точность данных и эффективность вычислений.

Claim 1 (Независимый пункт): Описывает способ создания рекомендаций с использованием модели, обученной специальным образом.

Система получает запрос на рекомендации.
Генерация рекомендаций выполняется Модулем предсказаний.
Ключевой аспект — процесс обучения этого модуля: Для каждого исторического обучающего события используются два типа входных параметров:

(1) Не связанные с пользователем свойства: Они извлекаются из последней версии Архива Снимков, которая была создана СТРОГО ДО момента времени, когда произошло обучающее событие.
(2) Связанные с пользователем свойства: Используются свойства, доступные (вычисленные) непосредственно В МОМЕНТ времени, когда произошло событие.

Сгенерированные рекомендации передаются пользователю.

Это ядро изобретения. Оно описывает механизм предотвращения «заглядывания в будущее» при обучении (Lookahead Bias). Модель должна учиться предсказывать событие, используя только ту информацию, которая была реально доступна системе в тот момент: глобальные признаки берутся из прошлого (Снимок), а персональные — из настоящего (момент события).

Claim 15 (Независимый пункт): Описывает непосредственно способ обучения модуля предсказаний.

Создание обучающей выборки. Процесс идентичен описанному в Claim 1: темпорально корректное совмещение не связанных с пользователем свойств (из Снимков, созданных до события) и связанных с пользователем свойств (на момент события).
Использование этой выборки для обучения модуля предсказаний.

Этот пункт конкретизирует процесс создания «чистой» обучающей выборки, свободной от темпоральных искажений.

Claim 19 (Независимый пункт): Описывает способ обучения двухэтапной системы (Первый модуль использует вывод Второго модуля как входные данные).

Создается первая обучающая выборка для Первого модуля.
Создается вторая обучающая выборка для Второго модуля.
Ключевое требование: Свойства (связанные и не связанные с пользователем) в первой выборке ОТЛИЧАЮТСЯ от свойств во второй выборке.

Этот пункт направлен на предотвращение переобучения (overfitting) в стекированных моделях. Если основной модуль обучается на признаках, сгенерированных предварительным модулем, их обучающие выборки должны быть разными, чтобы обеспечить обобщающую способность модели.

Где и как применяется

Этот патент не применяется к стандартной архитектуре веб-поиска (CRAWLING, INDEXING, RANKING и т.д.).

Он описывает инфраструктуру Систем Рекомендаций (например, Дзен, Музыка, Видео) и относится к области ML Ops (Machine Learning Operations).

Применение происходит на нескольких уровнях:

1. Извлечение и Подготовка Признаков (Feature Engineering)

Офлайн-процессы: Система периодически запускает ресурсоемкие вычисления (например, с помощью Второго модуля предсказаний, использующего SVD) для анализа всего корпуса элементов и логов. Результат — Не связанные с пользователем свойства, которые сохраняются в Архив Снимков. Это позволяет не пересчитывать глобальные характеристики в реальном времени.
Онлайн-процессы: В момент запроса пользователя система вычисляет Связанные с пользователем свойства на лету, основываясь на его актуальной истории.

2. Обучение Моделей (Model Training)

Основное применение патента. При формировании обучающей выборки из исторических логов (Обучающие события) ключевым является процесс темпорального совмещения признаков: для события в момент T берутся пользовательские свойства в момент T и глобальные свойства из Снимка, созданного в момент T-1 (или ранее).

3. Генерация Рекомендаций (Inference/Serving)

При получении запроса Основной модуль предсказаний использует вычисленные в реальном времени связанные с пользователем свойства и данные из самого последнего доступного Архива Снимков для ранжирования кандидатов.

На что влияет

Типы контента: Влияет на точность рекомендаций любых элементов: статьи (Дзен), музыкальные треки, видео, товары.
Специфические запросы: Не применимо к веб-поисковым запросам. Применимо к запросам на получение персонализированной ленты или подборки.
Ниши или тематики: Не имеет ограничений по тематикам в рамках рекомендательных систем.

Когда применяется

Алгоритмы применяются постоянно в разных режимах:

Создание Снимков: Периодически (например, раз в день/неделю) в офлайн-режиме.
Обучение моделей: Периодически, по мере накопления новых логов взаимодействий.
Вычисление пользовательских свойств: В реальном времени при каждом запросе на рекомендацию или при наступлении нового пользовательского события.

Пошаговый алгоритм

Процесс А: Создание Архива Снимков (Офлайн)

Инициализация: Запуск процесса по расписанию (например, ежедневно).
Сбор данных: Извлечение всех доступных логов взаимодействий и характеристик элементов до момента запуска.
Вычисление признаков: Запуск Предварительного модуля предсказания (например, SVD) для вычисления Не связанных с пользователем свойств (например, скрытых векторов элементов).
Сохранение: Создание новой версии Архива Снимков с меткой времени создания.

Процесс Б: Обучение Модели Предсказаний (Ключевой этап)

Сбор Обучающих Событий: Извлечение исторических взаимодействий (Событие E, Время T, Пользователь U, Элемент I).
Формирование Обучающей Выборки: Для каждого события E в момент T:

Определение последнего Архива Снимков (S), созданного СТРОГО ДО момента T.
Извлечение Не связанных с пользователем свойств для элемента I из Снимка S.
Вычисление (или извлечение из истории) Связанных с пользователем свойств для пользователя U, актуальных на момент T (используя только данные до T).
Формирование темпорально корректного обучающего примера путем объединения этих свойств.

Обучение: Использование сформированной выборки для обучения Основного модуля предсказаний.

Процесс В: Генерация Рекомендаций (Онлайн)

Получение запроса: Пользователь запрашивает рекомендации (например, открывает ленту).
Вычисление пользовательских свойств: Расчет актуальных Связанных с пользователем свойств в реальном времени.
Извлечение свойств элементов: Использование САМОГО ПОСЛЕДНЕГО доступного Архива Снимков для получения Не связанных с пользователем свойств для элементов-кандидатов.
Предсказание: Обученный Модуль предсказаний использует оба типа свойств для расчета релевантности и ранжирования рекомендаций.
Выдача: Передача списка рекомендаций пользователю.

Какие данные и как использует

Данные на входе

Система использует различные типы данных, которые четко разделены на две категории.

Связанные с пользователем свойства (User-related properties):

Поведенческие факторы: Число известных событий в логе пользователя; соотношение типов событий (например, 50% прослушиваний, 40% пропусков, 10% лайков); статистика взаимодействий с конкретными объектами или категориями.
Временные факторы: Как долго ведется лог пользователя (возраст аккаунта); время с момента последней активности; давность взаимодействия с категорией (например, когда последний раз слушал исполнителя).

Не связанные с пользователем свойства (Non-user-related properties):

Поведенческие (Глобальные) факторы: Общая популярность объекта (например, общее количество прослушиваний/скачиваний всеми пользователями); глобальное соотношение лайков/кликов/покупок для объекта.
Контентные/Мультимедиа факторы (Характеристики элемента): Длина трека, жанр, темп (для музыки); длина документа, категория/тема (для текста); рейтинг (для фильма).
Структурные/Технические факторы: Цена, размер, производитель/изготовитель объекта.
Вычисляемые признаки: Векторы скрытых переменных элемента (latent factors), полученные с помощью алгоритмов предварительного обучения (например, SVD).

Какие метрики используются и как они считаются

Патент не описывает конкретные формулы ранжирования, но упоминает используемые алгоритмы и типы метрик:

Алгоритмы Машинного Обучения (Основной модуль): Упоминаются Искусственные нейронные сети, Байесовская статистика, Гауссовский процесс регрессии, Деревья решений как возможные алгоритмы для Основного модуля предсказаний.
SVD (Сингулярное разложение): Упоминается как алгоритм для Второго (предварительного) модуля предсказаний. Используется для факторизации матрицы взаимодействий и создания скрытых представлений элементов.
Статистические метрики: Используются частоты, соотношения (ratios), временные интервалы, как описано выше.

Ключевым аспектом является не сами метрики, а процесс их вычисления и использования: разделение на офлайн (Снимки) и онлайн, а также строгая темпоральная корректность при обучении для предотвращения утечки данных (data leakage).

Выводы

Фокус на инфраструктуре ML рекомендаций, а не на SEO: Патент описывает внутренние процессы Яндекса, связанные с инфраструктурой машинного обучения (ML Ops) для рекомендательных систем. Он не содержит прямых рекомендаций для SEO в веб-поиске.
Темпоральная корректность критична для качества ML: Основная цель изобретения — обеспечить точность признаков при обучении, чтобы избежать «искаженного чрезмерного доверия» (обучения на данных из будущего). Это фундаментальное требование для качества моделей.
Разделение признаков на быстрые и медленные: Система четко разделяет Связанные с пользователем свойства (быстрые, вычисляются онлайн) и Не связанные с пользователем свойства (медленные, вычисляются офлайн в Снимках) для баланса эффективности и актуальности.
Борьба с переобучением в двухэтапных моделях: Патент явно требует использования разных обучающих выборок для основного и предварительного модулей предсказания (стекинг моделей), что является важной методологией для предотвращения overfitting.
Инерционность глобальных признаков: Поскольку глобальные характеристики элемента (популярность, общий CTR) пересчитываются только при создании нового Снимка (например, раз в день), изменения в качестве или популярности контента могут учитываться системой с задержкой.

Практика

ВАЖНО: Патент является инфраструктурным и описывает методологию обучения моделей рекомендательных систем. Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в веб-поиске.

Best practices (это мы делаем)

Не применимо к SEO. Для специалистов, работающих с контентом в рекомендательных системах (например, Дзен), патент косвенно подтверждает, что система разделяет глобальную популярность элемента (обновляется с задержкой в «снимках») и индивидуальную реакцию пользователя (учитывается в реальном времени). Однако прямых действий по оптимизации на основе описанной инфраструктуры обучения нет.

Worst practices (это делать не надо)

Не применимо к SEO. Патент не направлен против каких-либо SEO-тактик и не описывает механизмы борьбы с манипуляциями в поиске.

Стратегическое значение

Стратегическое значение патента заключается в понимании сложности и зрелости инфраструктуры ML Яндекса в области персонализации и рекомендаций. Он подтверждает, что для построения качественных рекомендаций необходимо обеспечивать корректный, эффективный и темпорально точный процесс подготовки данных и обучения. Для стратегии продвижения в основном веб-поиске (SEO) этот патент значения не имеет.

Практические примеры

Практических примеров для SEO нет, так как патент описывает внутренний процесс обучения моделей в рекомендательных системах.

Вопросы и ответы

Относится ли этот патент к ранжированию в основном веб-поиске Яндекса?

Нет. Патент явно описывает «Способ и устройство для создания рекомендуемого списка содержимого». Это относится к рекомендательным системам Яндекса (таким как Дзен, Музыка), а не к ранжированию сайтов в ответ на поисковый запрос. Описанные механизмы касаются инфраструктуры обучения ML-моделей для персонализированных лент.

Что такое «Архив снимков» и зачем он используется?

«Архив снимков» (Snapshot Archive) — это база данных, которая хранит состояние глобальных признаков (не связанных с пользователем, например, общую популярность статьи) на определенный момент времени. Он создается периодически офлайн. Он используется для экономии вычислительных ресурсов и для того, чтобы при обучении модели на исторических событиях можно было получить точные данные о состоянии признаков в прошлом, не «заглядывая в будущее».

В чем разница между «связанными» и «не связанными» с пользователем свойствами?

«Связанные с пользователем свойства» — это признаки, специфичные для конкретного пользователя (его история кликов, лайков, время последней активности). Они вычисляются в реальном времени для максимальной актуальности. «Не связанные с пользователем свойства» — это глобальные признаки элементов контента (общая популярность, жанр, длина, категория). Они вычисляются периодически офлайн.

Что такое «искаженное чрезмерное доверие» (Lookahead Bias), которое устраняет этот патент?

Это проблема в машинном обучении, когда модель при обучении использует информацию, которая не была доступна в момент исторического события (т.е. «заглядывает в будущее»). Например, если обучать модель на клике в понедельник, используя данные о популярности статьи, собранные к пятнице. Это приводит к некорректному обучению и снижению точности предсказаний в реальных условиях.

Как этот патент влияет на продвижение контента в Дзене?

Патент не дает прямых рекомендаций по продвижению. Он описывает инфраструктуру, которая позволяет моделям Дзена обучаться более точно. Для авторов это означает, что система стремится максимально корректно интерпретировать исторические данные о взаимодействиях. Качество рекомендаций повышается, но конкретные факторы успеха контента в патенте не раскрываются.

Почему Яндекс не вычисляет все признаки в реальном времени?

Вычисление глобальных признаков (не связанных с пользователем) требует анализа истории всех пользователей и всех элементов в системе. Как указано в патенте, выполнение этих вычислений для каждого события в реальном времени является чрезвычайно ресурсозатратной задачей. Вычисление их офлайн и сохранение в Архивах снимков значительно экономит вычислительные мощности.

Что такое двухэтапный подход к рекомендациям, упомянутый в патенте?

Это подход, при котором используется основной модуль предсказания и предварительный модуль. Предварительный модуль генерирует некие предсказания или признаки (например, с помощью SVD), которые затем используются в качестве входных данных для основного модуля. Патент предлагает обучать эти два модуля на разных обучающих выборках, чтобы избежать переобучения и повысить качество финального результата.

Упоминается ли в патенте алгоритм SVD?

Да, Сингулярное разложение (SVD) упоминается как пример алгоритма, который может использоваться предварительным модулем предсказания для вычисления не связанных с пользователем свойств, в частности, векторов скрытых переменных элемента (latent factors). Эти факторы затем сохраняются в Архиве снимков.

Является ли этот патент актуальным, учитывая дату подачи (2015 год)?

Да, с точки зрения инфраструктуры ML он актуален. Принцип темпоральной корректности (Point-in-Time Correctness), который лежит в основе патента, является фундаментальным требованием для построения качественных систем машинного обучения и не устаревает, хотя конкретные инструменты реализации могут меняться.

Могу ли я использовать информацию из этого патента для улучшения SEO моего сайта?

Нет. Этот патент не содержит информации о факторах ранжирования веб-поиска, индексации или краулинге. Он полностью посвящен внутренней механике обучения моделей для систем рекомендаций и не применим к стратегиям SEO для веб-сайтов.