Как Яндекс обеспечивает согласованность данных при обновлении моделей в рекомендательных системах (например, Дзен)

Патент описывает инфраструктурное решение Яндекса для рекомендательных систем (таких как Дзен). Система решает проблему согласованности версий пользовательских и контентных эмбеддингов во время обновления моделей. Для этого используется гибридное хранилище: эмбеддинги пользователей хранятся в нераспределенном хранилище (с поддержкой нескольких версий одновременно), а эмбеддинги контента — в распределенном (с заменой старой версии на новую). Это гарантирует, что для расчета релевантности всегда используется пара эмбеддингов из одной и той же версии модели.

Описание

Какую задачу решает

Патент решает инфраструктурную проблему обеспечения согласованности (консистентности) версий данных в рекомендательных системах при обновлении моделей машинного обучения. Для расчета релевантности система использует User Embedding (вектор пользователя) и Item Embedding (вектор контента). Критически важно, чтобы оба вектора были сгенерированы одной и той же версией модели. Поскольку обновление данных в распределенных системах занимает время, возникает риск использования несогласованных версий (например, старого вектора пользователя с новым вектором контента), что приводит к некорректным рекомендациям. Патент предлагает механизм синхронизации для решения этой проблемы.

Что запатентовано

Запатентован метод и система хранения и обновления эмбеддингов, использующая гибридную архитектуру. Суть изобретения заключается в стратегии раздельного хранения: User Embeddings хранятся в нераспределенном хранилище (non-distributed storage), а Item Embeddings — в распределенном (distributed storage). Во время обновления модели система временно хранит несколько версий пользовательских эмбеддингов, чтобы гарантировать наличие согласованной пары для любой версии эмбеддинга контента.

Как это работает

Когда модель переобучается, генерируются новые эмбеддинги (Версия 2). Новые User Embeddings (U2) записываются в нераспределенное хранилище рядом со старыми (U1). Новые Item Embeddings (I2) начинают замещать старые (I1) в распределенном хранилище, что требует времени для синхронизации всех узлов. В этот переходный период система, получая запрос на рекомендацию, сначала извлекает Item Embedding. Получив его (это может быть I1 или I2) вместе с меткой версии, система использует эту метку, чтобы запросить соответствующий User Embedding (U1 или U2) из нераспределенного хранилища. Это гарантирует согласованность версий. После полной синхронизации I2 на всех узлах, старые U1 удаляются.

Актуальность для SEO

Высокая (для инфраструктуры рекомендательных систем). Патент опубликован в конце 2023 года. Описанная архитектура решает фундаментальную проблему распределенных систем машинного обучения, актуальную для крупных сервисов, использующих коллаборативную фильтрацию, таких как Яндекс Дзен (который упоминается в патенте).

Важность для SEO

Влияние на SEO (Web Search) минимальное (1/10). Патент описывает исключительно внутреннюю инфраструктуру и процессы рекомендательной системы (например, Дзен), основанной на коллаборативной фильтрации и матричных разложениях. Он не имеет отношения к алгоритмам ранжирования веб-поиска, краулингу, индексации или факторам ранжирования сайтов в органической выдаче.

Детальный разбор

Термины и определения

Distributed Storage (Распределенное хранилище): Система хранения данных, где информация распределена по нескольким узлам (nodes) или серверам. Используется в патенте для хранения Item Embeddings. Обновление данных в нем требует времени для синхронизации всех узлов.
Embeddings (Эмбеддинги / Векторные представления): Низкоразмерные векторные представления пользователей (User Embeddings) и цифрового контента (Item Embeddings). Генерируются моделью матричного разложения на основе истории взаимодействий.
Item Embedding (Эмбеддинг элемента/контента): Векторное представление единицы контента, основанное на том, какие пользователи с ним взаимодействовали. Хранится в Distributed Storage.
Matrix Factorization Model (MFM) (Модель матричного разложения): Алгоритм машинного обучения (например, SVD), который раскладывает матрицу взаимодействий «пользователь-контент» на две более низкоразмерные матрицы: матрицу пользователей (User Embeddings) и матрицу контента (Item Embeddings).
Non-distributed Storage (Нераспределенное хранилище): Хранилище данных, реализованное, например, как единое физическое устройство или K-V (Key-Value) хранилище. Используется в патенте для хранения User Embeddings и поддерживает одновременное хранение нескольких версий эмбеддингов для одного пользователя.
Relevance Estimation Model (Модель оценки релевантности): Основная модель ранжирования (в патенте упоминается CatBoost как пример), которая использует различные признаки, включая комбинацию эмбеддингов, для ранжирования контента.
User-Item Interaction Data (Данные о взаимодействии пользователя и контента): Исторические данные о том, как пользователи взаимодействовали с контентом (клики, лайки, время просмотра). Являются входными данными для обучения MFM.
Version Value (Значение версии): Идентификатор (метка), связывающий эмбеддинг с конкретной итерацией обучения модели MFM. Используется для обеспечения согласованности версий при расчете релевантности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл хранения и обновления данных.

Обучение модели матричного разложения (MFM) на данных, собранных к моменту T1.
Генерация первых эмбеддингов пользователей (U1) и контента (I1), связанных меткой версии V1.
Хранение U1 в нераспределенном хранилище, I1 — в распределенном.
Переобучение MFM на обновленных данных, собранных к моменту T2.
Генерация вторых эмбеддингов (U2, I2), связанных меткой версии V2.
Ключевой механизм хранения:
- Хранение U2 в нераспределенном хранилище в дополнение (in addition) к U1.
- Хранение I2 в распределенном хранилище путем замены (replacing) I1.
В момент T3, когда I2 сохранены на каждом узле распределенного хранилища, удаление U1 из нераспределенного хранилища.

Claim 10 (Зависимый от Claim 1): Описывает процесс обработки запроса на рекомендацию в переходный период (между T2 и T3).

Получение запроса на рекомендацию.
Извлечение целевого Item Embedding (I_target) из распределенного хранилища. I_target может быть либо I1, либо I2, и он имеет метку версии (V_target).
Выбор целевого User Embedding (U_target) из нераспределенного хранилища путем сопоставления метки V_target с метками хранящихся эмбеддингов пользователя (V1 и V2).
Генерация признака ранжирования (Ranking Feature) как комбинации (например, скалярного произведения) U_target и I_target.

Где и как применяется

Патент описывает инфраструктуру, обеспечивающую работу рекомендательной системы (Яндекс Дзен). Он не применяется в архитектуре основного веб-поиска Яндекса.

Применение в архитектуре рекомендательной системы:

Офлайн-процессы (Обучение):

Сбор данных: Сбор User-Item Interaction Data из логов взаимодействий.
Обучение модели: Периодическое обучение Matrix Factorization Model (например, SVD) для генерации эмбеддингов.
Обновление хранилищ: Процесс записи новых версий эмбеддингов в Distributed и Non-distributed Storage по описанному алгоритму.

Онлайн-процессы (Генерация рекомендаций):

RANKING (Ранжирование): На этапе расчета релевантности контента для пользователя. Система извлекает эмбеддинги пользователя и контента, гарантируя их версионную согласованность, и вычисляет Ranking Feature. Этот признак используется основной моделью ранжирования (в патенте упоминается CatBoost как пример реализации Relevance Estimation Model).

Входные данные: История взаимодействий пользователей с контентом (для обучения); ID пользователя и ID контента (для извлечения эмбеддингов во время ранжирования).
Выходные данные: Эмбеддинги пользователей и контента (после обучения); Ranking Feature (во время ранжирования).

На что влияет

Типы контента: Влияет на любой контент внутри рекомендательной системы (статьи, видео, посты в Дзене).
Специфические запросы: Не применимо, так как это система рекомендаций без явного запроса (content discovery).
Ниши и тематики: Влияет на все тематики равномерно, так как описывает инфраструктуру расчета релевантности.
Качество рекомендаций: Влияет на стабильность и точность рекомендаций, предотвращая ошибки из-за рассинхронизации данных во время обновлений моделей.

Когда применяется

Алгоритм применяется постоянно:

Триггеры активации обучения: Периодически или по мере накопления достаточного объема новых данных о взаимодействиях.
Триггеры активации механизма согласования: Каждый раз, когда система генерирует рекомендации для пользователя и рассчитывает релевантность контента, особенно в периоды обновления моделей.

Пошаговый алгоритм

Фаза 1: Первичное обучение и сохранение (Версия 1)

Обучение: Matrix Factorization Model (MFM) обучается на текущих данных о взаимодействиях.
Генерация V1: Создаются первые эмбеддинги пользователей (U1) и контента (I1). Им присваивается метка версии V1.
Сохранение U1: U1 записываются в Non-distributed Storage.
Сохранение I1: I1 записываются в Distributed Storage.

Фаза 2: Переобучение и обновление (Версия 2)

Переобучение: MFM переобучается на обновленных данных.
Генерация V2: Создаются вторые эмбеддинги (U2, I2). Им присваивается метка V2.
Сохранение U2 (Дополнение): U2 записываются в Non-distributed Storage в дополнение к U1.
Сохранение I2 (Замена): I2 начинают записываться в Distributed Storage, замещая I1. Этот процесс асинхронен и занимает время для распространения по всем узлам.

Фаза 3: Обработка запросов в переходный период

Запрос рекомендации: Поступает запрос на генерацию ленты для пользователя.
Извлечение I_target: Система запрашивает эмбеддинг для единицы контента из Distributed Storage. Из-за асинхронного обновления может вернуться I1 (с меткой V1) или I2 (с меткой V2).
Согласование версии: Система определяет полученную версию (V_target).
Извлечение U_target: Система запрашивает эмбеддинг пользователя из Non-distributed Storage, используя V_target как ключ для выбора нужной версии (U1 или U2).
Расчет релевантности: Вычисляется Ranking Feature (например, скалярное произведение I_target и U_target).

Фаза 4: Завершение обновления

Подтверждение: Система получает подтверждение, что I2 полностью записаны на все узлы Distributed Storage.
Очистка: Старые эмбеддинги U1 удаляются из Non-distributed Storage.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре и использует следующие данные:

Поведенческие факторы (User-Item Interaction Data): Являются основным входом для обучения Matrix Factorization Model. Включают явные (лайки, дизлайки) и неявные (клики, время просмотра, прокрутки) сигналы взаимодействия пользователей с контентом.
Системные идентификаторы: ID пользователей и ID единиц контента, используемые как ключи для хранения и извлечения эмбеддингов. Метки версий (Version Values).

Другие типы факторов (контентные, ссылочные, технические и т.д.) в этом конкретном патенте не упоминаются.

Какие метрики используются и как они считаются

User Embeddings и Item Embeddings: Генерируются с помощью Matrix Factorization Model. В патенте упоминается Singular Value Decomposition (SVD) based model как возможная реализация.
Ranking Feature (Признак ранжирования): Вычисляется как комбинация User Embedding и Item Embedding. В тексте патента упоминается scalar product (скалярное произведение) векторов как пример такого признака.
Relevance Estimation Model: Модель оценки релевантности, которая использует Ranking Feature для финального ранжирования контента. В патенте упоминается CatBoost как пример такой модели.

Выводы

Патент носит сугубо инфраструктурный характер и описывает внутренние процессы Яндекса по обеспечению стабильности работы рекомендательных систем. Он не дает прямых рекомендаций для SEO в веб-поиске.

Основные выводы для понимания работы рекомендательных систем Яндекса (например, Дзен):

Приоритет точности и согласованности данных: Яндекс использует сложную инфраструктуру для гарантии того, что при расчете релевантности используются эмбеддинги, сгенерированные одной и той же версией модели. Это критично для точности рекомендаций.
Подтверждение использования коллаборативной фильтрации: Архитектура основана на эмбеддингах, полученных методом матричного разложения (Matrix Factorization) из данных о взаимодействиях. Это подтверждает, что коллаборативная фильтрация является ключевым компонентом системы рекомендаций.
Динамичность моделей: Система спроектирована с учетом частого переобучения моделей (re-training) на свежих данных. Это означает, что предпочтения пользователей и «вес» контента постоянно пересчитываются.
Гибридный подход к хранению: Используется оптимизированный подход к хранению (распределенное и нераспределенное хранилища) для управления разным объемом и скоростью обновления данных о пользователях и контенте.
Поведенческие факторы как основа: Эмбеддинги, о которых идет речь в патенте, полностью основаны на User-Item Interaction Data. Качество контента здесь определяется через призму того, как пользователи с ним взаимодействуют.

Практика

Патент является инфраструктурным и не дает практических выводов для SEO (продвижения сайтов в веб-поиске). Он описывает внутренние процессы Яндекс без прямых рекомендаций для SEO.

Однако, если интерпретировать задачу как оптимизацию под рекомендательные системы Яндекса (например, Дзен), можно сделать следующие выводы, основанные на том, что система использует коллаборативную фильтрацию:

Best practices (это мы делаем)

Максимизация позитивных взаимодействий: Поскольку эмбеддинги генерируются из матрицы взаимодействий, ключевая стратегия — стимулировать пользователей к позитивным взаимодействиям (лайки, длительное время просмотра, шеры). Это напрямую влияет на формирование Item Embedding.
Фокус на вовлеченность (Engagement): Создавать контент, который удерживает внимание пользователя и способствует глубокому погружению в материал, чтобы улучшить поведенческие сигналы, используемые для обучения MFM.
Сегментация аудитории: Создавать контент, который четко нацелен на определенные сегменты пользователей. Четкие паттерны взаимодействий в рамках сегмента помогают модели коллаборативной фильтрации лучше определить эмбеддинг контента и находить похожих пользователей.

Worst practices (это делать не надо)

Кликбейт без вовлечения: Генерация кликов, за которыми не следует длительного взаимодействия (короткие клики, высокий Bounce Rate), формирует негативные сигналы в матрице взаимодействий, что ухудшает эмбеддинг контента.
Накрутка поведенческих факторов: Искусственное завышение взаимодействий может привести к формированию «шумных» эмбеддингов, которые не будут соответствовать реальным предпочтениям пользователей, и может привести к пессимизации.

Стратегическое значение

Патент подтверждает, что рекомендательные системы Яндекса работают на основе сложных моделей коллаборативной фильтрации, требующих больших объемов данных о поведении пользователей. Стратегическое значение для создателей контента заключается в понимании того, что успех в рекомендательных системах определяется не текстовой оптимизацией или ссылками, а исключительно тем, насколько хорошо контент удовлетворяет интересы пользователей и стимулирует их к взаимодействию.

Практические примеры

Практических примеров для SEO нет, так как патент инфраструктурный и относится к рекомендательным системам, а не к поиску.

Вопросы и ответы

Относится ли этот патент к ранжированию сайтов в поиске Яндекса?

Нет, этот патент не имеет прямого отношения к веб-поиску. Он описывает инфраструктуру для рекомендательных систем, таких как Яндекс Дзен (который прямо упоминается в тексте патента). Механизмы, описанные здесь (коллаборативная фильтрация, Matrix Factorization), используются для персонализированного подбора контента на основе интересов пользователя, а не для ранжирования сайтов по ключевым запросам.

Что такое Matrix Factorization Model и как она используется в этом патенте?

Matrix Factorization Model (Модель матричного разложения, например, SVD) — это алгоритм, который анализирует исторические данные о взаимодействиях (кто из пользователей какой контент потреблял) и на их основе создает векторные представления (эмбеддинги) для каждого пользователя и каждой единицы контента. В патенте эта модель используется для генерации этих эмбеддингов, близость которых затем используется для предсказания релевантности.

Почему Яндекс использует два разных типа хранилищ (распределенное и нераспределенное)?

Это связано с разницей в объеме данных и скорости обновления. Пользователей значительно больше, чем единиц контента. Нераспределенное хранилище используется для эмбеддингов пользователей, так как оно позволяет быстро записывать новые версии и временно хранить несколько версий одновременно. Распределенное хранилище используется для эмбеддингов контента, где обновление происходит путем замены старой версии на новую, что требует времени для синхронизации узлов.

Что такое «согласованность версий эмбеддингов» и почему она важна?

Согласованность означает, что для расчета релевантности (например, скалярного произведения) используются эмбеддинг пользователя и эмбеддинг контента, которые были сгенерированы одной и той же версией обученной модели. Если использовать старый эмбеддинг пользователя и новый эмбеддинг контента, результат расчета будет некорктным (векторы находятся в разных пространствах), что приведет к плохим рекомендациям.

Как часто Яндекс обновляет эти модели рекомендаций?

Патент не указывает точную частоту, но вся описанная архитектура спроектирована для того, чтобы справляться с частыми обновлениями и переобучением моделей (re-training). Это необходимо, так как постоянно появляются новые данные о взаимодействиях и новый контент. Можно предположить, что обновления происходят регулярно.

Какие поведенческие факторы используются для генерации этих эмбеддингов?

Патент не детализирует конкретные факторы, но упоминает User-Item Interaction Data. На практике это включает как явные сигналы (лайки, дизлайки, шеры), так и неявные сигналы (клики, время просмотра контента (Dwell Time), глубина прокрутки). Все эти данные формируют матрицу взаимодействий, которая является входом для модели.

Как этот патент влияет на стратегию продвижения в Яндекс Дзен?

Хотя патент инфраструктурный, он подтверждает, что в основе Дзена лежит коллаборативная фильтрация. Это означает, что ключевым фактором успеха является максимизация позитивных поведенческих сигналов и вовлеченности. Важно создавать контент, который не просто кликают, но и долго читают/смотрят и положительно оценивают.

Использует ли Яндекс CatBoost в этой системе?

Да, в патенте CatBoost упоминается как пример реализации Relevance Estimation Model — основной модели ранжирования, которая использует эмбеддинги (и вычисленный на их основе Ranking Feature) в качестве входных признаков для определения финального порядка контента в ленте пользователя.

Что произойдет, если я использую кликбейт в рекомендательной системе?

Если кликбейт приводит к клику, но за ним следует быстрое закрытие контента (короткое время взаимодействия), это формирует негативный сигнал в User-Item Interaction Data. При обучении Matrix Factorization Model это приведет к формированию такого эмбеддинга контента, который будет отдаляться от эмбеддингов заинтересованных пользователей, что снизит охваты в будущем.

В чем разница между эмбеддингами в этом патенте и текстовыми эмбеддингами (например, YATI/BERT)?

Эмбеддинги в этом патенте — это эмбеддинги коллаборативной фильтрации. Они основаны исключительно на поведении пользователей (кто с чем взаимодействовал) и не учитывают содержание текста или запроса. Текстовые эмбеддинги (YATI/BERT) основаны на анализе самого текста (семантики, смысла) и используются для понимания близости запроса к документу в веб-поиске. Это два разных типа векторных представлений.