Как Яндекс ускоряет генерацию персональных рекомендаций, комбинируя офлайн и онлайн вычисления (на примере Яндекс.Дзен)

Яндекс патентует гибридный метод для систем рекомендаций (таких как Яндекс.Дзен), который балансирует скорость и релевантность. Система заранее (офлайн) определяет набор общепопулярного контента. В момент запроса (онлайн) она быстро находит персонально релевантный контент, который не входит в число общепопулярных. Финальная лента формируется путем слияния и ранжирования этих двух наборов.

Описание

Какую задачу решает

Патент решает проблему баланса между скоростью и релевантностью в системах персональных рекомендаций контента. В патенте отмечается, что существующие системы часто либо требуют значительного времени для генерации релевантных рекомендаций, либо генерируют их быстро, но с низкой релевантностью для конкретного пользователя. Изобретение предлагает архитектуру, которая позволяет быстро предоставлять персонализированную ленту за счет разделения вычислений на офлайн и онлайн компоненты.

Важно отметить: этот патент описывает архитектуру рекомендательной системы (например, Яндекс.Дзен, который упоминается на иллюстрациях как ZEN), а не алгоритмы основного веб-поиска.

Что запатентовано

Запатентован метод генерации рекомендуемого набора элементов (Recommended Subset of Items), использующий двухэтапный подход. Суть изобретения заключается в разделении процесса на идентификацию двух независимых подмножеств контента. Первое подмножество (First Subset) определяется на основе общих характеристик контента (Item Features) и вычисляется заранее (офлайн). Второе подмножество (Second Subset) определяется на основе истории взаимодействий пользователя (User Events) в момент запроса (онлайн), причем в него включаются только те элементы, которые отсутствуют в Первом подмножестве. Финальная рекомендация формируется слиянием этих двух наборов.

Как это работает

Система работает следующим образом:

Офлайн-подготовка: Система анализирует весь пул доступного контента и на основе общих признаков (например, глобальной популярности) определяет Первое подмножество (например, Топ-100 популярных статей). Оно сохраняется в базе данных.
Онлайн-обработка: Когда пользователь запрашивает рекомендации (например, открывает ленту Дзен).
Персонализация: Система анализирует историю пользователя и находит контент, похожий на то, что пользователь потреблял ранее (Потенциальное второе подмножество).
Фильтрация: Из найденного похожего контента удаляются все элементы, которые уже присутствуют в Первом (общепопулярном) подмножестве. Оставшиеся элементы формируют Второе подмножество.
Слияние и Ранжирование: Первое и Второе подмножества объединяются, ранжируются, и результат выдается пользователю.

Это позволяет снизить нагрузку в реальном времени, так как значительная часть рекомендаций (Первое подмножество) уже готова.

Актуальность для SEO

Высокая. Патент описывает фундаментальные принципы построения высоконагруженных рекомендательных систем. Гибридные подходы, сочетающие офлайн-вычисления (для скорости) и онлайн-персонализацию (для точности), являются стандартом индустрии. Учитывая, что в фигурах патента явно упоминается «ZEN», этот патент описывает актуальные архитектурные решения для платформ типа Яндекс.Дзен.

Важность для SEO

Влияние на SEO (7/10). Патент не относится напрямую к ранжированию в основном поиске Яндекса. Однако он критически важен для понимания работы рекомендательных платформ Яндекса (Яндекс.Дзен). Для издателей и создателей контента, стремящихся получить трафик из этих систем, понимание этого механизма имеет ключевое значение. Патент показывает, что система целенаправленно ищет баланс между глобально популярным контентом (First Subset) и персонализированным, но менее популярным контентом (Second Subset).

Детальный разбор

Термины и определения

First Subset (Первое подмножество): Набор элементов, выбранный из общего пула на основе общих характеристик (Item Features), а не персональной истории пользователя. Часто это наиболее высоко ранжированные элементы по глобальным метрикам (например, популярные статьи). Вычисляется заранее (офлайн).
Item Features (Характеристики элемента): Признаки, связанные с контентом. Примеры включают: глобальную популярность, количество лайков/загрузок/кликов, категорию, жанр, цену, автора, длину документа, рейтинг и т.д.
Potential Second Subset (Потенциальное второе подмножество): Промежуточный набор элементов, которые похожи на контент, с которым пользователь взаимодействовал ранее (User-specific Interacted Subset).
Recommended Subset of Items (Рекомендованное подмножество элементов): Финальный набор контента, который показывается пользователю. Является результатом слияния и ранжирования Первого и Второго подмножеств.
Second Subset (Второе подмножество): Набор элементов, выбранный на основе истории взаимодействий пользователя (User Events). Формируется из Потенциального второго подмножества путем исключения всех элементов, которые уже присутствуют в Первом подмножестве. Представляет собой персонализированную, нишевую часть выдачи.
User Events (События пользователя): Зарегистрированные действия пользователя: просмотры, клики, лайки, покупки, загрузки и т.д.
User-specific Interacted Subset (Подмножество взаимодействий пользователя): Набор элементов, с которыми конкретный пользователь взаимодействовал в прошлом.

Ключевые утверждения (Анализ Claims)

Патент защищает архитектуру гибридной рекомендательной системы, оптимизированной по скорости и релевантности.

Claim 1 (Независимый пункт): Описывает основной метод генерации рекомендаций.

Идентификация Первого подмножества из общего пула на основе общих характеристик элементов (Item Features).
Получение запроса на рекомендации.
Идентификация Второго подмножества на основе событий пользователя (User Events).
Ключевое ограничение: каждый элемент во Втором подмножестве должен отличаться от любого элемента в Первом подмножестве.
Генерация финального Рекомендованного подмножества путем включения элементов из Первого и Второго подмножеств.

Система целенаправленно разделяет рекомендации на две группы: общие (Первое) и персональные, не являющиеся общими (Второе), перед их объединением.

Claim 4 и Claim 5 (Зависимые пункты): Описывают оптимизацию производительности.

Claim 4 утверждает, что Первое подмножество сохраняется в базе данных *до* получения запроса на рекомендации.
Claim 5 утверждает, что идентификация и сохранение Первого подмножества выполняются в офлайн-режиме (off-line mode).

Это подтверждает, что Первое подмножество (например, глобально популярный контент) вычисляется заранее, чтобы ускорить ответ системы в реальном времени.

Claim 6 (Зависимый пункт): Детализирует процесс идентификации Второго подмножества (персонализация).

Определение Подмножества взаимодействий пользователя (контент, потребленный ранее).
Определение Потенциального второго подмножества: элементы из общего пула, которые похожи (similar) на элементы из Подмножества взаимодействий.
Исключение из Потенциального второго подмножества всех элементов, которые также присутствуют в Первом подмножестве.

Этот механизм гарантирует, что Второе подмножество вносит новизну (Novelty). Если персонализированный интерес пользователя совпадает с глобально популярным контентом, этот контент попадет в выдачу через Первое подмножество, а Второе подмножество будет использовано для поиска менее очевидных (нишевых) рекомендаций.

Где и как применяется

Патент описывает архитектуру рекомендательной системы, а не компонент основного веб-поиска. Наиболее вероятное применение — Яндекс.Дзен (название ZEN фигурирует на иллюстрациях патента) и аналогичные персональные ленты контента. Процесс затрагивает несколько этапов.

Офлайн-процессы (Аналог INDEXING & Feature Extraction)

Анализ контента: Извлечение Item Features для всех потенциально рекомендуемых элементов (текст, категории, автор, глобальные поведенческие метрики).
Генерация Первого подмножества: Ранжирование всего пула контента на основе общих Item Features и сохранение Топ-N элементов как First Subset в быстрой базе данных. Это происходит до запроса пользователя.
Расчет схожести: Может включать предварительный расчет матрицы схожести между элементами (упоминается Comparison Table), которая затем используется для поиска похожих элементов.

Онлайн-процессы (Аналог RANKING & BLENDING)

Этот этап активируется при получении запроса от пользователя.

Анализ профиля пользователя: Извлечение User-specific Interacted Subset из истории (User Events).
Генерация Второго подмножества:
1. Поиск похожих элементов (Potential Second Subset).
2. Фильтрация: сравнение Потенциального второго подмножества с предварительно вычисленным Первым подмножеством и удаление пересечений.
Слияние и Финальное Ранжирование: Объединение Первого и Второго подмножеств. Ранжирование объединенного списка (Claim 2) для формирования финальной выдачи.

На что влияет

Типы контента: Влияет на все типы контента в рекомендательной системе: статьи, видео, посты в социальных сетях, товары, музыка.
Баланс выдачи: Механизм напрямую влияет на баланс между «вирусным»/популярным контентом (First Subset) и нишевым/персонализированным контентом (Second Subset) в ленте пользователя. Он гарантирует, что даже если пользователь интересуется мейнстримом, система будет пытаться найти для него менее популярные, но релевантные материалы.

Когда применяется

Алгоритм применяется при каждом запросе пользователя на генерацию или обновление рекомендательной ленты.

Триггеры активации: Запрос может быть явным (нажатие кнопки «Обновить») или неявным (открытие приложения Дзен, открытие новой вкладки браузера, прокрутка ленты).
Частота применения: Офлайн-компонент (генерация First Subset) выполняется периодически. Онлайн-компонент выполняется в реальном времени при каждом запросе.

Пошаговый алгоритм

Этап 1: Офлайн-обработка (Периодический процесс)

Сбор данных: Агрегация пула потенциально рекомендуемых элементов и их характеристик (Item Features).
Глобальное ранжирование: Ранжирование элементов в пуле на основе их общих характеристик (например, популярности).
Формирование Первого подмножества: Выбор Топ-N наиболее высоко ранжированных элементов.
Сохранение: Запись Первого подмножества в базу данных для быстрого доступа.

Этап 2: Онлайн-обработка (В реальном времени)

Получение запроса: Система получает запрос на рекомендации от пользователя.
Анализ истории пользователя: Идентификация Подмножества взаимодействий пользователя (User-specific Interacted Subset).
Поиск похожих элементов: Сравнение элементов из истории пользователя с общим пулом контента для нахождения похожих материалов (формирование Потенциального второго подмножества). Может использоваться предварительно рассчитанная таблица схожести.
Фильтрация пересечений: Извлечение сохраненного Первого подмножества. Удаление из Потенциального второго подмножества всех элементов, которые присутствуют в Первом подмножестве. Результат — финальное Второе подмножество.
Слияние: Объединение Первого и Второго подмножеств.
Ранжирование: Ранжирование объединенного набора элементов.
Выдача: Отправка инструкций для отображения Рекомендованного подмножества пользователю.

Какие данные и как использует

Данные на входе

Система использует два основных типа данных: характеристики контента и данные о поведении пользователей.

Контентные и Мультимедиа факторы (Item Features): Присущие элементу характеристики. Упомянуты: категория/тема документа, длина документа, жанр (для музыки/видео), аудио-характеристики (темп), автор/производитель, цена (для товаров).
Поведенческие факторы (Глобальные, как часть Item Features): Метрики взаимодействия всех пользователей с элементом. Упомянуты: популярность, количество лайков, покупок, загрузок, кликов, рейтинг.
Поведенческие факторы (Персональные, User Events): История конкретного пользователя. Упомянуты: прослушивание трека, лайк, показ ресурса (presentation), клик на ресурс (selection), покупка/заказ/загрузка элемента.

Какие метрики используются и как они считаются

Ранжирование Первого подмножества: Производится на основе Item Features. Конкретная формула ранжирования не приводится, но упоминается выбор «наиболее высоко ранжированных элементов» по популярности, количеству лайков и т.д.
Метрика Схожести (Similarity): Используется для нахождения Второго подмножества. Схожесть определяется путем сравнения Item Features двух элементов. Например, два музыкальных трека похожи, если у них один исполнитель, альбом и год выпуска.
Таблица Сравнения (Comparison Table): Патент предлагает использовать предварительно рассчитанную таблицу, где для каждого элемента указаны похожие элементы. Упоминается, что эта таблица может быть создана с использованием алгоритма машинного обучения (machine learned algorithm) или человеком-асессором.
Ранжирование Финального набора: Производится после слияния Первого и Второго подмножеств. Ранжирование также основывается на Item Features соответствующих элементов.

Выводы

Архитектура для скорости: Основная цель патента — оптимизация производительности рекомендательной системы. Разделение на офлайн (First Subset) и онлайн (Second Subset) вычисления позволяет быстро отвечать на запрос пользователя, минимизируя объем вычислений в реальном времени.
Два источника рекомендаций: Лента пользователя формируется из двух разных источников: глобально популярного/качественного контента (First Subset) и персонализированного контента (Second Subset).
Принудительное разнообразие (Novelty): Ключевой механизм патента — явное исключение пересечений между First и Second Subset перед слиянием. Это означает, что Second Subset используется исключительно для поиска релевантного контента, который *не является* глобально популярным. Система принудительно ищет нишевый контент для персонализации.
Контент-ориентированная фильтрация: Персонализация (Second Subset) основана на поиске элементов, похожих на те, что пользователь потреблял ранее (Item-to-Item Similarity). Схожесть определяется через сравнение характеристик контента (Item Features).
Применимость к Дзену, а не к Поиску: Описанные механизмы относятся к системам рекомендаций (в патенте явно упоминается ZEN), а не к ранжированию в основном веб-поиске.

Практика

ВАЖНО: Эти рекомендации применимы для создателей контента и издателей, стремящихся оптимизировать свое присутствие в рекомендательных системах Яндекса (например, Яндекс.Дзен), а не в основном веб-поиске.

Best practices (это мы делаем)

Создание качественного и вирусного контента (Цель: First Subset): Контент с высоким потенциалом глобальной популярности (широкая тематика, цепляющие заголовки, сильное вовлечение) имеет шанс попасть в First Subset. Это обеспечивает быстрый и массовый охват, так как этот набор предварительно рассчитан и готов к показу.
Создание нишевого и глубокого контента (Цель: Second Subset): Поскольку система целенаправленно ищет контент для Second Subset, который не является глобально популярным, создание узкоспециализированного контента критически важно для долгосрочного удержания аудитории. Этот контент будет показан пользователям, которые проявили интерес к данной нише.
Максимизация Item Features (Структурирование контента): Обеспечьте, чтобы система могла легко извлечь максимум характеристик из вашего контента. Это включает четкую категоризацию, использование релевантных тегов (если применимо), указание авторства и создание понятной структуры текста. Это повышает точность определения схожести (Similarity).
Стимулирование взаимодействий (User Events): Активно поощряйте пользователей взаимодействовать с контентом (лайки, комментарии, шеры, дочитывания). Глобальные взаимодействия повышают шанс попадания в First Subset. Персональные взаимодействия формируют историю пользователя, на основе которой строится Second Subset.

Worst practices (это делать не надо)

Фокус только на кликбейте и вирусности: Стратегия, направленная только на попадание в First Subset, может дать краткосрочный эффект, но не сформирует лояльную аудиторию. Если контент не удерживает пользователя, он не будет генерировать качественные User Events, необходимые для построения Second Subset.
Игнорирование узких тематик: Если издатель освещает только самые популярные темы, он конкурирует только за место в First Subset. Он упускает возможность быть рекомендованным через Second Subset, который специально ищет менее популярный, но персонализированный контент.
Нечеткая тематическая направленность (Смешение тем): Если контент не имеет четких Item Features или пытается охватить слишком много разных тем одновременно в одном источнике/канале, системе будет сложно определить его схожесть с другими элементами, что затруднит его рекомендацию через Second Subset.

Стратегическое значение

Патент раскрывает архитектуру, лежащую в основе рекомендательных сервисов Яндекса. Стратегически это подтверждает, что для успеха на платформе необходимо работать в двух направлениях: бороться за глобальную популярность (массовый охват) и одновременно развивать нишевые направления (персонализация и удержание). Механизм исключения пересечений между First и Second Subset показывает, что система активно стремится предложить пользователю более разнообразный и глубокий контент, а не только мейнстрим.

Практические примеры

Сценарий: Рекомендация статей о кулинарии

Офлайн (First Subset): Система проанализировала все статьи и определила, что статья «10 лучших рецептов блинов на Масленицу» имеет максимальную глобальную популярность (высокие Item Features). Она попадает в First Subset.
История пользователя: Пользователь недавно читал статьи «Как приготовить Том Ям» и «Секреты паназиатской кухни». Это его User-specific Interacted Subset.
Онлайн (Potential Second Subset): Система ищет похожие статьи. Она находит:
- A) «10 лучших рецептов блинов на Масленицу» (похоже по категории «Кулинария»).
- B) «Рецепт Фо Бо в домашних условиях» (похоже на «Том Ям» и «Паназиатская кухня»).
Фильтрация (Second Subset): Система проверяет пересечения. Статья А уже есть в First Subset, поэтому она исключается из Second Subset. Статья B отсутствует в First Subset (она менее популярна глобально), поэтому она формирует Second Subset.
Слияние и Ранжирование: Финальная лента будет содержать и «10 лучших рецептов блинов» (из First Subset), и «Рецепт Фо Бо» (из Second Subset). Ранжирование определит, что показать выше.

Вывод для издателя: Если бы издатель не опубликовал нишевый рецепт Фо Бо, система не смогла бы найти для пользователя персонализированную рекомендацию во Втором подмножестве и показала бы только общепопулярные блины.

Вопросы и ответы

В чем основное отличие Первого подмножества (First Subset) от Второго (Second Subset)?

Первое подмножество содержит контент, выбранный на основе общих характеристик (Item Features), таких как глобальная популярность, и вычисляется заранее (офлайн). Второе подмножество содержит контент, выбранный на основе персональной истории пользователя (User Events), и вычисляется в реальном времени (онлайн). Ключевое правило: Второе подмножество не может содержать элементы, которые уже есть в Первом.

Этот патент описывает работу Яндекс.Поиска или Яндекс.Дзена?

Патент описывает работу системы рекомендаций контента. Он не относится к алгоритмам ранжирования основного веб-поиска Яндекса. Иллюстрации в патенте и описание механизма генерации ленты по запросу указывают на то, что это архитектура для сервисов типа Яндекс.Дзен (ZEN) или аналогичных персональных лент.

Что такое «Item Features» и как они влияют на рекомендации?

Item Features — это все характеристики контента: тематика, жанр, автор, длина, а также глобальные поведенческие метрики (популярность, CTR, лайки). Они используются на всех этапах: для определения глобально популярного контента (First Subset), для расчета схожести между статьями при персонализации (Second Subset) и для финального ранжирования ленты.

Почему система исключает пересечения между Первым и Вторым подмножествами? Разве это не снижает релевантность?

Это ключевая особенность патента для обеспечения разнообразия (Novelty). Если контент одновременно и глобально популярен (First Subset), и персонально релевантен (Potential Second Subset), он все равно попадет в финальную ленту через First Subset. Исключение пересечений заставляет систему использовать Second Subset исключительно для поиска релевантного контента, который *не является* глобально популярным, позволяя рекомендовать нишевый контент.

Как система определяет схожесть контента для персонализации?

Патент описывает контент-ориентированный подход. Система сравнивает Item Features контента, который пользователь потреблял ранее, с Item Features другого контента. Для эффективности может использоваться предварительно рассчитанная таблица схожести (Comparison Table), которая может быть обучена с помощью Machine Learning или создана асессорами.

Стоит ли мне как издателю фокусироваться на популярных темах или на нишевых?

Необходимо делать и то, и другое. Популярные темы (с вирусным потенциалом) позволяют конкурировать за попадание в First Subset и обеспечивают массовый охват. Нишевые, глубокие темы позволяют попадать в Second Subset, обеспечивая высоко персонализированные рекомендации и формируя лояльную аудиторию. Успешная стратегия требует баланса.

Как я могу улучшить «Item Features» моего контента?

Обеспечьте четкую структуру контента, ясную тематическую направленность, используйте релевантные теги и категории, предоставляемые платформой. Также работайте над повышением глобальных поведенческих метрик (вовлеченность, лайки, шеры, дочитывания), так как они также являются частью Item Features и влияют на ранжирование и расчет схожести.

Если мой контент попал в First Subset, это хорошо?

Да, это отлично. First Subset содержит глобально популярный или высококачественный контент. Попадание туда означает, что ваш контент будет рекомендоваться широкому кругу пользователей, так как этот набор предварительно рассчитан и активно используется системой для формирования ленты.

Что означает вычисление Первого набора в «офлайн-режиме»?

Это означает, что Первый набор (например, топ самых популярных статей за час) рассчитывается и сохраняется в базе данных *до того*, как пользователь откроет свою ленту рекомендаций (Claim 5). Когда пользователь делает запрос, система просто извлекает этот готовый набор, что значительно ускоряет формирование финальной выдачи.

Использует ли этот алгоритм коллаборативную фильтрацию (поиск похожих пользователей)?

Патент фокусируется на контент-ориентированной фильтрации для генерации Second Subset (поиск контента, похожего на историю пользователя, на основе Item Features). Хотя коллаборативная фильтрация является стандартным методом в рекомендательных системах, в данном конкретном патенте она явно не описана как основной механизм для генерации этих подмножеств. Акцент сделан на схожести характеристик контента.