Как Яндекс оптимизирует скорость и релевантность рекомендательных систем (например, Дзен) с помощью гибридного подхода

Яндекс патентует метод для быстрых и релевантных контентных рекомендаций. Система заранее вычисляет набор общепопулярных материалов (офлайн). В момент запроса пользователя (онлайн) система находит материалы, похожие на его прошлые интересы, исключая те, что уже попали в общепопулярный набор. Финальная лента формируется путем объединения этих двух наборов, обеспечивая баланс между популярностью и персонализацией.

Описание

Какую задачу решает

Патент решает проблему баланса между скоростью и релевантностью в рекомендательных системах (например, Яндекс Дзен). Традиционные системы часто сталкиваются с дилеммой: либо медленно генерировать глубоко персонализированные рекомендации, либо быстро предоставлять менее релевантный контент. Изобретение направлено на ускорение генерации персонализированной ленты за счет оптимизации вычислительных процессов и разделения их на офлайн и онлайн компоненты.

Что запатентовано

Запатентован метод генерации рекомендуемого набора элементов (Recommended Subset of Items) с использованием гибридного подхода. Суть изобретения заключается в предварительном (офлайн) вычислении первого набора (First Subset) на основе глобальной популярности и последующем (онлайн) вычислении второго набора (Second Subset) на основе персональных интересов (User Events). Ключевым аспектом является то, что второй набор намеренно исключает элементы, уже присутствующие в первом наборе, перед их финальным объединением.

Как это работает

Система работает в два этапа. Этап 1 (Офлайн): Заранее вычисляется First Subset. Это набор общепопулярных элементов, отобранных на основе глобальных Item Features (например, общее количество просмотров/лайков) без учета конкретного пользователя. Этот набор сохраняется. Этап 2 (Онлайн): Когда пользователь запрашивает рекомендации, система анализирует его историю взаимодействий и находит похожие элементы. Из этих похожих элементов формируется Second Subset, при этом система гарантирует, что элементы из First Subset в него не попадут. Наконец, система объединяет First Subset и Second Subset для показа пользователю.

Актуальность для SEO

Высокая. Рекомендательные системы (Яндекс Дзен) являются значительным источником трафика. Оптимизация скорости отклика и качества рекомендаций критически важна для вовлечения пользователей. Описанный гибридный подход, сочетающий предварительные вычисления и обработку в реальном времени, является стандартной практикой в высоконагруженных системах.

Важность для SEO

Влияние на SEO значительно (7/10), но специфично для рекомендательных платформ. Патент не описывает алгоритмы ранжирования основного веб-поиска Яндекс. Однако он критически важен для понимания того, как контент попадает в ленты рекомендаций (например, Дзен). Он демонстрирует, что для успешного продвижения в таких системах необходимо оптимизировать контент как для широкой популярности (чтобы попасть в First Subset), так и для соответствия конкретным нишевым интересам пользователей (чтобы попасть в Second Subset).

Детальный разбор

Термины и определения

First Subset of Items (Первый набор элементов): Набор элементов, отобранных на основе их характеристик (Item Features) и глобальной популярности (взаимодействия множества пользователей). Вычисляется заранее (в офлайн-режиме) и не зависит от конкретного пользователя, запрашивающего рекомендации.
Item Features (Признаки элемента): Характеристики элемента, которые могут включать метрики популярности (просмотры, лайки, загрузки, клики), а также внутренние характеристики (Item-inherent characteristics) (цена, категория, производитель, длина текста, жанр и т.д.).
Offline Mode (Офлайн-режим): Процесс вычисления и сохранения First Subset, который выполняется до того, как пользователь запросил рекомендации. Используется для ускорения ответа системы.
Potential Second Subset of Items (Потенциальный второй набор элементов): Промежуточный набор элементов, которые похожи на элементы, с которыми пользователь ранее взаимодействовал (User-specific interacted subset).
Recommended Subset of Items (Рекомендуемый набор элементов): Финальный набор рекомендаций, предоставляемый пользователю. Формируется путем объединения First Subset и Second Subset.
Second Subset of Items (Второй набор элементов): Персонализированный набор элементов. Формируется из Potential Second Subset путем исключения любых элементов, которые уже присутствуют в First Subset.
User Events (Пользовательские события): Зарегистрированные взаимодействия пользователя с элементами (прослушивание трека, лайк, просмотр ресурса, клик, покупка, загрузка).
User-specific interacted subset of items (Набор элементов, с которыми взаимодействовал пользователь): Список элементов из истории пользователя, который используется как основа для поиска похожих рекомендаций.

Ключевые утверждения (Анализ Claims)

Патент защищает метод оптимизации скорости генерации рекомендаций путем разделения вычислений на офлайн и онлайн фазы и специфический способ комбинирования результатов этих фаз.

Claim 1 (Независимый пункт): Описывает основной метод.

Идентификация First Subset в офлайн-режиме, до получения запроса на рекомендации.
Эта идентификация основана на ранжировании по Item Features и прошлых взаимодействиях множества пользователей (глобальная популярность).
Важно: ранжирование для First Subset выполняется без знания конкретного пользователя, которому будут даны рекомендации (т.е. не персонализировано).
Сохранение First Subset в базе данных в офлайн-режиме.
Получение запроса на рекомендации от устройства пользователя (онлайн-режим).
Идентификация Second Subset на основе событий конкретного пользователя. Этот процесс включает:
1. Определение элементов, с которыми пользователь взаимодействовал (User-specific interacted subset).
2. Определение Potential Second Subset (элементы, похожие на те, с которыми пользователь взаимодействовал).
3. Ключевой шаг: Исключение из Potential Second Subset тех элементов, которые уже есть в First Subset.
Генерация финального набора рекомендаций путем комбинирования элементов из First Subset и Second Subset.
Отправка инструкций для отображения финального набора.

Где и как применяется

Этот патент не относится к основному веб-поиску Яндекса. Он описывает архитектуру и логику работы Рекомендательной Системы (например, Яндекс Дзен или аналогичных сервисов discovery/content push).

INDEXING & FEATURE EXTRACTION (Индексация и извлечение признаков)

Система индексирует доступный контент.
Для каждого элемента извлекаются и сохраняются Item Features (категория, длина, автор и т.д.).
Система агрегирует данные о взаимодействиях пользователей (User Events) для расчета глобальной популярности.

RANKING (Ранжирование) — В контексте рекомендаций

Процесс ранжирования разделен на две фазы:

Офлайн-ранжирование: Периодический процесс, который определяет и ранжирует First Subset на основе глобальных сигналов. На вход принимаются Item Features и агрегированные User Events. На выходе — сохраненный список популярных элементов.
Онлайн-ранжирование (Персонализация): Запускается при запросе пользователя. На вход принимается история пользователя. Система ищет похожие элементы и генерирует Second Subset, убедившись, что он не пересекается с First Subset.

BLENDER (Смешивание)

Финальный этап, где система объединяет предварительно вычисленный First Subset и динамически вычисленный Second Subset.
Система выполняет финальное ранжирование объединенного набора для формирования ленты пользователя.

На что влияет

Конкретные типы контента: Влияет на любой контент, который может быть рекомендован: новостные статьи, посты в блогах, видео, музыкальные треки, товары.
Специфические запросы: Патент ориентирован на сценарии без явного поискового запроса (discovery), когда пользователь открывает ленту рекомендаций.
Баланс выдачи: Механизм напрямую влияет на баланс между общепопулярным контентом и нишевым персонализированным контентом в ленте пользователя.

Когда применяется

Триггеры активации: Алгоритм активируется каждый раз, когда пользователь запрашивает ленту рекомендаций. Это может быть запуск приложения (например, Дзен), открытие новой вкладки браузера (если рекомендации интегрированы в нее, как показано на FIG. 4) или обновление ленты.
Условия работы: Офлайн-компонент работает постоянно или периодически для обновления First Subset. Онлайн-компонент работает в реальном времени при запросе.

Пошаговый алгоритм

Фаза 1: Офлайн-подготовка (Выполняется заранее)

Сбор данных: Агрегация Item Features и глобальных User Events для всего набора потенциально рекомендуемых элементов.
Глобальное ранжирование: Ранжирование элементов на основе их глобальной популярности и характеристик, без учета конкретного пользователя.
Формирование First Subset: Выбор Топ-N наиболее высоко ранжированных элементов.
Сохранение: Запись First Subset в базу данных для быстрого доступа.

Фаза 2: Онлайн-обработка (Выполняется при запросе пользователя)

Получение запроса: Система получает запрос на генерацию рекомендаций.
Анализ истории пользователя: Идентификация User-specific interacted subset (элементы, с которыми пользователь взаимодействовал).
Поиск похожих элементов: Сравнение элементов из истории пользователя с общим пулом элементов для формирования Potential Second Subset. Схожесть может определяться с помощью таблицы схожести (FIG. 3) или сравнения Item Features.
Фильтрация пересечений: Сравнение Potential Second Subset с предварительно сохраненным First Subset. Удаление всех элементов из потенциального набора, которые уже присутствуют в First Subset.
Формирование Second Subset: Результат фильтрации становится финальным Second Subset.
Объединение (Blending): Комбинирование First Subset и Second Subset.
Финальное ранжирование: Ранжирование объединенного набора (упомянуто в Claim 2).
Выдача: Отправка результата пользователю.

Какие данные и как использует

Данные на входе

Контентные/Внутренние факторы (Item-inherent characteristics): Упоминаются жанр, длина документа, категория/тема документа, рейтинг, цена, размеры, производитель/автор. Эти данные используются для определения схожести элементов.
Поведенческие факторы (User Events): Критически важны как для офлайн, так и для онлайн фазы. Упоминаются: прослушивания, лайки, покупки, загрузки, клики, факт показа ресурса пользователю.
- В офлайн-фазе используются агрегированные данные всех пользователей для определения популярности (First Subset).
- В онлайн-фазе используется история конкретного пользователя для определения его интересов (Second Subset).

Какие метрики используются и как они считаются

Патент не детализирует конкретные формулы ранжирования или метрики схожести, но описывает общие механизмы:

Метрики популярности: Рассчитываются на основе агрегированных поведенческих факторов (например, общее количество кликов/лайков). Используются для формирования First Subset.
Схожесть элементов (Similarity): Определяется для формирования Second Subset. Может рассчитываться двумя способами:
1. На основе сравнения Item Features (например, два элемента одной категории и одного автора считаются похожими).
2. С использованием Comparison Table (Таблица сравнения, FIG. 3). Эта таблица может быть создана с помощью алгоритма машинного обучения или асессоров и связывает элементы с похожими элементами.
Финальное ранжирование: Применяется к объединенному набору. В патенте упоминается, что оно также основывается на Item Features. Вероятно, используется модель машинного обучения для предсказания вероятности взаимодействия пользователя с элементом.

Выводы

Архитектура для скорости: Ключевая цель патента — оптимизация производительности. Разделение вычислений на офлайн (тяжелые, глобальные расчеты) и онлайн (быстрые, персонализированные расчеты) позволяет рекомендательной системе отвечать мгновенно.
Гибридная модель рекомендаций: Система использует два независимых источника рекомендаций: глобальную популярность (First Subset) и персонализированную схожесть (Second Subset). Это гарантирует, что пользователь увидит как общепризнанный качественный контент, так и контент, соответствующий его личным интересам.
Механизм обеспечения разнообразия (Diversity): Намеренное исключение пересечений между First Subset и Second Subset перед их объединением является важным механизмом. Это гарантирует, что механизм персонализации используется для добавления уникального нишевого контента, а не дублирования того, что уже отобрано по критерию популярности.
Зависимость от поведенческих данных: Успех системы зависит от качества и объема собираемых User Events. Они используются и для определения популярности, и для понимания интересов пользователя.
Контекст применения: Выводы применимы к системам дистрибуции контента (Яндекс Дзен), а не к ранжированию в классическом веб-поиске.

Практика

Best practices (это мы делаем)

Рекомендации применимы к продвижению контента в рекомендательных системах (например, Яндекс Дзен).

Стимулирование глобальной популярности (Цель: First Subset): Создавайте контент, нацеленный на широкую аудиторию и способный генерировать массовые взаимодействия (клики, лайки, дочитывания). Это увеличивает шансы попадания в First Subset, который формируется на основе глобальных сигналов популярности.
Развитие нишевой экспертизы (Цель: Second Subset): Создавайте узкоспециализированный контент, который глубоко резонирует с конкретными сегментами аудитории. Этот контент будет рекомендоваться пользователям с аналогичными интересами через механизм персонализации.
Оптимизация метаданных и контента (Item Features): Обеспечьте четкую тематическую направленность и качественное описание контента. Это помогает системе корректно определить Item Features, которые используются для расчета схожести при формировании Second Subset.
Построение тематической связности (Similarity): Публикуйте серии материалов на связанные темы. Если пользователь взаимодействует с одной статьей, система с большей вероятностью порекомендует другую вашу статью как «похожую» в рамках Second Subset.

Worst practices (это делать не надо)

Кликбейт без вовлечения: Создание контента, который привлекает клик, но не удерживает пользователя, приведет к негативным User Events. Это снизит шансы попадания как в First Subset (из-за низкого качества), так и в Second Subset (так как система не будет считать этот контент хорошим примером интересов пользователя).
Публикация разрозненного контента: Если ресурс публикует материалы на совершенно не связанные темы, системе сложнее построить профиль интересов аудитории и найти похожие материалы для Second Subset.
Игнорирование вирального потенциала: Фокусировка только на узконишевом контенте без попыток создать что-то общепопулярное может ограничить охват, так как контент не попадет в First Subset.

Стратегическое значение

Патент подчеркивает важность диверсифицированного подхода к контент-стратегии для рекомендательных систем. Нельзя полагаться только на персонализацию или только на виральность. Стратегически важно иметь в портфеле как общепопулярный контент, который может стабильно попадать в First Subset, так и нишевый контент, который точно соответствует интересам конкретных сегментов аудитории и будет рекомендоваться через Second Subset. Понимание этой двухкомпонентной структуры позволяет более точно планировать охват и вовлечение.

Практические примеры

Сценарий 1: Попадание в First Subset (Популярный контент)

Контент: Статья «10 главных новостей недели».
Действия: Статья получает массовый трафик, высокий CTR и много лайков от разных групп пользователей.
Работа системы (Офлайн): Система фиксирует высокие Item Features (популярность). Статья ранжируется высоко в общем зачете и включается в First Subset.
Результат: Статья рекомендуется широкому кругу пользователей в их лентах как часть общепопулярного блока.

Сценарий 2: Попадание в Second Subset (Нишевый контент)

Контент: Статья «Калибровка винтажного осциллографа С1-94».
Работа системы (Офлайн): Статья имеет низкую общую популярность и не попадает в First Subset.
Действия пользователя: Пользователь ранее читал статьи по темам «ремонт электроники» и «советская техника».
Работа системы (Онлайн): Система определяет интересы пользователя. Она находит статью про осциллограф как похожую на его прошлые интересы (Potential Second Subset). Система проверяет, что этой статьи нет в First Subset. Статья включается в Second Subset.
Результат: Статья рекомендуется данному пользователю, несмотря на ее низкую глобальную популярность.

Вопросы и ответы

Этот патент описывает работу основного поиска Яндекса?

Нет. Патент описывает метод и архитектуру для систем рекомендаций контента, которые работают без явного поискового запроса пользователя (discovery systems). Примерами таких систем являются Яндекс Дзен или ленты в браузере. Механизмы, описанные здесь, не применяются напрямую к ранжированию результатов по ключевым словам в поисковой выдаче.

В чем основное преимущество разделения рекомендаций на First Subset и Second Subset?

Основное преимущество — это скорость и баланс. First Subset (глобальная популярность) вычисляется заранее (офлайн), что снимает нагрузку с системы в момент запроса пользователя. Second Subset (персонализация) вычисляется онлайн и обеспечивает релевантность. Их разделение позволяет мгновенно предоставить пользователю качественную ленту, сочетающую популярные тренды и личные интересы.

Зачем система исключает пересечения между First и Second Subset перед их объединением?

Это делается для повышения разнообразия (Diversity) ленты и эффективности. Если элемент уже популярен (попал в First Subset), он все равно будет показан. Исключение его из Second Subset гарантирует, что этот компонент привносит в ленту уникальную ценность (нишевые рекомендации), а не дублирует то, что система уже отобрала по критерию популярности.

Как SEO-специалист может повлиять на попадание контента в First Subset?

First Subset формируется на основе глобальной популярности и качества, без учета персонализации. Для попадания туда контент должен генерировать массовые позитивные поведенческие сигналы (User Events) — высокий CTR, длительное время взаимодействия, лайки, шеры. Это требует работы над виральностью, качеством контента и привлекательностью сниппетов.

Как оптимизировать контент для попадания в Second Subset?

Second Subset основан на схожести с тем, что пользователь уже потреблял. Для оптимизации необходимо обеспечить четкие Item Features (тематика, метаданные) и публиковать контент сериями. Если система видит, что ваши статьи тематически связаны, она с большей вероятностью порекомендует вашу новую статью пользователю, который читал предыдущие, как «похожий» контент.

Какие типы Item Features упоминаются в патенте?

Патент разделяет их на два типа. Первый тип — это метрики популярности: количество просмотров, лайков, загрузок, покупок, кликов. Второй тип — это внутренние характеристики (Item-inherent characteristics): жанр, длина текста, категория/тема, рейтинг, цена, размеры, производитель/автор.

Как система определяет схожесть контента для Second Subset?

Патент упоминает два возможных подхода. Первый — прямое сравнение Item Features (например, совпадение категории, автора или других характеристик). Второй — использование заранее подготовленной Comparison Table (Таблицы сравнения, FIG. 3), которая может быть построена с помощью машинного обучения или асессоров и содержит информацию о том, какие элементы похожи друг на друга.

Влияет ли этот патент на стратегию «Холодного старта» (новых пользователей)?

Да, косвенно. Для новых пользователей, у которых еще нет истории взаимодействий (User Events), невозможно сформировать Second Subset. В этом случае рекомендательная система будет полагаться преимущественно или исключительно на First Subset, то есть покажет пользователю только общепопулярный и высококачественный контент, пока не накопит достаточно данных для персонализации.

Может ли нишевый, но очень качественный контент получить охват по этой схеме?

Да, он будет активно рекомендоваться через Second Subset тем пользователям, которые проявляют интерес к данной нише, так как он будет определен как схожий с их прошлыми взаимодействиями. Даже не будучи глобально популярным, контент может получить значительный охват за счет механизма персонализированных рекомендаций.

Что важнее для успеха в Дзене, согласно этому патенту: виральность или точность попадания в интересы?

Согласно патенту, важны оба аспекта, так как система строит ленту из двух разных источников. Виральность помогает попасть в First Subset и получить широкий охват. Точность попадания в интересы (и схожесть контента) помогает попасть в Second Subset и получить максимально релевантную аудиторию. Эффективная стратегия должна балансировать оба направления.