Как Яндекс комбинирует популярный контент и персонализированные рекомендации для ускорения выдачи в рекомендательных системах (например, Дзен)

Яндекс использует гибридный подход для ускорения систем рекомендаций. Система заранее (офлайн) рассчитывает набор общепопулярного или высококачественного контента. В момент запроса пользователя (онлайн) она быстро находит персонализированные рекомендации на основе его истории и объединяет их с заранее подготовленным набором. Это позволяет быстро предоставлять релевантные рекомендации.

Описание

Какую задачу решает

Патент решает проблему баланса между скоростью и релевантностью в системах рекомендаций. В тексте отмечается, что существующие системы либо требуют много времени для предоставления релевантных рекомендаций, либо предоставляют их быстро, но с недостаточной релевантностью. Техническим результатом заявлено уменьшение времени для предоставления релевантных рекомендаций конкретному пользователю.

Что запатентовано

Запатентован способ и сервер для создания рекомендованного набора контента с использованием гибридного подхода. Суть изобретения заключается в разделении процесса генерации рекомендаций на две части: офлайн-вычисление общепопулярных (неперсонализированных) рекомендаций и онлайн-вычисление персонализированных рекомендаций с последующим их объединением. Это позволяет ускорить ответ системы за счет предварительного расчета части выдачи.

Как это работает

Система работает в два этапа. Этап 1 (Офлайн): Сервер анализирует весь набор потенциально рекомендуемых элементов и на основе их свойств (например, общей популярности, количества лайков) формирует «Первое подмножество» (First Subset). Этот набор сохраняется заранее. Этап 2 (Онлайн): Когда поступает запрос от пользователя, сервер анализирует его историю («Пользовательские события») и находит элементы, похожие на те, с которыми пользователь взаимодействовал ранее. Из этих похожих элементов формируется «Второе подмножество» (Second Subset), при этом из него исключаются элементы, уже попавшие в «Первое подмножество». Финальная рекомендательная выдача создается путем объединения и ранжирования элементов из обоих подмножеств.

Актуальность для SEO

Высокая. Гибридные системы рекомендаций, сочетающие офлайн- и онлайн-вычисления, а также комбинирующие популярный контент с персонализированным, являются стандартом индустрии. Описанный механизм оптимизации скорости ответа критически важен для высоконагруженных сервисов типа Дзен (ранее Яндекс.Дзен) или персонализированных лент в Яндекс Браузере.

Важность для SEO

Влияние на SEO умеренное (6/10). Патент не относится к ранжированию основного веб-поиска Яндекса. Он описывает механизмы работы рекомендательных систем (например, Дзен). Для SEO-специалистов, работающих над привлечением трафика из этих систем, патент имеет значение, так как раскрывает архитектуру формирования ленты. Он показывает, что контент может попасть в выдачу двумя путями: через общую популярность (Первое подмножество) или через высокую схожесть с интересами конкретного пользователя (Второе подмножество).

Детальный разбор

Термины и определения

Набор потенциально рекомендуемых элементов (Set of potentially recommendable elements) (200)

Общий пул всего контента (новости, статьи, видео, музыка, товары и т.д.), который система может рекомендовать пользователям. Хранится в Третьей базе данных (124).

Первое подмножество (First Subset) (202)

Набор элементов, отобранный из общего пула на основе свойств самих элементов (например, самые популярные, самые скачиваемые). Этот набор не персонализирован и может быть рассчитан заранее (офлайн).

Второе подмножество (Second Subset) (206)

Набор элементов, отобранный из общего пула на основе пользовательских событий (персонализированный). Состоит из элементов, похожих на те, с которыми пользователь взаимодействовал ранее, за исключением тех, что уже вошли в Первое подмножество. Рассчитывается онлайн.

Пользовательские события (User events)

Данные о взаимодействии пользователя с контентом: прослушивания, лайки, клики, покупки, скачивания. Хранятся в Четвертой базе данных (126).

Свойства элементов (Element properties)

Характеристики контента, используемые для ранжирования и определения схожести. Делятся на две категории:

Метрики популярности: Общее число лайков, загрузок, кликов, покупок.
Присущие характеристики: Жанр, длина, цена, категория, производитель, тема, рейтинг.

Хранятся во Второй базе данных (122).

Специфичное для пользователя подмножество элементов, с которыми было осуществлено взаимодействие (User-specific subset of interacted items)

Элементы из истории пользователя, которые он лайкал, смотрел, покупал и т.д. Основа для поиска персонализированных рекомендаций.

Потенциальное второе подмножество (Potential Second Subset) (204)

Промежуточный набор элементов, которые похожи на элементы из истории пользователя. После фильтрации (удаления пересечений с Первым подмножеством) превращается во Второе подмножество.

Ключевые утверждения (Анализ Claims)

Патент защищает гибридный метод генерации рекомендаций, оптимизированный по скорости и обеспечивающий разнообразие выдачи.

Claim 1 (Независимый пункт): Описывает основной способ работы системы.

Идентификация Первого подмножества на основе свойств элементов (общие метрики качества/популярности).
Получение запроса на рекомендации.
Идентификация Второго подмножества на основе пользовательских событий (персонализация).
Ключевое условие: Каждый элемент во Втором подмножестве отличается от любого элемента в Первом подмножестве (т.е. наборы не пересекаются).
Создание финального рекомендованного набора путем объединения элементов из Первого и Второго подмножеств.
Отображение результата.

Claim 4 и Claim 5: Уточняют механизм оптимизации скорости.

Система сохраняет Первое подмножество в базе данных *до* получения запроса от пользователя (Claim 4).
Идентификация и сохранение Первого подмножества выполняются в режиме офлайн (Claim 5). Это подтверждает, что Первое подмножество рассчитывается заранее, что позволяет экономить время в момент запроса.

Claim 6: Детализирует процесс идентификации Второго подмножества (персонализация).

Идентификация элементов, с которыми пользователь взаимодействовал (история).
Идентификация Потенциального второго подмножества: поиск элементов в общем пуле, которые *аналогичны* элементам из истории пользователя.
Фильтрация: Исключение из Потенциального второго подмножества тех элементов, которые уже включены в Первое подмножество. Результат этой фильтрации и есть финальное Второе подмножество.

Где и как применяется

Этот патент не описывает работу основного поиска Яндекса (Web Search). Он относится исключительно к Рекомендательным системам Яндекса, таким как Дзен (ранее Яндекс.Дзен), персонализированные ленты в Яндекс Браузере или рекомендательные блоки на других сервисах Яндекса (например, Музыка, Маркет).

Процесс затрагивает несколько этапов, разделенных на офлайн и онлайн фазы.

Офлайн-процессы (Аналог INDEXING & FEATURE EXTRACTION)

Сбор данных: Агрегация Свойств элементов (популярность, категории) и Пользовательских событий (история взаимодействий).
Вычисление Первого подмножества: Первый модуль (116) ранжирует весь пул контента по общим метрикам и сохраняет Топ-N элементов в базу данных (120). Это происходит до запроса пользователя.
Вычисление схожести: Система может заранее рассчитывать матрицы схожести между элементами (Сравнительная таблица 300) для ускорения поиска похожих элементов на этапе онлайн-обработки.

Онлайн-процессы (Аналог RANKING & BLENDING)

Этот этап активируется при получении запроса от пользователя (например, при открытии ленты Дзена).

Вычисление Второго подмножества: Второй модуль (118) анализирует историю пользователя, находит похожие элементы (используя свойства или матрицу схожести) и фильтрует их, удаляя пересечения с Первым подмножеством.
Объединение и Ранжирование: Модуль обработки (114) объединяет Первое (заранее рассчитанное) и Второе (рассчитанное на лету) подмножества. Затем он ранжирует объединенный набор на основе Свойств элементов.
Генерация Выдачи: Формирование финального списка рекомендаций (возможно, с усечением до Топ-К) и отправка пользователю.

На что влияет

Типы контента: Влияет на любой контент в рекомендательных системах: новостные элементы, публикации, веб-ресурсы, посты в социальных медиа, музыку, фильмы, товары.
Баланс выдачи: Механизм гарантирует, что в ленте пользователя будет присутствовать как общепопулярный контент (даже если он не строго соответствует истории пользователя), так и персонализированный контент (даже если он не является глобально популярным).
Скорость работы: Напрямую влияет на скорость (latency) ответа рекомендательной системы пользователю.

Когда применяется

Триггеры активации (Онлайн): Запрос на рекомендации генерируется, когда пользователь выполняет определенные действия:
- Запуск рекомендательного приложения (например, Дзен).
- Открытие новой вкладки в браузере (если там есть лента рекомендаций).
- Явный запрос на обновление ленты.
- Активация определенных элементов интерфейса (например, омнибокса).
Частота применения (Офлайн): Расчет Первого подмножества и матриц схожести происходит периодически в фоновом режиме для поддержания актуальности данных о популярности контента.

Пошаговый алгоритм

Процесс разделен на две фазы для оптимизации производительности.

Фаза 1: Офлайн-подготовка (Периодический процесс)

Сбор данных: Агрегация актуальных Свойств элементов (популярность, характеристики) для всего Набора потенциально рекомендуемых элементов.
Ранжирование (Общее): Ранжирование всех элементов на основе их общих свойств (например, по глобальной популярности).
Формирование Первого подмножества: Выбор Топ-N наиболее высоко ранжированных элементов.
Сохранение: Запись Первого подмножества в базу данных для быстрого доступа во время онлайн-обработки.
(Опционально) Расчет схожести: Построение матрицы схожести (Сравнительной таблицы) между элементами на основе их характеристик или коллаборативной фильтрации.

Фаза 2: Онлайн-обработка (При запросе пользователя)

Получение запроса: Система получает запрос на рекомендации.
Анализ истории: Идентификация элементов, с которыми пользователь взаимодействовал ранее (Специфичное для пользователя подмножество).
Поиск похожих элементов: Сравнение элементов из истории с общим пулом контента (используя свойства или матрицу схожести) для формирования Потенциального второго подмножества.
Фильтрация (Дедупликация): Сравнение Потенциального второго подмножества с Первым подмножеством (извлеченным из базы). Удаление всех пересечений. Результат — финальное Второе подмножество.
Объединение: Слияние Первого и Второго подмножеств в единый Рекомендованный набор.
Ранжирование (Финальное): Ранжирование объединенного набора на основе Свойств элементов.
Выдача: Усечение списка до нужного количества (Топ-К) и отправка пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Пользовательские события): Являются основой для персонализации (Второе подмножество). Включают: клики, лайки, прослушивания, покупки, скачивания.
Контентные/Структурные факторы (Присущие характеристики элементов): Используются для определения схожести между элементами и для ранжирования. Включают: категорию/тему документа, жанр трека, производителя товара, автора, длину контента, цену.
Временные/Метрики популярности (Свойства элементов): Используются для формирования Первого подмножества (глобально популярный контент) и для финального ранжирования. Включают: общее число лайков, загрузок, кликов, популярность элемента.

Какие метрики используются и как они считаются

Оценка ранжирования (Ranking Score): Вычисляется на основе Свойств элементов. Используется дважды: 1) Офлайн для определения Первого подмножества (например, сортировка по глобальной популярности). 2) Онлайн для финального ранжирования объединенного набора. Конкретные формулы не приводятся, но указано, что они базируются на свойствах (популярность, лайки, цена и т.д.).
Метрика схожести (Similarity Metric): Используется для определения, насколько элемент из общего пула похож на элемент из истории пользователя. Схожесть определяется на основе сравнения присущих характеристик (например, одинаковый артист, альбом, год выхода) или с помощью заранее подготовленной Сравнительной таблицы. Таблица может быть создана с помощью алгоритмов машинного обучения или асессоров.

Выводы

Архитектура для скорости: Основная цель патента — оптимизация скорости работы рекомендательной системы. Это достигается за счет предварительного (офлайн) расчета набора популярных элементов (Первое подмножество), что снижает нагрузку в момент запроса пользователя.
Гибридный подход к рекомендациям: Система Яндекса гарантирует смешивание двух типов контента: глобально популярного/качественного (Первое подмножество) и персонализированного, основанного на схожести с историей пользователя (Второе подмножество).
Важность свойств контента: Успех контента в этой системе зависит от его «Свойств». Для попадания в Первое подмножество важны метрики общей популярности. Для попадания во Второе подмножество важны присущие характеристики, которые позволяют системе определить его схожесть с интересами пользователя.
Механизм обеспечения разнообразия: Требование, чтобы Первое и Второе подмножества не пересекались (Claim 1, Claim 6), является ключевым. Это гарантирует, что персонализированные рекомендации будут дополнять, а не дублировать список популярных элементов.
Применимость к Дзену: Описанная архитектура и принципы работы идеально соответствуют логике работы платформ типа Дзен, где необходимо быстро формировать бесконечную ленту, сочетающую виральный контент и узкие интересы пользователя.

Практика

Best practices (это мы делаем)

Рекомендации применимы для оптимизации контента под рекомендательные системы Яндекса (например, Дзен).

Стимулирование виральности и вовлеченности: Для попадания в Первое подмножество (предрассчитанный популярный контент) необходимо максимизировать метрики общей популярности (просмотры, лайки, клики в короткий период времени). Используйте привлекательные заголовки и обложки, актуальные темы.
Создание серийного контента и четкая тематичность: Для попадания во Второе подмножество (персонализированные рекомендации) контент должен быть схож с тем, что пользователь уже смотрел. Если пользователь вовлекается в ваш контент, система с большей вероятностью порекомендует другие ваши материалы схожей тематики, используя механизм определения схожести.
Оптимизация метаданных и категоризации: Хотя патент явно не детализирует это для SEO, «Присущие характеристики» элементов (категория, тема, автор) критически важны для определения схожести. Убедитесь, что ваш контент корректно размечен и категоризирован внутри платформы (например, правильные теги в Дзене), чтобы система могла точно определить его тематику и найти похожую аудиторию.
Поощрение долгосрочного взаимодействия: Чем больше «Пользовательских событий» связано с вашим контентом, тем больше данных у системы для поиска похожих элементов и аудитории. Стимулируйте подписки и повторные визиты.

Worst practices (это делать не надо)

Использование кликбейта без удержания: Если контент получает начальную популярность (попадание в Первое подмножество), но не обеспечивает качественного взаимодействия (например, быстрые отказы), его общие «Свойства элемента» могут ухудшиться, что приведет к падению в финальном ранжировании.
Слишком широкая тематика канала: Если канал публикует контент на несвязанные темы, системе будет сложнее определить схожесть между материалами. Это может затруднить генерацию персонализированных рекомендаций (Второе подмножество) для подписчиков этого канала.
Игнорирование аналитики рекомендательных систем: Не анализировать, какой тип контента получает наибольшее вовлечение и популярность, лишает возможности оптимизировать стратегию под механизмы Первого и Второго подмножеств.

Стратегическое значение

Этот патент подтверждает, что для успеха в рекомендательных системах Яндекса необходима двунаправленная стратегия. С одной стороны, нужно работать над созданием вирального, общепопулярного контента, который может попасть в офлайн-заготовку (Первое подмножество) и получить широкий охват. С другой стороны, необходимо фокусироваться на глубокой проработке конкретных тематик и формировании лояльной аудитории, чтобы контент стабильно попадал в персонализированные рекомендации (Второе подмножество) через механизмы схожести.

Практические примеры

Сценарий 1: Попадание в рекомендации через популярность (Первое подмножество)

Действие: Канал публикует статью на острую новостную тему с ярким заголовком.
Результат: Статья быстро набирает просмотры и лайки, ее «Свойства элемента» (популярность) резко возрастают.
Механизм Яндекса (Офлайн): Во время очередного пересчета система идентифицирует эту статью как глобально популярную и включает ее в Первое подмножество.
Выдача (Онлайн): Статья начинает быстро рекомендоваться широкому кругу пользователей, даже тем, кто ранее не интересовался этой темой, так как она берется из заранее подготовленного набора популярных материалов.

Сценарий 2: Попадание в рекомендации через персонализацию (Второе подмножество)

Действие: Пользователь часто смотрит видео про «ремонт двигателей BMW E39». Канал публикует узкоспециализированное видео «Замена ваноса на M54B30».
Результат: Видео не является глобально популярным и не попадает в Первое подмножество.
Механизм Яндекса (Онлайн): Пользователь открывает ленту. Система анализирует его историю («ремонт двигателей BMW E39»). Она определяет, что новое видео («Замена ваноса на M54B30») имеет схожие присущие характеристики (тема, модель авто).
Выдача (Онлайн): Система включает это видео во Второе подмножество и показывает его пользователю как высокорелевантную персонализированную рекомендацию.

Вопросы и ответы

Применяется ли этот патент к основному поиску Яндекса (Web Search)?

Нет. Патент явно указывает область применения — создание рекомендуемого списка содержимого. Описанные механизмы и примеры относятся к рекомендательным системам, таким как Дзен или персонализированные ленты в Яндекс Браузере, а не к ранжированию результатов по ключевым словам в основном поиске.

В чем основное преимущество этого изобретения для Яндекса?

Основное преимущество — скорость (уменьшение времени ответа системы). За счет того, что часть рекомендаций (Первое подмножество популярных элементов) рассчитывается заранее (офлайн), система может быстрее обработать запрос пользователя в реальном времени, так как ей нужно рассчитать только персонализированную часть (Второе подмножество).

Что такое «Свойства элементов» и как на них повлиять?

Свойства элементов делятся на метрики популярности (лайки, просмотры, клики) и присущие характеристики (тема, жанр, автор, длина). Повлиять можно путем создания вовлекающего контента для максимизации метрик популярности и через четкое позиционирование (теги, категории) для управления присущими характеристиками.

Как попасть в «Первое подмножество» рекомендаций?

Первое подмножество формируется из элементов, имеющих высокие показатели общих свойств, таких как популярность, число лайков или загрузок. Чтобы попасть туда, контент должен быть виральным, актуальным и привлекательным для максимально широкой аудитории.

Как попасть во «Второе подмножество» рекомендаций?

Второе подмножество формируется на основе истории пользователя. Система ищет элементы, похожие на те, с которыми пользователь уже взаимодействовал. Чтобы попасть туда, ваш контент должен иметь четкие тематические характеристики, схожие с интересами целевой аудитории, или быть похожим на другой контент, который эта аудитория потребляет.

Как система определяет схожесть элементов для персонализации?

Патент упоминает два способа. Первый — прямое сравнение присущих характеристик элементов (например, одинаковый автор, альбом, жанр, тема). Второй — использование заранее подготовленной «Сравнительной таблицы», которая может быть создана с помощью машинного обучения или асессоров и хранит связи между похожими элементами.

Почему система специально исключает пересечение между популярным и персонализированным наборами?

Это делается для обеспечения разнообразия и эффективности. Если элемент уже отобран как популярный (Первое подмножество), нет смысла тратить вычислительные ресурсы на его повторное включение через механизм персонализации (Второе подмножество). Исключение пересечений (Claim 6) гарантирует, что Второе подмножество дополняет выдачу уникальными персонализированными рекомендациями.

Влияет ли этот механизм на «холодный старт» для новых пользователей?

Да, влияет положительно. У нового пользователя нет истории взаимодействий, поэтому Второе подмножество (персонализированное) будет пустым или маленьким. Однако система все равно сможет быстро выдать рекомендации из Первого подмножества (общепопулярный контент), которое уже рассчитано офлайн. Это обеспечивает заполненную ленту с самого начала использования сервиса.

Что важнее для получения трафика: популярность или тематичность?

Важно и то, и другое, так как это два разных пути попадания в ленту. Популярность позволяет попасть в Первое подмножество и получить широкий охват среди разной аудитории. Тематичность и схожесть позволяют попасть во Второе подмножество и получить целевой трафик от заинтересованных пользователей, даже если контент не является глобально популярным.

Как этот патент влияет на стратегию контента в Дзене?

Он подсказывает, что стратегия должна быть сбалансированной. Стоит создавать как потенциально виральные материалы на широкие темы (для Первого подмножества), так и серийный, глубокий контент на узкие темы для удержания аудитории и стимулирования персонализированных рекомендаций (для Второго подмножества).