Как Яндекс определяет глобально популярный контент для систем рекомендаций (Дзен) путем агрегации исторических поисковых данных

Яндекс использует этот метод для формирования лент рекомендаций (например, в Дзене). Система анализирует, как часто и насколько высоко конкретная единица контента ранжируется моделью машинного обучения в ответ на тысячи различных исторических запросов пользователей. Контент, который часто попадает в топ предсказаний по разным запросам и контекстам, получает высокий «Item Score» и формирует основу рекомендательной выдачи.

Описание

Какую задачу решает

Патент решает проблему баланса между скоростью и качеством в системах рекомендаций. Он устраняет недостатки существующих систем, которые либо медленно генерируют релевантные рекомендации, либо быстро генерируют нерелевантные. Изобретение направлено на эффективное формирование набора глобально релевантного контента, основываясь на агрегированных данных о поведении множества пользователей. Это также решает проблему «холодного старта», позволяя предоставлять рекомендации без знания профиля конкретного пользователя.

Что запатентовано

Запатентован метод генерации рекомендуемого набора элементов (Recommended Subset of Items) путем агрегации предсказаний релевантности. Суть изобретения заключается в использовании модели ранжирования (Ranking Model Algorithm) для оценки контента по множеству исторических пользовательских запросов и контекстов. На основе этой массовой оценки вычисляется Item Score, отражающий широту релевантности контента.

Как это работает

Система собирает исторические пользовательские запросы и их контексты (время, место). Для каждого исторического запроса Ranking Model Algorithm предсказывает и ранжирует список релевантного контента. Затем система агрегирует эти списки. Ключевым показателем является Item Score, который рассчитывается на основе частоты появления элемента в этих списках. Финальная выдача ранжируется первично по Item Score. При равных оценках используется средний ранг элемента в списках (Average Associated Rank) как вторичный фактор. Большая часть этого процесса может выполняться офлайн для ускорения выдачи.

Актуальность для SEO

Высокая. Рекомендательные системы, такие как Дзен (который прямо упоминается в иллюстрациях патента — FIG. 5, FIG. 6), являются ключевой частью экосистемы Яндекса и значительным источником трафика. Эффективные методы генерации вовлекающих лент, особенно для «холодного старта», критически важны.

Важность для SEO

Влияние на SEO значительно (7/10), но специфично. Патент не описывает ранжирование веб-поиска, но критически важен для понимания видимости контента в рекомендательных продуктах Яндекса (Дзен). Механизм подчеркивает важность создания контента, который имеет широкую привлекательность и может удовлетворять множество различных интентов и контекстов, а не только узкоспециализированный контент.

Детальный разбор

Термины и определения

Average Associated Rank (Средний ассоциированный ранг): Метрика, рассчитываемая как среднее значение рангов элемента во всех Ranked Predicted Items Lists, в которых он присутствует. Используется как вторичный фактор ранжирования (tie-breaker).
Item Score (Оценка элемента): Ключевая метрика. Оценка, генерируемая на основе «совокупности связанных с ним рангов» (totality of ranks). В патенте интерпретируется как частота появления элемента в сгенерированных списках прогнозов (например, 4/6).
List Threshold (Порог списка): Максимальное количество элементов в Ranked Predicted Items List. Используется для усечения (truncating) исходных списков предсказаний.
Ranked Predicted Items List (Ранжированный список предсказанных элементов): Список контента, сгенерированный Ranking Model Algorithm в ответ на конкретный исторический пользовательский запрос и его контекст. Может быть усечен по List Threshold.
Ranking Model Algorithm (Алгоритм модели ранжирования): Модель машинного обучения (например, нейронная сеть, деревья решений), используемая для прогнозирования релевантности элементов для данного запроса и контекста.
Set of Potentially Recommendable Items (Набор потенциально рекомендуемых элементов): Исходный пул контента (статьи, новости, видео), из которого система делает выборку для рекомендаций.
User Events / User Queries (Пользовательские события / Запросы): Исторические данные о действиях пользователей, включая отправленные ими запросы и контекст этих запросов (время, местоположение).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе агрегации прогнозов для эффективной генерации рекомендаций.

Claim 1 (Независимый пункт): Описывает основной метод генерации рекомендуемого набора.

Сервер собирает пользовательские события (User Events), включая запросы, от множества пользователей.
Для каждого из этих запросов сервер генерирует ранжированный список прогнозируемых элементов (Ranked Predicted Items List).
Для каждого элемента, который появляется в этих списках, сервер генерирует оценку (Item Score) на основе совокупности связанных с ним рангов (totality of ranks).
Сервер получает запрос на рекомендации.
Сервер генерирует набор рекомендаций, выбирая элементы на основе их Item Scores.

Claims 4-6 (Зависимые пункты): Уточняют, как генерируются списки прогнозов.

Генерация Ranked Predicted Items List включает ввод запроса и его контекста (Query Context) в Ranking Model Algorithm (Claim 4, 5). Полученный список может быть усечен (truncated) на основе порогового значения (List Threshold) (Claim 6).

Claims 7-9 (Зависимые пункты): Уточняют, как ранжируется финальный набор рекомендаций.

Ранжирование основано в первую очередь на Item Scores (Claim 7). Если оценки равны, ранжирование дополнительно основывается на связанных рангах (Claim 8). В частности, используется средний ассоциированный ранг (Average Associated Rank) (Claim 9).

Claims 11-13 (Зависимые пункты): Уточняют режим работы.

Процесс генерации может выполняться до получения запроса (Claim 11), в офлайн-режиме (Claim 12) или в реальном времени (Claim 13).

Где и как применяется

Этот патент описывает архитектуру системы рекомендаций (например, Дзен, который упоминается на иллюстрациях патента), а не стандартного веб-поиска Яндекса. Он затрагивает офлайн-вычисления и онлайн-обработку запросов.

Сбор и Индексация данных
Система должна поддерживать пул Potentially Recommendable Items (контент) и базу исторических User Events (запросы и контексты).

Офлайн-обработка (Предварительные вычисления)
Большая часть описанного процесса происходит офлайн, что является ключевой особенностью для повышения эффективности.

Прогнозирование (Итеративное Ранжирование): Система обрабатывает исторические запросы и использует компонент из слоя RANKING — Ranking Model Algorithm — для генерации Ranked Predicted Items Lists для каждого из них.
Агрегация: Система вычисляет агрегированные Item Scores (частоту) и Average Associated Ranks для всего пула контента. Результаты сохраняются в базе данных.

RANKING – Ранжирование (Онлайн-выдача)
Когда пользователь открывает ленту (отправляет запрос), система переходит в онлайн-режим. Она извлекает предварительно рассчитанные оценки и применяет логику двухэтапного ранжирования для формирования финальной ленты (Recommended Subset of Items).

На что влияет

Типы контента: Влияет на все типы контента в рекомендательных лентах (статьи, новости, видео).
Специфика: Алгоритм отдает предпочтение контенту с широкой привлекательностью, который признается релевантным в самых разных контекстах и для разных запросов.
«Холодный старт»: Механизм особенно важен для генерации рекомендаций новым пользователям, так как он не требует знания профиля конкретного пользователя (как указано в описании патента).

Когда применяется

Триггеры активации (Онлайн): Алгоритм активируется, когда пользователь запрашивает рекомендации (например, запуск приложения Дзен, открытие новой вкладки браузера).
Частота применения (Офлайн): Основные вычисления (генерация прогнозов и агрегация оценок) выполняются периодически в офлайн-режиме для обновления пула рекомендуемых элементов и их оценок.

Пошаговый алгоритм

Фаза 1: Офлайн-обработка и расчет оценок

Сбор данных: Система собирает исторические User Events (запросы и контексты) и определяет пул доступного контента (Potentially Recommendable Items).
Итеративное Прогнозирование: Для каждого исторического запроса и контекста:

Ranking Model Algorithm прогнозирует и ранжирует список релевантных элементов.
(Опционально) Список усекается до Топ-N элементов на основе List Threshold. Формируется Ranked Predicted Items List.

Агрегация и Расчет Item Score: Система обрабатывает все сгенерированные списки. Для каждого элемента подсчитывается, сколько раз он попал в эти списки. Эта частота становится его Item Score.
Расчет Average Associated Rank: Для каждого элемента вычисляется среднее значение его рангов во всех списках, где он присутствовал.
Хранение: Рассчитанные оценки сохраняются в базе данных.

Фаза 2: Онлайн-обработка запроса

Получение запроса: Сервер получает запрос на генерацию рекомендаций.
Выборка и Ранжирование: Элементы выбираются и ранжируются:

Первичная сортировка — по Item Score (по убыванию частоты).
Вторичная сортировка (при равных оценках) — по Average Associated Rank (по возрастанию — чем ниже средний ранг, тем лучше).

Выдача: Сформированный ранжированный список рекомендаций отправляется пользователю.

Какие данные и как использует

Данные на входе

Поведенческие/Исторические факторы: Являются основой системы. Используются исторические логи User Events, включающие прошлые запросы множества пользователей.
Контентные факторы: Содержание элементов контента (текст, метаданные). Эти данные используются Ranking Model Algorithm на этапе генерации прогнозов для определения релевантности элемента конкретному историческому запросу.
Географические и Временные факторы (Контекстуальные): Query Context включает дату, время и местоположение, связанные с историческими запросами.
Пользовательские факторы (Профиль): Патент утверждает, что для этого метода может не требоваться информация о профиле или интересах текущего пользователя, так как набор генерируется на основе агрегированных данных множества других пользователей.

Какие метрики используются и как они считаются

Система использует две ключевые метрики для оценки элементов:

Item Score (Первичная метрика — Частота):
- Что измеряет: Широта релевантности элемента.
- Как считается: Рассчитывается как частота появления элемента в усеченных списках прогнозов.
  
  $${ItemScore}(I) = \frac{\text{Количество списков, где присутствует элемент } I}{\text{Общее количество сгенерированных списков (запросов)}}$$
Average Associated Rank (Вторичная метрика — Качество):
- Что измеряет: Среднее качество (позиция) элемента в тех случаях, когда он признается релевантным. Используется как tie-breaker.
- Как считается: Среднее арифметическое рангов элемента в списках, где он присутствовал.
  
  $${AvgRank}(I) = \frac{\sum \text{Рангов элемента } I}{\text{Количество списков, где присутствует элемент } I}$$

Алгоритмы машинного обучения: Используется Ranking Model Algorithm (упомянуты supervised machine learning algorithms, такие как искусственные нейронные сети, байесовская статистика, решающие деревья) для выполнения этапа прогнозирования релевантности.

Выводы

Фокус на Рекомендательных системах (Дзен): Патент описывает механизм для генерации лент рекомендаций, а не ранжирование основного веб-поиска.
Релевантность через Агрегацию (Мудрость толпы): Ключевая идея — контент, который прогнозируется как релевантный для большого количества разнообразных исторических запросов и контекстов, считается универсально интересным и качественным.
Двухэтапное Ранжирование: Приоритет Охвата над Точностью: Система приоритизирует охват (как часто контент релевантен — Item Score), а затем качество этой релевантности (насколько высоко он был оценен в среднем — Average Associated Rank).
Эффективность за счет Офлайн-расчетов: Метод позволяет снять вычислительную нагрузку с онлайн-обработки, выполняя сложные прогнозы и агрегацию заранее.
Решение для «Холодного старта»: Этот алгоритм позволяет генерировать базовую ленту рекомендаций, которая не требует глубокого знания текущего пользователя, фокусируясь на контенте с доказанной широкой привлекательностью.

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию контента для попадания в рекомендательные системы Яндекса (Дзен).

Создание контента с широким охватом (Mass Appeal): Поскольку Item Score (частота прогнозирования) является основным фактором, контент, который может быть релевантен для множества различных запросов и контекстов, получит преимущество. Создавайте материалы на «вечнозеленые» или широко обсуждаемые темы.
Оптимизация под семантические кластеры и качество: Контент должен покрывать тему всесторонне, используя разнообразную лексику (QBST фразы), и быть качественным. Это гарантирует, что Ranking Model Algorithm высоко оценит его по разным формулировкам запросов, что улучшит Average Associated Rank.
Синергия с традиционным SEO: Поскольку система полагается на предсказания модели ранжирования, сильные позиции в традиционном поиске являются важным условием. Если контент хорошо ранжируется в поиске по множеству запросов, он получит лучшие оценки в этом алгоритме.
Анализ трендов и актуальность: Создание контента на актуальные темы увеличивает вероятность того, что он будет соответствовать большому количеству недавних исторических запросов, что приведет к высокому Item Score.

Worst practices (это делать не надо)

Слишком узконишевой контент: Контент, который релевантен только для очень специфического контекста или узкого сегмента аудитории, может иметь низкий Item Score в рамках этого алгоритма, так как он не будет часто появляться в прогнозах по широкому спектру запросов.
Кликбейт и низкое удержание: Если контент не удерживает пользователя, Ranking Model Algorithm (который, вероятно, обучается на поведенческих сигналах) будет оценивать его низко. Это приведет к плохому Average Associated Rank.
Игнорирование качества контента: Контент низкого качества, который плохо ранжируется моделью Яндекса в целом, будет иметь плохой Average Associated Rank и может не преодолеть List Threshold (порог усечения списка).

Стратегическое значение

Патент подтверждает тесную интеграцию поисковых и рекомендательных технологий Яндекса. Он демонстрирует, что Яндекс ценит контент, который резонирует с широкой аудиторией и соответствует критериям качества основного поиска. Для SEO-специалистов это означает, что успех в рекомендательных системах требует комплексного подхода: создания авторитетного контента (Topical Authority), который соответствует критериям качества Яндекса и имеет широкую тематическую релевантность.

Практические примеры

Сценарий: Оценка двух статей о смартфонах.

Система анализирует 1000 исторических запросов о гаджетах.

Статья А: «Детальный обзор камеры iPhone 15» (Узкая тема).

Попадает в Топ-100 предсказаний по 150 запросам.
Item Score: 150/1000 = 0.15
Average Associated Rank: 5 (в среднем ранжируется высоко по этим запросам).

Статья Б: «Лучшие смартфоны 2025 года: рейтинг цена/качество» (Широкая тема).

Попадает в Топ-100 предсказаний по 600 запросам.
Item Score: 600/1000 = 0.6
Average Associated Rank: 20 (в среднем ранжируется ниже, чем статья А).

Результат ранжирования в пуле рекомендаций:

Статья Б (Score 0.6). Она будет ранжироваться выше, так как ее Item Score (охват) значительно выше, несмотря на худший средний ранг. Система считает ее более широко релевантной.
Статья А (Score 0.15). Несмотря на отличное среднее ранжирование, тема слишком узкая для глобальных рекомендаций, генерируемых этим методом.

Вопросы и ответы

Этот патент описывает ранжирование в основном поиске Яндекса?

Нет. Патент описывает метод генерации рекомендуемого набора элементов и относится к системам рекомендаций контента, таким как Дзен. Он не описывает алгоритмы ранжирования веб-страниц в основном поиске, хотя и использует базовую модель ранжирования (Ranking Model Algorithm) как компонент для оценки релевантности.

Что такое Item Score и почему это самая важная метрика в этом патенте?

Item Score — это показатель того, как часто данный элемент контента появлялся в прогнозируемых списках релевантности, сгенерированных для множества исторических пользовательских запросов. Это основной фактор ранжирования. Он отражает широту релевантности контента: чем выше Item Score, тем большему количеству разнообразных контекстов и запросов этот контент соответствует.

Что используется, если несколько статей имеют одинаковый Item Score?

Если у нескольких элементов одинаковый Item Score, система использует вторичный фактор ранжирования — Average Associated Rank (Средний ассоциированный ранг). Это среднее значение рангов, которые элемент получил в тех списках прогнозов, где он присутствовал. Чем ниже этот средний ранг (т.е. ближе к 1-й позиции), тем выше элемент будет в финальной выдаче.

Означает ли этот патент, что Яндекс не использует персонализацию в Дзене?

Не совсем. Патент описывает конкретный механизм, который может генерировать рекомендации без использования профиля текущего пользователя, полагаясь на агрегированные данные о широкой привлекательности контента. Это полезно для «холодного старта» или генерации базовой ленты. Однако это, вероятно, лишь один из слоев в Дзене, и Яндекс может применять дополнительные слои глубокой персонализации поверх этого.

Как этот механизм влияет на стратегию создания контента?

Этот механизм поощряет создание контента с широкой привлекательностью (Mass Appeal). Чтобы максимизировать Item Score, контент должен быть потенциально релевантен для большого количества различных интентов и контекстов. Это смещает фокус с узконишевых тем на более общие, трендовые или «вечнозеленые» материалы, охватывающие целые семантические кластеры.

Какова роль машинного обучения в этой системе?

Машинное обучение (Ranking Model Algorithm) используется на этапе прогнозирования. Модель определяет, насколько релевантен каждый элемент контента для конкретного исторического запроса и контекста. Описанная в патенте система затем агрегирует тысячи таких прогнозов, сделанных моделью, для определения финальной оценки контента.

Как повысить Average Associated Rank моей статьи?

Average Associated Rank зависит от того, насколько высоко Ranking Model Algorithm оценивает вашу статью в своих прогнозах. Чтобы улучшить этот показатель, статья должна быть максимально качественной и хорошо отвечать на интент пользователя. Вероятно, модель обучается на поведенческих факторах (удержание, дочитывания), поэтому оптимизация этих метрик критически важна.

Почему система работает преимущественно офлайн?

Процесс требует обработки огромного количества исторических запросов и генерации прогнозов для каждого из них с использованием сложной ML-модели. Выполнение этих расчетов в реальном времени было бы слишком ресурсоемким. Предварительный расчет оценок офлайн позволяет системе быстро формировать ленту рекомендаций при обращении пользователя.

Что такое List Threshold и как он влияет на результат?

List Threshold — это порог усечения списка предсказаний (например, Топ-100). Если Ranking Model Algorithm сгенерировал 1000 релевантных документов для запроса, система может сохранить только первые 100. Если ваш контент не попадает в этот Топ-N по релевантности для данного запроса, он не будет учтен при расчете Item Score для этого запроса.

Насколько важна свежесть контента для этого алгоритма?

Свежесть критически важна. Система обрабатывает исторические запросы, которые часто отражают текущие тренды и новостную повестку. Актуальный контент с большей вероятностью будет высоко ранжироваться по недавним запросам, что приведет к высокому Item Score в моменте. Устаревший контент будет постепенно терять свою актуальность.