Как Яндекс агрегирует данные по историческим запросам для формирования лент рекомендаций (например, Дзен)

Яндекс патентует метод генерации лент рекомендаций (например, для Дзена). Система анализирует множество прошлых запросов пользователей и для каждого запроса формирует список релевантных материалов. Затем она агрегирует, как часто и на каких позициях конкретный материал появлялся в этих списках, формируя итоговый рейтинг для ленты. Процесс может выполняться офлайн для ускорения ответа.

Описание

Какую задачу решает

Патент решает задачу повышения эффективности и релевантности систем рекомендаций контента (таких как Яндекс Дзен). Он устраняет технические проблемы существующих систем: некоторые требуют значительного времени для генерации релевантных рекомендаций в реальном времени, в то время как другие могут быть быстрыми, но недостаточно релевантными. Цель изобретения — обеспечить быструю выдачу качественных рекомендаций за счет предварительных вычислений (офлайн).

Что запатентовано

Запатентован метод и система для генерации рекомендуемого набора элементов (Recommended Subset of Items). Суть изобретения заключается в агрегации результатов ранжирования по множеству исторических пользовательских событий (запросов). Вместо того чтобы ранжировать контент в ответ на текущий запрос пользователя, система предварительно оценивает релевантность элементов по отношению к большому количеству прошлых запросов, а затем агрегирует эти оценки для формирования финальной ленты рекомендаций.

Как это работает

Система собирает исторические данные о событиях пользователей (User Events), включая поисковые запросы (User Queries). Для каждого из этих прошлых запросов система использует модель ранжирования (Ranking Model Algorithm) для создания ранжированного списка потенциально рекомендуемых элементов. Затем система анализирует все эти списки и вычисляет итоговую оценку (Item Score) для каждого элемента на основе совокупности его рангов (Totality of Ranks) во всех списках. Финальный набор рекомендаций формируется путем выбора элементов с наивысшими Item Scores. Этот процесс может выполняться до получения запроса от пользователя (офлайн), что ускоряет ответ системы.

Актуальность для SEO

Средняя. Принципы офлайн-генерации и агрегации сигналов релевантности являются стандартными для крупномасштабных рекомендательных систем, таких как Дзен. Описанный метод агрегации (на основе совокупности рангов) может все еще использоваться, однако базовые модели ранжирования (Ranking Model Algorithms), которые определяют изначальную релевантность контента запросам, вероятно, значительно эволюционировали с момента подачи заявки в сторону тяжелых нейросетевых моделей.

Важность для SEO

Влияние на традиционное SEO низкое (3/10). Этот патент описывает инфраструктуру и методологию работы рекомендательной системы (например, Дзен), а не алгоритмы ранжирования основного веб-поиска Яндекса. Однако для специалистов, занимающихся оптимизацией под рекомендательные системы (RSO), патент имеет высокую значимость (8/10), так как раскрывает механизм агрегации, влияющий на попадание контента в ленту.

Детальный разбор

Термины и определения

Average Associated Rank (Средний ассоциированный ранг): Среднее значение рангов элемента в тех списках предсказаний, в которых он присутствовал. Используется как тай-брейкер для разрешения коллизий, если несколько элементов имеют одинаковый Item Score.
Item Score (Оценка элемента): Агрегированная оценка, присваиваемая элементу на основе совокупности его рангов (Totality of Ranks) во всех сгенерированных списках. Используется для финального ранжирования рекомендаций. В примере патента выражается как частота появления (например, 4/6).
List Threshold (Порог списка): Максимальное количество элементов в Ranked Predicted Items List. Используется для усечения (truncating) списков предсказаний по отдельному запросу (например, Топ-100).
Query Context (Контекст запроса): Дополнительная информация, связанная с историческим пользовательским запросом, такая как дата, время, местоположение.
Ranked Predicted Items List (Ранжированный список предсказанных элементов): Список элементов из общего пула, ранжированный моделью в ответ на конкретный исторический запрос (User Query).
Ranking Model Algorithm (Алгоритм модели ранжирования): Алгоритм машинного обучения (например, CatBoost, нейронная сеть), который используется для определения релевантности элементов конкретному запросу и его контексту. В патенте рассматривается как «черный ящик».
Recommended Subset of Items (Рекомендуемый набор элементов): Финальный набор контента, который предоставляется пользователю (например, лента Дзена).
Set of Potentially Recommendable Items (Набор потенциально рекомендуемых элементов): Общий пул доступного контента (новости, статьи, видео и т.д.), из которого формируются рекомендации.
Totality of Ranks (Совокупность рангов): Метрика, отражающая, как часто и на каких позициях элемент появлялся в различных Ranked Predicted Items Lists. Является основой для расчета Item Score и Average Associated Rank.
User Events / User Queries (События / Запросы пользователей): Исторические данные о действиях пользователей, в первую очередь, запросы, отправленные пользователями в прошлом, которые используются как входные данные для генерации рекомендаций.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии агрегации результатов ранжирования и критически важной возможности выполнения этого процесса в офлайн-режиме.

Claim 1 (Независимый пункт): Описывает основной процесс генерации рекомендаций, подчеркивая тайминг выполнения операций.

Этапы, выполняемые ДО получения запроса на рекомендации (Офлайн):

Сбор пользовательских событий (запросов) от множества пользователей.
Для каждого из этих исторических запросов генерируется Ranked Predicted Items List.
Для каждого элемента вычисляется Item Score на основе совокупности его рангов (Totality of Ranks) во всех сгенерированных списках.
Генерация финального рекомендуемого набора путем выбора элементов на основе их Item Scores.

Этапы, выполняемые во время запроса (Онлайн):

Получение запроса на рекомендации от пользователя.
Отправка сигнала (предварительно сформированного набора) на устройство пользователя.

Ядром изобретения является метод агрегации, напоминающий методы слияния рангов (Rank Aggregation). Релевантность элемента определяется тем, насколько хорошо он ранжируется в среднем по большому количеству разнообразных исторических запросов. Акцент на офлайн-вычислении обеспечивает высокую скорость ответа.

Claim 4 (Зависимый от 3): Уточняет механизм генерации списков.

Для генерации каждого списка система вводит соответствующий исторический запрос и его контекст (Query Context) в алгоритм модели ранжирования (Ranking Model Algorithm).

Claim 6 (Зависимый от 5): Описывает оптимизацию процесса.

После получения первичных списков от модели ранжирования, система обрезает их на основе порога (List Threshold). Это шаг оптимизации, позволяющий уменьшить объем данных для агрегации.

Claim 9 (Зависимый от 8): Описывает механизм разрешения коллизий (тай-брейкер).

Если несколько элементов имеют одинаковый Item Score, система использует средний ранг (Average Associated Rank). Выше будет ранжирован тот элемент, чьи позиции в исторических списках были в среднем лучше (меньший средний ранг).

Где и как применяется

Этот патент не относится напрямую к архитектуре основного веб-поиска Яндекса (Crawling, Indexing, Ranking). Он описывает архитектуру и логику работы Системы Рекомендаций (например, Дзен).

Офлайн-обработка данных и генерация рекомендаций

Основная часть алгоритма выполняется в офлайн-режиме, до получения запроса от конкретного пользователя.

Компоненты: Prediction Module (Модуль предсказания) использует Ranking Model Algorithm для генерации первичных списков. Processing Module (Модуль обработки) отвечает за агрегацию результатов и формирование финальной ленты.
Входные данные: Исторические User Queries и их контексты; Пул потенциально рекомендуемых элементов.
Выходные данные: Предварительно рассчитанный и отранжированный набор рекомендуемых элементов.

Онлайн-обработка (Доставка рекомендаций)

Когда пользователь открывает приложение или ленту рекомендаций, система получает запрос и мгновенно отвечает предварительно сгенерированным набором.

На что влияет

Типы контента: Влияет на любой контент, распространяемый через рекомендательную систему (статьи, новости, видео, посты).
Специфические запросы: Алгоритм агрегации склонен отдавать предпочтение контенту, который релевантен большому количеству разнообразных, но связанных исторических запросов (широкий охват темы), а не узкоспециализированному контенту.

Когда применяется

Алгоритм имеет две фазы применения:

Офлайн-фаза (Предварительное вычисление): Основная часть работы (генерация списков и агрегация оценок) выполняется заранее (Claims 1, 11, 12). Это может происходить периодически по расписанию.
Онлайн-фаза (Ответ пользователю): Когда пользователь открывает ленту рекомендаций, система быстро отдает предварительно рассчитанный набор.

Пошаговый алгоритм

Процесс генерации рекомендаций (преимущественно Офлайн):

Сбор данных: Система получает набор исторических User Queries и их контекстов, а также определяет пул потенциально рекомендуемых элементов.
Генерация индивидуальных списков (Итерация): Для каждого исторического запроса система выполняет следующее:
1. Ввод запроса, контекста и пула элементов в Ranking Model Algorithm.
2. Получение ранжированного списка элементов.
Трункация (Оптимизация): Каждый полученный список обрезается на основе List Threshold (например, сохраняются только Топ-N результатов). Формируется Ranked Predicted Items List.
Агрегация оценок: Система анализирует все сгенерированные списки и для каждого элемента вычисляет:
1. Totality of Ranks: В скольких списках появился элемент и на каких позициях.
2. Item Score: Итоговая оценка (например, частота появления в списках).
3. Average Associated Rank: Средний ранг элемента в тех списках, где он присутствовал.
Финальное ранжирование: Элементы сортируются. Первичный критерий – Item Score (по убыванию). Вторичный критерий (тай-брейкер) – Average Associated Rank (по возрастанию).
Формирование ленты: Выбирается Топ-K элементов для формирования Recommended Subset of Items.

Процесс обслуживания пользователя (Онлайн):

Получение запроса: Пользователь запрашивает рекомендации.
Выдача результатов: Система отправляет предварительно сформированный набор на устройство пользователя.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Исторические): Основные данные для системы — это User Events, в частности, исторические User Queries от множества пользователей. Данные о взаимодействиях (клики, лайки) могут использоваться для обучения базовой Ranking Model Algorithm.
Контентные факторы: Тексты и метаданные рекомендуемых элементов (Items). Они используются базовой Ranking Model Algorithm для определения первичной релевантности запросу.
Географические и Временные факторы: Используются как часть Query Context (дата, время, местоположение запроса) для повышения точности первичного ранжирования.

Какие метрики используются и как они считаются

Rank (Ранг): Позиция элемента в списке, сгенерированном в ответ на один исторический запрос. Определяется Ranking Model Algorithm.
Totality of Ranks (Совокупность рангов): Набор всех рангов, которые элемент получил во всех сгенерированных списках.
Item Score (Оценка элемента): Метрика, рассчитанная на основе Totality of Ranks. В патенте используется как показатель частоты (сколько раз элемент попал в списки предсказаний).
Average Associated Rank (Средний ассоциированный ранг): Среднее значение рангов элемента в тех списках, где он присутствовал. Используется как тай-брейкер при равных Item Scores.

Выводы

Фокус на рекомендациях (Дзен), а не на поиске: Патент описывает инфраструктуру рекомендательной системы, а не основного веб-поиска. Выводы применимы именно к продвижению в лентах рекомендаций (RSO), а не к традиционному SEO.
Агрегация как ключевой механизм ранжирования: Финальная релевантность элемента определяется путем агрегации его рангов по множеству различных исторических запросов (метод слияния рангов).
Важность широкого охвата (Broad Appeal): Система отдает предпочтение контенту, который стабильно показывает хорошие результаты по широкому спектру связанных запросов. Элемент, занявший 1-е место по одному запросу, проиграет элементу, который занял 3-5 места по десяткам разных запросов.
Двухуровневое ранжирование: Важна как частота попадания в предсказания (Item Score), так и качество позиций в этих предсказаниях (Average Associated Rank), которое используется для разрешения коллизий.
Офлайн-вычисления для скорости: Патент подчеркивает, что тяжелые вычисления выполняются заранее (офлайн), что обеспечивает быструю работу ленты для пользователя.

Практика

Best practices (это мы делаем)

Рекомендации применимы для оптимизации контента под рекомендательные системы типа Дзен (RSO).

Создание контента с широким потенциалом релевантности (Topical Authority): Фокусируйтесь на темах, которые можно описать множеством разных запросов. Контент должен быть релевантен широкому кластеру интентов. Это увеличивает вероятность попадания в большое количество Ranked Predicted Items Lists и повышает итоговый Item Score.
Оптимизация под поисковый спрос: Поскольку рекомендации основаны на исторических поисковых запросах, контент должен четко отвечать на существующий поисковый интент. Анализируйте популярные запросы в вашей тематике.
Стремление к стабильно хорошим позициям: Важнее стабильно попадать в Топ-10 по многим связанным запросам, чем занять Топ-1 по одному узкому запросу. Механизм агрегации вознаграждает стабильность и охват. Это требует высокого качества контента (E-E-A-T), чтобы базовая модель ранжирования высоко его оценивала.

Worst practices (это делать не надо)

Узкая оптимизация под единичный запрос: Создание контента, который отвечает только на один специфический запрос и не релевантен смежным тематикам. Такой контент попадет в малое количество списков и получит низкий Item Score в этой модели агрегации.
Создание поверхностного контента (Thin Content): Контент, который не покрывает тему глубоко, вряд ли будет высоко ранжироваться базовой моделью по разным запросам, что приведет к плохому Average Associated Rank и не позволит пройти List Threshold.

Стратегическое значение

Патент демонстрирует, как Яндекс использует данные Поиска для работы Рекомендательных систем. Успех в Дзене строится на способности контента удовлетворять широкий спектр пользовательских потребностей, выявленных через исторические запросы. Это подчеркивает важность комплексной стратегии: работа над качеством и релевантностью контента для поиска напрямую влияет на потенциальный охват в рекомендательных системах.

Практические примеры

Сценарий: Сравнение двух статей на этапе офлайн-генерации рекомендаций.

Статья А (Узкая оптимизация): «Лучший рецепт спагетти карбонара по ГОСТу».

Статья Б (Широкий охват): «Как приготовить пасту дома: быстро, вкусно и недорого (на примере карбонары)».

Обработка исторических запросов: Система анализирует запросы: Q1=»рецепт карбонары», Q2=»что приготовить на ужин быстро», Q3=»итальянская кухня дома», Q4=»рецепты из макарон». (Предположим, List Threshold = 10).
Генерация списков:
- Q1: Статья А — Ранг 1, Статья Б — Ранг 3.
- Q2: Статья А — Ранг 15 (не прошла порог), Статья Б — Ранг 5.
- Q3: Статья А — Ранг 8, Статья Б — Ранг 4.
- Q4: Статья А — не попала в список, Статья Б — Ранг 2.
Агрегация (Item Score и Средний Ранг):
- Статья А: Появилась в 2 из 4 списков (Q1, Q3). Score = 2/4. Средний ранг = (1+8)/2 = 4.5.
- Статья Б: Появилась в 4 из 4 списков. Score = 4/4. Средний ранг = (3+5+4+2)/4 = 3.5.
Результат: Статья Б будет рекомендована значительно выше, так как она имеет более высокий Item Score (4/4 против 2/4), несмотря на то, что по целевому запросу Q1 она проиграла Статье А.

Вопросы и ответы

Этот патент описывает ранжирование в основном поиске Яндекса или в Дзене?

Патент описывает исключительно механизм работы системы рекомендаций, ярким примером которой является Дзен (интерфейс Дзена даже показан на иллюстрациях патента). Он не относится к алгоритмам ранжирования веб-страниц в основном поиске (SERP). Методы оптимизации здесь направлены на RSO (Recommendation System Optimization), а не на традиционное SEO.

В чем суть метода агрегации, описанного в патенте?

Суть в том, что система многократно оценивает релевантность контента по отношению к большому количеству разных исторических запросов. Финальная оценка (Item Score) зависит от того, как часто и насколько высоко контент ранжировался в этих многочисленных списках. Это метод слияния рангов (Rank Aggregation), выявляющий контент с широкой релевантностью.

Что важнее для этой системы: занять первое место по одному запросу или попасть в топ по многим?

Важнее попасть в топ (даже не на первое место) по многим запросам. Контент с широким охватом получит преимущество. Элемент, занявший 1 место по одному запросу и не попавший в другие списки, проиграет элементу, который стабильно занимает 5-е места по десяткам разных запросов, так как у второго будет выше Item Score.

Как система решает, какой контент лучше, если два материала попали в одинаковое количество списков?

Если два материала имеют одинаковый Item Score (например, оба попали в 10 списков из 20), система использует вторичный критерий — средний ранг (Average Associated Rank). Выше будет ранжирован тот материал, чьи позиции в этих 10 списках были в среднем лучше (ближе к Топ-1).

Патент утверждает, что процесс выполняется офлайн. Что это значит для создателей контента?

Это означает, что система предварительно рассчитывает рекомендации до того, как пользователь их запросит, что обеспечивает высокую скорость работы сервиса. Для создателей контента это может означать некоторую задержку между публикацией свежего материала и его попаданием в активные рекомендации, так как системе нужно время на обработку нового контента в следующем цикле офлайн-вычислений.

Как этот патент влияет на стратегию создания контента для Дзена?

Он подтверждает необходимость создания контента, который отвечает на широкий спектр связанных пользовательских интентов и базируется на реальном поисковом спросе. Стратегия должна фокусироваться на полном раскрытии темы и использовании разнообразной лексики (QBST фраз), чтобы контент был признан релевантным максимальному количеству исторических запросов по этой теме.

Использует ли эта система данные о текущем пользователе для персонализации?

Патент описывает общий механизм агрегации на основе данных от «множества пользователей». Персонализация, вероятно, достигается за счет того, что в качестве входного набора исторических запросов используются запросы конкретного пользователя или сегмента похожих пользователей, хотя этот механизм выбора в данном патенте детально не описан.

Что такое «List Threshold» и зачем он нужен?

List Threshold (Порог списка) — это ограничение на длину списков, генерируемых для каждого исторического запроса (например, Топ-100). Он используется для оптимизации: система отбрасывает низкорелевантные результаты на раннем этапе, чтобы уменьшить объем данных для агрегации. Это значит, что контент должен входить в Топ-N, чтобы быть учтенным.

Описывает ли патент, как именно работает базовая модель ранжирования (Ranking Model Algorithm)?

Нет, патент не фокусируется на деталях работы самой модели ML (например, какие факторы она использует). Модель ранжирования рассматривается как «черный ящик», который принимает запрос и контент и выдает ранг. Предметом патента является именно метод агрегации результатов работы этой модели.

Что произойдет, если мой контент релевантен только очень узкой нише запросов?

Если контент релевантен малому количеству исторических запросов, он попадет в малое число предсказательных списков и получит низкий Item Score. Такой контент, скорее всего, не получит широкого охвата в рекомендательной системе, генерируемой этим конкретным алгоритмом, хотя может хорошо работать в других, более персонализированных алгоритмах.