Как Яндекс использует агрегацию результатов поиска по множеству запросов для генерации контентных рекомендаций (Дзен)

Яндекс патентует метод создания системы рекомендаций (например, Дзен). Система анализирует миллионы прошлых поисковых запросов и определяет, какие материалы из пула контента наиболее релевантны наибольшему количеству этих запросов. Материалы, которые чаще попадают в топ по разным историческим запросам (высокая частота) и занимают там более высокие позиции (лучший средний ранг), формируют основу ленты рекомендаций.

Описание

Какую задачу решает

Патент решает задачу повышения релевантности и скорости генерации контентных рекомендаций в системах типа Дзен. Он направлен на устранение недостатков существующих систем, которые либо медленно генерируют рекомендации, либо предоставляют недостаточно релевантный контент. Изобретение позволяет проактивно предлагать пользователю интересный контент, который он явно не искал, основываясь на коллективном поисковом поведении всей аудитории. Это также помогает решить проблему «холодного старта» для новых пользователей.

Что запатентовано

Запатентован способ и сервер для создания рекомендованного набора элементов. Суть изобретения заключается в оценке универсальной релевантности контента путем симуляции и агрегации его ранжирования по огромному набору исторических поисковых запросов (пользовательские запросы) от множества пользователей. Элементы, показавшие наилучшую агрегированную эффективность, выбираются для рекомендации.

Как это работает

Система работает путем масштабной симуляции. Собирается пул контента и история поисковых запросов (с контекстом: время, место). Для каждого исторического запроса Алгоритм ранжирования (ML-модель) создает ранжированный список элементов из пула. Затем результаты агрегируются: для каждого элемента вычисляется Оценка элемента (Element Score), основанная на частоте его появления в этих списках. При формировании ленты элементы упорядочиваются по этой оценке. В качестве тай-брейкера используется Средний связанный ранг (Average Associated Rank).

Актуальность для SEO

Высокая. Патент описывает базовые механизмы, лежащие в основе рекомендательных систем типа Дзен. Использование агрегированных поисковых данных для информирования систем рекомендаций остается ключевой стратегией. Хотя конкретные ML-модели эволюционировали (в сторону глубокого обучения и эмбеддингов), описанный принцип оценки универсальной релевантности через агрегацию поискового поведения крайне актуален.

Важность для SEO

Влияние на SEO значительно (6.5/10), но специфично. Патент не влияет на ранжирование в основном веб-поиске. Однако он критически важен для понимания механизмов получения трафика из рекомендательных систем Яндекса (Дзен). Он демонстрирует, что для успеха в Дзене контент должен обладать широкой привлекательностью и быть релевантным большому количеству реальных поисковых запросов пользователей, а не только узкому кластеру.

Детальный разбор

Термины и определения

Алгоритм ранжирования (Ranking Algorithm) (204): Алгоритм машинного обучения (упоминаются нейронные сети, деревья решений), который используется для определения релевантности между конкретным историческим запросом (и его контекстом) и элементом контента.
Набор потенциально рекомендуемых элементов (200): Пул доступного контента (новости, статьи, видео и т.д.), из которого система выбирает рекомендации.
Оценка элемента (Element Score): Ключевая метрика ранжирования. Рассчитывается на основе совокупности рангов элемента. В патенте она определяется как частота появления элемента в ранжированных списках (например, появление в 4 из 6 списков дает оценку 4/6).
Пользовательские события (User Events): Исторические данные, собранные от множества пользователей. Включают Пользовательские запросы и их контекст (дата, время, местоположение).
Порог списка (List Threshold) (330): Максимальное число элементов в ранжированном списке (Top N). Используется для укорачивания (усечения) результатов базового алгоритма ранжирования.
Ранжированный список прогнозируемых элементов (320): Список контента, сгенерированный Алгоритмом ранжирования в ответ на один конкретный исторический запрос. Каждый элемент имеет связанный ранг.
Средний связанный ранг (Average Associated Rank): Среднее арифметическое позиций (рангов) элемента в тех списках, где он присутствует. Используется как вторичный фактор ранжирования (тай-брейкер) при равных Оценках элемента.

Ключевые утверждения (Анализ Claims)

Патент защищает метод генерации рекомендаций путем агрегации релевантности контента по множеству исторических запросов.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Получение исторических пользовательских запросов от множества пользователей.
Для каждого запроса создается ранжированный список элементов из пула контента. Элементы получают ранг.
Для каждого элемента вычисляется Оценка элемента на основе совокупности его рангов (агрегация по всем спискам).
Получение запроса на рекомендации (например, пользователь открывает ленту).
Формирование рекомендованного набора путем выбора элементов на основе их Оценок элементов.

Claims 4-6 (Зависимые пункты): Уточняют механизм ранжирования и оптимизации.

[C4] Ранжирование использует не только текст запроса, но и его контекст (время, место), подавая их на вход Алгоритму ранжирования.
[C6] Сгенерированные списки укорачиваются по Порогу списка (Top-N). Это критически важно: учитывается не просто релевантность, а попадание в Топ-N по запросу.

Claims 7-9 (Зависимые пункты): Описывают двухфакторную модель финального ранжирования.

[C7] Первичная сортировка производится по Оценке элемента (частоте).
[C9] Если Оценки элементов равны, для тай-брейкинга используется Средний связанный ранг (средняя позиция в топах).

Где и как применяется

Этот патент не описывает работу основного Поиска Яндекса (CRAWLING -> RANKING). Он описывает архитектуру самостоятельной Системы Рекомендаций (например, Дзен), которая тесно интегрирована с экосистемой поиска через потребление данных.

Сбор Данных (Data Acquisition)
Система потребляет данные из логов Поиска Яндекса. На вход принимаются Пользовательские события и Запросы, включая контекст. Также используется Набор потенциально рекомендуемых элементов (пул контента) из различных источников.

Обработка и Ранжирование (Внутренний процесс Системы Рекомендаций)
Это основной этап применения патента, состоящий из двух фаз:

Фаза Симуляции (Map): Система использует внутренний Алгоритм ранжирования (ML-модель) для обработки каждого исторического запроса и генерации ранжированных списков контента. Списки могут усекаться по Порогу списка.
Фаза Агрегации (Reduce): Вычисление агрегированных метрик — Оценки элемента (частоты) и Среднего связанного ранга на основе результатов симуляции.

Этот процесс может выполняться как в оффлайн-режиме (заранее), так и в реальном времени.

Генерация Выдачи (Recommendation Serving)
Когда пользователь запрашивает рекомендации (например, открывает ленту Дзен или новую вкладку браузера), система использует рассчитанные агрегированные оценки для формирования финальной ленты.

На что влияет

Типы контента: Влияет на видимость всех типов контента в рекомендательных системах Яндекса: статьи, новости, видео, посты.
Тематики и Ниши: Алгоритм явно предпочитает контент, релевантный широкому спектру поисковых запросов. Это дает преимущество темам с высоким объемом поискового спроса и широкой привлекательностью по сравнению с узконишевыми темами.

Когда применяется

Триггеры активации: Алгоритм активируется при получении запроса на рекомендованное подмножество. Это может быть явный запрос или неявный (запуск приложения, открытие новой вкладки).
Условия: Механизм эффективен для генерации общей популярной ленты и для решения проблемы «холодного старта», так как не требует личной истории пользователя.

Пошаговый алгоритм

Процесс генерации рекомендованного набора элементов.

Этап 1: Сбор Входных Данных

Получение Набора потенциально рекомендуемых элементов (Пул Контента).
Получение набора исторических Пользовательских запросов и их Контекстов (время, место) из логов.

Этап 2: Генерация Прогнозов (Map Phase)

Для каждого исторического Запроса и Контекста:

Ввод Запроса, Контекста и Пула Контента в Алгоритм Ранжирования (ML-модель).
Генерация Ранжированного списка прогнозируемых элементов. Каждый элемент получает Ранг.
Усечение: Список укорачивается на основе Порога списка (Top N). Элементы ниже порога отбрасываются.

Этап 3: Агрегация и Вычисление Метрик (Reduce Phase)

Для каждого Элемента, появившегося в усеченных списках:

Вычисление Оценки элемента (Element Score): Рассчитывается как частота попадания в Top N (Количество списков с элементом / Общее количество списков).
Вычисление Среднего связанного ранга (Average Associated Rank): Расчет среднего значения Рангов элемента в тех списках, где он присутствовал.

Этап 4: Генерация Рекомендаций (Serving)

Получение запроса на рекомендации от пользователя.
Финальное Ранжирование:
- Основная сортировка: по Оценке элемента (по убыванию – чем чаще, тем лучше).
- Вторичная сортировка (Тай-брейкер): по Среднему связанному рангу (по возрастанию – чем ниже ранг/выше позиция, тем лучше).
Выдача: Передача сформированного списка рекомендаций пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Исторические/Агрегированные): Основной источник данных. Используются логи поисковых запросов (Пользовательские запросы) от множества пользователей.
Контентные факторы: Содержимое элементов в пуле контента. Эти данные используются Алгоритмом ранжирования для определения базовой релевантности запросу.
Географические и Временные факторы (Контекст): Используется контекст исторических запросов (дата, время, местоположение) для повышения точности определения релевантности.

Какие метрики используются и как они считаются

Система использует две ключевые метрики для финального ранжирования:

Оценка элемента (Element Score) – Метрика Частоты/Охвата:
- Как считается: Агрегация по всем сгенерированным спискам прогнозов (после усечения Top-N). Рассчитывается как частота появления.
- $$ \text{Element Score}(i) = \frac{\text{Количество списков, содержащих элемент } i}{\text{Общее количество списков (запросов)}} $$
- Как используется: Основной фактор ранжирования.
Средний связанный ранг (Average Associated Rank) – Метрика Качества/Позиции:
- Как считается: Среднее арифметическое рангов элемента в тех списках, где он присутствует.
- $$ \text{Average Rank}(i) = \frac{\sum \text{Рангов элемента } i}{\text{Количество списков, содержащих элемент } i} $$
- Как используется: Вторичный фактор ранжирования (Tie-breaker).

Алгоритмы машинного обучения: Для определения базовой релевантности используется обученный Алгоритм Ранжирования (упомянуты нейронные сети, деревья решений и др.).

Выводы

Рекомендации основаны на коллективном поиске: Яндекс использует агрегированную историю поискового поведения всей аудитории как мощный сигнал для формирования базовой ленты рекомендаций (Дзен). Это позволяет выявлять универсально релевантный контент и решать проблему «холодного старта».
Приоритет широкой релевантности над нишевой: Система явно отдает предпочтение контенту, который релевантен максимальному количеству разнообразных реальных поисковых запросов. Узконишевой контент имеет меньше шансов на высокое ранжирование по этому алгоритму.
Двухфакторная модель ранжирования рекомендаций: Успех контента определяется двумя ключевыми метриками:
1. Частота (Оценка элемента): Насколько часто контент попадает в топ по разным запросам (Охват).
2. Качество (Средний связанный ранг): Насколько высокие позиции он занимает, когда попадает в топ (Сила релевантности).
Важность попадания в Top N (Порог списка): Механизм усечения означает, что недостаточно быть просто релевантным запросу; необходимо попадать в верхнюю часть выдачи (Top N) в симуляции, чтобы это было учтено в Оценке элемента.
Оптимизация под Дзен требует иного подхода, чем SEO: Стратегия оптимизации смещается с фокусировки на конкретном кластере ключевых слов на максимизацию охвата и релевантности по широкому полю поискового спроса.

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию контента для получения трафика из рекомендательных систем Яндекса (Дзен).

Создание контента с широким охватом (Broad Appeal): Фокусируйтесь на темах, которые отвечают на множество популярных и разнообразных поисковых запросов. Чем шире охват интентов, тем выше потенциальная Оценка элемента (частота).
Развитие Topical Authority и создание контента типа «Hub»: Статьи, агрегирующие информацию, и материалы от авторитетных источников имеют высокую вероятность быть релевантными большому количеству запросов и занимать высокие позиции в симуляциях.
Максимизация качества и глубины проработки: Контент должен быть не просто широким, но и высококачественным. Глубокая проработка темы и соответствие интентам необходимы для достижения низкого (хорошего) Среднего связанного ранга, что критично для финального ранжирования.
Учет ситуативного контекста и трендов: Поскольку система учитывает контекст запросов (время, место), создание своевременного и актуального контента, отвечающего текущим трендам и событиям, повышает шансы на попадание в рекомендации.

Worst practices (это делать не надо)

Создание узконишевого контента (для целей широких рекомендаций): Контент, который релевантен очень малому числу поисковых запросов, получит низкую Оценку элемента и не будет активно рекомендоваться этим алгоритмом.
Поверхностный или «тонкий» контент: Даже если тема широкая, поверхностный материал будет иметь плохой Средний связанный ранг (низкие позиции в симуляции) и уступит более качественным конкурентам.
Игнорирование поискового поведения: Попытки продвигать контент, не основанный на реальном поисковом спросе, будут неэффективны, так как система опирается именно на исторические запросы.

Стратегическое значение

Патент подтверждает стратегическую синергию между Поиском Яндекса и его рекомендательными сервисами (Дзен). Поисковые данные являются фундаментом для понимания интересов аудитории в масштабе. Для SEO-специалистов это означает необходимость рассматривать Дзен не как социальную платформу, а как систему дистрибуции контента, управляемую поисковыми алгоритмами и данными. Стратегия должна включать создание высококачественного контента, отвечающего на широкий реальный поисковый спрос.

Практические примеры

Сценарий: Сравнение трех статей в системе рекомендаций

Предположим, система анализирует 1000 исторических запросов.

Статья А: «Лучшие смартфоны 2025 года: Обзор и Рейтинг»

Появилась в 300 из 1000 списков (релевантна запросам типа «какой телефон купить», «обзор iPhone», «рейтинг Samsung»).
Element Score: 300/1000 = 0.3
Average Associated Rank: В среднем занимала 2-е место. Средний ранг = 2.0.

Статья Б: «Как правильно чистить кофемашину Delonghi»

Появилась в 50 из 1000 списков (релевантна только узким запросам).
Element Score: 50/1000 = 0.05
Average Associated Rank: Всегда была на 1-м месте. Средний ранг = 1.0.

Статья В: «Что приготовить на ужин: 10 быстрых рецептов»

Появилась в 300 из 1000 списков.
Element Score: 300/1000 = 0.3
Average Associated Rank: В среднем занимала 5-е место. Средний ранг = 5.0.

Результат ранжирования в рекомендациях:

Статья А (Score 0.3, Rank 2.0) — Высокая частота, отличный средний ранг.
Статья В (Score 0.3, Rank 5.0) — Высокая частота, но средний ранг хуже, чем у А (тай-брейкер).
Статья Б (Score 0.05, Rank 1.0) — Отличный средний ранг, но слишком низкая частота (Element Score).

Вывод: Система предпочтет Статью А, так как она демонстрирует оптимальный баланс широкой релевантности и высокого качества.

Вопросы и ответы

Этот патент описывает работу основного поиска Яндекса?

Нет. Патент описывает механизм работы системы рекомендаций контента (например, Дзен), а не алгоритм ранжирования в основном веб-поиске. Он объясняет, как Яндекс генерирует ленту интересного контента, основываясь на агрегации исторических данных поиска, а не на текущем запросе пользователя.

Что такое «Оценка элемента» (Element Score) и почему это самая важная метрика?

«Оценка элемента» — это показатель того, насколько часто данный контент признается релевантным (попадает в Топ-N) для различных исторических поисковых запросов. Это основная метрика ранжирования в этой системе. Она отражает широту охвата и универсальную популярность контента: чем выше оценка, тем выше контент будет в рекомендациях.

Что такое «Средний связанный ранг» (Average Associated Rank) и когда он используется?

Это средняя позиция, которую контент занимал в сгенерированных списках прогнозов. Эта метрика используется как «tie-breaker» (разрешение коллизий), когда несколько документов имеют одинаковую «Оценку элемента». В этом случае предпочтение отдается документу с более низким (лучшим) средним рангом, что свидетельствует о более сильной релевантности.

Если мой контент очень качественный и всегда в Топ-1 по своим запросам, он гарантированно попадет в рекомендации?

Не гарантированно. Высокое качество (низкий Средний ранг) является важным, но вторичным фактором. Если ваш контент релевантен только очень малому числу запросов (низкая Оценка элемента/частота), он, скорее всего, уступит место контенту, который имеет более широкий охват (высокая Оценка элемента), даже если его средний ранг немного хуже.

Как этот патент влияет на стратегию продвижения в Дзене?

Стратегия должна фокусироваться на создании контента, который отвечает на множество реальных потребностей пользователей и покрывает широкий спектр запросов. Необходимо сочетать широту охвата темы (для максимизации Оценки элемента) и глубину проработки (для минимизации Среднего связанного ранга).

Учитывает ли эта система персонализацию пользователя?

Конкретно этот патент описывает механизм генерации рекомендаций, основанный на агрегации данных от МНОЖЕСТВА пользователей, а не на анализе профиля конкретного пользователя. Он фокусируется на выявлении глобально релевантного контента и решении проблемы «холодного старта», хотя на практике он может сочетаться со слоями персонализации.

Что означает «Контекст запроса» и как он используется?

Контекст включает время, дату и местоположение, откуда был сделан исторический запрос. Система использует эту информацию при определении релевантности контента. Это позволяет учитывать сезонность, актуальность и локальные особенности при оценке контента.

Что такое «Порог списка» (Укорачивание списка) и зачем он нужен?

Это механизм оптимизации (например, Топ-100). Чтобы снизить вычислительную нагрузку и сфокусироваться только на высокорелевантных результатах, система обрезает промежуточные ранжированные списки. Если контент не попадает выше этого порога, он не учитывается в дальнейшей агрегации для данного запроса.

Может ли старый контент попасть в рекомендации по этому алгоритму?

Да. Если контент является «вечнозеленым» и остается релевантным для исторических запросов, он может стабильно получать высокую «Оценку элемента». Однако для трендовых тем система может предпочесть более свежий контент, если он лучше соответствует недавним запросам и их контексту (времени).

Как SEO-специалисту использовать эти знания на практике?

Используйте эти знания для разработки контент-стратегии, направленной на трафик из рекомендательных систем (Дзен). Создавайте качественный контент, который покрывает широкие темы и отвечает на множество связанных запросов. Развивайте Topical Authority, чтобы повысить базовую релевантность вашего контента в глазах ML-модели (Алгоритма Ранжирования), что приведет к лучшим агрегированным показателям.