Как Яндекс балансирует релевантность и гарантированные показы в рекомендательных системах (например, Дзен)

Яндекс патентует механизм ранжирования для рекомендательных систем (например, Яндекс.Дзен). Система балансирует показ персонализированного контента с необходимостью обеспечить гарантированное минимальное число показов для авторов платформы («нативный контент»). Для этого в ранжировании учитываются «Параметр Релевантности» и «Параметр Завершения» (насколько выполнен план по показам). Менее релевантный контент может ранжироваться выше, если ему не хватает показов до выполнения квоты.

Описание

Какую задачу решает

Патент решает задачу оптимизации работы рекомендательной системы (в тексте упоминается Яндекс.Дзен). Ключевая проблема — необходимость сбалансировать два конфликтующих требования: (1) предоставлять пользователю максимально персонализированный и релевантный контент для улучшения его опыта и (2) выполнять бизнес-обязательства перед авторами, публикующими контент напрямую на платформе (нативные источники), гарантируя им минимальное количество показов (квоту). Изобретение призвано найти оптимальное взаимодействие между этими факторами без отрицательного эффекта на опыт пользователя.

Что запатентовано

Запатентован способ и система ранжирования контента в рекомендательной ленте, который учитывает не только релевантность контента пользователю, но и степень выполнения квот на показы. Суть изобретения — введение в формулу ранжирования двух ключевых метрик для «нативного» контента: Параметра Релевантности (Relevance Parameter) и Параметра Завершения (Completion Parameter). Финальное ранжирование основывается на комбинации этих двух параметров.

Как это работает

Когда система формирует ленту, она отбирает кандидатов. Для «нативного» контента существует Фактор Показов (минимальная квота). Система вычисляет Параметр Релевантности для всех кандидатов (используя ML и профиль пользователя). Для нативного контента также вычисляется Параметр Завершения (сколько показов не хватает до квоты). Финальная Оценка Ранжирования для нативного контента зависит от обоих параметров (например, путем их перемножения). Это позволяет контенту, которому не хватает показов, получить буст и обогнать даже более релевантный контент, чья квота уже выполнена. Внешний (ненативный) контент ранжируется только по релевантности, после чего происходит смешивание (Blending).

Актуальность для SEO

Высокая (для рекомендательных платформ). Баланс между удовлетворением пользователей (релевантность) и мотивацией создателей контента (гарантированная видимость, монетизация) является центральной задачей для современных платформ с алгоритмическими лентами (Дзен, социальные сети).

Важность для SEO

Влияние на классическое SEO (веб-поиск) минимальное (3/10). Патент не описывает работу основного поиска Яндекса. Однако для специалистов, занимающихся оптимизацией контента внутри рекомендательных систем (например, Дзен), влияние критическое (9/10). Патент раскрывает, что в таких системах релевантность не является единственным фактором; бизнес-правила (квоты показов) напрямую интегрированы в алгоритм ранжирования и могут переопределять чистую релевантность.

Детальный разбор

Термины и определения

Нативный элемент содержимого (Native content item): Контент, опубликованный авторами («блогерами») непосредственно с помощью системы рекомендаций в качестве платформы,. Для него могут устанавливаться квоты показов.
Ненативный (Внешний) элемент содержимого (Non-native content item): Контент из внешних источников (веб-сайты, новостные агентства), агрегированный системой рекомендаций,. Ранжируется только по релевантности.
Фактор Показов (Impression Factor): Квота. Указывает на необходимое минимальное число показов контента из конкретного нативного канала за определенный период времени (например, день или неделя).
Параметр Релевантности (Relevance Parameter): Оценка того, насколько элемент контента интересен конкретному пользователю. Может представлять собой прогнозируемую вероятность клика (pClick). Вычисляется с помощью ML-моделей.
Параметр Завершения (Completion Parameter): Метрика, представляющая степень выполнения квоты (Фактора Показов) для данного нативного канала. Может выражаться как абсолютное число оставшихся показов или процент выполнения.
Оценка Ранжирования (Ranking Score): Финальная оценка для сортировки. Для нативного контента вычисляется на основе Параметра Релевантности и Параметра Завершения.
Присущие содержимому факторы (Inherent content factors): Характеристики самого элемента контента: автор, длина, тема, исторический CTR и т.д..
Присущие каналу факторы (Inherent channel factors): Характеристики источника контента: общее число пользователей канала; статистика кликов пользователей по контенту этого канала (например, доля кликов).
Алгоритм Смешивания (Blending Algorithm): Алгоритм, который объединяет и взаимно ранжирует результаты из списков нативного и ненативного контента для формирования финальной ленты.

Ключевые утверждения (Анализ Claims)

Патент защищает метод балансировки релевантности и обязательств по показам в рекомендательной системе.

Claim 1 (Независимый пункт): Описывает основной способ работы системы.

Система получает запрос на рекомендацию.
Выбирается набор кандидатов (Элемент 1, Элемент 2).
Для каждого кандидата известны: (i) Фактор Показов (квота для его канала) и (ii) Факторы элемента содержимого.
Вычисляется Параметр Релевантности для каждого элемента.
Вычисляется Параметр Завершения для каждого элемента (степень выполнения квоты).
Критически важно: Ранжирование выполняется алгоритмом на основе И Параметра Релевантности, И Параметра Завершения.
Создается и передается рекомендация.

Claim 5 (Зависит от 1): Конкретизирует механизм ранжирования.

Для каждого элемента определяется Оценка Ранжирования на основе его Параметра Релевантности и Параметра Завершения.
Элементы ранжируются на основе сравнения этих Оценок Ранжирования.

(В описании патента приведен пример расчета Оценки Ранжирования как произведения этих двух параметров).

Claims 7 и 8 (Зависимые): Описывают методы определения релевантности с использованием Машинного Обучения (ML).

Claim 7: Релевантность определяется ML-алгоритмом на основе факторов контента и Профиля интереса пользователя (история браузера, поиска и т.д.).
Claim 8: Описывает метод расчета релевантности на основе Присущих каналу факторов. Система анализирует историческое поведение пользователей на канале (число кликов), строит гистограмму распределения пользователей по доле кликов. Затем ML-алгоритм прогнозирует, в какую группу попадет текущий пользователь, сравнивая его профиль с профилями пользователей в этих группах.

Claim 9 и 10 (Зависимые): Описывают архитектуру многоступенчатого ранжирования и смешивания.

Система различает Нативные элементы (имеют квоты) и Ненативные элементы (без квот) (Claim 9).
Ранжирование происходит в несколько этапов (Claim 10):
- Первый Алгоритм ранжирует нативный контент (Релевантность + Завершение).
- Второй Алгоритм ранжирует ненативный контент (только Релевантность).
- Алгоритм Смешивания объединяет и взаимно ранжирует элементы из обоих списков.

Где и как применяется

Важно понимать, что этот патент относится не к основному веб-поиску Яндекса, а к его Системам Рекомендаций (например, Дзен).

В архитектуре рекомендательной системы патент затрагивает следующие слои:

Сбор и Индексация Данных (Data Acquisition & Indexing)
Система собирает нативный и ненативный контент. На этом этапе рассчитываются статические характеристики контента и каналов (Факторы Элемента Содержимого). Также система хранит бизнес-требования — Факторы Показов (квоты) для нативных каналов.

Понимание Пользователя (User Understanding / Profiling)
При получении запроса система анализирует Профиль Интереса Пользователя (история поиска, браузинга, взаимодействий с лентой).

Ранжирование (Ranking)
Это основной этап применения патента (Фиг. 3). Процесс разделен на несколько стадий:

Расчет Релевантности (Процедура 304): Для всех кандидатов вычисляется Параметр Релевантности с использованием ML-моделей (Первый 312 или Второй 313).
Расчет Завершения (Процедура 306): Для нативных кандидатов вычисляется Параметр Завершения путем сравнения текущих/прогнозируемых показов с квотой.
Ранжирование (Процедура 307): Нативный контент ранжируется Первым Алгоритмом (318) (Релевантность + Завершение). Ненативный контент ранжируется Вторым Алгоритмом (320) (только Релевантность).

Смешивание (Blending)
Алгоритм Смешивания (322) объединяет два ранжированных списка в финальную ленту рекомендаций.

На что влияет

Типы контента: Наибольшее влияние оказывается на нативный контент (публикации авторов внутри платформы). Механизм напрямую управляет их видимостью для выполнения квот.
Внешние сайты (Ненативный контент): Влияние косвенное. Внешние сайты ранжируются только по релевантности, но они конкурируют за место в ленте с нативным контентом, который может получать буст из-за невыполненных квот.
Распределение трафика: Алгоритм может перераспределять показы в пользу каналов, которые не достигли своей квоты, за счет более релевантных каналов, которые ее уже выполнили.

Когда применяется

Алгоритм применяется при каждом запросе пользователя на формирование ленты рекомендаций.

Условие активации буста: Механизм бустинга через Параметр Завершения активируется только для нативного контента и только в том случае, если соответствующий канал еще не достиг своей квоты (Фактора Показов) за установленный период времени.
Пороговые значения (Safeguards): В патенте предусмотрены ограничивающие меры. Если разница в релевантности между двумя элементами слишком велика (превышает порог), система может предпочесть более релевантный, игнорируя Параметр Завершения, чтобы не ухудшать пользовательский опыт.

Пошаговый алгоритм

Процесс создания ленты рекомендаций:

Получение Запроса и Профилирование: Система получает запрос и извлекает Профиль Интереса Пользователя.
Выбор Кандидатов: Отбирается набор потенциально релевантных элементов (нативных и ненативных).
Расчет Параметра Релевантности: Для каждого кандидата вычисляется Параметр Релевантности с помощью ML-моделей (учитывая факторы контента, канала и профиль пользователя).
Расчет Параметра Завершения (Только для Нативных):
1. Извлекается Фактор Показов (квота) для канала элемента.
2. Определяется актуальное или прогнозируемое значение показов канала.
3. Вычисляется Параметр Завершения (например, количество оставшихся показов).
Ранжирование Нативного Контента (Первый Алгоритм):
1. Вычисляется Оценка Ранжирования как функция от Релевантности и Завершения. Пример из патента: $Score = Relevance imes Completion$.
2. Применяются ограничивающие меры (пороги).
3. Элементы сортируются по Оценке Ранжирования.
Ранжирование Ненативного Контента (Второй Алгоритм): Элементы сортируются только по Параметру Релевантности.
Смешивание (Blending): Алгоритм Смешивания объединяет два списка, используя нормализованные оценки или заранее определенные паттерны.
Финальный Отбор и Передача: Выбирается Топ-K результатов для показа пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Взаимодействия пользователя с контентом (клики, лайки/дизлайки, время взаимодействия, прокрутки). Агрегированные поведенческие данные по каналу (доля кликов пользователей на контенте канала).
Контентные факторы (Присущие содержимому): Автор, длина документа, категория/тема, исторический показатель кликабельности (CTR).
Временные факторы: Период времени для выполнения квоты. Время дня/день недели (используется для прогнозирования показов).
Пользовательские факторы: История браузера, история поисковых запросов, местоположение.
Бизнес-факторы (Системные): Фактор Показов (квота) для нативных каналов. Актуальное значение показов канала.

Какие метрики используются и как они считаются

Параметр Релевантности: Вычисляется с помощью алгоритмов машинного обучения (ML). Патент описывает два подхода:
- Первый ML Алгоритм (312): Основан на присущих содержимому факторах и профиле пользователя. Вероятно, прогнозирует CTR.
- Второй ML Алгоритм (313): Основан на присущих каналу факторах. Анализирует гистограмму долей кликов предыдущих пользователей канала. Определяет средний профиль пользователей для каждой группы вовлеченности и прогнозирует, к какой группе относится текущий пользователь.
Параметр Завершения: Вычисляется путем сравнения Фактора Показов (квоты) с актуальным или прогнозируемым значением показов.
Оценка Ранжирования (Ranking Score) для Нативного Контента: Функция от Параметра Релевантности и Параметра Завершения. В патенте приведен конкретный пример расчета путем умножения:
$$Оценка Ранжирования = Параметр Релевантности \times Параметр Завершения$$
Также упоминаются другие функции, например, линейные комбинации.
Пороги (Thresholds): Используются как ограничивающие меры (safeguards). Если разница в релевантности превышает порог, Параметр Завершения может игнорироваться.

Выводы

Патент относится к Рекомендательным Системам (Дзен), а не к Веб-поиску: Описанные механизмы не применимы к ранжированию в основном поиске Яндекса.
Баланс между Релевантностью и Бизнес-целями: Яндекс активно управляет ранжированием для выполнения бизнес-обязательств (гарантированные показы авторам), даже если это идет вразрез с сиюминутной релевантностью для пользователя.
Параметр Завершения как бустер ранжирования: Ключевой механизм — использование степени выполнения квоты показов (Параметр Завершения) как множителя (или иного фактора) в формуле ранжирования. Чем дальше канал от выполнения квоты, тем сильнее буст.
Релевантность не абсолютна: Менее релевантный контент может обогнать более релевантный. Пример из патента: Элемент с релевантностью 60 и завершением 20 (Скор 1200) обгоняет элемент с релевантностью 80 и завершением 10 (Скор 800).
Наличие предохранителей (Safeguards): Система использует пороги, чтобы предотвратить бустинг совсем нерелевантного контента и защитить пользовательский опыт.
Важность метрик на уровне канала: Релевантность оценивается не только по контенту, но и по каналу. Учитывается, как похожие пользователи исторически взаимодействовали с контентом этого канала (анализ гистограмм долей кликов).

Практика

ВАЖНО: Патент описывает внутренние процессы рекомендательной системы Яндекс (например, Дзен), а не алгоритмы ранжирования основного веб-поиска. Приведенные ниже рекомендации относятся к стратегиям продвижения внутри рекомендательной платформы.

Best practices (это мы делаем)

Для Нативных Каналов (Ведение блога внутри платформы):
- Фокус на качестве и релевантности обязателен: Несмотря на гарантированные показы, Параметр Релевантности является ключевым компонентом формулы (множителем). Если релевантность низкая, даже большой буст от Параметра Завершения не даст высокого ранга. Также помните о предохранителях.
- Повышение вовлеченности на уровне канала: Система анализирует, как пользователи взаимодействуют с каналом в целом (Присущие каналу факторы). Важно формировать лояльные сегменты аудитории и стимулировать повторные взаимодействия, так как это улучшает показатели в ML-модели релевантности (Второй Алгоритм 313).
- Стабильность публикаций: Регулярная публикация качественного контента позволяет эффективнее использовать механизм гарантированной видимости и поддерживать здоровье канала.
Для Внешних Сайтов (Продвижение сайта через рекомендации):
- Максимизация Релевантности и CTR: Внешние сайты (Ненативный контент) ранжируются только по Параметру Релевантности. Критически важны яркие заголовки, привлекательные изображения и точное попадание в интересы пользователя для максимизации pCTR.
- Учет усиленной конкуренции: Внешний сайт конкурирует на этапе смешивания с нативным контентом, который может иметь искусственный буст из-за квот. Релевантность внешнего сайта должна быть исключительно высокой, чтобы выиграть эту конкуренцию.

Worst practices (это делать не надо)

Надеяться только на гарантированные показы: Создание низкокачественного контента в нативном канале в расчете на то, что система «обязана» его показать. Это приведет к низкому Параметру Релевантности и плохим общим результатам.
Кликбейт низкого качества: Хотя CTR является одним из факторов, система учитывает и другие сигналы взаимодействия. Быстрые отказы негативно скажутся на долгосрочной релевантности канала.
Игнорирование анализа аудитории канала: Фокусировка только на метриках отдельных статей без понимания общих паттернов поведения аудитории на канале. Система оценивает релевантность, в том числе, и на уровне канала.

Стратегическое значение

Патент подтверждает, что рекомендательные системы являются средой с управляемым ранжированием, где алгоритмы напрямую обслуживают бизнес-модель платформы (мотивация авторов). Ранжирование здесь — это компромисс между тем, что хочет видеть пользователь, и тем, что должна показать платформа. Для специалистов это означает, что оптимизация под Дзен требует понимания правил игры платформы и фокуса на метриках вовлеченности, а не на классических SEO-факторах.

Практические примеры

Сценарий: Балансировка релевантности и квот в Дзене

Рассмотрим два нативных канала, у каждого квота (Фактор Показов) 1000 показов в день. К середине дня сложилась следующая ситуация:

Статья А (Канал 1): Высокая релевантность пользователю (Параметр Релевантности = 80). Канал 1 уже получил 900 показов. Параметр Завершения (осталось показов) = 100.
Статья Б (Канал 2): Средняя релевантность пользователю (Параметр Релевантности = 60). Канал 2 получил только 200 показов. Параметр Завершения = 800.

Расчет Оценки Ранжирования (по методу умножения из патента):

Оценка А = 80 * 100 = 8000
Оценка Б = 60 * 800 = 48000

Результат: Несмотря на то, что Статья А более релевантна пользователю, Статья Б будет показана значительно выше в ленте, так как системе необходимо срочно выполнить квоту для Канала 2. Система предпочитает выполнить бизнес-обязательство, жертвуя краткосрочной релевантностью.

Вопросы и ответы

Применяется ли этот патент в основном поиске Яндекса?

Нет. Патент явно описывает способ и систему для создания «рекомендации цифрового содержимого» и приводит в пример Яндекс.Дзен. Описанные механизмы, в частности учет квот на показы (Фактор Показов), специфичны для бизнес-модели рекомендательных платформ и не применяются в ранжировании органического веб-поиска.

Что такое «Нативный» и «Ненативный» контент в контексте этого патента?

«Нативный» контент создается и публикуется авторами непосредственно на платформе рекомендательной системы (например, блог ведется внутри Дзена). «Ненативный» контент — это материалы внешних веб-сайтов (новостных ресурсов, сторонних блогов), которые система агрегирует. Ключевое отличие в том, что механизм гарантированных показов (квоты) применяется только к нативному контенту.

Что такое «Параметр Завершения» и как он влияет на ранжирование?

«Параметр Завершения» (Completion Parameter) — это метрика, которая показывает статус выполнения гарантированной квоты показов для нативного канала. В формуле ранжирования он часто выступает как множитель для Параметра Релевантности. Если каналу сильно не хватает показов до выполнения квоты, этот параметр увеличивается, давая контенту значительный буст в ранжировании.

Может ли некачественный или нерелевантный контент ранжироваться высоко из-за этого механизма?

Да, менее релевантный контент может обогнать более релевантный, если ему нужно добрать показы. Однако, если релевантность очень низкая, буст может не помочь. Кроме того, в патенте предусмотрены ограничивающие меры (пороги), чтобы предотвратить показ совершенно нерелевантного контента и защитить пользовательский опыт.

Как рассчитывается финальная Оценка Ранжирования?

Патент предлагает несколько вариантов. Основной пример — это перемножение Параметра Релевантности и Параметра Завершения. Также могут использоваться другие функции, например, линейные комбинации или пороговые правила, когда один параметр может переопределить другой при достижении критических значений.

Как система рассчитывает Параметр Релевантности?

Используются ML-модели и Профиль интересов пользователя. Патент описывает два типа факторов: Присущие содержимому (тема, автор, CTR статьи) и Присущие каналу. Во втором случае система анализирует исторические данные о том, как разные группы пользователей кликали на контент этого канала (гистограммы кликов), и прогнозирует поведение текущего пользователя.

Как автору контента на платформе (например, в Дзене) использовать это знание?

Главный вывод — необходимо максимизировать Параметр Релевантности (работать над CTR, вовлеченностью, дочитываниями). Это фундамент. Понимание механизма квот объясняет, почему иногда показы резко растут или падают независимо от качества конкретной статьи — система управляет выполнением своих обязательств. Также важна работа над общим качеством и вовлеченностью на уровне всего канала.

Влияет ли время суток на ранжирование в этой системе?

Да, косвенно. Патент упоминает, что для расчета Параметра Завершения может использоваться прогнозирование будущих показов (Прогнозируемый параметр завершения), которое учитывает время дня и ожидаемую активность пользователей. Это позволяет системе более гибко управлять выполнением квот в течение дня.

Что происходит, если квота канала уже выполнена?

Если квота выполнена, Параметр Завершения будет низким (или нулевым, если он выражен как остаток показов). В этом случае Оценка Ранжирования будет зависеть преимущественно от Параметра Релевантности. Контент будет конкурировать на общих основаниях, без дополнительного буста от системы квот.

Как происходит смешивание контента с квотами и без них?

Система использует два разных алгоритма. Первый ранжирует Нативный контент (с квотами), используя Релевантность + Завершение. Второй ранжирует Ненативный контент (без квот), используя только Релевантность. Затем специальный Алгоритм Смешивания (Blender) объединяет эти два списка в финальную ленту.