Как Яндекс балансирует релевантность контента и обязательства по показам перед авторами в рекомендательных системах (например, Дзен)

Патент Яндекса описывает механизм ранжирования для рекомендательных систем (например, Дзен). Система учитывает не только релевантность контента пользователю (Relevancy Parameter), но и обязательства платформы по минимальному количеству показов для авторов (Completion Parameter). Если канал отстает от графика выполнения квоты показов, его контент может получить приоритет в ранжировании для достижения баланса интересов пользователей и издателей.

Описание

Какую задачу решает

Патент решает задачу балансировки конфликтующих целей в рекомендательных системах (в тексте упоминается Yandex.Zen): (1) предоставление пользователю максимально релевантного контента для его удержания и удовлетворенности, и (2) выполнение обязательств платформы перед создателями нативного контента (Native Sources или Content Channels) по гарантированному минимальному количеству показов их материалов (Minimum Display Value). Проблема в том, как выполнить эти квоты, не снижая общее качество рекомендательной ленты.

Что запатентовано

Запатентована система и метод ранжирования контента в рекомендательной ленте. Суть изобретения — введение в формулу ранжирования двух ключевых компонентов: Relevancy Parameter (оценка релевантности контента пользователю) и Completion Parameter (оценка степени выполнения обязательств по показам перед каналом). Итоговый ранг (Ranking Score) определяется на основе обоих параметров.

Как это работает

Система отбирает кандидатов для показа. Для нативного контента рассчитываются два параметра. Relevancy Parameter оценивает интерес пользователя к контенту, используя сложные ML-модели. Completion Parameter оценивает, сколько показов не хватает каналу до достижения гарантированного минимума, используя текущие данные и предиктивную аналитику. Алгоритм ранжирования объединяет оба параметра (например, перемножая их). Если канал отстает от графика показов, его контент получает буст в ранжировании.

Актуальность для SEO

Высокая (для рекомендательных платформ). Управление балансом между вовлеченностью пользователей и стимулированием авторов (через гарантии охвата) является центральной задачей для современных рекомендательных систем, таких как Дзен. Описанный механизм является ключевым элементом управления экономикой таких платформ.

Важность для SEO

Влияние на традиционное SEO минимальное (2/10). Патент не описывает алгоритмы основного веб-поиска Яндекса. Он строго сфокусирован на внутренних механизмах ранжирования в рекомендательных системах (например, Дзен). Однако для специалистов, занимающихся оптимизацией контента внутри этих платформ, понимание этого патента критически важно, так как он объясняет, как система распределяет показы и почему релевантность не является единственным фактором.

Детальный разбор

Термины и определения

Completion Parameter (Параметр завершенности/выполнения): Метрика, представляющая степень выполнения обязательств по показам для конкретного Content Channel. Отражает необходимость в дополнительных показах для достижения квоты.
Content Channel (Канал контента): Источник контента. Различаются Native Sources (нативные источники, например, блогеры на платформе) и External Sources (внешние сайты).
Content Item Features (Признаки элемента контента): Характеристики, используемые для расчета релевантности. Включают Content-inherent features (автор, тема, длина, CTR) и Channel-inherent features (общая статистика вовлеченности аудитории канала).
Display Feature (Признак показа): Характеристика канала, указывающая на требуемое количество показов его контента за определенный период времени.
Minimum Display Value (Минимальное значение показов): Квота показов. Минимальное количество раз, которое контент из данного канала должен быть показан (значение Display Feature).
Predictive Completion Parameter (Прогнозируемый параметр выполнения): Прогнозное количество показов контента из канала в течение оставшегося времени периода, основанное на текущих темпах показа и исторических паттернах (например, суточных колебаниях активности).
Ranking Score (Оценка ранжирования): Итоговая оценка для упорядочивания контента. Для нативного контента рассчитывается на основе Relevancy Parameter и Completion Parameter.
Relevancy Parameter (Параметр релевантности): Метрика, оценивающая релевантность контента пользователю, основанная на Content Item Features и User Interest Profile.
Up-to-date Displayed Value (Текущее значение показов): Фактическое количество показов контента из канала, уже выполненное системой с начала отчетного периода.

Ключевые утверждения (Анализ Claims)

Патент защищает метод ранжирования, который интегрирует бизнес-обязательства (квоты показов) непосредственно в алгоритм рекомендаций.

Claim 1 (Независимый пункт, с учетом деталей из описания): Описывает основной процесс генерации рекомендации.

Система получает запрос и генерирует/извлекает профиль интересов пользователя (User Interest Profile), представленный в виде векторов.
Выбирается набор кандидатов из разных каналов.
Для каналов определяется Display Feature (минимальная квота показов за период).
Вычисляется Relevancy Parameter. Патент детализирует сложный метод расчета:
- Анализируется история взаимодействий пользователей с каналом и создается гистограмма, разделяющая пользователей на подгруппы по частоте кликов (Clicked Rate).
- Для каждой подгруппы рассчитывается средний профиль интересов (Average User Profile).
- Relevancy Parameter определяется на основе степени схожести профиля текущего пользователя с этими средними профилями.
Вычисляется Completion Parameter. Этот параметр определяется путем:
- Определения текущего количества показов (Up-to-date Displayed Value).
- Определения прогнозируемого количества будущих показов (Predictive Completion Parameter) на основе исторических паттернов (например, время суток).
- Расчета разницы между квотой и суммой текущих и прогнозируемых показов.
Ранжирование (Ranking Algorithm) основывается на обоих параметрах: Relevancy и Completion. Рассчитывается Ranking Score.
Генерация и отправка рекомендации.

Claims, описывающие гибридную систему (например, Claim 12 и далее в описании): Детализируют обработку нативного и ненативного контента.

Система разделяет Нативный контент (с квотами) и Ненативный контент (без квот).
Нативный контент ранжируется с помощью First Ranking Algorithm (Relevancy + Completion).
Ненативный контент ранжируется с помощью Second Ranking Algorithm (только Relevancy).
Blending Algorithm используется для смешивания и взаимного ранжирования элементов из обоих потоков.

Где и как применяется

Патент применяется исключительно в рамках Рекомендательных Систем Яндекса (например, Дзен) и не относится к основному веб-поиску.

Этап Ранжирования Рекомендаций
Механизм применяется для определения порядка элементов в персонализированной ленте.

Взаимодействие компонентов:

Relevancy Determining Routine: Вычисляет Relevancy Parameter, используя ML-модели, профили пользователей и данные о поведении на канале (гистограммы).
Prediction Routine: Вычисляет Completion Parameter, используя данные о квотах и статистику показов (текущую и прогнозную).
Ranking Routine: Применяет алгоритмы ранжирования (First/Second Ranking Algorithms) и смешивания (Blending Algorithm).

Входные данные: User Interest Profile, набор кандидатов, Display Features (квоты), Content Item Features, исторические данные о показах и кликах.

Выходные данные: Отранированная лента рекомендаций.

На что влияет

Типы контента: Влияет преимущественно на Native Content — контент, опубликованный непосредственно на платформе авторами, для которых существуют гарантии показов. Non-Native Content (внешние сайты) ранжируется только по релевантности, но может быть вытеснен нативным контентом, получившим буст.
Баланс выдачи: Алгоритм напрямую управляет балансом между интересами пользователя (релевантность) и интересами платформы/авторов (выполнение квот).

Когда применяется

Условия применения: При каждом формировании ленты рекомендаций для пользователя.
Триггеры активации буста: Бустинг конкретного канала активируется, когда система (включая предиктивный модуль) определяет, что темп выполнения обязательств по показам недостаточен для достижения Minimum Display Value к концу периода.

Пошаговый алгоритм

Получение запроса и Профилирование: Система получает запрос и извлекает User Interest Profile (вектор интересов).
Отбор кандидатов: Выборка нативного и ненативного контента.
Расчет Релевантности (для всех): Вычисляется Relevancy Parameter. Используется сложный метод анализа гистограмм поведения пользователей на канале и сравнения профилей.
Расчет Завершенности (только для нативных):
1. Извлечение квоты (Minimum Display Value) и текущих показов (Up-to-date Displayed Value).
2. Расчет прогноза показов (Predictive Completion Parameter).
3. Вычисление Completion Parameter (мера недобора показов).
Ранжирование (Два потока):
- Нативный контент (First Ranking Algorithm): Расчет Ranking Score на основе Relevancy и Completion (например, их произведение).
- Ненативный контент (Second Ranking Algorithm): Расчет Ranking Score только на основе Relevancy.
Смешивание (Blending): Blending Algorithm объединяет и взаимно ранжирует результаты из двух потоков.
Генерация и Отправка: Формирование финальной ленты и отправка пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: История просмотров, поиска, взаимодействия пользователя (клики, лайки). Используются для генерации User Interest Profile. Также используются агрегированные данные о поведении всех пользователей на конкретном канале (Clicked Rate).
Контентные факторы (Content-inherent features): Автор, длина, тематика, исторический CTR.
Факторы канала (Channel-inherent features): Общее число пользователей канала, распределение кликов.
Системные/Бизнес-данные: Display Feature (квота показов), Up-to-date Displayed Value (текущая статистика).
Временные факторы: Используются для определения периода действия квоты и для прогнозирования будущих показов (анализ паттернов активности по времени).
Географические факторы: Местоположение устройства (упоминается как часть данных для профиля интересов).

Какие метрики используются и как они считаются

Relevancy Parameter: Вычисляется с помощью ML. Детально описан метод на основе анализа поведения на канале:
1. Группировка пользователей канала по Clicked Rate (создание гистограммы).
2. Расчет Average User Profile (средний вектор интересов) для каждой группы.
3. Определение схожести текущего пользователя с этими средними профилями для предсказания его поведения.
Completion Parameter: Рассчитывается как разница между квотой и суммой фактических и прогнозируемых показов.
Completion ≈ Minimum Display Value — (Up-to-date Displayed Value + Predictive Completion Parameter)
Ranking Score (для нативного контента): Функция от Relevancy (R) и Completion (C). В примере патента (Table 3) используется перемножение:

$$Score = R \times C$$

Могут использоваться и другие функции (например, линейная комбинация).

Выводы

Специфика рекомендательных систем: Патент описывает логику работы рекомендательной платформы (например, Дзен) и не применим к основному веб-поиску Яндекса.
Бизнес-факторы в ранжировании: Яндекс явно интегрирует бизнес-обязательства (гарантированные показы) в формулу ранжирования через Completion Parameter. Этот фактор может перевешивать чистую релевантность.
Механизм бустинга для выполнения квот: Контент из каналов, отстающих от графика показов, получает алгоритмический буст. Это может приводить к тому, что менее релевантный контент временно ранжируется выше.
Сложный расчет релевантности на основе поведения: Релевантность определяется не только анализом контента, но и сложным анализом поведенческих паттернов аудитории канала (гистограммы Clicked Rate) и сравнением профилей пользователей.
Предиктивное управление показами: Система использует прогнозные модели (Predictive Completion Parameter) для проактивного управления выполнением квот, учитывая временные паттерны активности.

Практика

Патент описывает инфраструктурные процессы внутри рекомендательной системы (Дзен). Он не дает прямых практических рекомендаций для SEO-специалистов, фокусирующихся на оптимизации сайтов для веб-поиска Яндекса.

Best practices (для авторов внутри рекомендательной системы, например, Дзен)

Фокус на вовлеченность и качество аудитории канала: Поскольку Relevancy Parameter рассчитывается на основе анализа поведения аудитории канала (Channel-inherent features), критически важно формировать лояльную и активную аудиторию. Система ищет пользователей, похожих на тех, кто уже активно взаимодействует с вашим каналом.
Приоритет релевантности: Несмотря на механизм квот, высокая релевантность остается ключевым фактором. Чем выше Relevancy Parameter, тем меньше канал зависит от искусственного буста через Completion Parameter.
Понимание динамики показов: Авторы должны понимать, что показы могут колебаться не только из-за качества контента, но и из-за необходимости платформы выполнять обязательства (перед вами или другими авторами). Если квота выполнена, показы могут замедлиться.

Worst practices (это делать не надо)

Применение выводов к веб-поиску: Ошибочно переносить логику гарантированных показов на органический поиск Яндекса. Это разные системы с разными принципами ранжирования.
Использование кликбейта для размытия аудитории: Привлечение нецелевых пользователей может ухудшить поведенческие метрики канала и негативно сказаться на расчете Relevancy Parameter, так как системе будет сложнее идентифицировать целевые профили пользователей.

Стратегическое значение

Патент подтверждает, что рекомендательные системы Яндекса являются сложной управляемой средой, где алгоритмы ранжирования напрямую учитывают экономические и платформенные факторы. Это демонстрирует фундаментальное различие между традиционным SEO и оптимизацией под рекомендательные платформы. Стратегия успеха в таких системах требует понимания того, как платформа балансирует интересы пользователей, авторов и свои собственные бизнес-цели.

Практические примеры

Практических примеров для применения в SEO нет, так как патент не относится к веб-поиску.

Пример работы алгоритма внутри рекомендательной системы (Дзен):

Система выбирает между двумя нативными статьями. Используется упрощенная формула Ranking Score = Relevancy * Completion.

Статья	Relevancy Parameter (R)	Completion Parameter (C) (Потребность в показах)	Ranking Score (R * C)
Статья А	0.8 (Высокая релевантность)	1.1 (Низкая потребность, квота почти выполнена)	0.88
Статья Б	0.6 (Средняя релевантность)	2.0 (Высокая потребность, отставание от квоты)	1.20

Результат: Система отранжирует Статью Б выше, несмотря на ее более низкую релевантность. Высокая потребность в показах (Completion Parameter) обеспечила ей более высокий итоговый балл, так как платформе необходимо выполнить обязательства перед автором Статьи Б.

Вопросы и ответы

Относится ли этот патент к ранжированию в основном поиске Яндекса?

Нет. Патент описывает метод генерации рекомендаций цифрового контента и специфичен для рекомендательных систем, таких как Дзен (Yandex.Zen упоминается в тексте патента). Механизмы, основанные на гарантированных показах (Completion Parameter), не применяются в алгоритмах ранжирования органического веб-поиска.

Что такое Completion Parameter и как он влияет на ранжирование?

Completion Parameter (Параметр завершенности) — это метрика, которая показывает, насколько платформа близка к выполнению своих обязательств по минимальному количеству показов перед конкретным каналом. Если канал отстает от графика показов, значение этого параметра увеличивается и действует как бустер в формуле ранжирования, повышая вероятность показа контента из этого канала.

Может ли менее релевантный контент обогнать более релевантный?

Да, в рамках этой системы. Если у менее релевантного контента значительно более высокий приоритет по Completion Parameter (т.е. платформе срочно нужно выполнить квоту по его показам), его итоговый Ranking Score может оказаться выше, чем у более релевантного контента, у которого обязательства уже выполнены.

Как рассчитывается итоговый Ranking Score?

Патент предлагает рассчитывать Ranking Score на основе Relevancy Parameter (R) и Completion Parameter (C). В одном из примеров в описании патента (Table 3) используется простое перемножение этих двух параметров (Score = R * C), хотя могут использоваться и другие функции (например, линейные комбинации).

Что такое нативный и ненативный контент в контексте патента?

Нативный контент (Native Content) создается авторами непосредственно на рекомендательной платформе (например, блогеры в Дзене). Для них устанавливаются квоты показов. Ненативный контент (Non-Native Content) агрегируется из внешних источников (веб-сайтов) и обычно ранжируется только по релевантности.

Как система рассчитывает Relevancy Parameter?

Описан сложный метод, основанный на поведении. Система анализирует историю канала, строит гистограмму кликабельности (Clicked Rate) прошлых пользователей, рассчитывает усредненные профили интересов для разных групп активности и предсказывает, как поведет себя текущий пользователь, основываясь на схожести профилей (User Interest Profile).

Использует ли система прогнозирование при управлении показами?

Да, это важная часть механизма. Система использует Predictive Completion Parameter — прогноз будущих показов на основе исторических данных (например, учитывая время суток или день недели). Это позволяет проактивно управлять выполнением обязательств, а не просто реагировать на текущее отставание.

Какие практические выводы из этого патента может сделать SEO-специалист?

Для классического SEO выводов нет. Но для продвижения в Дзене это критически важно: необходимо понимать, что показы зависят не только от качества контента, но и от выполнения платформой квот. Стратегически важно фокусироваться на максимальной вовлеченности на уровне канала (Channel-inherent features), чтобы повысить базовую релевантность.

Может ли этот алгоритм пессимизировать популярный контент?

Да. Если ваш контент быстро набрал необходимое минимальное количество показов (Minimum Display Value), его Completion Parameter снизится. В этом случае система может начать отдавать предпочтение другому контенту, который отстает от графика, даже если он менее релевантен.

Что такое Blending Algorithm?

Blending Algorithm (Алгоритм смешивания) используется для объединения двух отдельно ранжированных списков: нативного контента (ранжированного по Релевантность + Завершенность) и ненативного контента (ранжированного только по Релевантности). Он определяет финальный порядок элементов в ленте пользователя.