Яндекс патентует метод для динамической настройки пропорций различных типов контента (например, видео, статьи, нативный контент) в персонализированных рекомендательных лентах. Система сравнивает, как конкретный пользователь взаимодействует (CTR, время просмотра) с каждым типом контента относительно среднего пользователя. Если пользователь активнее потребляет определенный формат, система увеличивает его долю в ленте в рамках заданных ограничений.
Описание
Какую задачу решает
Патент решает задачу оптимизации состава (микса) персонализированной ленты рекомендаций (например, в Дзен). Он направлен на улучшение вовлеченности пользователя путем адаптации не только тематики контента, но и баланса его форматов. Система устраняет проблему неоптимального соотношения типов контента (например, слишком много видео или слишком мало статей), предлагая механизм адаптации этих пропорций на основе индивидуальных паттернов поведения пользователя в сравнении с общей аудиторией.
Что запатентовано
Запатентована система для определения специфичных для пользователя пропорций (User-Specific Proportions) различных типов контента в ленте рекомендаций. Суть изобретения заключается в сравнении индивидуальных метрик взаимодействия пользователя (User-Specific Interaction Parameter) с глобальным статистическим распределением этих метрик среди всех пользователей (Distribution of User Interaction Parameters). На основе этого сравнения система корректирует долю контента определенного типа в его персональной ленте, оставаясь в рамках предопределенных базовых интервалов (Base Intervals).
Как это работает
Система определяет допустимые диапазоны (Base Intervals) для типов контента (например, 0-30% видео). Затем она анализирует, как все пользователи взаимодействуют с видео (например, распределение времени просмотра — Dwell Time), и находит медианный уровень вовлеченности. Далее система сравнивает вовлеченность целевого пользователя с этой медианой. Если его Dwell Time выше медианы (он находится в верхнем перцентиле), система увеличивает долю видео в его ленте (двигаясь к 30%); если ниже — уменьшает ее.
Актуальность для SEO
Высокая. Персонализация не только тематик, но и форматов подачи контента является ключевым элементом современных рекомендательных систем (таких как Дзен, ленты соцсетей). Описанный механизм статистической адаптации пропорций контента крайне актуален для повышения вовлеченности и удержания пользователей.
Важность для SEO
Влияние на традиционное SEO для веб-поиска минимальное (1/10). Патент не описывает механизмы ранжирования в основном поиске Яндекса. Однако он имеет критическое значение (8/10) для оптимизации контент-стратегий, направленных на получение трафика из рекомендательных платформ Яндекса (например, Дзен), поскольку раскрывает механизм, определяющий видимость различных форматов контента.
Детальный разбор
Термины и определения
Важно понимать, что данный патент описывает работу рекомендательного сервиса (Content Recommendation Service), а не классического веб-поиска.
- Base Interval of Proportion (Базовый интервал пропорции)
- Предопределенные ограничения на долю определенного типа контента в ленте рекомендаций (например, Видео: 0%-30%).
- Central Distribution Parameter (Центральный параметр распределения)
- Статистическая мера центральной тенденции распределения взаимодействий всех пользователей. В патенте в качестве примера используется медиана (50-й перцентиль) распределения (Claim 5).
- Central Proportion (Центральная пропорция)
- Значение в Base Interval, которое соответствует Central Distribution Parameter. Обычно это медиана базового интервала (Claim 6) (например, 15% для интервала 0-30%).
- Content Type (Тип контента)
- Классификация контента по формату или источнику. Примеры из патента: текст, нативный контент (native), не-нативный контент (non-native), изображения, видео, аудио, погода.
- Displacement (Смещение)
- Разница между User-Specific Distribution Parameter (перцентилем пользователя) и Central Distribution Parameter (медианой). Определяет направление и величину корректировки пропорции.
- Distribution of User Interaction Parameters (Распределение параметров взаимодействия пользователей)
- Статистическое распределение, показывающее, как разные пользователи взаимодействуют с определенным типом контента (например, распределение CTR всех пользователей по статьям).
- User Interaction Parameter (Параметр взаимодействия пользователя)
- Метрика, измеряющая вовлеченность пользователя в контент. Патент упоминает Click-Through Rate (CTR) и Dwell Time (время пребывания/просмотра).
- User-Specific Distribution Parameter (Специфичный для пользователя параметр распределения)
- Показатель, определяющий позицию конкретного пользователя в общем распределении (Distribution of User Interaction Parameters). В патенте используется перцентильный ранг (Percentile Rank) (Claim 7).
- User-Specific Interaction Parameter (Специфичный для пользователя параметр взаимодействия)
- Личная метрика вовлеченности конкретного пользователя для определенного типа контента (например, личный CTR пользователя по новостям), часто рассчитываемая с использованием скользящего окна (sliding window).
- User-Specific Proportion (Специфичная для пользователя пропорция)
- Итоговая персонализированная доля определенного типа контента в ленте пользователя, рассчитанная на основе его поведения и ограниченная Base Interval.
Ключевые утверждения (Анализ Claims)
Патент защищает метод определения оптимального соотношения различных типов контента в персонализированной ленте рекомендаций.
Claim 1 (Независимый пункт): Описывает основной процесс работы системы.
- Получение Base Intervals (базовых интервалов пропорций) для как минимум двух типов контента.
- Сбор данных о взаимодействиях (например, CTR) множества пользователей для каждого типа контента.
- Вычисление Distribution (распределения) этих параметров взаимодействия для каждого типа.
- При получении запроса на персонализированный контент:
- Получение User-Specific Interaction Parameter (персонального параметра взаимодействия) для каждого типа.
- Вычисление User-Specific Proportion (персональной пропорции) для каждого типа контента. Эта пропорция должна находиться в пределах Base Interval и основывается на сравнении общего распределения и данных пользователя.
- Генерация ленты с соблюдением вычисленных пропорций.
Claim 2 (Зависимый от 1): Детализирует ключевой механизм вычисления User-Specific Proportion через сравнение с медианой.
- Вычисление Central Distribution Parameter (например, медианного CTR).
- Определение User-Specific Distribution Parameter (например, перцентильного ранга пользователя).
- Вычисление Displacement (смещения) между рангом пользователя и медианой.
- Вычисление User-Specific Proportion основывается на этом смещении и Central Proportion (центральной пропорции базового интервала).
Claim 3 и 4 (Зависимые от 2): Описывают два варианта использования смещения (Displacement).
- Claim 3 (Бинарная корректировка): Система проверяет только направление смещения (положительное или отрицательное). Если положительное (пользователь лучше медианы), пропорция устанавливается на заранее определенное высокое значение. Если отрицательное — на низкое значение.
- Claim 4 (Пропорциональная корректировка): Расстояние между вычисленной пропорцией пользователя и центральной пропорцией пропорционально величине смещения (Displacement). Чем дальше пользователь от медианы, тем сильнее корректируется его пропорция в рамках интервала.
Claim 9 (Зависимый от 8): Уточняет, что для разных типов контента используются разные метрики взаимодействия.
- CTR используется для текста, изображений, нативного контента, ненативного контента, погоды.
- Dwell Time используется для видео и аудио.
Claims 10-13 (Зависимые): Описывают обработку данных и исключения.
- Используется Sliding Window (скользящее окно) для учета недавних взаимодействий (Claim 10).
- Если у пользователя недостаточно взаимодействий (ниже порога — Cold Start), система назначает предопределенное значение пропорции (Claim 11) и переключается на персонализированный расчет, когда данных становится достаточно (Claim 12).
Где и как применяется
Важно понимать, что этот патент НЕ применяется на этапах CRAWLING, INDEXING, QUERY PROCESSING или RANKING в контексте веб-поиска.
Он используется исключительно внутри Content Recommendation Service (Сервиса рекомендаций контента), такого как Яндекс Дзен.
Этап генерации ленты (Feed Generation / Blending)
В контексте рекомендательной системы этот алгоритм работает на этапе, аналогичном смешиванию (Blending), где определяется финальный состав персонализированной ленты.
- Процесс: Алгоритм определяет не то, какие конкретно статьи показать, а то, в каком соотношении должны присутствовать разные типы контента в ленте (квоты).
- Входные данные: Идентификатор пользователя, исторические логи взаимодействий (глобальные и персональные), предопределенные Base Intervals для типов контента.
- Выходные данные: Набор User-Specific Proportions (например, 25% видео, 50% статей, 25% новостей), который затем используется модулем генерации ленты для заполнения этих квот.
На что влияет
- Типы контента и форматы: Влияет непосредственно на видимость различных форматов (видео, статьи, изображения, нативная реклама). Если система решит снизить пропорцию видео для пользователя, он будет видеть меньше видео в ленте, независимо от качества конкретных роликов.
- Специфические запросы: Не применимо, так как рекомендательные системы работают без явного запроса пользователя.
- Ниши и тематики: Влияет на все ниши, представленные в рекомендательной системе. Патент фокусируется на форматах, а не тематиках.
Когда применяется
- Триггеры активации: Запрос пользователя на генерацию персонализированной ленты (например, открытие приложения Дзен или обновление ленты).
- Временные рамки: Алгоритм использует Sliding Window (скользящее окно) для учета недавней истории (например, последние N сессий пользователя или определенный период времени) (Claim 10, 13).
- Исключения (Claim 11): Если у пользователя недостаточно взаимодействий (ниже порога) в рамках скользящего окна (Cold Start), система назначает предопределенное значение для пропорции (например, медианное значение), пока не накопится достаточно данных.
Пошаговый алгоритм
Этап А: Подготовка данных (Офлайн / Периодически)
- Определение конфигурации: Определение списка типов контента (видео, текст и т.д.) и их Base Intervals (например, видео 0-30%).
- Сбор глобальных данных: Сбор User Interaction Parameters (CTR, Dwell Time) для каждого типа контента по всем пользователям.
- Расчет распределений: Построение Distribution (распределения) для каждого типа контента.
- Вычисление центральных параметров: Определение Central Distribution Parameter (например, медианы) для каждого распределения и соответствующей Central Proportion (медианы базового интервала).
Этап Б: Обработка запроса пользователя (Онлайн)
- Получение запроса: Пользователь запрашивает ленту рекомендаций.
- Извлечение истории пользователя: Получение истории взаимодействий пользователя, применяя Sliding Window.
- Проверка данных (Cold Start): Если данных недостаточно (ниже порога), используются предопределенные пропорции. Если достаточно, переход к шагу 4.
- Расчет персональных параметров: Вычисление User-Specific Interaction Parameter (например, среднего CTR пользователя) для каждого типа контента на основе его истории.
- Определение положения: Определение User-Specific Distribution Parameter (например, перцентиля) — где находится параметр пользователя в глобальном распределении.
- Расчет смещения (Displacement): Вычисление разницы между перцентилем пользователя и медианой (Central Distribution Parameter).
- Вычисление пропорций (User-Specific Proportion): Корректировка Central Proportion на основе смещения. (Используя либо бинарный метод по Claim 3, либо пропорциональный по Claim 4).
- Нормализация: Проверка, что сумма всех пропорций равна 100% (или другому заданному порогу), и корректировка при необходимости (Claim 14).
- Генерация ленты: Формирование финальной ленты с соблюдением вычисленных пропорций типов контента.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Это основные данные для работы алгоритма. Используются исторические логи взаимодействий пользователей с разными типами контента. Конкретные метрики (Claim 9):
- Click-Through Rate (CTR): Используется для текста, нативного контента, ненативного контента, изображений, погоды.
- Dwell Time (Время просмотра/пребывания): Используется для видео и аудио контента.
- Системные данные (Конфигурация):
- Классификация контента по типам.
- Предопределенные Base Intervals для каждого типа.
- Порог количества взаимодействий для определения Cold Start.
- Временные факторы: Учитывается свежесть поведения пользователя за счет применения Sliding Window (скользящего окна) к историческим данным (Claim 10, 13).
Какие метрики используются и как они считаются
Система использует статистические методы для анализа распределений и определения позиции пользователя.
- Distribution of User Interaction Parameters: Строится как частотное распределение. В описании патента отмечается, что распределение CTR может быть похоже на усеченное логнормальное распределение (truncated log-normal distribution).
- Медиана (Median): Используется как Central Distribution Parameter (Claim 5) и основа для Central Proportion (Claim 6).
- Перцентильный Ранг (Percentile Rank): Используется как User-Specific Distribution Parameter (Claim 7) для определения позиции пользователя относительно других.
- Displacement (Смещение): Разница между перцентильным рангом пользователя и медианой (50%).
- Методы расчета пропорций:
- Бинарный (Claim 3): Если Displacement положительный, назначается предопределенное высокое значение пропорции; если отрицательный — низкое.
- Пропорциональный (Claim 4): Величина изменения пропорции пропорциональна величине Displacement.
Выводы
- Патент для рекомендательных систем, не для веб-поиска: Описанные механизмы касаются персонализации лент рекомендаций (Яндекс Дзен) и не влияют на ранжирование в основном поиске Яндекса.
- Оптимизация соотношения форматов, а не ранжирования: Цель алгоритма — не выбрать лучшие статьи или видео, а определить, сколько процентов ленты должны занимать видео, сколько — статьи и т.д., чтобы максимизировать вовлеченность конкретного пользователя.
- Персонализация через сравнение с медианой: Ключевой механизм — сравнение индивидуальных метрик вовлеченности (CTR/Dwell Time) со статистической медианой всех пользователей. Если пользователь вовлечен лучше среднего в определенный тип контента, этот тип будет показываться ему чаще.
- Принудительное разнообразие (Base Intervals): Система использует базовые интервалы (например, 0-30%), что не позволяет какому-либо одному типу контента полностью захватить ленту, даже если пользователь демонстрирует очень высокую вовлеченность в него.
- Зависимость метрик от типа контента: Подтверждается, что для разных форматов используются разные метрики оценки вовлеченности: Dwell Time для видео/аудио и CTR для текста/изображений.
- Учет недавнего поведения: Использование скользящего окна (Sliding Window) позволяет системе адаптироваться к изменениям в интересах пользователя, фокусируясь на недавних сессиях.
Практика
ВАЖНО: Данный патент описывает механизмы работы рекомендательных систем Яндекса (таких как Дзен), а не классического веб-поиска. Практические рекомендации относятся к стратегиям получения трафика из этих рекомендательных лент.
Best practices (это мы делаем)
- Максимизация релевантных метрик вовлеченности: Необходимо четко понимать целевую метрику для вашего формата контента. Для статей и изображений — максимизируйте CTR (привлекательные заголовки и превью). Для видео и аудио — максимизируйте Dwell Time (удержание внимания, глубина просмотра).
- Стремление к показателям выше среднего: Поскольку система корректирует пропорции на основе сравнения с медианой, необходимо создавать контент, который вовлекает пользователей лучше, чем 50% другого контента того же типа. Это увеличит вероятность того, что система выделит большую квоту под этот формат для вовлеченных пользователей.
- Диверсификация форматов контента: Для максимизации охвата необходимо производить контент в разных форматах. Это позволяет участвовать в разных квотах (User-Specific Proportions) и адаптироваться к предпочтениям разных сегментов аудитории.
- Поддержание стабильной вовлеченности: Так как используется Sliding Window, важно обеспечивать стабильно высокие показатели вовлеченности. Система фокусируется на недавнем поведении.
Worst practices (это делать не надо)
- Кликбейт, ведущий к низкому Dwell Time (для видео/аудио): Использование кликбейтных заголовков для видео может привести к низкому Dwell Time. Это снизит User-Specific Interaction Parameter пользователя, что приведет к снижению доли видео в его ленте (так как Dwell Time является основной метрикой для видео, как указано в патенте).
- Игнорирование качества контента: Низкое качество контента ведет к низкому вовлечению. Это не только снижает ранжирование конкретного элемента, но и, согласно этому патенту, уменьшает общую квоту для данного типа контента у пользователя.
- Фокус только на одном формате контента: Если издатель фокусируется только на одном формате, он ограничивает свой потенциальный охват, так как система стремится обеспечить разнообразие в рамках Base Intervals.
Стратегическое значение
Патент подтверждает сложный подход Яндекса к персонализации рекомендательных лент, основанный на сравнительном поведенческом анализе, а не просто на истории кликов. Стратегическое значение для паблишеров заключается в необходимости выстраивания комплексной контент-стратегии, охватывающей разные форматы и фокусирующейся на метриках вовлечения, специфичных для каждого формата. Успех в рекомендательных системах требует способности создавать контент, который пользователи потребляют активнее, чем в среднем по платформе.
Практические примеры
Сценарий 1: Оптимизация видеоканала в Дзене
- Задача: Увеличить количество показов видеоконтента целевой аудитории.
- Действие: Фокус на увеличении Dwell Time (времени просмотра). Создание видео с захватывающим повествованием и удержанием внимания до конца.
- Механизм работы системы: Пользователь смотрит эти видео дольше, чем медианный пользователь смотрит видео в целом. Его User-Specific Interaction Parameter (Dwell Time) высок. Система вычисляет положительное смещение (Displacement) от медианы.
- Результат: Система увеличивает User-Specific Proportion для видео в ленте этого пользователя (например, с медианных 15% до 28% в рамках интервала 0-30%). Это приводит к тому, что пользователь видит больше видео в ленте, увеличивая шансы на показ видео с оптимизируемого канала.
Сценарий 2: Снижение доли текстового контента
- Контекст: Тип контента: Статьи (Текст). Метрика: CTR. Base Interval: 0-50%. Central Proportion: 25%.
- Поведение пользователя: Пользователь редко кликает на статьи в ленте. Его личный CTR значительно ниже среднего и помещает его в 20-й перцентиль.
- Действие системы: Система вычисляет отрицательное смещение (20 — 50 = -30).
- Результат: Система пропорционально снижает User-Specific Proportion для статей у этого пользователя с 25% до, например, 10%. Паблишеры статей получают меньше показов для этого пользователя.
Вопросы и ответы
К чему относится этот патент: к Поиску Яндекса или к Дзену (рекомендациям)?
Этот патент относится исключительно к работе рекомендательных сервисов (Content Recommendation Service), таких как Дзен или персонализированные ленты в приложениях Яндекса. Он не описывает алгоритмы ранжирования в классическом веб-поиске. Он определяет структуру (микс форматов) рекомендательной ленты.
Что такое «Base Interval» (Базовый интервал) и кто его определяет?
Base Interval — это заданные платформой ограничения на долю определенного типа контента в ленте (например, Видео от 0% до 30%). Он определяет минимальный и максимальный потенциальный объем для данного формата. Эти интервалы устанавливаются владельцем платформы (Яндекс) для контроля разнообразия и достижения бизнес-целей.
Как система решает, увеличить или уменьшить долю формата для пользователя?
Система сравнивает поведение пользователя со средним поведением всех пользователей (медианой распределения). Если пользователь взаимодействует с форматом активнее среднего (например, его Dwell Time или CTR выше медианного), он попадает в верхние перцентили, и система увеличивает долю этого формата в его ленте. Если он менее активен, доля снижается.
Какие метрики вовлеченности используются для разных типов контента?
Патент четко разделяет метрики по типам контента (Claim 9). Для текстового контента, изображений, нативных и не-нативных форматов используется Click-Through Rate (CTR). Для видео и аудио контента используется Dwell Time (время просмотра/прослушивания). Важно оптимизировать контент под правильную метрику.
Как этот патент влияет на стратегию создания контента для рекомендательных систем (Дзен)?
Он подчеркивает необходимость диверсификации форматов и критическую важность оптимизации под целевые метрики вовлеченности. Чтобы получать больше трафика, ваш контент должен генерировать показатели (CTR или Dwell Time) выше средних по платформе. Это стимулирует систему увеличивать квоту на этот формат для вовлеченных пользователей.
Учитывает ли система только недавнее поведение пользователя?
Да, в патенте (Claim 10) упоминается использование «скользящего окна» (Sliding Window) для анализа взаимодействий пользователя. Это означает, что система фокусируется на недавнем поведении (например, за последние N сессий или дней) и быстро адаптируется к изменениям в предпочтениях пользователя.
Что происходит, если пользователь новичок и у него мало статистики (Cold Start)?
Патент описывает механизм обработки «холодного старта» (Claims 11, 12). Если взаимодействий недостаточно (ниже определенного порога), система назначает пользователю предопределенное значение пропорции, обычно соответствующее среднему значению (Central Proportion). Как только данных накопится достаточно, система перейдет к персонализированному расчету.
Может ли моя лента состоять на 100% из одного типа контента?
Теоретически это возможно, только если Base Interval для этого типа контента установлен как 0-100%. Однако на практике система устанавливает более узкие интервалы для разных типов (например, 0-30%, 0-50%), что гарантирует определенное разнообразие ленты и делает маловероятным заполнение ленты одним форматом.
В патенте описано два метода расчета пропорций (Claim 3 и 4). В чем разница?
Claim 3 описывает простой (бинарный) метод: если пользователь лучше медианы, ему дают фиксированную высокую пропорцию; если хуже — фиксированную низкую. Claim 4 описывает более сложный (пропорциональный) метод: чем дальше пользователь от медианы (чем больше величина смещения), тем сильнее корректируется его пропорция. На практике, вероятно, используется пропорциональный метод как более точный.
Что такое «Displacement» (Смещение) в контексте патента?
Displacement — это разница между перцентильным рангом пользователя и медианой (50-м перцентилем). Например, если пользователь находится в 70-м перцентиле по Dwell Time для видео, его смещение положительное. Это смещение используется для пропорциональной (Claim 4) или бинарной (Claim 3) корректировки его личной квоты на видео в ленте.