Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс персонализирует соотношение разных типов контента в рекомендательных лентах (например, в Дзен)

    METHOD OF AND SYSTEM FOR DETERMINING USER-SPECIFIC PROPORTIONS OF CONTENT FOR RECOMMENDATION (Метод и система определения специфичных для пользователя пропорций контента для рекомендаций)
    • US20200089724A1
    • Yandex LLC
    • 2020-03-19
    • 2019-04-02
    2020 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

    Яндекс использует систему для определения оптимального соотношения типов контента (видео, статьи, изображения) в ленте рекомендаций для конкретного пользователя. Система сравнивает, насколько активно пользователь взаимодействует с определенным типом контента (CTR или Dwell Time) по сравнению со средним пользователем. Если вовлеченность выше средней, система увеличивает долю этого типа контента в его персональной ленте в рамках заданных интервалов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу оптимизации состава ленты контента в рекомендательных системах (например, Яндекс Дзен). Он направлен на улучшение пользовательского опыта путем персонализации не только конкретных элементов контента, но и баланса (пропорций) различных типов контента (например, сколько показать видео, сколько новостей, сколько изображений). Система устраняет ограничения традиционных подходов, которые могут перенасыщать ленту одним типом контента, основываясь только на абсолютных показателях вовлеченности, и предлагает механизм адаптивной балансировки пропорций на основе относительной вовлеченности пользователя.

    Что запатентовано

    Запатентован метод и система (Adaptive Frequency System) для определения персонализированных пропорций (User-Specific Proportions) различных типов контента при формировании ленты рекомендаций. Суть изобретения заключается в сравнении показателей вовлеченности конкретного пользователя с распределением показателей вовлеченности всей аудитории для каждого типа контента. На основе этого сравнения система определяет, стоит ли увеличить или уменьшить долю данного типа контента в ленте пользователя в пределах заранее заданных базовых интервалов (Base Interval of Proportion).

    Как это работает

    Система работает путем сравнения поведения пользователя с медианным поведением аудитории. Для каждого типа контента (например, видео) определяется базовый интервал (например, 0-30% ленты). Медианный пользователь получает среднее значение (15%). Система анализирует вовлеченность (User Interaction Parameters, например, Dwell Time для видео) конкретного пользователя и определяет его позицию (например, перцентиль) в общем распределении. Если пользователь смотрит видео дольше, чем медианный пользователь (положительное смещение), система увеличивает долю видео в его персональной ленте (например, с 15% до 25%). Если меньше — доля уменьшается. Этот расчет выполняется динамически для всех типов контента.

    Актуальность для SEO

    Высокая. Персонализация лент рекомендаций (Дзен, Пульс и т.д.) является ключевым элементом современных контент-платформ. Механизм адаптации микса контента на основе сравнения индивидуального поведения с общим распределением является актуальным подходом к улучшению пользовательского опыта и метрик вовлеченности.

    Важность для SEO

    Влияние на классическое SEO (веб-поиск) минимальное (2/10). Патент не описывает механизмы ранжирования в основном поиске Яндекса. Однако он имеет важное значение для оптимизации контента под рекомендательные системы Яндекса (RSEO – Recommendation System Optimization) (6/10). Понимание этого механизма жизненно важно для издателей и авторов, стремящихся максимизировать трафик из этих источников, так как он напрямую влияет на то, как часто контент определенного типа будет появляться в лентах пользователей.

    Детальный разбор

    Термины и определения

    Base Interval of Proportion (Базовый интервал пропорции)
    Заранее определенный диапазон допустимой доли для определенного типа контента в ленте рекомендаций (например, Видео: от 0% до 30%).
    Central Distribution Parameter (Центральный параметр распределения)
    Показатель центральной тенденции в распределении параметров взаимодействия пользователей. В патенте в качестве основного примера используется медиана (50-й перцентиль).
    Central Proportion (Центральная пропорция)
    Значение пропорции в Базовом интервале, которое соответствует Центральному параметру распределения (медиане). Например, если интервал 0-30%, центральная пропорция может быть 15%.
    Content Recommendation Service (Сервис рекомендации контента)
    Система, генерирующая персонализированную ленту контента для пользователя (например, Яндекс Дзен).
    Displacement (Смещение)
    Разница между позицией пользователя в распределении (User-Specific Distribution Parameter) и центральным параметром (Central Distribution Parameter). Определяет направление (положительное/отрицательное) и магнитуду корректировки пропорции.
    Distribution of User Interaction Parameters (Распределение параметров взаимодействия пользователей)
    Статистическое распределение (например, частотное распределение), показывающее, как показатели вовлеченности (CTR, Dwell Time) распределены среди всех пользователей сервиса для определенного типа контента.
    Sliding Window (Скользящее окно)
    Метод учета только недавних взаимодействий пользователя (например, последние 20 сессий или последние 7 дней) для расчета его текущих предпочтений.
    User Interaction Parameters (Параметры взаимодействия пользователя)
    Метрики, указывающие на вовлеченность пользователя с контентом. Ключевые примеры в патенте: Click-Through Rate (CTR) для текстов и изображений; Dwell Time (время пребывания) для видео и аудио.
    User-Specific Distribution Parameter (Параметр распределения конкретного пользователя)
    Показатель, указывающий на позицию конкретного пользователя в общем Распределении параметров взаимодействия. В патенте используется перцентильный ранг (Percentile Rank).
    User-Specific Interaction Parameter (Параметр взаимодействия конкретного пользователя)
    Индивидуальный показатель вовлеченности данного пользователя для определенного типа контента (например, личный CTR пользователя по новостям).
    User-Specific Proportion (Пропорция конкретного пользователя)
    Итоговая вычисленная доля определенного типа контента, которая будет использоваться для формирования персональной ленты пользователя. Должна находиться в пределах Базового интервала.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод адаптивного определения пропорций различных типов контента в персонализированной ленте.

    Claim 1 (Независимый пункт): Описывает основной процесс.

    1. Система получает Базовые интервалы пропорций для как минимум двух типов контента.
    2. Для каждого типа контента собираются Параметры взаимодействия (например, CTR) множества пользователей.
    3. На основе этих данных вычисляется Распределение параметров взаимодействия для каждого типа контента.
    4. При получении запроса от конкретного пользователя система получает его индивидуальные User-Specific Interaction Parameters для этих типов контента.
    5. Вычисляется User-Specific Proportion для каждого типа контента. Эта пропорция находится внутри Базового интервала и зависит от (i) общего Распределения и (ii) индивидуального Параметра взаимодействия пользователя.
    6. Генерируется лента контента, в которой доля каждого типа соответствует вычисленным User-Specific Proportions.

    Claim 2 (Зависимый от Claim 1): Детализирует метод вычисления пропорции через сравнение с медианой.

    1. Вычисляется Центральный параметр распределения (например, медиана) для общего распределения.
    2. Определяется Параметр распределения конкретного пользователя (например, его перцентиль), который показывает его позицию в общем распределении.
    3. Вычисляется Смещение (Displacement) между параметром пользователя и центральным параметром.
    4. User-Specific Proportion вычисляется на основе этого Смещения и Центральной пропорции (пропорции, соответствующей медиане).

    Claim 3 и 4 (Зависимые от Claim 2): Описывают два варианта использования Смещения.

    • Claim 3 (Бинарный подход): Если смещение положительное (пользователь активнее медианы), назначается заранее определенное значение пропорции выше центральной. Если отрицательное — значение ниже центральной.
    • Claim 4 (Пропорциональный подход): Расстояние между вычисленной пропорцией пользователя и центральной пропорцией пропорционально величине (магнитуде) смещения. Чем активнее пользователь относительно медианы, тем больше увеличивается доля контента.

    Claim 9 (Зависимый от 8): Уточняет, какие метрики используются для разных типов контента.

    • Для текста, нативного контента, изображений, погоды используется CTR.
    • Для видео и аудио используется Dwell Time.

    Где и как применяется

    Патент не относится к основному поиску Яндекса (Web Search). Он описывает инфраструктуру Content Recommendation Service (Сервиса рекомендации контента), такого как Яндекс Дзен.

    BLENDER – Метапоиск и Смешивание (MetaSearch & Blending)
    Алгоритм применяется на этапе формирования финальной ленты рекомендаций (аналог SERP для рекомендательных систем). Он определяет структуру ленты, решая, сколько элементов каждого типа должно быть показано пользователю.

    • Входные данные: Запрос на персонализированный контент; Базовые интервалы для типов контента; Распределения параметров взаимодействия аудитории; Индивидуальные параметры взаимодействия пользователя (рассчитанные на основе Sliding Window недавних взаимодействий).
    • Выходные данные: Набор User-Specific Proportions (персонализированных пропорций) для всех типов контента.
    • Взаимодействие компонентов: Система взаимодействует с базой данных взаимодействий пользователей (User Interaction Database) для получения исторических данных и с модулем выбора контента (Recommended Content Selection Module), передавая ему вычисленные пропорции как инструкцию для генерации ленты.

    На что влияет

    • Типы контента: Алгоритм напрямую влияет на видимость различных форматов: текстовый контент, нативный контент (например, посты внутри платформы), контент с внешних сайтов (non-native), изображения, видео, аудио.
    • Баланс ленты: Влияет на разнообразие ленты пользователя. Пользователи, активно потребляющие определенный тип контента, будут видеть его чаще, но в пределах установленных ограничений (Base Intervals).

    Когда применяется

    • Триггеры активации: Алгоритм активируется каждый раз, когда пользователь запрашивает персонализированную ленту контента (например, открывает приложение или обновляет ленту).
    • Условия работы: Для работы алгоритма необходимо наличие достаточного количества исторических данных как по аудитории в целом (для построения распределений), так и по конкретному пользователю.
    • Исключения (Cold Start): Если количество взаимодействий пользователя ниже определенного порога (например, новый пользователь), система назначает предопределенное значение пропорции (например, Central Proportion) вместо вычисления персонализированного (Claim 11). Как только порог превышен, система переключается на персонализированный расчет (Claim 12).

    Пошаговый алгоритм

    Процесс определения персонализированных пропорций контента.

    1. Инициализация (Офлайн/Предварительный расчет):
      1. Определение Базовых интервалов пропорций для каждого типа контента (например, Видео: 0-30%).
      2. Сбор данных о взаимодействиях (CTR, Dwell Time) всех пользователей с этими типами контента.
      3. Построение Распределения параметров взаимодействия для каждого типа.
      4. Вычисление Центрального параметра распределения (медианы) для каждого распределения.
    2. Получение запроса (Онлайн):
      1. Пользователь запрашивает ленту рекомендаций.
    3. Анализ пользователя (Онлайн):
      1. Система извлекает историю взаимодействий пользователя, применяя Скользящее окно (учитываются только недавние данные).
      2. Проверка на достаточность данных. Если данных недостаточно (ниже порога), пользователю назначаются стандартные пропорции (например, Центральные пропорции), и процесс переходит к шагу 6.
      3. Если данных достаточно, вычисляются Индивидуальные параметры взаимодействия пользователя (например, его средний Dwell Time по видео за последний период).
    4. Сравнение с распределением (Онлайн):
      1. Для каждого типа контента определяется Параметр распределения пользователя (его перцентильный ранг) в общем распределении.
      2. Вычисляется Смещение (Displacement) между рангом пользователя и медианой (Центральным параметром).
    5. Расчет пропорций (Онлайн):
      1. На основе Смещения рассчитывается Персонализированная пропорция. Если смещение положительное, пропорция увеличивается относительно Центральной пропорции; если отрицательное — уменьшается. Расчет может быть бинарным или пропорциональным величине смещения.
      2. Нормализация: Сумма всех рассчитанных пропорций корректируется так, чтобы она равнялась 100% (Claim 14).
    6. Генерация ленты:
      1. Система генерирует набор контента, соблюдая вычисленные персонализированные пропорции для каждого типа.
      2. Лента отправляется пользователю.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Основные данные для работы системы. Используются логи взаимодействий пользователей с рекомендательной системой. Ключевые метрики: CTR (Click-Through Rate) и Dwell Time (Время пребывания).
    • Временные факторы: Используется Sliding Window (скользящее окно) для ограничения периода учета взаимодействий (например, последние сессии или дни), что позволяет учитывать актуальные интересы пользователя (Claim 10, 13).
    • Системные данные: Заранее определенные администраторами или вычисленные статистически Base Intervals of Proportion (Базовые интервалы пропорций) для каждого типа контента. Классификация контента по типам (текст, видео, аудио, нативный, внешний и т.д.).

    Какие метрики используются и как они считаются

    • Выбор метрики вовлеченности (Claim 9):
      • CTR: Используется для текстового контента, нативного контента, внешнего контента, изображений, погоды.
      • Dwell Time: Используется для видео и аудио контента.
    • Распределение (Distribution): Строится частотное распределение выбранной метрики вовлеченности среди всех пользователей. В патенте упоминается, что распределение CTR часто похоже на усеченное логнормальное распределение (Truncated log-normal distribution).
    • Медиана (Median): Используется как Central Distribution Parameter (50-й перцентиль распределения). Это эталонное значение вовлеченности «среднего пользователя».
    • Перцентильный ранг (Percentile Rank): Используется как User-Specific Distribution Parameter. Показывает, какой процент пользователей имеет показатель вовлеченности ниже или равный показателю данного пользователя.
    • Смещение (Displacement): Разница между перцентильным рангом пользователя и медианой (50%).

    Выводы

    1. Персонализация структуры ленты: Яндекс активно персонализирует не только выбор конкретных единиц контента, но и общую структуру ленты рекомендаций, определяя оптимальное соотношение (пропорции) разных типов контента для каждого пользователя.
    2. Вовлеченность оценивается относительно аудитории: Ключевым механизмом является сравнение индивидуальной вовлеченности пользователя с медианной вовлеченностью всей аудитории. Чтобы увеличить долю определенного типа контента в ленте, пользователь должен взаимодействовать с ним активнее, чем «средний» пользователь.
    3. Разные метрики для разных типов контента: Система использует специфические метрики вовлеченности: CTR для текстов/изображений и Dwell Time для видео/аудио. Это требует разного подхода к оптимизации.
    4. Существование ограничений (Base Intervals): Для каждого типа контента существуют заранее заданные лимиты (например, не более 50% видео). Система персонализирует пропорции только в рамках этих интервалов.
    5. Актуальность интересов (Sliding Window): Система фокусируется на недавнем поведении пользователя, используя скользящее окно, что позволяет быстро адаптироваться к изменению интересов.
    6. Конкуренция форматов: Разные типы контента конкурируют друг с другом за долю в ленте пользователя. Высокая вовлеченность в один тип может привести к увеличению его доли за счет других.

    Практика

    Best practices (это мы делаем)

    Практики направлены на оптимизацию контента для рекомендательных систем (например, Дзен), чтобы максимизировать долю присутствия в ленте пользователя.

    • Оптимизация под целевую метрику формата: Четко разделяйте стратегии оптимизации для разных форматов.
      • Тексты и Изображения: Максимизируйте CTR. Работайте над заголовками, превью и релевантностью тематики для стимулирования клика.
      • Видео и Аудио: Максимизируйте Dwell Time (время просмотра/удержание). Работайте над качеством контента, его продолжительностью и вовлечением, чтобы пользователи досматривали контент до конца.
    • Повышение качества контента для превосходства над медианой: Поскольку пропорции зависят от вовлеченности пользователя относительно медианы аудитории, необходимо создавать контент, который генерирует показатели вовлеченности выше средних по платформе. Анализируйте популярный контент конкурентов и стремитесь превзойти его по CTR или Dwell Time.
    • Стимулирование регулярного взаимодействия: Так как система использует Sliding Window, важно поддерживать постоянный интерес пользователя. Публикуйте контент регулярно, чтобы оставаться в поле зрения пользователя и поддерживать высокие актуальные показатели вовлеченности.
    • Использование разнообразных форматов: Если вы хотите максимизировать общее присутствие вашего бренда в ленте, используйте разные форматы (статьи, посты, видео), оптимизируя каждый под свою целевую метрику. Это позволяет конкурировать за разные «слоты» пропорций.

    Worst practices (это делать не надо)

    • Кликбейт в видео для повышения CTR: Использование кликбейтных заголовков для видео может повысить CTR, но система оценивает видео по Dwell Time. Если время просмотра низкое, это приведет к снижению доли видео в ленте пользователя.
    • Искусственное растягивание времени просмотра: Создание длинных, но неинформативных видео для увеличения Dwell Time. Пользователи могут перестать смотреть такой контент, что снизит средний Dwell Time и, как следствие, долю в ленте.
    • Игнорирование анализа аудитории: Публикация контента без понимания средних показателей вовлеченности на платформе. Если ваш контент систематически показывает вовлеченность ниже медианы, его доля в лентах пользователей будет минимальной.
    • Нерегулярный постинг: Длительные перерывы в публикации могут привести к тому, что предыдущие взаимодействия выйдут за пределы Sliding Window, и система будет рассматривать пользователя как «холодного» (Cold Start), назначая стандартные пропорции.

    Стратегическое значение

    Патент подтверждает, что для успеха в рекомендательных системах Яндекса критически важна оптимизация поведенческих факторов, причем с учетом специфики формата. Он демонстрирует сложный статистический подход к персонализации, основанный не просто на абсолютных значениях, а на сравнении с общим распределением. Для издателей это означает, что успех на платформе зависит от способности создавать контент, который потребляется активнее и качественнее, чем в среднем по системе. Это требует перехода от простого производства контента к data-driven подходу в управлении качеством и форматами.

    Практические примеры

    Сценарий 1: Оптимизация канала с видеоконтентом

    1. Анализ: Издатель замечает, что доля видео в лентах его подписчиков снижается. Анализ показывает, что средний Dwell Time его видео составляет 2 минуты, в то время как медиана по платформе для похожих тематик — 3 минуты.
    2. Действие системы (согласно патенту): Система определяет, что вовлеченность пользователей ниже медианы (отрицательное смещение). Она снижает User-Specific Proportion для видео у этих пользователей (например, с 20% до 10%).
    3. Действия SEO/Контент-стратега: Переформатировать видео для увеличения удержания: добавить динамичный монтаж, использовать субтитры, улучшить структуру повествования, убрать затянутые вступления.
    4. Ожидаемый результат: Средний Dwell Time увеличивается до 3.5 минут. Система фиксирует положительное смещение относительно медианы и увеличивает долю видео в ленте пользователей (например, до 25%).

    Сценарий 2: Оптимизация статейного канала

    1. Анализ: Издатель публикует качественные статьи, но получает мало трафика. Анализ показывает, что CTR статей составляет 3%, а медианный CTR по платформе — 5%.
    2. Действие системы (согласно патенту): Система фиксирует отрицательное смещение и устанавливает минимальную долю текстового контента в ленте пользователей.
    3. Действия SEO/Контент-стратега: Сосредоточиться на оптимизации CTR. Провести A/B тестирование заголовков и изображений превью, сделать заголовки более привлекательными и релевантными интересам аудитории.
    4. Ожидаемый результат: CTR увеличивается до 6%. Система фиксирует положительное смещение и увеличивает User-Specific Proportion для текстового контента, что приводит к росту трафика.

    Вопросы и ответы

    Относится ли этот патент к основному поиску Яндекса (Web Search)?

    Нет, этот патент не описывает алгоритмы ранжирования основного веб-поиска. Он описывает метод и систему для определения пропорций различных типов контента в рамках Content Recommendation Service (Сервиса рекомендации контента), ярким примером которого является Яндекс Дзен. Механизмы, описанные здесь, влияют на формирование персональной ленты рекомендаций, а не на поисковую выдачу.

    Что такое «Базовый интервал пропорции» (Base Interval) и кто его определяет?

    Базовый интервал пропорции — это заранее заданные лимиты на долю определенного типа контента в ленте. Например, если для видео задан интервал 0-30%, это значит, что у любого пользователя видео не займет более 30% ленты. Эти интервалы определяются владельцем рекомендательной системы (Яндекс) на основе статистических данных или бизнес-решений для обеспечения баланса и разнообразия контента.

    Как система определяет, нравятся ли пользователю мои статьи больше, чем в среднем по платформе?

    Система анализирует метрику вовлеченности для текстового контента — CTR. Она строит распределение CTR всех пользователей платформы и определяет медиану (средний показатель). Затем она вычисляет персональный CTR пользователя по статьям (на основе недавних взаимодействий) и определяет его перцентильный ранг. Если ранг пользователя выше 50-го перцентиля (медианы), система считает, что ему нравятся статьи больше среднего.

    Почему для видео используется Dwell Time, а не CTR?

    Патент явно указывает (Claim 9), что для видео и аудио используется Dwell Time (время пребывания/просмотра), а для текстов и изображений — CTR. Это связано с разной природой потребления контента. Для видео критически важно удержание внимания и продолжительность просмотра, что лучше отражает удовлетворенность пользователя, чем просто факт клика (который может быть результатом кликбейта).

    Как это влияет на стратегию создания контента для Дзена?

    Стратегия должна быть строго ориентирована на оптимизацию целевой метрики формата. Для статей необходимо максимизировать кликабельность (CTR) через заголовки и превью. Для видео необходимо максимизировать удержание (Dwell Time) через качество контента и монтаж. Просто создавать «хороший контент» недостаточно; он должен генерировать поведенческие сигналы выше среднего уровня по платформе.

    Что такое «Скользящее окно» (Sliding Window) и почему оно важно?

    Скользящее окно — это механизм учета только недавних взаимодействий пользователя (например, за последние 20 сессий или 7 дней). Это важно, так как позволяет системе быстро адаптироваться к меняющимся интересам пользователя. Если вы не публиковали контент давно, старые заслуги могут не учитываться, и система будет опираться на более свежие данные о взаимодействиях с другими источниками.

    Что произойдет, если я начну использовать новый формат контента (например, перейду от статей к видео)?

    Для нового формата у пользователя изначально не будет истории взаимодействий. Система применит логику «холодного старта» (Claim 11) и назначит стандартную (предопределенную) пропорцию для этого типа контента (вероятно, медианную). Как только пользователь накопит достаточное количество взаимодействий с новым форматом (превысит порог), система переключится на расчет персонализированной пропорции (Claim 12).

    Может ли система полностью исключить определенный тип контента из ленты пользователя?

    Да, если базовый интервал начинается с 0% (например, 0-30%), и вовлеченность пользователя в этот тип контента значительно ниже медианы, система может вычислить персонализированную пропорцию, близкую к нулю. Это фактически исключит данный тип контента из его ленты, пока его поведение не изменится.

    Какой подход к расчету пропорций лучше: бинарный (Claim 3) или пропорциональный (Claim 4)?

    Патент описывает оба варианта. Пропорциональный подход (Claim 4) более гибкий, так как он учитывает не только факт того, что пользователь лучше или хуже медианы, но и то, насколько именно он лучше или хуже. Это позволяет точнее настроить пропорции. Бинарный подход проще в реализации. Вероятно, на практике может использоваться комбинация или пропорциональный подход как более продвинутый.

    Влияет ли качество моего сайта (например, скорость загрузки) на эти механизмы?

    Прямо в патенте это не указано, но косвенно влияет. Если речь идет о внешнем контенте (non-native content), то медленная загрузка сайта может негативно сказаться на поведенческих факторах. Пользователи могут закрывать страницу, не дождавшись загрузки, что может снизить как вероятность учета клика (влияя на CTR), так и общее время взаимодействия. Это снизит индивидуальные параметры вовлеченности пользователя и, как следствие, долю этого контента в ленте.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.