Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс персонализирует соотношение разных типов контента в рекомендательных системах (Дзен)

    СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ ЗАВИСЯЩИХ ОТ ПОЛЬЗОВАТЕЛЯ ПРОПОРЦИЙ СОДЕРЖИМОГО ДЛЯ РЕКОМЕНДАЦИИ (METHOD AND SYSTEM FOR DETERMINING USER-SPECIFIC CONTENT PROPORTIONS FOR RECOMMENDATION)
    • RU2720899C2
    • Yandex LLC
    • 2020-05-14
    • 2018-09-14
    2020 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

    Яндекс патентует механизм для систем рекомендаций (например, Дзен), который определяет оптимальное соотношение (пропорции) различных типов контента (видео, статьи, картинки) для конкретного пользователя. Система сравнивает поведение пользователя (CTR, время просмотра) с поведением всех пользователей и динамически корректирует микс контента: если пользователь смотрит видео больше среднего, система увеличит долю видео в его ленте в заданных пределах.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу оптимизации состава (блендинга) персонализированной ленты рекомендаций (например, Яндекс Дзен). Цель — определить идеальное соотношение различных типов содержимого (форматов, таких как видео, текст, графика) для конкретного пользователя, чтобы максимизировать его вовлеченность. Система адаптирует ленту под индивидуальные предпочтения пользователя в отношении форматов потребления информации, уходя от универсального микса контента.

    Что запатентовано

    Запатентован способ и система для определения зависящих от пользователя пропорций (User-Specific Proportions) типов содержимого. Суть изобретения заключается в использовании статистического анализа поведенческих метрик. Система сравнивает индивидуальные метрики взаимодействия пользователя (например, CTR или время просмотра) с распределением этих же метрик по всей аудитории сервиса. На основе этого сравнения система динамически корректирует долю конкретного типа контента в ленте пользователя в рамках заранее заданных базовых интервалов пропорций.

    Как это работает

    Система сравнивает поведение пользователя с «эталонным» поведением популяции. Для каждого типа контента (например, видео) определяется базовый интервал (например, 10-30%). Система анализирует метрики взаимодействия (например, время просмотра) всех пользователей и определяет медианное значение. Затем она определяет позицию конкретного пользователя в этом распределении. Если он смотрит видео значительно больше медианного пользователя, система увеличивает пропорцию видео в его ленте (ближе к 30%). Если меньше — уменьшает (ближе к 10%).

    Актуальность для SEO

    Высокая. Персонализация и оптимизация доставки контента в зависимости от предпочтений формата являются ключевыми элементами современных рекомендательных систем. Описанный механизм статистической адаптации пропорций актуален для управления вовлеченностью и удержанием пользователей на платформах типа Дзен.

    Важность для SEO

    Влияние на SEO (6/10). Патент не относится к ранжированию в основном веб-поиске Яндекса. Однако он имеет критическое значение для SEO-стратегий, направленных на привлечение трафика из рекомендательных систем Яндекса (Дзен). Патент показывает, что для успеха на таких платформах необходимо максимизировать специфические метрики вовлеченности (CTR для текста, время пребывания для видео), чтобы увеличить долю показов контента этого типа.

    Детальный разбор

    Термины и определения

    Базовый интервал пропорций содержимого (Base Proportion Interval)
    Заранее определенные минимальные и максимальные границы доли для конкретного типа контента в ленте рекомендаций (например, Видео: от 10% до 30%).
    Время пребывания на странице (Dwell Time)
    Параметр пользовательского взаимодействия. В патенте указан как метрика для видео- и аудиосодержимого.
    Зависящая от пользователя пропорция (User-Specific Proportion)
    Вычисленная для конкретного пользователя доля типа контента, которая будет использоваться при формировании его персональной ленты. Всегда находится в границах Базового интервала.
    Зависящий от пользователя параметр взаимодействий (User-Specific Interaction Parameter)
    Метрика, характеризующая взаимодействие конкретного пользователя с определенным типом контента (например, его средний CTR по статьям), часто рассчитанная в рамках Скользящего окна.
    Процентильный ранг (Percentile Rank)
    Показатель, определяющий положение параметра взаимодействия пользователя в общем Распределении. Используется как Зависящий от пользователя параметр распределения.
    Распределение параметров пользовательского взаимодействия (Distribution of User Interaction Parameters)
    Статистическое распределение, показывающее, как метрики взаимодействия (например, CTR) распределены среди всех пользователей сервиса для определенного типа контента.
    Рейтинг кликабельности (CTR)
    Параметр пользовательского взаимодействия. В патенте указан как метрика для текстового, оригинального, неоригинального и графического содержимого.
    Скользящее окно (Sliding Window)
    Метод учета только недавних взаимодействий пользователя (например, последние N сессий или X дней) для расчета его текущих параметров взаимодействия.
    Смещение (Offset)
    Разница между Процентильным рангом пользователя и Центральным параметром распределения (медианой). Определяет направление и величину корректировки пропорции.
    Тип содержимого (Content Type)
    Категоризация контента по формату или источнику. Примеры: текстовое, видео, аудио, оригинальное, неоригинальное содержимое.
    Центральный параметр распределения (Central Distribution Parameter)
    Параметр, характеризующий центр распределения. В патенте в качестве основного примера используется Медиана (50-й процентиль).
    Центральная пропорция (Central Proportion)
    Значение в Базовом интервале пропорций, которое соответствует Центральному параметру распределения (например, медиана интервала).

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод персонализации соотношения типов контента в рекомендательной системе путем сравнения индивидуального поведения с поведением всей популяции в рамках заданных ограничений.

    Claim 1 (Независимый пункт): Описывает основной процесс.

    1. Система получает заранее заданные Базовые интервалы пропорций для разных типов контента.
    2. Система собирает данные о взаимодействиях множества пользователей и вычисляет общее Распределение параметров взаимодействия для каждого типа.
    3. При запросе ленты для конкретного пользователя, система получает его персональные параметры взаимодействия.
    4. Ключевой этап: Вычисляется персональная Зависящая от пользователя пропорция. Она должна быть в рамках Базового интервала и зависит от того, как персональные параметры пользователя соотносятся с общим Распределением.
    5. Лента формируется с использованием этих вычисленных персональных пропорций.

    Claim 2 (Зависимый от п.1): Уточняет механизм вычисления персональной пропорции (Шаг 4 из Claim 1).

    1. Определяется Центральный параметр распределения (например, медиана).
    2. Определяется положение пользователя в распределении (например, его процентильный ранг).
    3. Вычисляется Смещение между рангом пользователя и центральным параметром.
    4. Персональная пропорция вычисляется на основе этого Смещения относительно Центральной пропорции (медианы Базового интервала).

    Claims 3 и 4 (Зависимые): Описывают два альтернативных варианта использования Смещения для корректировки пропорции.

    • Вариант 1 (Claim 3 — Бинарная/Ступенчатая корректировка): Система проверяет только направление смещения. Если положительное (пользователь активнее медианы), пропорция устанавливается на заранее определенное высокое значение. Если отрицательное — на заранее определенное низкое значение.
    • Вариант 2 (Claim 4 — Пропорциональная корректировка): Расстояние персональной пропорции от Центральной пропорции прямо пропорционально величине Смещения. Чем сильнее поведение пользователя отличается от медианного, тем сильнее корректируется его пропорция контента.

    Claim 9 (Зависимый): Уточняет выбор метрик взаимодействия.

    Система использует разные метрики для разных типов контента: CTR для текстового, оригинального, неоригинального, графического содержимого; Время пребывания на странице (Dwell Time) для видео и аудио.

    Claims 10-12 (Зависимые): Описывают обработку данных и особые случаи.

    Используется Скользящее окно для учета только недавних взаимодействий (Claim 10). При недостаточном количестве данных (Холодный старт) назначается заранее определенное значение пропорции (Claim 11), которое заменяется на вычисленное, когда данных становится достаточно (Claim 12).

    Где и как применяется

    Этот патент не относится к архитектуре традиционного веб-поиска (Crawling, Indexing, Ranking по запросу). Он описывает механизм работы Системы Рекомендаций (например, Яндекс Дзен), которая предлагает контент пользователю проактивно.

    Этап формирования рекомендательной ленты (Content Selection/Blending)

    Алгоритм применяется в момент, когда система формирует ленту для пользователя. Он определяет структуру (каркас) ленты — сколько слотов выделить под каждый тип контента.

    • Входные данные: Базовые интервалы пропорций (глобальная конфигурация), Распределения взаимодействий (рассчитаны офлайн), Персональные параметры взаимодействия пользователя (рассчитаны на лету или извлечены из профиля).
    • Процесс: Модуль выбора рекомендуемого содержимого (117 в патенте) использует алгоритм для определения точных пропорций для текущей сессии.
    • Выходные данные: Набор Зависящих от пользователя пропорций, используемый для сборки финальной ленты из доступных элементов контента.

    На что влияет

    • Состав ленты и Типы контента: Напрямую влияет на баланс форматов в персональной ленте. В патенте упоминаются: текстовое, оригинальное (созданное на платформе), неоригинальное (внешние источники), графическое, видео, аудио содержимое.
    • Пользовательский опыт: Направлен на повышение вовлеченности путем адаптации форматов под предпочтения пользователя (например, показ большего количества видео тем, кто их активно смотрит).

    Когда применяется

    • Триггер активации: Запрос на персонализированное содержимое (например, пользователь открывает или обновляет ленту Дзен).
    • Условия работы: Для активации персонализированного расчета требуется наличие достаточного количества исторических данных о взаимодействиях пользователя (выше порога).
    • Временные рамки: Система использует Скользящее окно (Claim 10), учитывая только недавние взаимодействия (например, последние сессии или дни), что позволяет адаптироваться к меняющимся интересам пользователя.
    • Исключения (Холодный старт): Если данных недостаточно, используются заранее определенные (например, медианные) значения пропорций (Claim 11).

    Пошаговый алгоритм

    Процесс А: Офлайн-подготовка (регулярно)

    1. Определение конфигурации: Для каждого типа контента задается Базовый интервал пропорций (например, Видео 10-30%) и целевая метрика (например, Dwell Time).
    2. Сбор данных: Агрегация параметров взаимодействия по всем пользователям для каждого типа контента.
    3. Расчет распределений: Вычисление Распределения параметров взаимодействия.
    4. Определение центральных параметров: Вычисление Центрального параметра распределения (Медианы).

    Процесс Б: Онлайн-обработка (при запросе ленты)

    1. Получение запроса: Пользователь запрашивает ленту.
    2. Извлечение персональных данных: Система вычисляет Зависящие от пользователя параметры взаимодействия, используя данные в рамках Скользящего окна.
    3. Проверка порога (Холодный старт): Если взаимодействий недостаточно, назначаются стандартные пропорции (например, Центральные пропорции) и процесс переходит к шагу 8.
    4. Расчет положения пользователя: Определяется Процентильный ранг пользователя в общем Распределении для каждого типа контента.
    5. Вычисление смещения: Рассчитывается Смещение (разница) между Процентильным рангом пользователя и Медианой (50%).
    6. Вычисление пропорций: На основе Смещения корректируется Центральная пропорция для получения Зависящей от пользователя пропорции. Это может быть сделано ступенчато (Claim 3) или пропорционально (Claim 4).
    7. Нормализация: Сумма всех вычисленных пропорций корректируется так, чтобы она равнялась 100% (Claim 14).
    8. Формирование ленты: Сервис рекомендаций создает набор элементов содержимого, соблюдая вычисленные пропорции.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Ключевые данные для работы системы. Используются конкретные метрики взаимодействия, выбор которых зависит от типа контента (Claim 9):
      • Рейтинг кликабельности (CTR): для текстового, оригинального, неоригинального, графического содержимого.
      • Время пребывания на странице (Dwell Time): для видео и аудио содержимого.

      Данные собираются как по конкретному пользователю, так и по всей популяции.

    • Временные факторы: Используется история недавних взаимодействий, ограниченная Скользящим окном, для обеспечения актуальности предпочтений.
    • Контентные факторы (Метаданные): Используется тип содержимого (видео, текст и т.д.) для категоризации элементов.
    • Системные данные: Заранее определенные Базовые интервалы пропорций для каждого типа контента.

    Какие метрики используются и как они считаются

    • Распределение параметров взаимодействия: Строится на основе частоты пользовательских взаимодействий. Отмечается, что распределение CTR может быть аналогично усеченному логарифмически нормальному распределению.
    • Медиана (Median): Используется как Центральный параметр распределения (эталонное поведение популяции) и как Центральная пропорция.
    • Процентильный ранг (Percentile Rank): Используется для определения относительной позиции конкретного пользователя в общем распределении.
    • Смещение (Offset): Разница между Процентильным рангом пользователя и Медианой (50-м процентилем). Метрика включает направление и величину.
    • Нормализация пропорций: Пропорциональная корректировка вычисленных пропорций, чтобы их сумма равнялась 100%.

    Выводы

    1. Персонализация микса форматов: Яндекс активно персонализирует не только тематику контента в рекомендательных системах (Дзен), но и соотношение форматов (видео vs текст). Система адаптирует ленту под то, как пользователь предпочитает потреблять информацию.
    2. Относительность поведения: Ключевым механизмом является сравнение поведения пользователя с поведением медианного пользователя. Ваша вовлеченность оценивается не в абсолютных цифрах, а относительно общей аудитории (процентильный ранг).
    3. Метрики зависят от формата: Патент явно подтверждает использование разных метрик для разных типов контента: CTR для текста/графики и Время пребывания (Dwell Time) для видео/аудио. Это требует формат-специфичной оптимизации.
    4. Управляемая персонализация: Персонализация происходит в строго заданных рамках (Базовые интервалы пропорций). Система сохраняет определенный уровень разнообразия, не выходя за эти лимиты.
    5. Приоритет недавнего поведения: Использование Скользящего окна подчеркивает приоритет недавних взаимодействий, позволяя системе быстро адаптироваться к изменениям в предпочтениях пользователя.
    6. Низкая релевантность для веб-поиска: Механизмы, описанные в патенте, не применимы к ранжированию результатов в основном органическом поиске Яндекса.

    Практика

    Best practices (это мы делаем)

    Рекомендации применимы для оптимизации контента под рекомендательные платформы типа Яндекс Дзен, а не для традиционного SEO в веб-поиске.

    • Оптимизация вовлеченности по форматам: Необходимо фокусироваться на максимизации ключевых метрик вовлеченности для каждого типа контента. Ваша цель — добиться показателей выше среднего по платформе.
      • Для статей и графики: Максимизация CTR (оптимизация заголовков, обложек, сниппетов).
      • Для видео и аудио: Максимизация Dwell Time (оптимизация удержания внимания, глубины просмотра/прослушивания).
    • Диверсификация форматов: Создание контента в разных форматах (видео, статьи, посты) позволяет охватить пользователей с разными предпочтениями. Если ваш контент в определенном формате вовлекает пользователя лучше среднего, система увеличит долю этого формата в его ленте.
    • Поддержание стабильной активности: Так как система использует Скользящее окно и анализирует недавнее поведение, важно регулярно публиковать качественный контент для поддержания истории взаимодействий и избежания «холодного старта».

    Worst practices (это делать не надо)

    • Кликбейт в ущерб удержанию (для видео/аудио): Использование кликбейтных заголовков для видео может повысить CTR, но если время просмотра будет низким, система снизит показ видео пользователям, так как именно Dwell Time является ключевой метрикой для этого формата (Claim 9).
    • Игнорирование качества формата: Публикация контента низкого качества (например, плохо снятое видео или неинформативная статья) приведет к низким показателям взаимодействия. Это приведет к тому, что система будет реже показывать этот тип контента пользователям, которые плохо с ним взаимодействуют.
    • Фокус только на одном формате: Концентрация исключительно на одном типе контента может ограничить охват аудитории, предпочитающей другие форматы, так как система стремится адаптировать микс под индивидуальные предпочтения.

    Стратегическое значение

    Патент подтверждает, что для успеха в рекомендательных системах Яндекса критически важна адаптация контент-стратегии под предпочтения пользователей в отношении форматов и способность генерировать вовлеченность выше среднего уровня. Стратегически это означает, что издатели должны быть гибкими и оптимизировать контент под целевые поведенческие метрики (CTR/Dwell Time). Понимание того, что пропорции контента управляются алгоритмически на основе относительной вовлеченности, ставит эти метрики в центр стратегии продвижения в Дзене.

    Практические примеры

    Сценарий 1: Адаптация ленты для любителя видео

    1. Конфигурация системы: Базовый интервал для Видео: 10-40%. Центральная пропорция (медиана): 25%. Целевая метрика: Dwell Time.
    2. Поведение популяции: Медианное время просмотра видео всеми пользователями: 60 секунд.
    3. Поведение пользователя: Среднее время просмотра видео данным пользователем: 120 секунд.
    4. Расчет системы: Система определяет, что пользователь находится в 80-м процентиле. Смещение положительное (+30%).
    5. Результат: Система увеличивает долю видео в ленте этого пользователя с медианных 25% до, например, 35% (используя пропорциональную корректировку по Claim 4), чтобы максимизировать его вовлеченность.

    Сценарий 2: Адаптация ленты для пользователя, не любящего статьи

    1. Конфигурация системы: Базовый интервал для Текстовых статей: 20-50%. Центральная пропорция: 35%. Целевая метрика: CTR.
    2. Поведение популяции: Медианный CTR по статьям: 5%.
    3. Поведение пользователя: Средний CTR пользователя по статьям: 2%.
    4. Расчет системы: Система определяет, что пользователь находится в 20-м процентиле. Смещение отрицательное (-30%).
    5. Результат: Система уменьшает долю статей в ленте этого пользователя с медианных 35% до, например, 22%, освобождая место для других форматов, которые ему более интересны.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в основном поиске Яндекса?

    Нет, этот патент не влияет на традиционное SEO в веб-поиске. Он описывает механизмы работы систем рекомендаций (таких как Яндекс Дзен). Патент регулирует соотношение (микс) разных типов контента (видео, статьи) в персональной ленте пользователя, а не ранжирование сайтов в ответ на поисковый запрос.

    Что такое «Базовый интервал пропорций» и кто его устанавливает?

    Базовый интервал пропорций — это заданные Яндексом лимиты на долю определенного типа контента в ленте (например, видео должно занимать от 10% до 40% ленты). Эти интервалы устанавливаются администраторами сервиса глобально для обеспечения разнообразия и достижения бизнес-целей платформы. Персонализация происходит строго в этих рамках.

    Какие поведенческие метрики самые важные согласно патенту?

    Патент четко разделяет метрики по типам контента (Claim 9). Для текстового, графического, оригинального и неоригинального контента используется Рейтинг кликабельности (CTR). Для видео и аудио контента используется Время пребывания на странице (Dwell Time). Необходимо оптимизировать именно ту метрику, которая является целевой для вашего формата.

    Как система определяет, нравятся ли мне видео больше, чем статьи?

    Система сравнивает ваше поведение с поведением других пользователей. Если ваше время просмотра видео (Dwell Time) выше, чем у медианного пользователя (вы попадаете в верхние процентили), система делает вывод, что вам нравится видео больше среднего. В результате она увеличивает долю видео в вашей ленте в рамках базового интервала.

    Если я перестану смотреть видео, оно полностью исчезнет из моей ленты?

    Это зависит от Базового интервала. Если интервал для видео задан как 10-40%, то даже при минимальном интересе система будет показывать его на уровне 10%. Если же интервал задан как 0-40%, то при длительном игнорировании этого формата система может свести его показы к нулю.

    Что такое «Скользящее окно» и почему оно важно?

    Скользящее окно (Claim 10) — это метод учета только недавних взаимодействий пользователя (например, за последние несколько дней или сессий). Это важно, потому что интересы пользователя могут меняться. Система ориентируется на актуальное поведение, что требует от авторов поддержания постоянного качества и регулярности публикаций.

    Как система обрабатывает новых пользователей, у которых еще нет истории просмотров (Холодный старт)?

    Патент предусматривает обработку «холодного старта» (Claim 11). Если у пользователя недостаточно взаимодействий для надежного расчета персональных параметров, система назначает заранее определенные стандартные значения пропорций. Обычно это Центральная пропорция (медианное значение по платформе).

    В патенте упоминаются два способа корректировки пропорций (Claim 3 и 4). Какой из них лучше?

    Claim 3 (ступенчатый) проще в реализации: если пользователь активнее медианы, ему сразу дают фиксированную высокую пропорцию. Claim 4 (пропорциональный) более точный: чем активнее пользователь, тем выше пропорция. Патент описывает оба варианта как возможные реализации, и Яндекс может использовать любой из них или их комбинацию.

    Могу ли я как издатель повлиять на эти пропорции для моих читателей?

    Напрямую вы не можете изменить Базовые интервалы. Однако вы можете повлиять на них косвенно, создавая контент, который максимизирует вовлеченность. Если ваши видео имеют высокое время просмотра, пользователи, которые их смотрят, будут перемещаться в верхние процентили, и система увеличит долю видео в их ленте, что потенциально увеличит ваши охваты.

    Как использование кликбейта влияет на работу этого алгоритма?

    Кликбейт может дать высокий CTR, что положительно скажется на текстовых и графических форматах. Однако для видео и аудио ключевой метрикой является Время пребывания (Dwell Time). Если кликбейт приводит к быстрому закрытию видео, это приведет к низкому Dwell Time. Система интерпретирует это как низкий интерес к формату и уменьшит его долю в ленте пользователя.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.