Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует лояльную аудиторию для решения проблемы «холодного старта» нишевого контента в рекомендательных системах

    METHOD AND SYSTEM FOR DETERMINING A RELEVANCY PARAMETER FOR CONTENT ITEM (Метод и система определения параметра релевантности для единицы контента)
    • US10674215B2
    • Yandex LLC
    • 2020-06-02
    • 2019-03-29
    2020 Патенты Яндекс Ранжирование Рекомендательные системы Холодный старт Яндекс Дзен

    Яндекс патентует метод для оценки и продвижения специализированного (нишевого) контента в рекомендательных системах (например, Дзен). Система идентифицирует «ядро аудитории» (подписчиков канала) и принудительно показывает им новый контент. Реакция этой лояльной группы используется для прогнозирования релевантности контента для широкой аудитории, позволяя преодолеть нехватку данных для ранжирования.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «холодного старта» или «циклического недостатка исследования» (cyclical lack of exploration problem) для специализированного контента (specialized content) в рекомендательных системах. Нишевый контент интересен узкому кругу лиц и редко собирает достаточно взаимодействий от случайных пользователей. В результате система не может оценить его релевантность и не рекомендует его, что усугубляет нехватку данных. Патент предлагает механизм для сбора начальных данных о релевантности без ухудшения опыта широкой аудитории.

    Что запатентовано

    Запатентован метод определения параметра релевантности (Relevancy Parameter) для контента, исходящего из определенного канала контента (Content Channel). Суть изобретения заключается в использовании «ядра аудитории» (Core Users) – пользователей, уже связанных с этим каналом (например, подписчиков) – для тестирования нового контента. Система принудительно вставляет (Artificially Inserting) новый контент в их ленты и использует их реакции для прогнозирования релевантности этого контента для пользователей, не входящих в ядро.

    Как это работает

    Система идентифицирует пул пользователей (Pool of Users), связанных с каналом (например, через подписку или лайки). Когда пользователь из этого пула запрашивает рекомендации, система принудительно вставляет новый контент из этого канала в его ленту, часто на заметную позицию. Система измеряет склонность (Propensity) пользователя к взаимодействию (клики, время чтения). На основе реакций ядра аудитории прогнозируется параметр релевантности для широкой аудитории. Положительная реакция ядра дает контенту шанс попасть в ленты других пользователей.

    Актуальность для SEO

    Высокая. Патент напрямую связан с работой рекомендательных систем, таких как Яндекс.Дзен (упоминается в тексте патента). Управление балансом между исследованием нового контента и использованием проверенного (Exploration/Exploitation balance) является центральной задачей для всех современных платформ персонализированного контента.

    Важность для SEO

    Влияние на SEO значительно (7.5/10), но специфично для контентных платформ и рекомендательных систем (таких как Дзен, Пульс и т.д.), а не для классического веб-поиска. Патент раскрывает механизм, как именно вовлеченность существующей базы подписчиков напрямую влияет на получение охвата у новой аудитории. Для авторов и издателей это означает, что качество и лояльность ядра аудитории являются критическими факторами для продвижения на платформе.

    Детальный разбор

    Термины и определения

    Artificially Inserting (Принудительная / Искусственная вставка)
    Процесс добавления элемента контента в набор рекомендаций пользователя в обход стандартного алгоритма ранжирования. Используется для обеспечения показов нового или нишевого контента ядру аудитории.
    Augmented Relevancy Parameter (Дополненный параметр релевантности)
    Параметр релевантности, рассчитанный на основе агрегированных взаимодействий ядра аудитории. В патенте указано (Claim 5), что он может быть смещен вверх (upwardly biased) по сравнению с нативным параметром, который сгенерировал бы стандартный алгоритм.
    Content Channel (Канал контента)
    Источник цифрового контента в рекомендательной системе (например, блог автора). Может быть нативным (native channel) для платформы.
    Core Users / Pool of Users (Ядро аудитории / Пул пользователей)
    Группа пользователей, которые продемонстрировали явную (Explicit) или неявную (Implicit) связь с определенным каналом контента. Это тестовая группа для нового контента с этого канала.
    Explicit Association (Явная связь)
    Активные действия лояльности: подписка на канал, лайк или комментарий к предыдущему контенту канала (Claim 13).
    Implicit Association (Неявная связь)
    Пассивные сигналы лояльности: пользователю ранее показывали контент с канала, и он не выразил негативной реакции (Claim 12).
    Propensity (Склонность / Предрасположенность)
    Вероятность того, что пользователь положительно провзаимодействует с элементом контента. Измеряется на основе взаимодействий пользователя (клики, время просмотра, лайки).
    Relevancy Parameter (Параметр релевантности)
    Метрика, используемая системой для ранжирования элемента контента. Цель изобретения — определить этот параметр на основе реакций ядра аудитории.
    Specialized Content (Специализированный контент)
    Контент, представляющий интерес для узкого круга пользователей (нишевый контент). Часто страдает от проблемы «холодного старта».

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на методе использования существующей аудитории канала для оценки релевантности его нового контента для более широкой аудитории.

    Claim 1 (Независимый пункт): Описывает основной метод определения параметра релевантности.

    1. Идентификация пула пользователей (Pool of Users), связанных с определенным каналом контента (Content Channel).
    2. Получение запроса на рекомендации от Первого Пользователя, который принадлежит к этому пулу.
    3. Генерация набора рекомендуемых элементов для Первого Пользователя.
    4. Принудительная вставка (Artificially inserting) целевого цифрового элемента контента (исходящего из данного канала) в сгенерированный набор рекомендаций.
    5. Сбор данных о взаимодействиях Первого Пользователя, указывающих на его склонность (propensity) к целевому элементу.
    6. Прогнозирование параметра релевантности (Relevancy Parameter) целевого элемента для пользователей ВНЕ этого пула, основываясь на взаимодействиях Первого Пользователя.

    Claims 3, 4, 5 (Зависимые пункты): Описывают агрегацию данных и бустинг.

    Процесс повторяется для других пользователей из пула. Их взаимодействия используются для генерации Дополненного параметра релевантности (Augmented Relevancy Parameter). Этот параметр является смещенным вверх (upwardly biased) по сравнению со стандартным параметром, что дает контенту начальный буст.

    Claims 6, 7 (Зависимые пункты): Описывают фазу использования и механизм самокоррекции (пессимизации).

    Когда пользователь вне пула запрашивает рекомендации, система использует спрогнозированный (завышенный) параметр релевантности. Если взаимодействия этого пользователя указывают на более низкую склонность к контенту по сравнению с ядром аудитории, система корректирует параметр релевантности в сторону понижения.

    Claims 9, 10 (Зависимые пункты): Уточняют механизм принудительной вставки.

    Вставка может осуществляться путем размещения элемента на заранее определенной позиции (pre-determined position). Эта позиция выбирается так, чтобы максимизировать вероятность взаимодействия (например, вверху ленты).

    Где и как применяется

    Этот патент описывает механизм, применяемый в рекомендательных системах (таких как Яндекс.Дзен, упомянутый в патенте), а не в классическом веб-поиске Яндекса. В рамках архитектуры он затрагивает следующие слои:

    RANKING – Ранжирование (и генерация признаков)
    Основное применение патента. Механизм используется для расчета ключевого признака ранжирования — Relevancy Parameter — для элементов контента, у которых недостаточно исторических данных (новый или нишевый контент).

    • Feature Extraction: Взаимодействия «ядра аудитории» используются для вычисления начального скора релевантности.
    • Ranking Algorithm (MLA): Этот рассчитанный параметр (часто завышенный) затем используется основной формулой ранжирования при генерации ленты для широкой аудитории.

    BLENDER / Генерация SERP (Ленты рекомендаций)
    На этапе сборки ленты для пользователя из «ядра аудитории» система выполняет шаг «Принудительной вставки» (Artificially Inserting), модифицируя стандартную выдачу для целей исследования (Exploration).

    Офлайн-процессы и обработка данных
    Система должна постоянно поддерживать актуальные списки «ядра аудитории» (Pool of Users) для каждого канала на основе анализа логов взаимодействий (подписки, лайки и т.д.).

    На что влияет

    • Специфические типы контента: Наибольшее влияние оказывается на новый контент и специализированный/нишевый контент (Specialized Content), который иначе не получил бы начальных показов.
    • Конкретные ниши: Влияет на авторов и издателей в узких тематиках, помогая им преодолеть проблему «холодного старта», если у них есть хотя бы небольшая, но лояльная аудитория.
    • Нативные каналы: Патент особо выделяет применение этого метода к нативным каналам (native channel) системы (например, блоги, созданные внутри платформы Дзен).

    Когда применяется

    Алгоритм активируется при совпадении нескольких условий:

    1. У канала есть контент, требующий определения релевантности (новый, нишевый, с недостатком взаимодействий).
    2. У канала есть идентифицированное «ядро аудитории» (Pool of Users).
    3. Пользователь, принадлежащий к этому «ядру аудитории», запрашивает ленту рекомендаций.

    Система использует этот момент для проведения исследования (Exploration) путем принудительной вставки контента.

    Пошаговый алгоритм

    Этап А: Офлайн-подготовка

    1. Анализ связей: Анализ истории взаимодействий пользователей с каналами контента (подписки, лайки, комментарии, просмотры без негатива).
    2. Идентификация ядра аудитории: Для каждого канала определяется пул ассоциированных пользователей (Core Users) на основе явных и неявных связей.

    Этап Б: Обработка запроса в реальном времени

    1. Получение запроса: Система получает запрос на рекомендации от пользователя.
    2. Классификация пользователя: Система определяет, принадлежит ли пользователь к какому-либо «ядру аудитории» канала, имеющего контент для исследования.
    3. Ветвление логики:
      • Путь 1 (Пользователь из ядра – Фаза Исследования):
        1. Генерация стандартного набора рекомендаций.
        2. Искусственная вставка: Целевой контент принудительно вставляется в набор рекомендаций на позицию, максимизирующую вероятность взаимодействия.
        3. Сбор данных: Система фиксирует взаимодействия пользователя (Propensity) с вставленным контентом.
      • Путь 2 (Пользователь НЕ из ядра – Фаза Использования):
        1. Выполняется стандартная процедура рекомендаций. Ранжирование основано на существующих параметрах релевантности (если они уже были вычислены).

    Этап В: Расчет и Коррекция метрик

    1. Расчет параметра релевантности: На основе собранных взаимодействий от ядра аудитории (Этап Б, Путь 1) вычисляется Relevancy Parameter. Он может быть искусственно завышен (upwardly biased).
    2. Корректировка: После того как контент начал показываться широкой аудитории (Этап Б, Путь 2), система собирает их взаимодействия. Если реакция широкой аудитории значительно хуже реакции ядра, Relevancy Parameter корректируется в сторону понижения (пессимизация).

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Критически важны для идентификации «ядра аудитории» и для оценки их реакции на контент. Используются:
      • Явные сигналы (Explicit Association): подписки на каналы, лайки, комментарии к предыдущим материалам канала.
      • Неявные сигналы (Implicit Association): история просмотров контента канала, отсутствие негативных реакций (дизлайков, блокировок) на контент канала.
      • Взаимодействия с тестируемым контентом: клики, время просмотра (Dwell time), прокрутка.
    • Системные данные: Идентификаторы пользователей, идентификаторы элементов контента, идентификаторы каналов контента.

    Какие метрики используются и как они считаются

    • User’s Propensity (Склонность пользователя к контенту): Оценка реакции пользователя на принудительно вставленный контент. Рассчитывается на основе его взаимодействий с этим элементом.
    • Relevancy Parameter (Параметр релевантности): Итоговая метрика, которая прогнозирует релевантность контента для широкой аудитории. Рассчитывается на основе агрегированных значений User’s Propensity, полученных от «ядра аудитории».
    • Augmented Relevancy Parameter: Агрегированный параметр, который может быть искусственно завышен (upwardly biased) для стимулирования показов широкой аудитории.

    Выводы

    1. Ядро аудитории как валидатор качества: Яндекс использует лояльных подписчиков (или схожих пользователей) в качестве первичного фильтра качества и релевантности для нового или нишевого контента в рекомендательных системах.
    2. Реакция подписчиков определяет охват: Взаимодействие ядра аудитории с новым контентом напрямую определяет, будет ли этот контент показан широкой аудитории. Если даже лояльные пользователи игнорируют материал, система делает вывод о его низкой релевантности для всех остальных.
    3. Принудительные показы для исследования (Exploration): Система активно вмешивается в процесс генерации ленты для лояльных пользователей, принудительно вставляя контент (Artificially Inserting), часто на фиксированные высокие позиции, для сбора данных.
    4. Бустинг и Коррекция: Контент, понравившийся ядру, получает начальный буст (upward bias). Однако, если широкая аудитория не подтверждает этот интерес, система корректирует рейтинг вниз (пессимизация).
    5. Решение проблемы «холодного старта»: Этот механизм позволяет нишевому контенту получить начальный импульс и справедливую оценку релевантности, не ухудшая при этом опыт широкой аудитории (так как тестирование проводится только на заинтересованных пользователях).

    Практика

    Best practices (это мы делаем)

    Рекомендации применимы для продвижения сайтов и контента в рекомендательных системах (Яндекс.Дзен, Пульс и т.п.).

    • Фокус на формировании и удержании лояльного ядра аудитории: Критически важно не просто привлекать подписчиков, но и поддерживать их высокую вовлеченность. Лояльная аудитория является главным активом для продвижения нового контента, так как она используется системой для его валидации.
    • Обеспечение стабильно высокого качества контента: Каждый материал тестируется на лояльной аудитории. Публикация контента низкого качества приведет к низкой оценке (Propensity) от ядра, что закроет доступ к широкому охвату.
    • Стимулирование явных сигналов лояльности (Explicit Association): Поощряйте пользователей подписываться, ставить лайки и комментировать материалы. Это укрепляет их связь с каналом в глазах системы и увеличивает размер тестового пула (Pool of Users).
    • Оптимизация заголовков и сниппетов для вовлечения ядра: Поскольку контент принудительно вставляется в ленту ядра аудитории (часто на заметные позиции), заголовки и сниппеты должны быть максимально привлекательными именно для них, чтобы стимулировать первичное взаимодействие.

    Worst practices (это делать не надо)

    • Накрутка подписчиков и использование ботов: Этот патент делает такую тактику вредной. Боты или нецелевые подписчики сформируют «ядро аудитории», но не будут качественно взаимодействовать с контентом. Система интерпретирует это как низкое качество материала и прекратит его показы широкой аудитории.
    • Публикация кликбейта, разочаровывающего аудиторию: Если ядро аудитории кликнет, но быстро покинет страницу или поставит дизлайк (низкая Propensity), это приведет к низкому Relevancy Parameter и остановит продвижение.
    • Резкая смена тематики канала: Это может привести к тому, что существующее ядро аудитории негативно отреагирует на новый контент, так как он не соответствует их интересам, что приведет к отсутствию бустинга.

    Стратегическое значение

    Патент подтверждает стратегическую важность качества аудитории над ее количеством в рекомендательных системах Яндекса. Он демонстрирует, что путь к большим охватам лежит через глубокое удовлетворение потребностей узкой, но лояльной группы пользователей. Для издателей это означает необходимость инвестирования в долгосрочные отношения с аудиторией (построение сообщества) и поддержание тематической целостности канала, а не погоню за сиюминутным трафиком.

    Практические примеры

    Сценарий: Продвижение нового материала на канале о редких книгах (Нишевый контент)

    1. Подготовка: У канала есть 500 лояльных подписчиков (Ядро Аудитории). Автор публикует новую статью «Топ-10 забытых советских фантастов».
    2. Действие системы (Exploration): Когда подписчики заходят в Дзен, система принудительно вставляет эту новую статью в их ленту на заметную позицию (например, 2-ю или 3-ю).
    3. Сбор реакций:
      • Вариант А (Успех): 100 подписчиков кликнули, среднее время чтения 3 минуты, 20 поставили лайк (Высокая Propensity).
      • Вариант Б (Провал): 10 подписчиков кликнули, среднее время чтения 20 секунд, 5 поставили дизлайк, остальные проигнорировали (Низкая Propensity).
    4. Расчет Relevancy Parameter: В Варианте А система рассчитывает высокий (и завышенный) параметр релевантности. В Варианте Б — низкий.
    5. Результат (Exploitation): В Варианте А статья начинает активно показываться широкой аудитории (вне пула подписчиков), получая большой охват. В Варианте Б показы статьи прекращаются.

    Вопросы и ответы

    Применяется ли этот патент в основном поиске Яндекса?

    Нет. Патент описывает механизмы работы рекомендательных систем (в тексте упоминается Yandex.Zen) для определения релевантности контента внутри платформы. Он не описывает ранжирование документов в классическом веб-поиске, а фокусируется на продвижении контента в персонализированных лентах.

    Что такое «Ядро аудитории» (Pool of Users/Core Users) в этом патенте?

    Это группа пользователей, которые продемонстрировали устойчивый интерес к определенному каналу контента. Это могут быть подписчики (явная связь), пользователи, которые часто лайкают материалы канала, или те, кто регулярно читает контент канала и не выражает негатива (неявная связь). Они используются системой как тестовая группа для оценки качества нового контента с этого канала.

    Что означает «Принудительная вставка» (Artificially Inserting) контента?

    Это означает, что система помещает новый или нишевый контент в ленту пользователя из «ядра аудитории» в обход стандартных алгоритмов ранжирования. Контент может быть помещен на фиксированную, часто высокую позицию (Claim 9, 10), чтобы гарантировать его показ и собрать данные о реакции пользователя.

    Как реакция подписчиков влияет на дальнейший охват материала?

    Реакция подписчиков (ядра аудитории) имеет определяющее значение. Если они активно взаимодействуют с материалом (высокая Propensity), система рассчитывает высокий параметр релевантности и начинает показывать материал широкой аудитории. Если даже подписчики игнорируют материал, система считает его нерелевантным и останавливает показы.

    Почему накрутка подписчиков неэффективна в свете этого патента?

    Накрученные подписчики (боты или нецелевая аудитория) попадают в «ядро аудитории», но не будут качественно взаимодействовать с контентом. Когда система принудительно покажет им новый материал, они его проигнорируют или быстро закроют. Система интерпретирует это как сигнал о низком качестве контента (низкая Propensity) и пессимизирует его для широкой аудитории.

    Что важнее для продвижения: качество контента или количество подписчиков?

    Оба фактора важны, но качество контента и вовлеченность подписчиков первичны. Большое количество неактивных подписчиков не даст преимуществ. Небольшая, но высоко вовлеченная аудитория (качественное ядро) обеспечит более эффективное продвижение нового контента благодаря механизму, описанному в патенте.

    Что такое «Специализированный контент» в контексте патента?

    Это контент, который интересен узкому кругу пользователей (нишевый интерес), в отличие от контента широкого интереса. Примерами могут быть статьи о специфических хобби, узких областях науки или локальных событиях. Такой контент часто страдает от нехватки данных для оценки стандартными алгоритмами.

    Что произойдет, если ядро аудитории положительно оценило контент, а широкая аудитория – нет?

    Патент предусматривает этот сценарий (Claim 7). Изначально контент получит высокий параметр релевантности на основе реакции ядра и начнет показываться широко. Однако, если широкая аудитория будет демонстрировать низкую вовлеченность, стандартные алгоритмы ранжирования постепенно скорректируют параметр релевантности в сторону понижения (пессимизируют контент).

    Как можно увеличить размер «ядра аудитории» для своего канала?

    Необходимо стимулировать пользователей к явным действиям лояльности: подпискам, лайкам, комментариям. Также важно публиковать контент стабильно высокого качества, чтобы пользователи, читающие канал неявно (без подписки), не выражали негатива, так как это также учитывается при формировании ядра.

    Влияет ли этот механизм на продвижение контента с внешних сайтов или только нативных блогов?

    Хотя патент упоминает, что механизм особенно удобен для нативных каналов (созданных внутри платформы), он технически применим к любому источнику контента, который система может идентифицировать как «Канал» и для которого можно определить «Ядро аудитории» (например, пользователи, часто переходящие на определенный сайт из ленты).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.