Как Яндекс сравнивает популярность контента внутри рекомендательной системы и в Вебе для борьбы с кликбейтом

Яндекс патентует механизм для повышения качества рекомендаций (например, в Дзен) путем выявления и пессимизации кликбейта. Система сравнивает популярность источника контента внутри рекомендательной платформы с его популярностью в интернете в целом. Если контент аномально популярен внутри системы, но малоизвестен в Вебе, он признается потенциальным кликбейтом, и его рейтинг агрессивно понижается.

Описание

Какую задачу решает

Патент решает задачу повышения точности ранжирования в рекомендательных системах (в тексте упоминается Yandex.Zen). Основная проблема — борьба с кликбейтом — контентом, который использует сенсационные заголовки для привлечения кликов, но не предоставляет релевантной информации. Такой контент часто поступает из внешних источников и может получать завышенные оценки от стандартных алгоритмов ранжирования, особенно если те учитывают коэффициент кликов (CTR). Изобретение предлагает механизм для выявления и нейтрализации такого контента.

Что запатентовано

Запатентована система и способ корректировки ранжирования рекомендаций цифрового контента. Суть изобретения заключается в сравнении двух метрик популярности для внешнего контента: популярности внутри рекомендательной системы (In-System Popularity) и популярности в интернете в целом (Web Popularity). На основе этого сравнения вычисляется Коэффициент корректировки популярности, который используется для переранжирования исходной выдачи.

Как это работает

Система работает путем анализа источников внешнего контента. Для каждого элемента контента рассчитывается его популярность внутри рекомендательной системы (например, доля кликов на этот источник от общего числа кликов в системе) и его популярность в Вебе (доля трафика на домен источника от общего веб-трафика, по данным Метрики, браузеров или логов поиска). Если популярность внутри системы значительно превышает популярность в Вебе, система предполагает, что контент может быть кликбейтом. Рассчитывается отношение этих двух метрик, которое затем используется (например, через сигмоидальную функцию) для определения Коэффициента корректировки. Если подозрения подтверждаются, коэффициент применяется к исходной рейтинговой оценке, понижая позицию контента в ленте рекомендаций или полностью удаляя его.

Актуальность для SEO

Высокая. Рекомендательные системы являются ключевым направлением развития контентных платформ. Борьба с кликбейтом и низкокачественным контентом остается одной из главных задач для поддержания лояльности пользователей в таких системах, как Яндекс.Дзен. Описанный метод использования глобальных данных о веб-трафике для валидации популярности актуален.

Важность для SEO

Влияние на SEO умеренно высокое (7/10). Патент напрямую относится не к поисковой выдаче (SERP), а к рекомендательным системам (Яндекс.Дзен). Однако для многих контентных проектов Дзен является значительным источником трафика. Этот патент описывает конкретный механизм, который может радикально снизить охваты для сайтов, использующих кликбейт-стратегии для продвижения в Дзене. Он также демонстрирует, как Яндекс использует данные из разных источников (Метрика, Браузер, Поиск) для оценки качества и авторитетности источников контента.

Детальный разбор

Термины и определения

In-System Popularity (Оценка популярности в системе): Метрика, указывающая популярность элемента (или его источника) внутри рекомендательной системы. Рассчитывается как доля взаимодействий (например, кликов) с контентом из этого источника от общего количества взаимодействий в системе за определенный период.
Web Popularity (Значение веб-популярности): Метрика, указывающая популярность источника (домена) в сети Интернет в целом. Рассчитывается как доля взаимодействий (например, обращений/визитов) с этим доменом от общего количества веб-взаимодействий за тот же период. Использует внешние данные (логи поиска, браузеров, веб-аналитика).
Popularity Adjustment Coefficient (Коэффициент корректировки популярности): Коэффициент (например, бинарный 0 или 1, или масштабируемый), определяемый на основе сравнения In-System Popularity и Web Popularity. Используется для корректировки (обычно понижения) исходной рейтинговой оценки.
Кликбейт (Clickbait): Контент, созданный с целью получения большего количества кликов, часто за счет скандальных или сенсационных заголовков, но не предоставляющий релевантной информации.
Внешний элемент цифрового контента (External Content Item): Контент, поступивший из источника, внешнего по отношению к рекомендательной системе (например, веб-сайт, RSS-канал).
Собственный элемент цифрового контента (Native Content Item): Контент, созданный авторами непосредственно на платформе рекомендательной системы.
Ranking Score (Рейтинговая оценка): Исходная оценка релевантности контента пользователю, назначенная базовым алгоритмом ранжирования.
Сигмоидальная функция (Sigmoid Function): Математическая функция, используемая в патенте для преобразования отношения популярностей в значение вероятности совпадения популярности.

Ключевые утверждения (Анализ Claims)

Патент защищает метод корректировки ранжирования в рекомендательной системе на основе сравнения популярности внутри системы и вовне.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система получает запрос на рекомендацию.
Формируется исходный набор кандидатов с помощью алгоритма ранжирования. Каждому кандидату присваивается Рейтинговая оценка (Ranking Score).
Для элемента контента, который доступен и в системе, и на внешнем сетевом ресурсе (внешний контент), выполняются следующие шаги:
Определение Оценки популярности в системе (In-System Popularity).
Определение Значения веб-популярности (Web Popularity).
Определение Коэффициента корректировки популярности на основе этих двух оценок.
Формирование скорректированного набора путем корректировки исходной Рейтинговой оценки с использованием этого коэффициента.
Передача скорректированного набора пользователю.

Claim 3 (Зависимый от 2): Уточняет метод расчета Оценки популярности в системе.

Она рассчитывается как отношение количества кликов на подмножество контента из определенного источника к общему количеству кликов в системе за период времени.

Claim 4 (Зависимый от 3): Уточняет метод расчета Значения веб-популярности.

Она рассчитывается путем извлечения доменного имени источника и определения отношения количества обращений к этому домену в Вебе к общему количеству обращений ко всем сетевым ресурсам за тот же период.

Claim 5 (Зависимый от 4): Уточняет источники данных для расчета Веб-популярности.

Используются журналы поиска, журналы браузера и/или данные веб-аналитики (например, Яндекс.Метрика).

Claim 6 (Зависимый от 4): Уточняет метод определения Коэффициента корректировки.

Определяется отношение Веб-популярности к Популярности в системе.
Это отношение применяется в Сигмоидальной функции для получения значения вероятности совпадения популярностей.
Проверяется, превышает ли эта вероятность порог.
Если вероятность выше порога (совпадение есть), назначается первый коэффициент (например, 1). Если ниже порога (подозрение на кликбейт), назначается второй коэффициент (например, 0).

Где и как применяется

Важно понимать, что патент описывает работу Рекомендательной системы (например, Яндекс.Дзен), а не основного веб-поиска Яндекса. В контексте архитектуры поиска, этот механизм применяется на поздних этапах формирования ленты рекомендаций.

RANKING / RERANKING (Ранжирование и Пост-обработка)
Изобретение применяется на этапе пост-обработки или переранжирования (L3/L4 в терминах поиска) результатов, сгенерированных основным рекомендательным алгоритмом.

Initial Ranking: Основной алгоритм ранжирования (Процедура 302) генерирует исходный список кандидатов с рейтинговыми оценками, основываясь на интересах пользователя и признаках контента.
Re-Ranking (Процедура 308): Система переоценивает внешние элементы контента. Она использует предварительно рассчитанные данные о популярности источников (In-System и Web Popularity) для расчета Коэффициента корректировки в реальном времени или близком к нему. Этот коэффициент модифицирует исходную оценку.

CRAWLING & INDEXING (Сбор данных и Индексация)
На этих этапах система собирает контент из внешних источников и индексирует его. Важно, что система идентифицирует источник (домен) контента и помечает его как внешний.

Офлайн-процессы (Обработка данных)
Ключевые вычисления происходят офлайн:

Агрегация данных о взаимодействиях внутри системы (Журнал 132) для расчета In-System Popularity.
Агрегация глобальных веб-данных (Журналы 130, 142, данные Метрики 140) для расчета Web Popularity.

На что влияет

Типы контента: Влияет исключительно на внешний контент — статьи, новости, видео с внешних сайтов, представленные в ленте рекомендаций. Собственный контент (созданный на платформе) не подвержен этой корректировке.
Манипуляции: Направлен против кликбейта и контента, который получает аномально высокий трафик внутри рекомендательной системы, не подтвержденный его общей популярностью в интернете.

Когда применяется

Триггеры активации: Алгоритм активируется при формировании ленты рекомендаций для пользователя, конкретно для тех элементов в ленте, которые идентифицированы как внешние.
Условия срабатывания пессимизации: Пессимизация (применение понижающего коэффициента) происходит, когда отношение Web Popularity / In-System Popularity оказывается низким. Конкретно, когда рассчитанная на основе этого отношения вероятность совпадения популярности оказывается ниже установленного порога (Порог 712).

Пошаговый алгоритм

Процесс формирования скорректированной ленты рекомендаций.

Инициализация: Пользователь запрашивает ленту рекомендаций.
Первичное ранжирование: Система определяет профиль интересов пользователя и выполняет базовый алгоритм ранжирования. Формируется исходный ранжированный список кандидатов (406), где каждому элементу присвоена Рейтинговая оценка.
Идентификация внешнего контента: В списке кандидатов определяются элементы, поступившие из внешних источников (имеющие тег источника/домена).
Расчет In-System Popularity (Офлайн/Кеш): Для каждого внешнего источника (домена) определяется его популярность внутри системы. Это доля кликов на контент этого источника от общего числа кликов в системе за период (например, 3 дня).
Расчет Web Popularity (Офлайн/Кеш): Для того же домена определяется его популярность в Вебе. Это доля обращений к этому домену от общего числа обращений ко всем веб-ресурсам за тот же период, по данным логов поиска, браузеров и Метрики.
Расчет отношения популярностей: Вычисляется отношение: $Ratio = \frac{Web\ Popularity}{In-System\ Popularity}$.
Определение вероятности совпадения: Отношение (Ratio) подставляется в Сигмоидальную функцию (Формула 1) для расчета значения вероятности (S(x)).
Определение Коэффициента Корректировки: Значение вероятности сравнивается с порогом (712).
- Если S(x) > Порог (популярность подтверждена Вебом): Коэффициент = 1.
- Если S(x) < Порог (популярность в системе аномально высока, подозрение на кликбейт): Коэффициент = 0 (или другое понижающее значение).
Корректировка оценок: Исходная Рейтинговая оценка внешнего контента умножается на его Коэффициент корректировки.
Повторное ранжирование: Формируется скорректированный ранжированный список (804) на основе новых оценок. Контент с обнуленной оценкой перемещается вниз списка или удаляется.
Выдача: Скорректированный список отображается пользователю.

Какие данные и как использует

Данные на входе

Система использует данные из нескольких независимых источников для валидации популярности.

Поведенческие факторы (Внутри системы): Данные о взаимодействиях пользователей внутри рекомендательной системы (Журнал 132). Основной метрикой являются «клики». Также упоминаются «лайки», «дизлайки», «прокрутки», время просмотра.
Поведенческие факторы (Веб-трафик): Глобальные данные о посещаемости веб-ресурсов. Источники данных:
- Журналы поиска (130): Данные об операциях поиска и переходах из SERP.
- Журналы просмотра веб-страниц (142) / Данные браузеров: История просмотра веб-страниц, собранная напрямую из браузеров пользователей.
- Данные веб-аналитики (140): Данные, собранные системами аналитики (упомянуты Yandex.Metrica, Google Analytics), отслеживающими доступ к веб-серверам.
Технические факторы: URL-адреса и доменные имена (Домен верхнего уровня) используются для идентификации источника контента.

Какие метрики используются и как они считаются

In-System Popularity: Рассчитывается как доля трафика. $InSystemPopularity_{Source} = \frac{Клики_{Source}}{Всего\ Кликов_{System}}$
Web Popularity: Рассчитывается как доля трафика. $WebPopularity_{Domain} = \frac{Обращения_{Domain}}{Всего\ Обращений_{Web}}$
Отношение популярностей (Ratio): $Ratio = \frac{Web\ Popularity}{In-System\ Popularity}$.
Значение вероятности (S(x)): Рассчитывается с использованием Сигмоидальной функции: $S(x)=base+\frac{1,0-base}{0,5}\times[\frac{1}{1+e^{-p~ower\times ratio}}-0,5]$ Где base — наименьшее возможное значение вероятности, power — крутизна кривой.
Коэффициент корректировки популярности: Определяется путем сравнения S(x) с пороговым значением (Threshold). $Coefficient = \begin{cases} 1 & \text{if } S(x) > Threshold \\ 0 & \text{if } S(x) \leq Threshold \end{cases}$ (в бинарной реализации).

Выводы

Цель — борьба с кликбейтом в рекомендациях: Патент явно нацелен на выявление и пессимизацию контента, который получает трафик за счет манипулятивных заголовков (кликбейта) в рекомендательных системах типа Яндекс.Дзен.
Валидация популярности через внешние данные: Ключевой механизм — это кросс-валидация. Популярность внутри закрытой экосистемы (рекомендательной системы) проверяется популярностью в открытом интернете. Аномально высокая популярность внутри системы при низкой популярности вовне является сильным сигналом низкого качества/кликбейта.
Глобальные данные о трафике как мерило авторитетности: Яндекс использует свои обширные данные о веб-трафике (Метрика, Браузер, Логи Поиска) как эталонный показатель популярности и авторитетности источника. Это подчеркивает важность глобальной видимости и узнаваемости бренда.
Фокус на источнике (домене): Метрики популярности рассчитываются преимущественно на уровне источника (домена), а не отдельного URL. Это означает, что общая репутация домена в Вебе влияет на ранжирование отдельных его страниц в рекомендательной системе.
Жесткая пессимизация: Механизм предусматривает возможность полной пессимизации (например, умножение рейтинга на 0) при достижении порогового значения недоверия.

Практика

Best practices (это мы делаем)

Рекомендации применимы для SEO-специалистов, работающих с трафиком из рекомендательных систем (Яндекс.Дзен).

Развитие общей популярности и авторитетности домена: Необходимо работать над ростом узнаваемости бренда и трафика из разных источников (поиск, прямой трафик, соцсети). Высокая Web Popularity служит защитой от пессимизации по этому алгоритму. Если сайт популярен в интернете в целом, его контент не будет признан кликбейтом, даже если он очень успешен в Дзене.
Использование честных заголовков: Отказ от кликбейта. Заголовки должны соответствовать содержанию. Алгоритм направлен именно против техник, которые искусственно завышают CTR внутри рекомендательной системы.
Мониторинг трафика в Яндекс.Метрике: Поскольку данные веб-аналитики используются для расчета Web Popularity, важно обеспечить корректную установку и настройку счетчиков Метрики для максимально полного учета трафика на сайт.
Фокус на качественном контенте, привлекающем органический трафик: Создание контента, который хорошо ранжируется в поиске и привлекает пользователей органически, повышает общую Web Popularity и снижает риски в рекомендательных системах.

Worst practices (это делать не надо)

Использование агрессивного кликбейта для продвижения в Дзене: Эта стратегия находится под прямой угрозой. Даже если она дает краткосрочный рост CTR (In-System Popularity), алгоритм выявит несоответствие с Web Popularity и обнулит рейтинг.
Создание сайтов исключительно под трафик из Дзена без развития в Вебе: Если сайт не имеет значимого трафика из других источников и не популярен в интернете, его успехи в Дзене будут выглядеть подозрительно для алгоритма, что повышает риск пессимизации.
Блокировка или некорректная настройка Яндекс.Метрики: Отсутствие данных в Метрике может негативно сказаться на расчете Web Popularity, что потенциально может привести к ложным срабатываниям алгоритма.

Стратегическое значение

Патент подтверждает стратегию Яндекса на использование всего массива имеющихся у него данных (Big Data) для оценки качества контента и источников. Он показывает, как данные из одной экосистемы (Веб-поиск, Метрика, Браузер) используются для контроля качества в другой (Дзен). Для SEO это сигнал о том, что невозможно изолированно оптимизировать сайт под один канал. Авторитетность и популярность домена являются сквозными факторами, влияющими на видимость во всех сервисах Яндекса. Долгосрочная стратегия должна быть направлена на построение сильного бренда с диверсифицированным трафиком.

Практические примеры

Сценарий: Пессимизация низкокачественного сайта в Дзене

Сайт: Новостной сайт «Site-A.ru», созданный недавно, без значительного органического трафика, использующий шокирующие заголовки для продвижения в Дзене.
Расчет метрик:
- In-System Popularity: Высокая (например, 0.05). За счет кликбейта сайт получает 5% всех кликов в Дзене.
- Web Popularity: Низкая (например, 0.0001). По данным Метрики и Браузера, сайт почти неизвестен в интернете.
Действие системы: Рассчитывается отношение Ratio = 0.0001 / 0.05 = 0.002. Это очень низкое значение.
Применение Сигмоиды: При подстановке в функцию S(x) получается значение вероятности ниже порога.
Корректировка: Системой назначается Коэффициент корректировки = 0.
Результат: Рейтинговая оценка контента с Site-A.ru умножается на 0. Контент перестает показываться в ленте Дзена, несмотря на высокий CTR.

Сценарий 2: Защита авторитетного ресурса

Сайт: Крупное известное СМИ «Site-B.ru» с большим объемом прямого и поискового трафика.
Расчет метрик:
- In-System Popularity: Высокая (например, 0.08). Сайт популярен в Дзене.
- Web Popularity: Высокая (например, 0.07). Сайт также очень популярен в Вебе.
Действие системы: Рассчитывается отношение Ratio = 0.07 / 0.08 = 0.875.
Применение Сигмоиды: Значение S(x) получается выше порога (популярность совпадает).
Корректировка: Назначается Коэффициент корректировки = 1.
Результат: Рейтинговая оценка контента с Site-B.ru не изменяется. Контент продолжает успешно ранжироваться в Дзене.

Вопросы и ответы

Этот патент описывает работу основного поиска Яндекса (SERP)?

Нет, этот патент напрямую описывает механизмы работы рекомендательной системы, такой как Яндекс.Дзен. Он фокусируется на ранжировании контента в персонализированной ленте рекомендаций, а не на ответах на явные поисковые запросы в основном поиске. Однако он дает важное понимание того, как Яндекс в целом подходит к оценке авторитетности источников и борьбе с кликбейтом.

Что такое «Оценка популярности в системе» (In-System Popularity)?

Это метрика, показывающая, насколько популярен источник контента внутри самой рекомендательной системы. В патенте она рассчитывается как доля кликов (или других взаимодействий), которые приходятся на контент из этого источника, по отношению к общему числу кликов в системе за определенный период. Высокое значение означает, что пользователи часто взаимодействуют с этим контентом в ленте.

Что такое «Значение веб-популярности» (Web Popularity) и откуда берутся данные?

Это метрика, показывающая, насколько популярен домен источника в интернете в целом, за пределами рекомендательной системы. Она рассчитывается как доля обращений к этому домену от общего числа веб-обращений. Данные для расчета Яндекс берет из своих глобальных источников: логов поиска, данных браузеров (история посещений) и систем веб-аналитики, таких как Яндекс.Метрика.

Как именно система определяет, что контент является кликбейтом?

Система использует предположение, что кликбейт аномально популярен внутри рекомендательной системы (из-за заголовков), но малоизвестен в Вебе. Если In-System Popularity значительно выше, чем Web Popularity, система считает это подозрительным. Технически это определяется путем расчета отношения этих двух метрик и применения порога (часто с использованием сигмоидальной функции).

Что произойдет, если мой контент будет признан кликбейтом по этому алгоритму?

Если алгоритм срабатывает, для вашего контента будет определен понижающий «Коэффициент корректировки популярности» (например, 0). Исходная рейтинговая оценка вашего контента будет умножена на этот коэффициент. Это приведет к резкому падению позиций контента в ленте рекомендаций или его полному исключению из нее.

Влияет ли этот алгоритм на контент, созданный непосредственно в Дзене (собственный контент)?

Нет. В патенте четко указано, что этот механизм применяется к внешнему контенту, то есть к контенту, поступающему с внешних сайтов. Собственный контент (Native Content) контролируется другими механизмами, так как платформа имеет больше возможностей для модерации и может просто заблокировать недобросовестных авторов.

Как я могу защитить свой сайт от ложного срабатывания этого алгоритма?

Ключевая защита — это высокая Web Popularity. Необходимо развивать общую популярность вашего домена в интернете: работать над SEO для привлечения поискового трафика, развивать бренд для прямого трафика, вести соцсети. Чем известнее ваш сайт в Вебе, тем меньше вероятность, что его успехи в Дзене будут сочтены аномальными.

Важно ли устанавливать Яндекс.Метрику на сайт для этого алгоритма?

Да, это крайне рекомендуется. Яндекс.Метрика упоминается как один из источников данных для расчета Web Popularity. Корректно установленный счетчик позволяет Яндексу точнее оценить общую популярность вашего сайта в Вебе, что может помочь избежать ложных срабатываний алгоритма пессимизации.

Что такое сигмоидальная функция и зачем она здесь используется?

Сигмоидальная функция — это математическая S-образная кривая. В данном патенте она используется для преобразования отношения популярностей (Web/In-System) в вероятность того, что популярность совпадает. Она позволяет более гибко настроить порог срабатывания и сгладить переход от нейтральной оценки к пессимизации, делая систему менее чувствительной к малым колебаниям популярности.

Если мой сайт новый и еще не популярен в Вебе, значит ли это, что я не смогу получать трафик из Дзена?

Это создает определенные риски. Если ваш новый сайт начнет получать очень большой объем трафика из Дзена (высокая In-System Popularity) при почти нулевой Web Popularity, алгоритм может сработать. Рекомендуется параллельно с работой в Дзене инвестировать в развитие общей узнаваемости сайта и привлекать трафик из других источников, чтобы сбалансировать показатели популярности.