Как Яндекс пессимизирует кликбейт в рекомендательных системах, сравнивая внутреннюю и внешнюю популярность источника

Яндекс патентует механизм борьбы с кликбейтом в рекомендательных системах (например, Дзен). Система сравнивает популярность источника контента внутри платформы с его популярностью в интернете в целом. Если источник аномально популярен внутри системы, но малоизвестен вовне, его контент пессимизируется. Это защищает от контента низкого качества, искусственно завышающего вовлеченность внутри платформы.

Описание

Какую задачу решает

Патент решает проблему качества контента в рекомендательных системах, в частности, проблему кликбейта (clickbait). Он направлен на выявление и пессимизацию контента, который использует сенсационные заголовки для привлечения кликов, но при этом предлагает нерелевантное или низкокачественное содержание. Проблема усугубляется тем, что алгоритмы ранжирования, основанные на вовлеченности (например, CTR), могут ошибочно высоко оценивать такой контент. Изобретение предлагает механизм валидации внутренней популярности контента через его внешнюю популярность.

Что запатентовано

Запатентована система и метод корректировки ранжирования в рекомендательной системе для контента из внешних (non-native) источников. Суть изобретения заключается в сравнении двух метрик популярности источника: System Specific Popularity Score (популярность внутри рекомендательной системы) и Web Popularity Value (популярность в интернете в целом). Если обнаруживается значительное расхождение (внутренняя популярность аномально высока по сравнению с внешней), система генерирует Popularity Adjustment Score, который используется для корректировки (понижения) исходного ранга контента.

Как это работает

Система сначала ранжирует контент стандартным алгоритмом. Затем для внешних (non-native) источников она рассчитывает долю их трафика внутри рекомендательной системы и долю их трафика в интернете в целом. Система сравнивает эти две доли. Используя сигмовидную функцию, она определяет вероятность того, что контент является кликбейтом. Если вероятность высока (т.е. популярность внутри системы не подтверждается внешней популярностью), генерируется корректирующий балл. Этот балл используется для переранжирования, что приводит к понижению или исключению подозрительного контента из финальной ленты рекомендаций.

Актуальность для SEO

Высокая. Рекомендательные системы (такие как Дзен) являются значительным источником трафика, и проблема кликбейта и низкокачественного контента остается актуальной. Механизмы кросс-валидации качества и популярности между разными системами (внутренней платформой и внешним вебом) являются ключевым элементом поддержания качества выдачи в 2025 году.

Важность для SEO

Влияние на SEO значительно (7/10), особенно для стратегий, ориентированных на получение трафика из рекомендательных систем Яндекса (Дзен). Патент демонстрирует, что высокая вовлеченность внутри платформы (высокий CTR) не гарантирует успеха, если она не подкреплена общей популярностью и авторитетностью источника в интернете. Это делает неэффективными тактики искусственного завышения CTR внутри системы и подчеркивает важность построения сильного бренда и органического трафика на основном сайте.

Детальный разбор

Термины и определения

Candidate digital content items (Кандидаты цифрового контента): Набор единиц контента, отобранных рекомендательной системой для потенциального показа пользователю.
Clickbait (Кликбейт): Веб-страницы, которые побуждают пользователей получать доступ к ним, предоставляя сенсационные заголовки, но при этом содержат нерелевантный контент.
Native content item (Нативный контент): Контент, созданный непосредственно на платформе рекомендательной системы (например, пост, созданный в редакторе Дзена). В патенте упоминается, что такие источники считаются доверенными.
Non-native content item / External Source (Внешний контент / Внешний источник): Контент, полученный из внешних источников в интернете (новостные агентства, блоги, агрегаторы), который доступен как внутри рекомендательной системы, так и через прямой доступ к сетевому ресурсу. Именно к этому типу контента применяется механизм патента.
Popularity Adjustment Score (Балл корректировки популярности): Метрика, генерируемая на основе сравнения System Specific Popularity Score и Web Popularity Value. Используется для корректировки исходного Ranking Score контента. Может быть бинарным (1 или 0) или масштабированным.
Ranking algorithm (Алгоритм ранжирования): Основной алгоритм рекомендательной системы, который определяет порядок контента в ленте пользователя на основе релевантности и профиля интересов.
Ranking Score (Оценка ранжирования): Исходная оценка, присвоенная контенту основным алгоритмом ранжирования, указывающая на его релевантность пользователю.
System Specific Popularity Score (Оценка популярности внутри системы): Метрика, указывающая на популярность контента или источника внутри рекомендательной системы. Рассчитывается как доля взаимодействий (например, кликов) с контентом данного источника относительно общего числа взаимодействий со всем контентом в системе за период времени.
Web Popularity Value (Значение веб-популярности): Метрика, указывающая на популярность источника (домена) в интернете в целом. Рассчитывается как доля взаимодействий (например, доступов/посещений) с веб-ресурсами данного домена относительно общего числа взаимодействий со всеми доступными веб-ресурсами в интернете за период времени.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации рекомендаций с механизмом корректировки.

Система получает запрос на рекомендацию контента.
Генерируется набор кандидатов путем ранжирования доступного контента. Каждому кандидату (например, Первому и Второму) присваивается Ranking Score, указывающий на релевантность.
Критический шаг: В ответ на то, что Первый элемент контента доступен как внутри рекомендательной системы, ТАК И на внешнем сетевом ресурсе (т.е. является non-native):
1. Определяется System Specific Popularity Score (популярность внутри системы).
2. Определяется Web Popularity Value (популярность на внешнем ресурсе).
Определяется Popularity Adjustment Score для Первого элемента на основе сравнения System Specific Popularity Score и Web Popularity Value.
Генерируется скорректированный набор ранжированных кандидатов путем изменения исходного Ranking Score Первого элемента с учетом Popularity Adjustment Score.
Скорректированный набор передается на устройство пользователя.

Claim 3 (Зависимый от Claim 2, который зависит от 1): Уточняет метод расчета System Specific Popularity Score.

Этот балл рассчитывается путем:

Определения общего числа кликов на весь контент в системе за период времени.
Идентификации подмножества контента, происходящего из того же источника (First Source), что и Первый элемент.
Определения числа кликов на это подмножество за тот же период.
Деления числа кликов на подмножество на общее число кликов (т.е. расчет доли трафика источника внутри системы).

Claim 4 (Зависимый от Claim 3): Уточняет метод расчета Web Popularity Value.

Этот балл рассчитывается путем:

Определения общего числа доступов (accesses) ко всем сетевым ресурсам за период времени.
Извлечения доменного имени из URL Первого элемента контента.
Идентификации подмножества сетевых ресурсов, URL которых содержит это доменное имя.
Определения числа доступов к этому подмножеству за период.
Деления числа доступов к подмножеству на общее число доступов (т.е. расчет доли трафика домена в вебе).

Claim 6 (Зависимый от Claim 1): Уточняет, как определяется Popularity Adjustment Score.

Определяется отношение (ratio) Web Popularity Value к System Specific Popularity Score.
Это отношение применяется к сигмовидной функции (sigmoid function) для получения значения вероятности (probability value), указывающего на вероятность того, что популярность внутри системы соответствует веб-популярности.
Определяется, превышает ли эта вероятность пороговое значение.
Popularity Adjustment Score присваивается как Первый балл (если вероятность выше порога) или Второй балл (если вероятность ниже порога).

Где и как применяется

Этот патент описывает алгоритмы, применяемые в рамках Рекомендательной Системы (например, Яндекс.Дзен), а не основного веб-поиска Яндекса. Однако, если использовать архитектуру поиска как аналогию, механизм затрагивает этапы, схожие с Ранжированием и Пост-обработкой.

RANKING – Ранжирование (Первичный отбор)
На этом этапе взаимодействует Ranking routine. Система получает запрос на рекомендацию и использует основной Ranking Algorithm и профиль интересов пользователя для генерации первичного ранжированного списка кандидатов (Ranked List) с исходными Ranking Scores.

RERANKING/POST-PROCESSING – Переранжирование и Корректировка
Это основной этап применения патента. Здесь взаимодействуют Popularity determination routines и Re-ranking routine.

Идентификация типа контента: Система определяет, является ли контент внешним (non-native) или внутренним (native). Механизм активируется только для внешнего контента.
Расчет популярности: Система рассчитывает две ключевые метрики для источника контента: популярность внутри системы и популярность вовне. Это требует доступа к логам взаимодействий (Log Database).
Корректировка: Re-ranking routine вычисляет Popularity Adjustment Score и применяет его к исходному Ranking Score, понижая позицию контента, чья внутренняя популярность не подтверждена внешней.

Входные данные: Запрос на рекомендацию, профиль интересов пользователя, база данных контента, логи взаимодействий (внутренние и внешние).

Выходные данные: Скорректированный ранжированный список рекомендаций (Adjusted set of ranked candidate content items).

На что влияет

Типы контента: Влияет исключительно на non-native контент (статьи с внешних сайтов, блоги, новости), который показывается в рекомендательной ленте. Не влияет на контент, созданный непосредственно внутри платформы (native).
Ниши и тематики: Наибольшее влияние оказывается на ниши, подверженные кликбейту (шоу-бизнес, здоровье, политика, быстрый заработок), где источники могут использовать манипулятивные заголовки для завышения CTR.

Когда применяется

Алгоритм применяется при генерации ленты рекомендаций для пользователя.

Условие применения: Наличие в списке кандидатов контента, идентифицированного как non-native (доступного как внутри системы, так и на внешнем сетевом ресурсе).
Триггер активации пессимизации: Когда рассчитываемое отношение (ratio) веб-популярности к популярности внутри системы при применении к сигмовидной функции дает вероятность (probability value) ниже установленного порога (threshold value). Это сигнализирует о том, что внутренняя популярность аномально высока и не подтверждается внешней.

Пошаговый алгоритм

Процесс генерации и корректировки рекомендаций.

Получение запроса: Рекомендательная система получает запрос на формирование ленты контента для пользователя.
Генерация первичного ранжирования:
1. Определяется профиль интересов пользователя.
2. Основной алгоритм ранжирования оценивает доступный контент и генерирует первичный ранжированный список кандидатов. Каждому кандидату присваивается исходный Ranking Score.
Идентификация внешних источников: В списке кандидатов определяются элементы, которые являются non-native (внешними).
Расчет популярности внутри системы (System Specific Popularity Score): Для каждого внешнего источника (домена):
1. Определяется общее количество кликов в рекомендательной системе за период (например, 3 дня).
2. Определяется количество кликов на контент этого источника за тот же период.
3. Рассчитывается доля кликов источника (Score_internal).
Расчет популярности в вебе (Web Popularity Value): Для того же внешнего источника (домена):
1. Определяется общее количество доступов (посещений) ко всем веб-ресурсам в интернете за период (на основе логов браузеров, поисковых логов, данных веб-аналитики).
2. Определяется количество доступов к ресурсам этого домена за тот же период.
3. Рассчитывается доля доступов к домену (Score_external).
Расчет корректирующего балла (Popularity Adjustment Score):
1. Вычисляется отношение: Ratio = Score_external / Score_internal.
2. Это отношение подставляется в сигмовидную функцию для определения вероятности (Probability Value) того, что популярность легитимна.
3. Вероятность сравнивается с порогом (Threshold).
4. Если вероятность ниже порога (аномальная внутренняя популярность), присваивается низкий корректирующий балл (например, 0). Если выше порога, присваивается высокий балл (например, 1).
Переранжирование:
1. Исходный Ranking Score контента корректируется с учетом Popularity Adjustment Score (например, путем умножения).
2. Генерируется скорректированный ранжированный список (Re-adjusted ranked list). Контент с низким корректирующим баллом понижается в выдаче или исключается.
Выдача: Скорректированный список передается пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Внутренние): Данные из System Browsing Log и Search History Log рекомендательной системы. Используются для расчета System Specific Popularity Score. Ключевые данные: клики (clicks), лайки, дизлайки, время просмотра, шеры.
Поведенческие факторы (Внешние): Данные о посещаемости веб-ресурсов в интернете. Источники данных, упомянутые в патенте: Web Browsing Log (логи браузеров пользователей), Search logs (поисковые логи), данные Web Analytic Application (например, Яндекс.Метрика). Используются для расчета Web Popularity Value. Ключевые данные: доступы (accesses), посещения.
Технические факторы: URL контента используется для извлечения доменного имени (Domain Name), которое служит ключом для агрегации данных о популярности источника.
Временные факторы: Обе метрики популярности рассчитываются за определенный период времени (в патенте упоминается пример 3 дня).

Какие метрики используются и как они считаются

System Specific Popularity Score (Score_internal): Доля трафика источника внутри системы.
$$Score\_internal = \frac{\text{Число кликов на источник внутри системы}}{\text{Общее число кликов внутри системы}}$$
Web Popularity Value (Score_external): Доля трафика домена в интернете.
$$Score\_external = \frac{\text{Число доступов к домену в вебе}}{\text{Общее число доступов ко всем ресурсам в вебе}}$$
Ratio (Отношение):
$$Ratio = \frac{Score\_external}{Score\_internal}$$
Probability Value (S(x)): Вероятность легитимности популярности, рассчитываемая через сигмовидную функцию. В патенте приведена формула (Formula 1):
$$S(x) = base + \frac{1.0 — base}{0.5} \times \left[ \frac{1}{1 + e^{-power \times ratio}} — 0.5 \right]$$
Где:
- base — минимально возможное значение вероятности.
- power — крутизна кривой (steepness).
- ratio — рассчитанное выше отношение популярностей.
Popularity Adjustment Score: Определяется путем сравнения S(x) с порогом (Threshold). Если S(x) < Threshold, присваивается низкий балл (пессимизация).

Выводы

Валидация популярности через внешние источники: Яндекс не доверяет слепо метрикам вовлеченности внутри своих рекомендательных систем. Высокий CTR или большое количество кликов внутри платформы должны быть подтверждены сопоставимой популярностью источника (домена) в интернете в целом.
Борьба с кликбейтом на уровне источника: Механизм направлен против источников, которые систематически генерируют кликбейт. Такие источники могут иметь высокую внутреннюю популярность за счет манипулятивных заголовков, но низкую внешнюю популярность из-за низкого качества контента.
Использование глобальных данных о веб-трафике: Для расчета Web Popularity Value Яндекс использует обширные данные о поведении пользователей в интернете (логи браузеров, поиск, Метрика). Это подчеркивает важность глобальной экосистемы Яндекса для работы отдельных сервисов.
Математический подход к определению аномалий: Использование сигмовидной функции и пороговых значений позволяет алгоритмически определять степень расхождения между ожидаемой и фактической популярностью и принимать решение о пессимизации.
Разделение Native и Non-Native контента: Патент четко разделяет контент, созданный внутри платформы (которому доверяют больше) и внешний контент (который требует дополнительной валидации).

Практика

Best practices (это мы делаем)

Рекомендации применимы для SEO-стратегий, нацеленных на получение трафика из рекомендательных систем Яндекса (Дзен).

Построение сильного бренда и внешней популярности: Фокусируйтесь на комплексном развитии сайта, увеличении его общей известности и посещаемости из разных источников (поиск, прямые заходы, соцсети). Высокий Web Popularity Value служит защитой от пессимизации по этому алгоритму.
Обеспечение качества контента и честных заголовков: Избегайте кликбейта. Заголовки должны точно отражать содержание. Это снижает риск того, что пользователи будут разочарованы, и способствует росту лояльности и внешней популярности.
Мониторинг доли трафика: Анализируйте соотношение трафика, получаемого из рекомендательной системы, к общему трафику сайта. Если доля трафика из рекомендательной системы аномально высока по сравнению с другими источниками, это может указывать на риск активации данного алгоритма.
Установка и использование Яндекс.Метрики: Хотя это и не гарантирует преимуществ, предоставление данных через Web Analytic Application (Метрику) может способствовать более точному расчету Web Popularity Value вашего сайта.

Worst practices (это делать не надо)

Использование кликбейта для завышения CTR: Создание сенсационных или вводящих в заблуждение заголовков для максимизации кликов внутри рекомендательной системы. Этот патент напрямую направлен против такой тактики.
Искусственная накрутка поведенческих факторов внутри системы: Попытки манипулировать System Specific Popularity Score (например, через ботов или биржи заданий) неэффективны, так как система валидирует эти данные через внешнюю популярность.
Создание сайтов исключительно под трафик из рекомендательных систем: Запуск низкокачественных сайтов (MFA) без истории, авторитета и внешнего трафика с целью монетизации только через рекомендательные системы. Такие сайты будут иметь низкий Web Popularity Value и будут пессимизированы.

Стратегическое значение

Патент подтверждает стратегию Яндекса на интеграцию данных из всех своих сервисов для оценки качества контента. Он показывает, что рекомендательные системы не существуют в вакууме. Для успеха в них необходимо быть авторитетным источником в интернете в целом. Это усиливает тренд на построение Topical Authority и сильного бренда как основы долгосрочной SEO-стратегии. Изолированные тактики и манипуляции внутри отдельных сервисов становятся все менее эффективными.

Практические примеры

Сценарий 1: Пессимизация кликбейт-сайта

Сайт А: Новый сайт о знаменитостях с кликбейтными заголовками.
Расчет популярности:
- Внутри системы (Дзен): За счет кликбейта сайт получает много кликов. System Specific Popularity Score = 0.01 (1% трафика системы).
- В вебе: Сайт неизвестен, трафика из поиска и прямых заходов почти нет. Web Popularity Value = 0.0001 (0.01% веб-трафика).
Действие системы: Рассчитывается Ratio = 0.0001 / 0.01 = 0.01. Это низкое значение.
Корректировка: При подстановке в сигмовидную функцию вероятность получается ниже порога. Присваивается низкий Popularity Adjustment Score (например, 0).
Результат: Исходный Ranking Score сайта А умножается на 0. Контент сайта А исключается из ленты рекомендаций.

Сценарий 2: Валидация авторитетного источника

Сайт Б: Крупное известное новостное агентство (например, РБК).
Расчет популярности:
- Внутри системы (Дзен): Получает много кликов. System Specific Popularity Score = 0.02 (2% трафика системы).
- В вебе: Очень высокая посещаемость. Web Popularity Value = 0.015 (1.5% веб-трафика).
Действие системы: Рассчитывается Ratio = 0.015 / 0.02 = 0.75. Это высокое значение.
Корректировка: При подстановке в сигмовидную функцию вероятность получается выше порога. Присваивается высокий Popularity Adjustment Score (например, 1).
Результат: Исходный Ranking Score сайта Б остается без изменений. Контент продолжает ранжироваться высоко.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования основного поиска Яндекса?

Нет, патент явно описывает метод и систему для генерации рекомендаций цифрового контента (METHOD AND SYSTEM FOR GENERATING DIGITAL CONTENT RECOMMENDATION). Это относится к рекомендательным системам, таким как Дзен, а не к основному веб-поиску. Алгоритмы и принципы, описанные здесь, применяются для фильтрации контента внутри этих платформ.

Что такое System Specific Popularity Score и как он считается?

Это метрика популярности источника (домена) внутри рекомендательной системы. Согласно патенту (Claim 3), она рассчитывается как доля кликов на контент этого источника от общего числа кликов на весь контент в системе за определенный период времени. Высокий показатель означает, что источник генерирует значительную часть внутреннего трафика.

Что такое Web Popularity Value и откуда Яндекс берет данные для его расчета?

Это метрика популярности домена в интернете в целом. Она рассчитывается как доля посещений (accesses) этого домена от общего числа посещений всех веб-ресурсов за период (Claim 4). Патент указывает, что данные для расчета берутся из нескольких источников: поисковых логов (Search logs), логов браузеров (Browser logs, например, Яндекс.Браузер) и данных систем веб-аналитики (Web analytic application), таких как Яндекс.Метрика.

Как именно система понимает, что нужно пессимизировать контент?

Система рассчитывает отношение (Ratio) внешней популярности к внутренней. Это отношение подставляется в сигмовидную функцию, которая выдает вероятность легитимности популярности. Если эта вероятность ниже установленного порога (Threshold), система считает, что внутренняя популярность аномально завышена (вероятно, из-за кликбейта), и генерирует низкий балл корректировки (Popularity Adjustment Score).

Что произойдет, если мой сайт очень популярен в вебе, но пока мало популярен в рекомендательной системе?

В этом случае отношение Web Popularity Value к System Specific Popularity Score будет высоким. Согласно логике патента, это считается нормальной ситуацией (популярность в вебе выше, чем внутри системы). Вероятность, рассчитанная сигмовидной функцией, будет выше порога, и пессимизация применяться не будет. Ваш контент будет ранжироваться на основе его исходного Ranking Score.

Влияет ли этот алгоритм на контент, созданный непосредственно внутри платформы (например, в редакторе Дзена)?

Нет. Патент четко указывает (Claim 1), что механизм активируется только в ответ на то, что контент доступен как внутри системы, так и на внешнем сетевом ресурсе (non-native content). Контент, созданный внутри платформы (native content), не подвергается этой проверке, так как считается более доверенным и управляемым.

Как это влияет на SEO-стратегию для продвижения в Дзене?

Это критически меняет подход от краткосрочных тактик к долгосрочной стратегии. Нельзя полагаться только на оптимизацию заголовков для высокого CTR внутри Дзена. Необходимо параллельно развивать общую авторитетность и посещаемость вашего основного сайта в интернете. Без сильного внешнего присутствия успех в Дзене будет ограничен этим алгоритмом.

Можно ли обмануть этот алгоритм, накрутив посещаемость сайта в интернете?

Теоретически, увеличение Web Popularity Value может помочь пройти этот фильтр. Однако Яндекс использует множество источников данных (поиск, браузеры, Метрика) для расчета этой метрики и, вероятно, имеет собственные алгоритмы для фильтрации фродового трафика. Попытки манипуляции внешней популярностью несут высокие риски и требуют значительных ресурсов, делая стратегию нецелесообразной по сравнению с созданием качественного контента.

Как узнать пороговое значение (Threshold), которое использует Яндекс?

В патенте не указаны конкретные значения порога, крутизны кривой (power) или базы (base) для сигмовидной функции. Указано, что порог может определяться эмпирически. SEO-специалисты не могут узнать эти значения напрямую, но могут наблюдать за поведением своего контента в рекомендательной системе и сопоставлять его с данными о трафике.

Что важнее для этого алгоритма: количество кликов или другие взаимодействия (лайки, время)?

В Claim 3 в качестве основного примера для расчета System Specific Popularity Score используются клики (number of clicks). В Claim 4 для Web Popularity Value используются доступы (number of accesses). Однако в описании патента упоминается, что могут использоваться и другие взаимодействия (лайки, дизлайки, шеры, время просмотра) с присвоением им весов. На практике стоит ориентироваться на то, что клики и посещения являются базовыми метриками.