Яндекс патентует механизм для борьбы с кликбейтом и нежелательным контентом в рекомендательных системах. Система использует два алгоритма: первый (MLA 1) определяет персональную релевантность на основе интересов пользователя. Второй (MLA 2), независимый от пользователя, оценивает качество и соответствие контента политикам сервиса, формируя «понижающий балл» (Demoting Score). Финальный ранг определяется комбинацией этих оценок, что позволяет понижать контент, нарушающий правила, даже если он популярен у пользователей.
Описание
Какую задачу решает
Патент направлен на решение критической проблемы в рекомендательных системах (таких как Яндекс Дзен): переоценки релевантности нежелательного контента (undesirable content), в частности, кликбейта (click-bait). Традиционные системы часто используют количество взаимодействий (кликов) как основной сигнал релевантности. Кликбейт эксплуатирует эту механику, используя провокационные заголовки для привлечения кликов, даже если сам контент нерелевантен или низкокачественен. Изобретение внедряет механизм для понижения такого контента в рекомендательной выдаче, независимо от его популярности.
Что запатентовано
Запатентована система для ранжирования рекомендаций, которая комбинирует персонализированную оценку релевантности с независимой оценкой качества и желательности контента. Суть изобретения — использование двух отдельных алгоритмов машинного обучения (MLA). Первый (User-Specific-Ranking MLA) определяет релевантность для конкретного пользователя. Второй (User-Independent-Classifying MLA) определяет степень «нежелательности» контента на основе предопределенных политик (pre-determined content policies) и генерирует Demoting Score (понижающий балл). Финальное ранжирование использует скорректированную оценку (Adjusted Ranking Score).
Как это работает
Система работает в несколько этапов. Сначала User-Specific-Ranking MLA (MLA 1) анализирует историю пользователя и характеристики контента, чтобы сформировать первичный ранжированный список на основе персональной релевантности (User-Specific Ranking Score). Затем User-Independent-Classifying MLA (MLA 2), обученный распознавать нежелательный контент (кликбейт, шок-контент и т.д.), оценивает каждый элемент и присваивает ему Demoting Score. Важно, что MLA 2 может оценивать как отдельный материал, так и весь веб-ресурс целиком. На финальном этапе система генерирует Adjusted Ranking Score, комбинируя персональную релевантность и понижающий балл, и переранжирует список. Контент с высоким Demoting Score понижается в выдаче.
Актуальность для SEO
Высокая. Борьба с кликбейтом, фейковыми новостями и низкокачественным контентом в персонализированных лентах (Google Discover, Яндекс Дзен) является одной из главных задач для всех крупных платформ в 2025 году. Описанный механизм разделения оценки релевантности и оценки качества/политик является стандартным подходом к решению этой проблемы.
Важность для SEO
Влияние на SEO значительно (7/10), но специфично. Патент напрямую относится к рекомендательным системам (Яндекс Дзен), а не к основному веб-поиску. Для сайтов, получающих трафик из Дзена, этот механизм критически важен. Он демонстрирует, что высокие показатели вовлеченности (клики) не гарантируют высокого ранжирования, если контент или сайт-источник классифицирован как нежелательный (кликбейт, нарушение правил). Для успеха необходимо сочетание релевантности и строгого соблюдения контентных политик.
Детальный разбор
Термины и определения
- Adjusted Ranking Score (Скорректированная оценка ранжирования)
- Финальная оценка, используемая для ранжирования контента в модифицированном списке. Рассчитывается на основе User-Specific Ranking Score и Demoting Score. Для нежелательного контента эта оценка ниже исходной.
- Content Classes (Классы контента)
- Категории, на которые классификатор (MLA 2) разделяет контент. Включают как минимум один класс нежелательного контента (undesirable-content class) и один класс нейтрального контента (neutral-content class).
- Demoting Score (Понижающий балл)
- Оценка, генерируемая MLA 2, которая указывает на степень нежелательности (degree of undesirability) контента или его источника. Используется для понижения ранга элемента в финальной выдаче.
- MLA (Machine Learning Algorithm)
- Алгоритм машинного обучения.
- Pre-determined Content Policies (Предопределенные контентные политики)
- Правила, установленные оператором сервиса, определяющие, какой контент считается нежелательным (например, кликбейт, шок-контент, взрослый контент и т.д.). Служат основой для обучения MLA 2.
- User-Independent-Classifying MLA (MLA 2) (Независимый от пользователя классифицирующий MLA)
- Второй алгоритм, который классифицирует контент на основе его содержания и/или характеристик источника, независимо от того, какому пользователю он рекомендуется. Генерирует Demoting Score.
- User-Specific-Ranking MLA (MLA 1) (Специфичный для пользователя ранжирующий MLA)
- Первый алгоритм, который оценивает предполагаемую релевантность контента для конкретного пользователя на основе его истории взаимодействий и характеристик контента. Генерирует User-Specific Ranking Score.
- Web Resource (Веб-ресурс)
- Источник контента. В патенте может означать как отдельную веб-страницу, так и совокупность страниц, размещенных на одном домене.
Ключевые утверждения (Анализ Claims)
Патент описывает систему для понижения нежелательного контента в персонализированных рекомендациях путем внедрения независимой оценки качества в процесс ранжирования.
Claim 1 (Независимый пункт): Описывает основной метод.
- Система получает запрос на рекомендации и историю взаимодействий пользователя.
- User-Specific-Ranking MLA (MLA 1) генерирует первичный ранжированный список. Каждый элемент получает User-Specific Ranking Score (оценка релевантности для пользователя). Элементы имеют исходный ранг.
- User-Independent-Classifying MLA (MLA 2) генерирует Demoting Score (понижающий балл) для каждого элемента. MLA 2 обучен классифицировать контент, происходящий из соответствующего веб-ресурса, по классам и генерировать балл на основе этой классификации. Балл указывает на степень нежелательности контента.
- Система генерирует Adjusted Ranking Score (скорректированную оценку) на основе оценки релевантности и понижающего балла. Скорректированная оценка для данного элемента ниже (inferior) исходной оценки релевантности.
- Система генерирует Модифицированный ранжированный список на основе скорректированных оценок. Данный элемент получает скорректированный ранг, который ниже (inferior) исходного ранга.
- Система инициирует показ Модифицированного списка пользователю.
Claims 2, 3, 10-12: Уточняют работу MLA 2 и определение нежелательного контента.
- Классификация происходит по нескольким классам, включая нежелательные и нейтральные (Claim 2).
- Нежелательные классы связаны с типами контента, определенными в Pre-determined Content Policies (Claim 3, 10-12). Это означает, что система борется не только с низким качеством вообще, но и с конкретными нарушениями правил сервиса.
Claims 4, 5, 6: Критически важные пункты, определяющие масштаб анализа MLA 2.
Они описывают, какой именно контент анализируется для генерации Demoting Score:
- Claim 4 (Уровень ресурса): Оценка базируется на агрегированном контенте всех элементов, размещенных на данном веб-ресурсе. Это позволяет применять санкции на уровне всего сайта/домена.
- Claim 5 (Уровень элемента): Оценка базируется только на контенте конкретного рекомендуемого элемента.
- Claim 6 (Гибридный подход): Оценка базируется на взвешенной комбинации агрегированного контента всего ресурса (с весом 1) и контента конкретного элемента (с весом 2).
Claims 13-15: Уточняют временные аспекты классификации.
- Классификация контента веб-ресурса (MLA 2) может выполняться периодически (Claim 13).
- Классификация ресурса может меняться со временем (Claim 14).
- Классификация может происходить до получения запроса от пользователя (офлайн) (Claim 15).
Где и как применяется
Важно понимать, что этот патент описывает механизмы, применяемые в Рекомендательных Системах (например, Яндекс Дзен), а не в основном веб-поиске Яндекса. Архитектура рекомендательных систем отличается от архитектуры поиска.
Этап 1: Персонализированное Ранжирование (Аналог RANKING в поиске)
На этом этапе работает User-Specific-Ranking MLA (MLA 1). Он принимает на вход историю пользователя и характеристики контента (item features) и определяет персональную релевантность. Это основной движок персонализации, который стремится максимизировать вовлеченность.
Этап 2: Оценка Качества и Политик (Офлайн или Онлайн)
На этом этапе работает User-Independent-Classifying MLA (MLA 2). Он взаимодействует с базами данных о контенте и веб-ресурсах.
- Входные данные: Контент рекомендуемого элемента и/или агрегированный контент всего веб-ресурса.
- Процесс: Классификация контента на основе Pre-determined Content Policies.
- Выходные данные: Demoting Score для элемента или ресурса.
- Технические особенности: Как указано в патенте (Claims 13-15), этот процесс может происходить периодически и офлайн, до запроса пользователя.
Этап 3: Корректировка Ранжирования (Аналог Reranking/Post-processing)
На этом этапе сервер объединяет результаты MLA 1 и MLA 2.
- Процесс: Вычисление Adjusted Ranking Score путем применения Demoting Score к User-Specific Ranking Score.
- Результат: Генерация Модифицированного ранжированного списка, в котором нежелательный контент понижен в ранге.
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на контент, который часто генерирует высокую вовлеченность, но нарушает политики: кликбейт, сенсационные новости, шок-контент, контент для взрослых, агрессивная реклама.
- Специфические запросы: В рекомендательных системах нет явных запросов, но алгоритм влияет на все типы рекомендаций, предоставляемых пользователю.
- Веб-ресурсы: Благодаря механизму оценки на уровне ресурса (Claim 4, 6), патент может влиять на видимость всего сайта, если он систематически публикует нежелательный контент.
Когда применяется
Алгоритм применяется при каждом запросе на формирование ленты рекомендаций.
- Триггеры активации MLA 1: Запрос пользователя на получение рекомендаций (например, открытие приложения Дзен или новой вкладки браузера).
- Триггеры активации MLA 2: Периодическая офлайн-проверка контента или онлайн-проверка при попадании нового контента в систему.
- Триггеры понижения: Классификация контента или ресурса как нежелательного (высокий Demoting Score). Пороговые значения для классификации определяются во время обучения MLA 2 на основе контентных политик.
Пошаговый алгоритм
- Получение запроса и данных пользователя: Сервер получает запрос на рекомендации и извлекает историю взаимодействий пользователя.
- Первичное ранжирование (MLA 1): User-Specific-Ranking MLA обрабатывает характеристики контента и историю пользователя для генерации User-Specific Ranking Scores (оценок релевантности).
- Генерация исходного списка: Формируется ранжированный список кандидатов на основе оценок релевантности.
- Оценка нежелательности (MLA 2): User-Independent-Classifying MLA генерирует (или извлекает ранее рассчитанный) Demoting Score для каждого элемента. Эта оценка основана на классификации контента/ресурса согласно политикам.
- Масштаб оценки (Гибридный): Demoting Score рассчитывается как взвешенная сумма оценки отдельного элемента и оценки всего веб-ресурса (согласно Claim 6).
- Расчет скорректированной оценки: Для каждого элемента вычисляется Adjusted Ranking Score путем комбинирования оценки релевантности и понижающего балла. Итоговая оценка ниже исходной.
- Переранжирование: Генерируется Модифицированный список, упорядоченный по Adjusted Ranking Score. Элементы с высоким Demoting Score опускаются в списке.
- Пост-обработка (Опционально): Система может отфильтровать элементы, чья скорректированная оценка ниже определенного порога, или ограничить список топ-N результатами (Claim 9).
- Выдача: Презентация финального списка пользователю.
Какие данные и как использует
Данные на входе
Система использует два разных набора данных для двух разных MLA.
Для MLA 1 (User-Specific-Ranking):
- Поведенческие факторы: История взаимодействий пользователя с сервисом рекомендаций (клики, лайки, шеры, время просмотра, прокрутка).
- Контентные факторы (Item Features): Характеристики элемента контента (популярность, категория, длина, мультимедиа, текстовое содержание).
Для MLA 2 (User-Independent-Classifying):
- Контентные факторы: Текст, заголовки, изображения элемента. Данные используются для выявления признаков нежелательного контента (например, стоп-слова в заголовке, признаки кликбейта).
- Структурные факторы: Наличие рекламы, всплывающих окон (упомянуто в описании как примеры индикаторов нежелательного контента).
- Данные об источнике: Агрегированный контент всего веб-ресурса (домена).
Какие метрики используются и как они считаются
- User-Specific Ranking Score: Метрика персональной релевантности. Рассчитывается MLA 1.
- Demoting Score: Метрика степени нежелательности. Рассчитывается MLA 2. В патенте указано, что MLA 2 обучается на основе Pre-determined Content Policies. Обучение может происходить с использованием оценок асессоров (assessors) или на основе эвристических правил («undesired content indicators»).
- Adjusted Ranking Score: Комбинированная метрика. Формула комбинации в патенте не приводится, но указано, что понижающий балл делает итоговую оценку ниже исходной (например, вычитание или умножение на коэффициент < 1).
- Гибридная оценка нежелательности: Согласно Claim 6, Demoting Score может рассчитываться как взвешенная сумма:
$$ Score_{Demoting} = W_1 \cdot Score_{Resource} + W_2 \cdot Score_{Item} $$
Где $Score_{Resource}$ — оценка нежелательности всего сайта, а $Score_{Item}$ — оценка нежелательности конкретного материала.
Выводы
- Разделение Релевантности и Качества/Политик: Яндекс четко разделяет оценку персональной релевантности (то, что интересно пользователю) и оценку качества/соответствия правилам (то, что допустимо на платформе). Это два независимых процесса, использующих разные MLA.
- Вовлеченность не гарантирует видимость: Высокие показатели кликабельности и вовлеченности (которые влияют на MLA 1) могут быть полностью нивелированы низкими показателями качества или нарушениями политик (MLA 2). Система специально разработана для борьбы с кликбейтом.
- Гибкий масштаб санкций (Страница vs Сайт): Критически важным является механизм гибридной оценки (Claims 4-6). Система может пессимизировать как отдельный материал, так и применять санкции на уровне всего веб-ресурса (домена), анализируя агрегированный контент. Это означает, что систематические нарушения влияют на весь сайт.
- Независимость оценки качества: Оценка нежелательности (Demoting Score) не зависит от конкретного пользователя (User-Independent). Если контент признан кликбейтом, он будет понижен для всех.
- Офлайн и динамическая оценка качества: Система может переоценивать качество ресурсов периодически и офлайн (Claims 13-15). Сайт, который начал публиковать нежелательный контент, может быть пессимизирован с задержкой, но эта пессимизация будет действовать до следующей переоценки.
Практика
Best practices (это мы делаем)
Рекомендации касаются оптимизации под рекомендательные системы типа Яндекс Дзен.
- Строгое соблюдение контентных политик: Необходимо гарантировать, что контент не попадает под определения нежелательного контента (кликбейт, шок, насилие и т.д.). MLA 2 напрямую нацелен на выявление таких нарушений.
- Отказ от кликбейтных заголовков: Использование провокационных или вводящих в заблуждение заголовков для повышения CTR контрпродуктивно. Хотя это может кратковременно повысить User-Specific Ranking Score (MLA 1), это приведет к высокому Demoting Score (MLA 2) и понижению в выдаче.
- Поддержание качества на уровне всего ресурса: Поскольку система может оценивать агрегированный контент сайта (Claim 4, 6), необходимо поддерживать стабильно высокое качество всех материалов на домене. Нельзя смешивать качественный контент с низкопробным или нарушающим правила.
- Фокус на подлинной вовлеченности: Продолжать работать над повышением релевантности и вовлеченности (для MLA 1), но использовать для этого только «белые» методы, не пытаясь обмануть пользователя.
Worst practices (это делать не надо)
- Использование кликбейта: Это основная цель, против которой направлен данный патент.
- Публикация контента, нарушающего политики: Размещение шок-контента, контента для взрослых, оскорблений и т.д. приведет к активации MLA 2 и пессимизации.
- Нестабильное качество контента на сайте: Если часть контента нарушает правила, это может привести к применению Demoting Score ко всему ресурсу, включая качественные материалы.
- Агрессивная монетизация страницы: В описании патента упоминается, что большое количество рекламы или всплывающие окна могут быть индикаторами нежелательного контента.
Стратегическое значение
Патент подтверждает стратегию Яндекса по очистке своих рекомендательных платформ от манипулятивного и низкокачественного контента. Он подчеркивает, что для долгосрочного успеха в системах типа Дзен необходимо инвестировать в качество контента и репутацию источника (E-E-A-T). Возможность применения санкций на уровне всего ресурса (сайт-агрегатор или канал автора) делает риски использования «серых» тактик очень высокими. Стратегия должна быть направлена на построение доверия не только у пользователей, но и у классификаторов качества (MLA 2).
Практические примеры
Сценарий 1: Борьба с кликбейтом
- Контент: Статья с заголовком «Врачи скрывали это 10 лет! Чтобы суставы не болели, нужно всего лишь…»
- Действие MLA 1: Пользователи активно кликают на заголовок. История взаимодействий положительная. MLA 1 присваивает высокий User-Specific Ranking Score. Статья поднимается в топ исходного списка.
- Действие MLA 2: Независимый классификатор анализирует заголовок и контент и определяет его как кликбейт (нарушение политики). Присваивается высокий Demoting Score.
- Результат: Adjusted Ranking Score значительно снижается. Статья понижается в финальной ленте рекомендаций, уступая место менее кликабельному, но более качественному контенту.
Сценарий 2: Пессимизация на уровне ресурса (Hybrid/Resource-level assessment)
- Контент: Сайт А публикует 50% качественных новостей и 50% сенсационных материалов (кликбейт, шок-контент). Публикуется новая, качественная новостная статья.
- Действие MLA 1: Статья релевантна пользователю, MLA 1 присваивает средний User-Specific Ranking Score.
- Действие MLA 2 (Гибридная оценка):
- Оценка элемента (Item Score): Статья качественная, низкий балл нежелательности.
- Оценка ресурса (Resource Score): Анализ агрегированного контента Сайта А показывает систематическое нарушение политик. Высокий балл нежелательности.
Итоговый Demoting Score (взвешенная сумма) получается высоким из-за плохой репутации сайта.
- Результат: Несмотря на качество конкретной статьи, ее Adjusted Ranking Score снижается из-за санкций на уровне ресурса. Статья получает низкий ранг в ленте.
Вопросы и ответы
Этот патент относится к веб-поиску Яндекса или к Дзену?
Патент явно описывает работу «рекомендательного сервиса» (recommendation service). Это означает, что он напрямую относится к системам типа Яндекс Дзен или другим персонализированным лентам контента, а не к основному ранжированию в веб-поиске. Хотя общие принципы оценки качества контента и борьбы с кликбейтом могут пересекаться, описанная двухэтапная архитектура с MLA 1 и MLA 2 специфична для рекомендаций.
В чем разница между User-Specific-Ranking MLA (MLA 1) и User-Independent-Classifying MLA (MLA 2)?
MLA 1 отвечает за персонализацию и релевантность. Он оценивает, насколько контент интересен конкретному пользователю, основываясь на его истории и поведении. Его цель — максимизировать вовлеченность. MLA 2 отвечает за качество и соблюдение правил платформы. Он оценивает контент независимо от пользователя, выявляя нарушения (кликбейт, шок-контент и т.д.). Его цель — обеспечить безопасность и качество ленты.
Что такое Demoting Score и как он влияет на ранжирование?
Demoting Score (понижающий балл) — это оценка степени нежелательности контента, которую выставляет MLA 2. Чем выше этот балл, тем сильнее будет пессимизация. Он комбинируется с оценкой релевантности (от MLA 1) для получения финальной скорректированной оценки (Adjusted Ranking Score). В результате, даже очень популярный и релевантный контент будет понижен в выдаче, если у него высокий Demoting Score.
Может ли система пессимизировать весь мой сайт/канал, если только одна статья нарушает правила?
Да, это возможно и прямо предусмотрено патентом (Claims 4 и 6). MLA 2 может анализировать качество как отдельного материала (Item-by-item), так и агрегированный контент всего веб-ресурса (Resource-by-resource), или использовать гибридный подход. Если система обнаружит систематические нарушения на уровне ресурса, она может применить высокий Demoting Score ко всем материалам этого источника, даже к тем, которые сами по себе правил не нарушают.
Как система определяет, что является кликбейтом или нежелательным контентом?
Это определяется на основе «Предопределенных контентных политик» (Pre-determined Content Policies), установленных Яндексом. MLA 2 обучается распознавать эти нарушения. В патенте упоминается, что обучение может использовать оценки асессоров или эвристические индикаторы (например, определенные слова в заголовках, избыток рекламы, всплывающие окна).
Если мой контент популярен и имеет высокий CTR, защитит ли это меня от пессимизации?
Нет, не защитит. Высокий CTR и популярность влияют на оценку MLA 1 (релевантность). Однако оценка MLA 2 (качество/политики) работает независимо. Патент специально создан для ситуаций, когда популярный контент (например, кликбейт) является нежелательным. В этом случае система сознательно понизит его ранг.
Как быстро система реагирует на изменения в качестве контента на сайте?
Согласно патенту (Claims 13-15), классификация качества (MLA 2) может проводиться периодически и офлайн (до запроса пользователя). Это означает, что если сайт начал публиковать нежелательный контент, пессимизация может наступить с некоторой задержкой. Аналогично, если сайт исправился, снятие санкций также может потребовать времени до следующей переоценки ресурса.
Стоит ли разделять качественный контент и контент для привлечения трафика (более «желтый») на разные домены/каналы?
Исходя из механизма гибридной оценки (Claim 6), это является рекомендуемой стратегией. Смешивание контента разного качества на одном ресурсе несет риски. Низкокачественный контент может привести к формированию высокого Demoting Score на уровне ресурса, что негативно повлияет на видимость качественного контента на том же домене/канале.
Как этот патент связан с алгоритмами Яндекса Proxima или Anti-Quality?
Хотя патент не упоминает эти названия, он описывает реализацию принципов Anti-Quality в рекомендательных системах. Механизм User-Independent-Classifying MLA (MLA 2) выполняет ту же функцию, что и Anti-Quality в веб-поиске – идентификация и пессимизация низкокачественного, манипулятивного или нежелательного контента, независимо от его релевантности запросу или пользователю.
Как на практике реализуется комбинация оценок MLA 1 и MLA 2?
Патент не дает конкретной формулы, но указывает, что Adjusted Ranking Score ниже, чем исходный User-Specific Ranking Score. На практике это часто реализуется через умножение оценки релевантности на понижающий коэффициент (от 0 до 1), который зависит от Demoting Score. Если контент качественный (Demoting Score низкий), коэффициент близок к 1. Если контент нежелательный (Demoting Score высокий), коэффициент близок к 0.