Как Яндекс использует машинное обучение и обратную связь пользователей для блокировки нежелательной рекламы и рекомендаций

Яндекс патентует систему адаптивной фильтрации «таргетированного контента» (рекламы, рекомендаций). Система собирает данные, когда пользователи вручную блокируют нежелательный контент (негативные примеры), и сравнивает их с контентом, который не блокируется (позитивные примеры). На этих данных обучается алгоритм (MLA), который затем автоматически классифицирует и блокирует будущий нежелательный контент на основе его атрибутов.

Описание

Какую задачу решает

Патент решает проблему неудовлетворенности пользователей навязчивым, нерелевантным или низкокачественным «таргетированным контентом» (рекламой, рекомендательными блоками). Основная техническая задача — автоматическое выявление и блокировка такого контента. Изобретение использует самих пользователей в качестве асессоров: их явные действия по блокировке контента генерируют обучающие данные для алгоритма машинного обучения (MLA), обеспечивая постоянную адаптацию системы к новым форматам нежелательного контента.

Что запатентовано

Запатентована система выбора (фильтрации) таргетированного контента с использованием Machine Learning Algorithm (MLA), обученного на явной обратной связи от пользователей. Суть изобретения заключается в сборе данных о блокировках контента и использовании этих данных для обучения модели классификации. Модель учится различать «позитивный» (желательный) и «негативный» (нежелательный) контент на основе его атрибутов и контекста показа.

Как это работает

Система работает итеративно. Когда пользователь вручную блокирует нежелательный контент (например, через кнопку в браузере), система фиксирует это действие, извлекает множество атрибутов заблокированного контента и сохраняет их как Negative Training Example. Контент, который был показан, но не заблокирован, сохраняется как Positive Training Example. MLA обучается на этих примерах. При загрузке нового контента MLA анализирует его атрибуты и классифицирует его. Если контент классифицирован как негативный, система автоматически блокирует его показ на устройстве пользователя.

Актуальность для SEO

Высокая. Улучшение пользовательского опыта (UX) путем борьбы с агрессивной рекламой и низкокачественными рекомендациями является ключевым направлением для IT-компаний. Использование ML для автоматической фильтрации контента, особенно в рамках собственных платформ (таких как Яндекс.Браузер или Дзен), является актуальной и применяемой стратегией.

Важность для SEO

Прямое влияние на SEO-ранжирование минимально (2/10). Это не патент о ранжировании в поиске. Он описывает механизм фильтрации на стороне клиента (браузера) или прокси-сервера. Однако патент имеет высокое косвенное значение. Он демонстрирует, как Яндекс использует ML для оценки удовлетворенности пользователей и определения навязчивости контента/рекламы. Понимание этих механизмов критически важно для оптимизации UX и стратегий монетизации сайта, что тесно связано с общими оценками качества сайта (например, Proxima и Anti-Quality).

Детальный разбор

Термины и определения

Targeted Content (Таргетированный контент): Контент, встроенный в основной ресурс, обычно представляющий собой рекламу, спонсорские материалы или рекомендации. Разделяется на Positive (желательный) и Negative (нежелательный).
Resource (Ресурс): Основной контент (например, веб-страница, статья), который просматривает пользователь.
Machine Learning Algorithm (MLA) (Алгоритм машинного обучения): Алгоритм, который обучается на данных для выполнения задачи классификации. В данном патенте MLA учится определять тип таргетированного контента.
Negative Training Example (Негативный обучающий пример): Набор атрибутов таргетированного контента, который был вручную заблокирован пользователем. Используется для обучения MLA тому, какой контент является нежелательным.
Positive Training Example (Позитивный обучающий пример): Набор атрибутов таргетированного контента, который был показан пользователю и не был им заблокирован (Claim 4). Используется для обучения MLA тому, какой контент является приемлемым.
Attributes (Атрибуты): Характеристики, используемые для обучения MLA. Патент выделяет атрибуты таргетированного контента (размер, расположение, источник, звук, анимация, HTML), ресурса (URL, заголовок, текст), пользователя (ID, профиль) и устройства (IP, cookies).
Selection Server (Сервер выбора): Сервер, отвечающий за сбор обучающих данных, обучение MLA и, в некоторых вариантах, за принятие решения о блокировке контента.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является использование явной обратной связи пользователей для обучения алгоритма машинного обучения, который автоматизирует процесс блокировки нежелательного контента.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы (соответствует Уровню 2 в описании патента).

Получение первого набора индикаторов заблокированного контента от множества устройств. Блокировка инициирована пользователем (ручная блокировка) и содержит атрибуты этого контента.
Сохранение этих атрибутов как Negative Training Example.
Получение второго набора индикаторов таргетированного контента (который был показан) с его атрибутами.
Сохранение этих атрибутов как Positive Training Example.
Обучение MLA на этих примерах для определения типа будущего контента (Positive или Negative) на основе его атрибутов.
При получении нового таргетированного контента: определение его типа с помощью MLA.
Если тип контента – Negative, система инициирует его блокировку на устройстве пользователя.

Claim 3, 5, 8 (Зависимые пункты): Уточняют, что обучение и определение типа контента учитывают контекст: атрибуты Ресурса (Claim 3), атрибуты Пользователя (Claim 5) и атрибуты Устройства (Claim 8). Это позволяет учитывать уместность контента и персонализировать блокировку.

Claim 14 (Зависимый пункт): Описывает вариант реализации, при котором после обучения MLA на сервере, обученная модель отправляется на клиентские устройства. В этом случае классификация и блокировка выполняются локально.

Claim 16 (Зависимый пункт): Описывает предварительный шаг (Уровень 1). До использования MLA, система проверяет контент по известным черным спискам (List of blocked targeted content). Если есть совпадение, контент блокируется сразу.

Claim 18 (Зависимый пункт): Описывает механизм на основе правил или эвристик (Уровень 3). Пользователь может задать блокировку контента с определенным набором атрибутов. Система блокирует будущий контент, если его атрибуты совпадают с этими правилами.

Где и как применяется

Важно отметить, что этот патент НЕ относится к архитектуре Поиска Яндекс (CRAWLING, INDEXING, RANKING). Он описывает технологию, применяемую на уровне взаимодействия с пользователем для улучшения UX, вероятнее всего в продуктах как Яндекс.Браузер или Дзен.

Слой Клиентского Приложения (Client Application Layer)

Сбор обратной связи: В интерфейс встроены элементы управления (кнопки блокировки), позволяющие пользователю явно указать на нежелательный контент.
Извлечение атрибутов: Компонент Attribute Extractor анализирует DOM, стили и содержание для извлечения признаков.
Блокировка: Приложение предотвращает рендеринг контента, классифицированного как Negative (локально или по команде сервера).

Слой Обработки Данных (Data Processing Layer / Selection Server)

Агрегация: Сбор Positive и Negative Training Examples от множества пользователей.
Обучение MLA: Тренировка модели классификации (глобальной или персонализированной).
Inference (Применение модели): В некоторых реализациях сервер может выполнять классификацию контента в реальном времени до его отправки клиенту.

На что влияет

Типы контента: В первую очередь влияет на «Таргетированный контент» — рекламные блоки, баннеры, тизеры, всплывающие окна (pop-ups), блоки рекомендованного контента.
Ниши и тематики: Влияет на все ниши, но особенно сильно затрагивает сайты, использующие агрессивные методы монетизации или низкокачественные рекламные сети.
Пользовательский опыт (UX): Направлен на улучшение UX путем удаления раздражающих элементов.

Когда применяется

Система применяется при загрузке ресурсов. Патент описывает 4 вложенных уровня (Levels) фильтрации (FIG. 7), которые могут применяться последовательно или выборочно:

Уровень 1 (Черные списки): Активируется по умолчанию. Блокировка контента из заранее известных плохих источников (Claim 16).
Уровень 2 (MLA на основе обратной связи): Основной механизм патента (Claim 1). MLA, обученный на предыдущих блокировках, автоматически фильтрует контент.
Уровень 3 (Эвристики и правила): Блокировка на основе предопределенных критериев (например, автовоспроизведение звука, перекрытие контента, размер >20% экрана) (Claim 18).
Уровень 4 (Полная блокировка): Активируется пользователем для блокировки всего таргетированного контента (Claim 19).

Пошаговый алгоритм

Описание основного механизма машинного обучения (Уровень 2).

Процесс А: Сбор данных и Обучение (Офлайн/Асинхронно)

Мониторинг взаимодействий: Клиентское приложение отслеживает показ таргетированного контента.
Получение обратной связи: Пользователь явно блокирует нежелательный контент.
Извлечение атрибутов: Система (Attribute Extractor) извлекает атрибуты заблокированного контента и контекста (ресурс, пользователь, устройство).
Маркировка Негативных Примеров: Атрибуты отправляются на сервер и сохраняются как Negative Training Example.
Маркировка Позитивных Примеров: Атрибуты контента, который был показан, но не заблокирован, сохраняются как Positive Training Example.
Обучение MLA: Сервер (Learning System) обучает модель машинного обучения на собранных примерах. Цель — предсказать вероятность блокировки контента на основе его атрибутов.

Процесс Б: Применение модели (Онлайн)

Запрос ресурса: Пользователь запрашивает ресурс. Система получает таргетированный контент от провайдера.
Предварительная фильтрация (Уровень 1): Проверка контента по черным спискам. Если найдено совпадение, блокировка.
Извлечение атрибутов: Система извлекает атрибуты нового таргетированного контента.
Эвристическая фильтрация (Уровень 3): Проверка атрибутов на соответствие жестким правилам (например, наличие звука). Если правила нарушены, блокировка.
Классификация MLA (Уровень 2): Обученная модель MLA (работающая на сервере или локально) анализирует атрибуты и определяет тип контента.
Исполнение решения: Если контент классифицирован как Negative, он блокируется. Если как Positive — отображается (если не активирован Уровень 4).

Какие данные и как использует

Данные на входе

Система использует широкий спектр атрибутов для обучения MLA (Claims 10-13):

Атрибуты Таргетированного Контента (Claim 10):
- Структурные/Технические: Размер контента, его расположение (location) на ресурсе, источник (Source/URL), HTML атрибуты.
- Мультимедиа: Наличие аудио (presence of audio), наличие анимации (presence of animations).
Атрибуты Ресурса (Контекст, Claim 11): URL ресурса, заголовок (title), текст ресурса, HTML атрибуты ресурса, скриншот ресурса.
Поведенческие факторы: Ключевой сигнал — явное действие пользователя по блокировке контента (Explicit User Feedback).
Пользовательские факторы (Claim 12): Уникальный идентификатор пользователя, User Agent, профиль пользователя.
Факторы Устройства (Claim 13): IP адрес, идентификатор устройства, свойства устройства, cookies.

Какие метрики используются и как они считаются

Тип Таргетированного Контента: Основная вычисляемая метрика. Это результат бинарной классификации: Positive или Negative.
Методы расчета: Расчет выполняется с помощью MLA. Патент не ограничивает алгоритмы, но в описании упоминает стандартные методы: решающие деревья, бустинг, SVM, нейронные сети, метод ближайших соседей, Наивный Байес и т.д.
Обучение: Процесс использует извлеченные атрибуты как признаки (features), а действие пользователя (заблокировано/не заблокировано) как метку (label или Ground Truth).
Сравнение атрибутов: В патенте (Claim 15) упоминается, что обучение может включать сравнение атрибутов таргетированного контента и атрибутов ресурса (например, анализ визуальной совместимости или тематической релевантности).

Выводы

Яндекс использует ML для борьбы с плохой рекламой и улучшения UX: Патент подтверждает разработку автоматизированных систем фильтрации нежелательного контента, интегрированных в продукты Яндекса (Браузер, Дзен).
Пользователи как асессоры (Explicit Feedback as Ground Truth): Ключевая особенность — использование ручных блокировок как основного сигнала для обучения MLA. Это позволяет модели постоянно адаптироваться.
Комплексный анализ атрибутов: Для классификации контента как «негативного» система анализирует не только сам контент (звук, анимация), но и его структурные характеристики (размер, расположение, перекрытие), а также контекст (сайт, пользователь, устройство).
Многоуровневая блокировка: Система сочетает методы: от простых черных списков (Уровень 1) до сложного анализа на основе ML (Уровень 2) и жестких эвристик (Уровень 3).
Локальное или серверное применение: Технология может работать как на сервере (фильтрация трафика), так и локально на устройстве пользователя (обученная модель загружается в браузер).
Минимальное прямое влияние на SEO: Патент не связан с поисковыми алгоритмами, но критерии блокировки рекламы с высокой вероятностью пересекаются с сигналами, используемыми алгоритмами оценки качества сайтов (Proxima, Anti-Quality).

Практика

Best practices (это мы делаем)

Хотя патент не описывает алгоритмы ранжирования в поиске, он имеет важное значение для UX, поведенческих факторов и стратегии монетизации сайта.

Приоритет ненавязчивых форматов рекламы: Используйте форматы, которые пользователи реже блокируют. Согласно атрибутам, анализируемым MLA, это означает: отсутствие автоматического воспроизведения звука, минимальное перекрытие основного контента, отсутствие агрессивной анимации.
Качество и релевантность нативной рекламы/рекомендаций: Убедитесь в высокой релевантности рекомендательных блоков основному контенту. Нерелевантный контент чаще блокируется и будет классифицирован как Negative, так как система учитывает атрибуты ресурса (Claim 3).
Соблюдение баланса контента и рекламы: Избегайте ситуаций, когда таргетированный контент занимает слишком большую часть экрана. В описании патента (Уровень 3) упоминается эвристика блокировки контента, занимающего, например, более 20% экрана.
Тестирование в Яндекс.Браузере: Регулярно проверяйте отображение сайта в Яндекс.Браузере с включенными настройками фильтрации. Убедитесь, что автоматическая блокировка (основанная на этом патенте) не ломает верстку и не удаляет полезные элементы сайта, ошибочно принятые за рекламу.

Worst practices (это делать не надо)

Патент напрямую направлен против следующих практик:

Использование агрессивной монетизации: Форматы, которые гарантированно будут классифицированы как Negative Targeted Content: всплывающие окна (pop-ups), кликандеры (clickunders), автоматически воспроизводящиеся видео со звуком, баннеры, перекрывающие основной контент.
Визуально раздражающая реклама: Использование ярких, мигающих анимаций. MLA учится распознавать такие визуальные паттерны как негативные.
Использование низкокачественных рекламных сетей: Работа с сетями, распространяющими шок-контент или мошенничество. Они, вероятно, уже находятся в черных списках Яндекса (Уровень 1 блокировки).

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на обеспечение качественного пользовательского опыта и борьбу с некачественной рекламой. Он показывает, что плохой UX, вызванный агрессивной монетизацией, активно пессимизируется — если не напрямую алгоритмами ранжирования (Anti-Quality), то через механизмы фильтрации на ключевых платформах (Браузер, Дзен). Долгосрочная SEO-стратегия должна учитывать необходимость баланса между монетизацией и высоким качеством UX.

Практические примеры

Сценарий 1: Обучение модели на негативном опыте (Уровень 2)

Ситуация: Информационный сайт размещает большой анимированный баннер, который при загрузке перекрывает 30% основного текста.
Действие пользователей: Многие пользователи Яндекс.Браузера начинают вручную блокировать этот баннер.
Обучение MLA: Система собирает данные. MLA выявляет закономерность: контент с атрибутами,, часто блокируется. MLA классифицирует такой контент как Negative.
Результат: Яндекс.Браузер начинает автоматически блокировать этот баннер (и похожие на него) для всех пользователей.
Рекомендация для владельца сайта: Заменить формат баннера на статический и разместить его сбоку от контента, не создавая перекрытия.

Сценарий 2: Применение эвристик (Уровень 3)

Ситуация: Пользователь открывает сайт. При загрузке страницы начинает автоматически воспроизводиться видеореклама со звуком.
Действие системы: Система активирована в режиме применения эвристик. Она обнаруживает атрибуты:,.
Результат: Система автоматически блокирует этот рекламный блок, так как нарушено жесткое правило о недопустимости автовоспроизведения звука, без необходимости задействовать сложную модель MLA или ждать ручной блокировки.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в органическом поиске Яндекса?

Нет, прямого влияния нет. Патент описывает методы фильтрации таргетированного контента (рекламы и рекомендаций) на стороне клиента (например, в Яндекс.Браузере). Однако, если ваш сайт злоупотребляет агрессивной рекламой, это может негативно влиять на общие оценки качества сайта (Proxima, Anti-Quality) и поведенческие факторы, что косвенно влияет на ранжирование.

Что именно подразумевается под «Таргетированным контентом» (Targeted Content)?

Патент использует этот термин широко. Он включает в себя любую рекламу (баннеры, тизеры, всплывающие окна), а также блоки рекомендованного контента, статьи партнеров или любой другой контент, который предоставляется пользователю на основе таргетинга или как часть монетизации ресурса.

Как система понимает, какой контент «положительный», а какой «отрицательный»?

Система обучается на действиях пользователей. Если пользователь вручную блокирует контент, система маркирует его атрибуты как «отрицательный пример» (Negative Training Example). Если контент был показан, но не заблокирован, его атрибуты маркируются как «положительный пример» (Positive Training Example, Claim 4). MLA ищет закономерности, отличающие один класс от другого.

Какие атрибуты рекламы анализирует Яндекс для блокировки?

Патент перечисляет множество атрибутов (Claim 10): размер контента, его расположение на странице, источник (URL), наличие аудио, наличие анимации, HTML-атрибуты. Также анализируются атрибуты контекста — содержание страницы, данные о пользователе и его устройстве.

Является ли эта система блокировки персонализированной или общей?

Патент предусматривает оба варианта. Система собирает атрибуты пользователя (Claim 5) и устройства (Claim 8). Это позволяет обучать как персонализированные модели (блокировать то, что не нравится конкретному пользователю), так и глобальные модели (если определенный контент блокируется массово, он может быть заблокирован для всех).

Связан ли этот механизм с алгоритмами Proxima или Anti-Quality?

Прямой связи в патенте нет. Описанная система предназначена для улучшения UX в реальном времени в браузере, тогда как Proxima и Anti-Quality — это алгоритмы поискового ранжирования. Однако они оба направлены на борьбу с плохим пользовательским опытом и используют схожие критерии оценки качества рекламы (навязчивость, перекрытие контента).

Где выполняется этот алгоритм — на серверах Яндекса или в браузере пользователя?

Патент предусматривает оба варианта. Обучение MLA происходит на сервере. Однако применение модели (классификация контента) может происходить как на сервере, так и локально на устройстве пользователя. В Claim 14 описана возможность отправки обученной модели на клиентское устройство.

Чем этот механизм отличается от обычного AdBlock?

Обычные блокировщики в основном полагаются на списки фильтров (Уровень 1) и базовые эвристики (Уровень 3). Ключевое отличие этого патента (Уровень 2) — это использование машинного обучения, основанного на непрерывной обратной связи от пользователей. Это делает систему адаптивной и способной выявлять новые типы нежелательной рекламы без ручного обновления списков.

Какие форматы рекламы наиболее рискованно использовать в свете этого патента?

Наиболее рискованными являются форматы, которые мешают потреблению основного контента. Это Pop-ups, Clickunders, полноэкранные баннеры, любые блоки, перекрывающие текст, а также видео или аудио реклама с автоматическим воспроизведением звука. Все эти атрибуты используются системой для идентификации негативного контента.

Как SEO-специалисту использовать эту информацию на практике?

Необходимо проводить аудит монетизации и UX сайта. Убедитесь, что реклама на сайте не является агрессивной, не мешает пользователям и соответствует рекомендациям по качеству. Это важно как для сохранения дохода от монетизации (чтобы рекламу не блокировали), так и для поддержания общего качества сайта в глазах поисковых систем.