Как Яндекс выявляет и блокирует вредоносные сайты (Adware/Malware), анализируя автоматические запуски браузера и отсутствие органического трафика

Яндекс патентует метод выявления вредоносных сайтов путем анализа логов браузера и поисковой статистики. Система ищет сайты, которые автоматически открываются подозрительными программами при запуске браузера (неорганический трафик), но при этом имеют низкую популярность в органическом поиске. Такое несоответствие позволяет классифицировать ресурс как нежелательный и добавить его в черный список.

Описание

Какую задачу решает

Патент решает задачу идентификации вредоносных или нежелательных веб-ресурсов (фишинг, вирусы, навязчивая реклама), трафик на которые генерируется не пользователем, а сторонним ПО (Adware/Malware), установленным на устройстве. Это ПО принудительно запускает браузер и открывает определенные сайты автоматически, генерируя «неорганический трафик». Изобретение направлено на выявление таких сайтов и их блокировку для повышения безопасности пользователей.

Что запатентовано

Запатентована система классификации веб-ресурсов для добавления их в черный список (Blacklist). Суть изобретения заключается в кросс-анализе двух источников данных: детальных логов активности браузера и логов поисковой системы. Система выявляет несоответствие между высокой частотой подозрительных автоматических доступов к сайту (неорганический трафик) и его низкой популярностью в органическом поиске (измеренной через Historical Search Parameter).

Как это работает

Система собирает логи с браузеров пользователей, фиксируя URL, программу, инициировавшую доступ (Parent Process), и параметр «первого запуска» (First Launch Parameter). Она фильтрует подозрительные события: те, которые произошли при первом запуске браузера И были инициированы программой, не входящей в белый список доверенных (Parent Process White List). Для этих URL система проверяет Historical Search Parameter (метрику популярности в органическом поиске). Если сайт часто посещается через подозрительные запуски, но редко через поиск, он классифицируется как вредоносный.

Актуальность для SEO

Высокая. Борьба с Adware/Malware и некачественным трафиком остается критически важной задачей. Использование данных из экосистемы (например, Яндекс.Браузера) и их сопоставление с данными поиска для оценки безопасности является стратегическим направлением развития Яндекса.

Важность для SEO

Влияние на SEO низкое (3/10). Это не патент о ранжировании, а механизм безопасности и анти-фрода. Он не дает рекомендаций для SEO-продвижения легитимных сайтов. Однако он критически важен для понимания рисков использования черных методов генерации трафика (через зараженное ПО), так как описывает конкретный механизм, приводящий к полной блокировке (занесению в Blacklist) сайта.

Детальный разбор

Термины и определения

Blacklist (Черный список): Список веб-ресурсов, классифицированных системой как вредоносные или нежелательные. Доступ к ним может быть заблокирован.
Browser Logs (Логи браузера): Данные, собираемые с браузеров пользователей. Включают URL, Parent Process и First Launch Parameter.
First Launch Parameter (Параметр первого запуска): Индикатор, указывающий, был ли доступ к веб-ресурсу выполнен как часть первого запуска браузерного приложения (например, сразу после открытия браузера в новой сессии или в рамках сессии входа в систему). Используется для выявления автоматических доступов.
Historical Search Parameter (HSP) (Исторический параметр поиска): Метрика, определяемая на основе анализа логов поиска (Search History Log). Отражает органическую популярность веб-ресурса (например, частоту показов в SERP, клики, позиции).
Inorganic Traffic (Неорганический трафик): (В контексте патента). Трафик, генерируемый без прямого намерения пользователя, часто вредоносным ПО. Характеризуется срабатыванием First Launch Parameter и подозрительным Parent Process.
Parent Process (Родительский процесс): Программа или процесс на устройстве пользователя (идентифицируемый через Parent_Process_ID), который инициировал запуск браузера и доступ к веб-ресурсу.
Parent Process White List (Белый список родительских процессов): Список доверенных программ (например, почтовые клиенты, мессенджеры), которые легитимно могут инициировать запуск браузера.

Ключевые утверждения (Анализ Claims)

Патент защищает метод выявления вредоносных сайтов путем анализа источника трафика и его органической популярности.

Claim 1 (Независимый пункт): Описывает основной метод классификации веб-ресурса.

Система получает множество логов браузера (browser logs) от пользовательских устройств. Каждый лог содержит: URL, Parent Process и First Launch Parameter.
Система анализирует данные и фильтрует записи. Для анализа отбираются только те записи, которые удовлетворяют двум условиям (идентификация подозрительного трафика):

(i) First Launch Parameter указывает, что доступ был выполнен при первом запуске браузера.
(ii) Parent Process НЕ числится в белом списке (Parent Process White List).

Для отобранных веб-ресурсов система обращается к логу истории поиска (Search History Log).
Анализируются прошлые поисковые сессии для определения Historical Search Parameter (HSP) для данного веб-ресурса.
Принятие решения: Если HSP ниже определенного порога (т.е. сайт не популярен в органическом поиске), веб-ресурс добавляется в Blacklist.

Claim 2 (Зависимый пункт): Уточняет, как определяется HSP.

Он определяется путем анализа частоты показов (display rate) и/или частоты посещений (visits rate) веб-ресурса из логов поиска. Значение параметра пропорционально этим частотам.

Claim 4, 5, 6 (Зависимые пункты): Дополнительные факторы для расчета HSP.

Параметр также может учитывать: запросы с негативной коннотацией (negative-connotation search queries) (Claim 4); среднюю позицию ресурса в SERP (Claim 5); соотношение доступов с положительным First Launch Parameter и органических доступов (Claim 6).

Claim 7 (Зависимый пункт): Уточняет условие добавления в Blacklist.

Добавление в черный список также происходит, если соотношение попыток доступа, связанных с первым запуском браузера (неорганический трафик), непропорционально велико по сравнению с HSP (органический трафик).

Где и как применяется

Изобретение применяется в инфраструктуре контроля качества и безопасности Яндекса. Это не алгоритм ранжирования, а система классификации, работающая в офлайн или nearline режиме.

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Механизм функционирует как система классификации, аналогичная Antiquality. Он направлен на выявление и блокировку вредоносных ресурсов.

Сбор данных (Вне рамок стандартного CRAWLING)
Система требует доступа к детальным логам активности браузеров на устройствах пользователей. Это подразумевает использование собственных продуктов Яндекса (например, Yandex Browser), которые собирают и отправляют данные о Parent Process и First Launch Parameter.

Обработка данных
Сервер обработки анализирует собранные Browser Logs и взаимодействует с сервером поисковой системы для доступа к Search History Log.

Выходные данные: Результатом является пополнение Blacklist. Этот список затем может использоваться браузерами (для блокировки доступа) и поисковой системой (для исключения из индекса или радикальной пессимизации).

На что влияет

Типы контента и ниши: Алгоритм направлен на выявление сайтов, связанных с вредоносной активностью: фишинг, агрессивная реклама, распространение вирусов (Adware/Malware). Он не предназначен для оценки качества контента легитимных сайтов.
Влияние на выдачу: Алгоритм не влияет на ранжирование напрямую. Он влияет на фильтрацию выдачи, удаляя из нее ресурсы, попавшие в Blacklist.

Когда применяется

Алгоритм применяется периодически по мере накопления логов.

Триггеры активации анализа для конкретной записи лога:
1. Попытка доступа произошла во время «первого запуска» браузера (First Launch Parameter = True).
2. Родительский процесс, инициировавший доступ, не находится в белом списке (Parent Process White List).
Триггер классификации ресурса: Historical Search Parameter ресурса находится ниже установленного порога (низкая органическая популярность), особенно на фоне высокой частоты подозрительных (неорганических) доступов.

Пошаговый алгоритм

Сбор данных (Browser Logs): Система получает логи от множества пользовательских устройств (URL, Parent Process ID, First Launch Parameter).
Предварительная обработка и нормализация: Опционально, система нормализует URL (например, до домена второго уровня) для агрегации статистики (Claim 16, 17).
Фильтрация подозрительных событий (Идентификация неорганического трафика): Отбор записей, где доступ был инициирован при первом запуске браузера И родительский процесс не числится в белом списке.
Доступ к данным поиска (Search History Log): Для веб-ресурсов, связанных с подозрительными событиями, система запрашивает данные из логов поисковой системы.
Вычисление Historical Search Parameter (HSP): Расчет метрики органической популярности. Учитываются показы в SERP, клики, средняя позиция, наличие запросов с негативной коннотацией. В патенте упоминается возможность генерации вектора признаков (feature vector) для этого параметра (Claim 8).
Анализ и Классификация: Система сравнивает HSP с порогом. Также анализируется соотношение подозрительного трафика к органическому (Claim 6, 7).
Применение: Если HSP ниже порога и/или доля подозрительного трафика непропорционально высока, веб-ресурс добавляется в Blacklist.

Какие данные и как использует

Данные на входе

Система использует два основных источника данных: Логи Браузера и Логи Поиска.

Из Логов Браузера (Browser Logs):

Технические факторы:
- Идентификатор веб-ресурса (URL).
- Индикация родительского процесса (Parent Process ID), полученная от ОС устройства.
- Параметр первого запуска (First Launch Parameter).
- Опционально: информация о плагинах, установленных веб-ресурсом (Claim 9).

Из Логов Поиска (Search History Log):

Поведенческие факторы:
- Частота показов ресурса в SERP (Display rate).
- Частота посещений/кликов по ресурсу из SERP (Visits rate, CTR).
Факторы ранжирования:
- Средняя позиция ресурса в SERP.
Контентные/Запросные факторы:
- Наличие и частота поисковых запросов с негативной коннотацией (negative-connotation search queries).

Какие метрики используются и как они считаются

Historical Search Parameter (HSP): Интегральная метрика органической популярности. Рассчитывается на основе Display rate и Visits rate (Claim 2), а также других факторов. Может быть реализована как взвешенная оценка или как вектор признаков (feature vector).
Соотношение трафика (Ratio): Вычисляется соотношение между количеством подозрительных доступов (неорганический трафик) и количеством органических доступов (из поиска) (Claim 6). Непропорционально высокое соотношение является сигналом для добавления в Blacklist (Claim 7).
Пороги (Thresholds): Используется предустановленный порог для HSP. Если HSP ниже порога, это интерпретируется как недостаточная органическая популярность (Claim 1, 3).

Выводы

Синергия экосистемы Яндекса: Патент демонстрирует, как Яндекс использует данные из своих продуктов (Поиск и Браузер) для обеспечения безопасности. Данные с устройств пользователей (включая системные, такие как Parent Process ID) используются для идентификации вредоносной активности.
Четкое определение неорганического трафика: Система идентифицирует трафик, сгенерированный сторонним ПО, используя комбинацию индикаторов: «Первый запуск» браузера (First Launch Parameter) и инициация доступа процессом, не входящим в Белый список (Parent Process White List).
Органическая популярность как эталон легитимности: Данные истории поиска (HSP) используются как прокси для определения «объективной популярности» и легитимности сайта. Предполагается, что полезные сайты ищут и на них кликают в поиске.
Выявление дисбаланса трафика: Основной механизм обнаружения – это идентификация сайтов, которые получают значительный объем подозрительного неорганического трафика при почти полном отсутствии органического интереса со стороны пользователей.
Цель – Adware/Malware: Система целенаправленно разработана для борьбы с сайтами, продвигаемыми через вредоносное или нежелательное ПО.

Практика

Best practices (это мы делаем)

Хотя патент фокусируется на безопасности, можно сделать стратегические выводы для SEO:

Приоритет органического трафика: Сосредоточьтесь на привлечении качественного органического трафика через SEO. Высокая доля органического трафика и хорошая видимость в поиске (высокий Historical Search Parameter) служат индикатором легитимности сайта и защищают от ложных срабатываний анти-фрод систем.
Мониторинг репутации в поиске: Отслеживайте появление запросов с негативной коннотацией (например, «[ваш бренд] вирус», «как удалить»). Патент явно указывает (Claim 4), что такие запросы используются при расчете Historical Search Parameter.
Аудит партнеров и методов привлечения трафика: Если вы используете партнерские программы или распространяете ПО (особенно по модели Pay-Per-Install), убедитесь, что партнеры не используют агрессивные методы, которые могут привести к принудительному открытию вашего сайта у пользователей (например, через Adware).

Worst practices (это делать не надо)

Накрутка трафика через ботов, Adware или вредоносное ПО: Использование методов генерации трафика, которые имитируют автоматический запуск браузера сторонними процессами (особенно «First Launch»), является прямой дорогой к попаданию в черный список, описанный в патенте.
Создание сайтов без органического потенциала: Создание ресурсов (дорвеев, фишинговых страниц), которые полагаются исключительно на неорганический трафик и не имеют ценности для поиска. Такие сайты будут иметь низкий HSP и являются основной целью данного алгоритма.
Использование агрессивных плагинов: Распространение плагинов, которые генерируют неорганический трафик или вызывают негативные отзывы (и соответствующие поисковые запросы).

Стратегическое значение

Патент демонстрирует глубокую интеграцию между различными продуктами Яндекса для контроля качества и безопасности экосистемы. Он подтверждает, что Яндекс анализирует паттерны трафика на макроуровне для выявления аномалий. Для SEO это означает, что качество и методы привлечения трафика имеют значение не только для ранжирования, но и для базовой классификации сайта как легитимного. Использование манипулятивных техник может привести к полной блокировке ресурса.

Практические примеры

Сценарий 1: Идентификация сайта, распространяемого через Adware.

Заражение и Активность ПО: На компьютеры пользователей устанавливается Adware (например, процесс «FreeUpdater.exe»). Этот процесс периодически автоматически запускает браузер и открывает сайт `spam-offers.ru`.
Сбор логов Яндексом: Яндекс получает тысячи записей в Browser Logs:
- URL: `spam-offers.ru`
- Parent Process: `FreeUpdater.exe`
- First Launch Parameter: True.
Фильтрация: Система видит First Launch=True и проверяет `FreeUpdater.exe` по White List. Его там нет. Событие классифицируется как подозрительное (неорганический трафик).
Анализ поиска: Система проверяет Search History Log. Сайт `spam-offers.ru` не ищут в поиске, он не показывается в SERP, кликов нет. Historical Search Parameter крайне низок.
Результат: Система фиксирует массовый неорганический трафик на сайт с нулевой органической популярностью. `spam-offers.ru` добавляется в Blacklist.

Сценарий 2: Валидация легитимного сайта

Ситуация: Пользователь открывает почтовый клиент (например, Outlook) и кликает по ссылке на сайт «new-store.ru». Браузер запускается для открытия этой ссылки.
Сбор данных: Яндекс фиксирует доступ к «new-store.ru».
Анализ логов: Система видит, что доступ имеет положительный First Launch Parameter (браузер только что открылся). Однако родительский процесс — «outlook.exe».
Проверка Whitelist: «outlook.exe» находится в белом списке доверенных процессов.
Результат: Попытка доступа классифицируется как органическая (инициированная пользователем). Дальнейший анализ по этому патенту не требуется.

Вопросы и ответы

Что такое «First Launch Parameter» и почему Яндекс его отслеживает?

First Launch Parameter — это индикатор того, что веб-страница была открыта сразу же при первом запуске браузера в текущей сессии. Яндекс отслеживает его, потому что это характерный паттерн поведения вредоносного ПО (Adware/Malware), которое автоматически запускает браузер и направляет пользователя на нежелательные сайты без его участия. Это ключевой сигнал для выявления неорганического трафика.

Что такое «Parent Process» и зачем нужен его белый список (White List)?

Parent Process — это программа на компьютере, которая дала команду браузеру открыть URL. Белый список необходим для исключения ложных срабатываний. Например, когда вы кликаете на ссылку в почтовом клиенте (Outlook) или мессенджере, они являются родительскими процессами. Это легитимное действие, поэтому доверенные программы находятся в White List, и такие переходы не считаются подозрительными.

Как измеряется органическая популярность сайта (Historical Search Parameter)?

Historical Search Parameter (HSP) рассчитывается на основе логов поисковой системы. Согласно патенту, он пропорционален частоте показов сайта в SERP (Display Rate) и частоте переходов на него из поиска (Visits Rate). Дополнительно учитываются средняя позиция сайта в выдаче и наличие запросов с негативной коннотацией, связанных с этим сайтом.

Как именно система определяет, что сайт вредоносный?

Система ищет дисбаланс. Сайт считается подозрительным, если выполняются два условия одновременно: 1) На него часто заходят автоматически при первом запуске браузера подозрительными процессами (высокий уровень неорганического трафика). 2) Его HSP ниже определенного порога (низкий уровень органической популярности). Несоответствие между автоматическими заходами и отсутствием интереса в поиске приводит к добавлению в Blacklist.

Означает ли этот патент, что сайты с низким органическим трафиком будут заблокированы?

Нет. Низкий органический трафик сам по себе не является причиной блокировки. Он становится проблемой только в том случае, если система одновременно фиксирует высокую долю подозрительного неорганического трафика на ваш сайт. Если ваш сайт просто не популярен, но не использует вредоносные методы привлечения посетителей, этот патент к нему не применяется.

Как этот патент влияет на закупку трафика или партнерские программы?

Он создает значительные риски при работе с недобросовестными партнерами. Если партнер генерирует трафик путем распространения ПО (Adware, тулбаров, расширений), которое принудительно открывает ваш сайт при старте браузера (особенно Pay-Per-Install), это приведет к срабатыванию алгоритма и возможной блокировке вашего сайта.

Откуда Яндекс берет данные о запусках браузера и родительских процессах?

Эти данные (Browser Logs) собираются непосредственно с устройств пользователей. Основным источником, вероятно, является Яндекс.Браузер или установленные плагины/расширения Яндекса в других браузерах, которые имеют доступ к необходимой системной информации о запусках приложений.

Что такое запросы с негативной коннотацией и как они влияют на оценку сайта?

Это запросы пользователей, которые указывают на негативное отношение к ресурсу, например, «как удалить» или «https://ru.wikipedia.org/wiki/%D0%A1%D0%B0%D0%B9%D1%82 вирус». Наличие таких запросов в логах поиска используется для понижения Historical Search Parameter, что увеличивает вероятность классификации сайта как нежелательного.

Может ли этот алгоритм использоваться для борьбы с накруткой поведенческих факторов (ПФ)?

Да, косвенно. Если для накрутки ПФ используются боты или ПО, которые автоматически запускают браузер для посещения целевого сайта (имитируя, например, прямые заходы), это поведение может быть зафиксировано как First Launch от подозрительного процесса. Если при этом реальная органическая популярность сайта низкая, это может привести к его блокировке по описанному механизму.

Какой главный вывод должен сделать SEO-специалист из этого патента?

Главный вывод – популярность в органическом поиске является для Яндекса важным бенчмарком легитимности и качества сайта. Стратегии, ориентированные на генерацию искусственного или низкокачественного трафика в обход органического поиска, создают прямые риски безопасности и могут привести к полной блокировке ресурса в экосистеме Яндекса.