Яндекс патентует метод выявления вредоносных или нежелательных сайтов путем анализа логов браузера и истории поиска. Система отслеживает подозрительные автоматические открытия сайтов (не инициированные пользователем) и сравнивает их частоту с популярностью сайта в органическом поиске. Если сайт часто открывается автоматически, но редко появляется в поиске или имеет низкий органический трафик, он классифицируется как нежелательный и добавляется в черный список.
Описание
Какую задачу решает
Патент решает задачу идентификации вредоносных или нежелательных веб-ресурсов (содержащих вирусы, фишинг, навязчивую рекламу и т.д.), которые получают трафик не органическим путем, а с помощью вредоносного ПО, установленного на устройствах пользователей. Такое ПО автоматически запускает браузер и открывает целевой веб-ресурс без ведома пользователя. Изобретение направлено на выявление таких ресурсов путем анализа паттернов трафика и их легитимности.
Что запатентовано
Запатентован метод и система для классификации веб-ресурсов как нежелательных (blacklist). Суть изобретения заключается в корреляции данных из двух источников: логов браузеров пользователей (browser logs) и логов истории поиска (search history log). Система идентифицирует подозрительные («неорганические») попытки доступа к сайту и сравнивает их с показателями органической популярности этого сайта. Несоответствие между высокой частотой подозрительных доступов и низкой органической популярностью служит основанием для внесения ресурса в черный список.
Как это работает
Система собирает логи браузеров, фиксируя, какой процесс инициировал доступ к сайту (parent process) и был ли этот доступ первым действием при запуске браузера (first launch parameter). Доступ считается подозрительным, если это «первый запуск» И инициирующий процесс не входит в белый список доверенных программ. Для таких подозрительных событий система анализирует логи поисковой системы, чтобы определить Historical Search Parameter (показатель органической популярности) сайта. Если сайт часто посещается подозрительным образом, но имеет низкий Historical Search Parameter (например, редко показывается в выдаче, имеет низкий CTR, плохие позиции), он классифицируется как вредоносный.
Актуальность для SEO
Средняя. Методы борьбы с вредоносным ПО и анализа качества трафика постоянно развиваются. Описанный механизм использования данных из браузера (вероятно, Яндекс.Браузера) и их сверка с поисковыми данными для оценки легитимности ресурса остается актуальным подходом к обеспечению безопасности пользователей. Однако конкретные технические реализации могли эволюционировать.
Важность для SEO
Влияние на SEO умеренное (6/10). Это не патент о ранжировании, а о классификации и безопасности. Однако он имеет важное стратегическое значение, так как демонстрирует, что Яндекс использует органическую популярность и видимость в поиске как эталон легитимности сайта. Патент подтверждает, что Яндекс активно анализирует источники трафика (в данном случае, через логи браузера) и что сайты, полагающиеся преимущественно на неорганический, подозрительный или «мусорный» трафик при отсутствии сильных органических сигналов, рискуют быть классифицированными как некачественные или вредоносные.
Детальный разбор
Термины и определения
- Blacklist of web resources (Черный список веб-ресурсов)
- Список веб-ресурсов, классифицированных системой как нежелательные или вредоносные. Доступ к этим ресурсам может быть заблокирован или сопровождаться предупреждением пользователя.
- Browser Logs (Логи браузера)
- Данные, собираемые с браузерных приложений на устройствах пользователей. Содержат информацию о прошлых действиях, включая идентификатор посещенного ресурса, идентификатор родительского процесса и параметр первого запуска.
- First Launch Parameter (Параметр первого запуска)
- Индикатор, указывающий, была ли попытка доступа к веб-ресурсу выполнена как часть первого запуска браузерного приложения (например, в рамках текущей сессии входа в систему). Используется для выявления автоматических открытий сайтов, часто инициируемых вредоносным ПО.
- Historical Search Parameter (Исторический поисковый параметр)
- Метрика, рассчитываемая на основе логов истории поиска. Отражает органическую популярность и качество веб-ресурса. Может включать частоту показов в SERP, частоту посещений (CTR), среднюю позицию, наличие запросов с негативной коннотацией и т.д.
- Parent Process (Родительский процесс)
- Программа или процесс на устройстве пользователя, который инициировал попытку доступа к веб-ресурсу через браузер. Идентификация процесса (Parent_Process_ID) обычно предоставляется операционной системой.
- Parent Process White List (Белый список родительских процессов)
- Список доверенных родительских процессов, которые легитимно инициируют доступ через браузер (например, почтовые клиенты, мессенджеры).
- Search History Log (Лог истории поиска)
- База данных поисковой системы, хранящая информацию о прошлых поисковых сессиях, включая запросы, показанные результаты (SERP), ранги результатов и клики пользователей.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт) описывает основной метод классификации веб-ресурса.
- Система получает множество логов браузера с разных устройств. Каждый лог содержит: (a) Идентификатор веб-ресурса, (b) Идентификатор родительского процесса, (c) Параметр первого запуска.
- Система анализирует эти данные и фильтрует записи. Обработка продолжается только для тех записей, где одновременно выполняются два условия: (i) First Launch Parameter указывает, что доступ был выполнен при первом запуске браузера (подозрение на автоматический доступ), И (ii) Parent Process НЕ числится в белом списке доверенных процессов.
- Для отобранных записей система обращается к логам истории поиска (Search History Log) поисковой системы.
- Система анализирует прошлые поисковые сессии для определения Historical Search Parameter (метрики органической популярности) для данного веб-ресурса.
- Принятие решения: Если Historical Search Parameter находится ниже определенного порога (т.е. органическая популярность низкая), веб-ресурс добавляется в Blacklist.
Claim 7 (Зависимый пункт) уточняет критерий добавления в черный список.
Добавление в Blacklist также происходит, если соотношение попыток доступа, связанных с первым запуском браузера (неорганический трафик), непропорционально велико по сравнению с Historical Search Parameter (органический трафик).
Claim 20 (Независимый пункт) описывает серверную реализацию метода, описанного в Claim 1. Техническая суть идентична Claim 1.
Где и как применяется
Изобретение в первую очередь относится к инфраструктуре обеспечения качества и безопасности поиска, а не к основным алгоритмам ранжирования.
Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
- Anti-Quality / Безопасность: Основное применение патента. Система функционирует как механизм выявления вредоносных сайтов и сайтов с некачественным трафиком. Она анализирует логи поведения пользователей (из браузеров) и логи поиска для вынесения вердикта о качестве ресурса.
- Входные данные: Логи браузеров (Browser Logs) с устройств пользователей (содержащие URL, Parent Process ID, First Launch Parameter); Логи истории поиска (Search History Log) от поискового сервера.
- Выходные данные: Пополняемый черный список веб-ресурсов (Blacklist).
CRAWLING & INDEXING (Косвенно)
- Сформированный Blacklist может использоваться на этапах сканирования и индексирования для пессимизации или полного исключения вредоносных ресурсов из поисковой базы.
Технические особенности:
- Система использует данные, полученные непосредственно с клиентских устройств (вероятно, через Яндекс.Браузер или аналогичные механизмы), что дает доступ к информации уровня ОС (например, Parent Process ID).
- Ключевым элементом является кросс-анализ данных о трафике и данных о поиске для валидации легитимности трафика.
На что влияет
- Типы контента и ниши: В первую очередь влияет на сайты, использующие агрессивные и нелегальные методы привлечения трафика: сайты с вирусами, фишинговые страницы, ресурсы с навязчивой рекламой, дорвеи, распространяющие ПО методом drive-by-download. Патент упоминает гемблинг и порнографию как типичные примеры таких ресурсов.
- Качество трафика: Алгоритм напрямую направлен на идентификацию сайтов с преобладанием неорганического, автоматически сгенерированного трафика.
Когда применяется
Алгоритм работает в фоновом режиме, обрабатывая поступающие логи браузеров и логи поиска.
Триггеры активации анализа для конкретного URL:
- Поступление записи в логе браузера, где First Launch Parameter = True (доступ произошел при первом запуске браузера).
- Родительский процесс (Parent Process), инициировавший этот доступ, не находится в Parent Process White List.
Сочетание этих двух условий маркирует попытку доступа как подозрительную и запускает проверку органической популярности сайта.
Пошаговый алгоритм
- Сбор данных (Логи браузера): Система получает логи от браузерных приложений, установленных на множестве устройств. Каждая запись содержит URL, идентификатор родительского процесса (Parent Process ID) и параметр первого запуска (First Launch Parameter).
- Предварительная обработка и Нормализация: Полученные URL нормализуются до определенного уровня домена (например, до второго уровня). Может применяться MapReduce для обработки больших объемов данных.
- Фильтрация и Идентификация подозрительного доступа: Система анализирует параметр первого запуска и родительский процесс для каждой записи. Отбираются только те записи, которые соответствуют критериям подозрительного (неорганического) доступа: доступ был первым при запуске браузера И родительский процесс не входит в белый список доверенных.
- Сбор данных (Логи поиска): Для URL из отобранных подозрительных записей система обращается к логам истории поиска поисковой системы.
- Вычисление Исторического Поискового Параметра (Historical Search Parameter): Система анализирует прошлые поисковые сессии для определения органической популярности URL. Учитываются такие факторы, как частота показов в SERP, CTR, средняя позиция, наличие негативных запросов. Может быть сгенерирован вектор признаков.
- Сравнение и Классификация: Система сравнивает частоту подозрительных доступов с Историческим Поисковым Параметром.
- Условие: Если Исторический Поисковый Параметр ниже установленного порога (органическая популярность низкая).
- ИЛИ Условие: Если соотношение подозрительных доступов к органическим непропорционально велико.
- Применение (Blacklisting): Если условия выполнены, URL добавляется в черный список (Blacklist) веб-ресурсов.
- Использование Blacklist: При последующих попытках доступа к ресурсу из черного списка система отправляет пользователю триггер для выполнения защитного действия (например, блокировки доступа или показа предупреждения).
Какие данные и как использует
Данные на входе
Система использует данные из двух основных источников: Логи Браузера и Логи Поиска.
Данные из Логов Браузера (Browser Logs):
- Технические факторы:
- Идентификатор веб-ресурса (URL).
- Parent Process ID: Идентификатор родительского процесса, инициировавшего доступ (предоставляется ОС).
- First Launch Parameter: Флаг, указывающий, был ли это первый доступ при запуске браузера.
- Мультимедиа / Плагины (Опционально): Патент упоминает возможность сбора данных о количестве и источнике плагинов, установленных в браузере (plug-in parameter).
Данные из Логов Поиска (Search History Log):
- Поведенческие факторы:
- Visits rate / Click through information: Частота кликов по ресурсу в SERP (CTR).
- Данные об органических доступах к ресурсу.
- Факторы видимости в поиске:
- Display rate: Количество показов ресурса в SERP за период времени.
- Средняя позиция ресурса в SERP.
- Присутствие или отсутствие ресурса в SERP.
- Данные о запросах:
- Negative connotation search queries: Запросы, связанные с ресурсом, имеющие негативную окраску (например, «как удалить вирус XYZ»).
Какие метрики используются и как они считаются
- Historical Search Parameter (Исторический поисковый параметр): Агрегированная метрика органической популярности и качества. Рассчитывается на основе факторов из Search History Log (Display rate, Visits rate, SERP position, Negative queries). В патенте указано, что значение этого параметра пропорционально частоте показов и посещений.
- Соотношение Неорганического и Органического трафика: Система вычисляет соотношение количества доступов с положительным First Launch Parameter (и не доверенным родителем) к количеству органических доступов (зафиксированных в Search History Log).
- Feature Vector (Вектор признаков): В патенте упоминается возможность генерации вектора признаков для веб-ресурса на основе данных из лога истории поиска, который затем используется как Historical Search Parameter. Для этого могут применяться алгоритмы машинного обучения и методы снижения размерности (PCA, LSA и т.д.).
- Пороги (Thresholds): Система использует предопределенные пороги для Historical Search Parameter. Если параметр ниже порога, это запускает процесс добавления в черный список. Порог выбирается таким образом, чтобы низкое значение указывало на нечастое присутствие ресурса в прошлых поисковых сессиях.
Выводы
- Органический трафик как мерило легитимности: Ключевой вывод для SEO — Яндекс использует показатели органического поиска (видимость, позиции, CTR) как эталон для определения нормальной популярности и легитимности сайта. Отсутствие сильных органических сигналов рассматривается как негативный фактор при оценке качества ресурса.
- Яндекс анализирует источники трафика на уровне ОС: Система собирает детальные данные из браузеров (вероятно, Яндекс.Браузера), включая информацию об инициирующих процессах на уровне операционной системы. Это позволяет Яндексу отличать органический пользовательский трафик от трафика, сгенерированного автоматически (боты, вредоносное ПО).
- Дисбаланс трафика — сигнал опасности: Система специфически ищет сайты, у которых наблюдается сильный дисбаланс: много подозрительного (неорганического) трафика и мало органического. Это классический паттерн вредоносных ресурсов.
- Комплексная оценка качества: Historical Search Parameter включает не только позитивные метрики (показы, клики), но и негативные сигналы, такие как Negative connotation search queries. Это подчеркивает важность репутации сайта в поиске.
Практика
Best practices (это мы делаем)
- Приоритет органического поискового трафика: Сосредоточьтесь на создании качественного контента и технической оптимизации для улучшения видимости, позиций и CTR в органическом поиске. Сильный органический профиль (Historical Search Parameter) служит доказательством легитимности сайта для Яндекса.
- Диверсификация источников трафика: Обеспечьте здоровый баланс источников трафика. Преобладание органического и качественного реферального трафика (инициированного пользователями из доверенных источников — Parent Process White List) является оптимальной стратегией.
- Мониторинг репутации в поиске: Отслеживайте запросы, связанные с вашим брендом/сайтом, на предмет негативной коннотации (Negative connotation search queries). Быстро реагируйте на проблемы пользователей, чтобы минимизировать появление таких запросов, так как они снижают Historical Search Parameter.
- Аудит безопасности и исходящих ссылок: Убедитесь, что ваш сайт не взломан и не участвует в распространении вредоносного ПО или перенаправлении пользователей на ресурсы, которые могут быть добавлены в Blacklist.
Worst practices (это делать не надо)
- Использование «серого» и «черного» трафика: Покупка низкокачественного трафика, использование ботнетов, adware, click-under/pop-up сетей, которые генерируют автоматические переходы. Такие действия могут генерировать паттерны, схожие с First Launch от недоверенных процессов, что приведет к классификации сайта как нежелательного.
- Игнорирование органического SEO при использовании платной рекламы: Полагаться исключительно на платный трафик при слабой органической видимости рискованно. Хотя патент фокусируется на вредоносном трафике, общий принцип (дисбаланс источников при низкой органической популярности) может применяться шире для оценки качества сайта.
- Распространение агрессивного ПО и плагинов: Участие в партнерских программах, которые навязывают пользователям установку ПО или плагинов, может привести к росту Negative connotation search queries и генерации подозрительных паттернов трафика.
Стратегическое значение
Патент подтверждает стратегию Яндекса на обеспечение безопасности пользователей и чистоты экосистемы. Для SEO-специалистов это важный сигнал о том, что Яндекс глубоко интегрирует данные из своих сервисов (Поиск и Браузер) для оценки качества сайтов. Патент доказывает, что качество и легитимность источников трафика имеют первостепенное значение. Долгосрочная SEO-стратегия должна строиться на белых методах продвижения и формировании сильного органического присутствия, так как именно оно является основным индикатором полезности и безопасности ресурса в глазах Яндекса.
Практические примеры
Сценарий 1: Сайт с ботовым трафиком и низкой органической видимостью
- Ситуация: Владелец сайта покупает дешевый трафик через ботнет для имитации активности. Органическое SEO не ведется.
- Действие системы (Сбор логов): Боты на зараженных устройствах автоматически открывают сайт. Яндекс собирает логи: URL=site.ru, Parent Process=bot.exe (не в White List), First Launch=True.
- Действие системы (Анализ поиска): Система проверяет логи поиска. Historical Search Parameter для site.ru низкий (нет показов в Топ-50, нулевой CTR).
- Результат: Наблюдается сильный дисбаланс: много подозрительного трафика, мало органического. Site.ru добавляется в Blacklist.
Сценарий 2: Популярный новостной сайт
- Ситуация: Пользователь читает почту в Outlook и кликает на ссылку на новость, открывая браузер.
- Действие системы (Сбор логов): Яндекс собирает логи: URL=news.ru, Parent Process=outlook.exe, First Launch=True.
- Действие системы (Фильтрация): Система проверяет родительский процесс. Outlook.exe находится в Parent Process White List.
- Результат: Запись игнорируется системой, анализ Historical Search Parameter не запускается, так как трафик признан легитимным (инициированным пользователем из доверенного источника).
Сценарий 3: Сайт с негативной репутацией в поиске
- Ситуация: Сайт агрессивно навязывает установку плагина. Часть трафика идет через adware (подозрительный источник).
- Действие системы (Сбор логов): Фиксируются подозрительные доступы (First Launch=True, Parent Process=adware.dll).
- Действие системы (Анализ поиска): Система вычисляет Historical Search Parameter. Обнаруживается большое количество Negative connotation search queries («как удалить плагин site.ru»). Это снижает итоговый скор.
- Результат: Historical Search Parameter оказывается ниже порога из-за негативных сигналов. Site.ru добавляется в Blacklist.
Вопросы и ответы
Что такое «Параметр первого запуска» (First Launch Parameter) и почему он важен?
Это индикатор того, что доступ к сайту произошел в момент запуска браузера, как самое первое действие. В патенте это используется как ключевой сигнал для выявления автоматического, потенциально нежелательного трафика. Считается, что вредоносное ПО часто запускает браузер и открывает целевой сайт без участия пользователя (например, сразу после включения компьютера), поэтому анализ именно «первых запусков» позволяет эффективно выявлять такой трафик.
Что такое «Родительский процесс» (Parent Process) и как он используется?
Это программа на компьютере пользователя, которая дала команду браузеру открыться и перейти по ссылке. Система проверяет, является ли этот процесс доверенным (например, почтовый клиент или мессенджер, где пользователь сам кликнул по ссылке), сверяясь с белым списком (White List). Если процесс не доверенный (например, неизвестный исполняемый файл или скрипт) и при этом произошел «первый запуск», доступ помечается как подозрительный.
Что входит в «Исторический поисковый параметр» (Historical Search Parameter)?
Это агрегированная оценка органической популярности и качества сайта. Согласно патенту, она включает: частоту показов сайта в результатах поиска (Display Rate), частоту кликов (Visits Rate/CTR), среднюю позицию сайта в выдаче, а также наличие поисковых запросов с негативной коннотацией, связанных с этим сайтом. Чем выше этот параметр, тем более легитимным считается сайт.
Как этот патент влияет на сайты, использующие покупной трафик или агрессивную рекламу?
Такие сайты находятся в зоне риска. Если покупной трафик генерируется низкокачественными методами (боты, adware), которые имитируют паттерны, описанные в патенте (автоматические открытия), и при этом у сайта слабая органическая видимость, система может классифицировать его как нежелательный. Патент подчеркивает опасность дисбаланса между неорганическим и органическим трафиком.
Означает ли это, что Яндекс отслеживает весь мой трафик?
Патент предполагает сбор детальных логов браузера, включая информацию уровня операционной системы (Parent Process ID). Вероятнее всего, эти данные собираются через собственные сервисы Яндекса, такие как Яндекс.Браузер, с согласия пользователя. Система использует эти данные для анализа паттернов трафика в агрегированном виде для выявления глобальных угроз.
Может ли мой сайт попасть в черный список, если у него просто мало органического трафика?
Только низкой органической популярности недостаточно для попадания в черный список по этому алгоритму. Критическим является сочетание двух факторов: (1) Низкий Historical Search Parameter И (2) Высокая частота подозрительных (автоматических, неорганических) доступов. Если на ваш сайт нет подозрительного трафика, низкая органическая видимость не приведет к блокировке по этому механизму.
Что такое запросы с «негативной коннотацией» и как они влияют на SEO?
Это запросы, указывающие на негативное отношение пользователя к сайту или продукту, например, «как удалить», «[бренд] вирусы», «[сайт] отзывы мошенники». Согласно патенту, наличие таких запросов снижает Historical Search Parameter. Для SEO это означает, что репутация бренда и удовлетворенность пользователей напрямую влияют на оценку качества сайта.
Влияет ли этот алгоритм на ранжирование в поиске?
Патент описывает механизм классификации (добавления в Blacklist), а не ранжирования. Однако попадание в черный список как вредоносный ресурс, очевидно, приведет к резкому падению позиций или полному исключению сайта из индекса. Кроме того, метрики, используемые в Historical Search Parameter (позиции, CTR), сами являются результатом работы алгоритмов ранжирования.
Как защитить свой сайт от негативного влияния этого алгоритма?
Основная защита — это фокус на белых методах продвижения и развитии органического канала. Необходимо обеспечить, чтобы основная часть трафика была легитимной (инициированной пользователями) и чтобы сайт имел хорошую видимость и репутацию в органическом поиске. Также следует избегать использования сомнительных методов генерации трафика.
Применяется ли этот механизм к новым сайтам?
Новые сайты естественным образом имеют низкий Historical Search Parameter, так как история еще не накоплена. Однако, чтобы механизм сработал, на сайт также должен идти подозрительный трафик (First Launch от недоверенных процессов). Если новый сайт продвигается легально, он не должен столкнуться с проблемами, связанными с этим патентом, пока не начнет использовать серые методы привлечения посетителей.