Яндекс патентует метод выявления вредоносных сайтов путем анализа несоответствия между подозрительным автоматизированным трафиком и органической популярностью в поиске. Система анализирует логи браузеров, выявляя автоматические запуски сайтов неизвестными программами («первый запуск»). Если такой сайт имеет низкую видимость, плохие позиции или негативную репутацию в органическом поиске, он классифицируется как вредоносный.
Описание
Какую задачу решает
Патент решает задачу идентификации вредоносных веб-ресурсов (содержащих вирусы, фишинг, навязчивую рекламу), доступ к которым инициируется автоматически вредоносным ПО, установленным на устройствах пользователей. Он направлен на обнаружение угроз, когда «безвредный» программный код самостоятельно запускает браузер для доступа к опасному ресурсу, часто без прямого действия пользователя, обходя традиционные антивирусные средства.
Что запатентовано
Запатентована система и способ классификации веб-ресурсов как вредоносных, основанный на анализе расхождений (Discrepancy Analysis). Суть изобретения заключается в сопоставлении подозрительных паттернов доступа из логов браузера (используя Параметр первого запуска и Указатель родительского процесса) с органической популярностью и репутацией ресурса в поисковой системе (Исторический параметр поиска). Цель — выявить ресурсы с высоким автоматизированным (неорганическим) трафиком и низкой органической популярностью.
Как это работает
Система собирает логи активности браузеров с устройств пользователей. Каждая запись содержит URL, ID родительского процесса, инициировавшего доступ, и флаг «первого запуска». Система идентифицирует подозрительные попытки: если флаг «первого запуска» положителен И родительский процесс отсутствует в Белом списке доверенных программ. Для таких случаев система запрашивает у поисковой системы Исторический параметр поиска (позиции в SERP, частота кликов). Если сайт часто посещается подозрительным образом, но его органическая популярность ниже порога, он добавляется в Черный список.
Актуальность для SEO
Высокая. Борьба с вредоносным ПО и использование кросс-продуктовых данных (Браузер + Поиск) являются критически важными для экосистемы Яндекса (например, технология Protect). Методология использования органической производительности и репутации в поиске как сигнала доверия (Trust Signal) остается крайне актуальной.
Важность для SEO
Влияние на SEO среднее (5/10). Это не патент о ранжировании, а механизм безопасности. Однако он имеет высокое стратегическое значение, так как явно подтверждает, что Яндекс использует органическую видимость в поиске (позиции в SERP, органический трафик, репутацию) как значимый индикатор легитимности и надежности веб-сайта. Сильная органическая производительность выступает как фактор доверия в системах безопасности Яндекса.
Детальный разбор
Термины и определения
- Белый список родительских процессов (Whitelist)
- Список доверенных процессов (например, почтовые клиенты, мессенджеры), которым разрешено инициировать запуск браузера. Используется как фильтр для различения органических и неорганических попыток доступа.
- Журнал активности браузеров (Browser Activity Log)
- Данные, собираемые с браузерных приложений пользователей, содержащие информацию о прошлых действиях просмотра.
- Журнал истории поиска (Search History Log)
- База данных поисковой системы, хранящая информацию о прошлых сеансах поиска (запросы, SERP, позиции, клики).
- Исторический параметр поиска (Historical Search Parameter)
- Метрика или вектор признаков, указывающий на «объективную популярность» и репутацию веб-ресурса в органическом поиске. Включает частоту отображения, позиции в SERP, частоту кликов и тональность связанных запросов.
- Негативная коннотация (Negative Connotation)
- Категория поисковых запросов, указывающая на негативное отношение пользователя к теме запроса (например, «Как удалить»).
- Неорганический трафик (Inorganic Traffic)
- В контексте патента – попытки доступа, которые не исходят непосредственно от пользователя, а инициированы автоматически (потенциально вредоносным ПО). Идентифицируется через сочетание Параметра первого запуска и отсутствия Родительского процесса в Белом списке.
- Параметр первого запуска (First Launch Parameter)
- Флаг, указывающий, выполнялась ли попытка доступа при первом запуске браузерного приложения (т.е. сразу после его открытия в текущем сеансе). Используется как индикатор автоматизированного доступа.
- Указатель родительского процесса (Parent Process Pointer/ID)
- Идентификатор программы или процесса (Parent Process ID), который инициировал запуск браузера и попытку доступа к веб-ресурсу.
Ключевые утверждения (Анализ Claims)
Ядром изобретения является метод классификации веб-ресурсов, основанный на анализе источника трафика и его корреляции с популярностью в поиске.
Claim 1 (Независимый пункт): Описывает основной способ классификации веб-ресурса на сервере.
- Получение данных из множества журналов активности браузеров. Каждая запись содержит: Идентификатор веб-ресурса, Указатель родительского процесса и Параметр первого запуска.
- Анализ этих параметров в каждой записи.
- Фильтрация и Триггер: Для каждой записи проверяются условия: (i) Параметр первого запуска указывает, что доступ был при первом запуске браузера, И (ii) Родительский процесс отсутствует в Белом списке.
- Если условия (i) и (ii) выполнены (доступ подозрителен):
- Обращение к Журналу истории поиска поисковой системы.
- Анализ прошлых сеансов поиска для определения Исторического параметра поиска для данного веб-ресурса.
- Классификация: Добавление веб-ресурса в Черный список, если его Исторический параметр поиска меньше заранее заданного порога (т.е. ресурс непопулярен в органическом поиске).
Claims 2, 4, 5 (Зависимые пункты): Уточняют состав Исторического параметра поиска.
- Он основывается на частоте отображения и частоте обращения (кликов) к ресурсу (Claim 2).
- Он включает анализ поисковых запросов с Негативной коннотацией, связанных с ресурсом (Claim 4).
- Он включает анализ усредненной позиции ресурса на страницах SERP (Claim 5).
Claim 7 (Зависимый пункт): Уточняет условие добавления в Черный список.
- Веб-ресурс добавляется в черный список, если доля попыток доступа при первом запуске непропорционально велика по сравнению с Историческим параметром поиска. Это ключевой момент анализа расхождений (Discrepancy Analysis).
Claim 8 (Зависимый пункт): Указывает, что определение Исторического параметра поиска может включать формирование вектора признаков на основе данных из журнала истории поиска.
Где и как применяется
Этот патент не относится напрямую к слоям ранжирования или индексирования контента. Он относится к слою QUALITY & GOVERNANCE LAYER, конкретно к подсистемам безопасности и Anti-Quality.
Взаимодействие компонентов:
- Электронные устройства (Браузеры): Источник данных. Компонент в браузере или ОС («Программа-контролер») фиксирует попытки доступа, определяет Родительский процесс и устанавливает Параметр первого запуска.
- Обрабатывающий сервер (Processing Server): Центральный компонент. Принимает логи браузеров, хранит Белый и Черный списки, выполняет анализ расхождений.
- Сервер поисковой системы (Search Engine Server): Источник данных о популярности. Обрабатывающий сервер обращается к базе данных журналов истории поиска для расчета Исторического параметра поиска.
Данные на входе и выходе:
- Вход: Журналы активности браузеров (URL, Parent Process ID, First Launch Flag), Белый список процессов.
- Выход: Черный список вредоносных веб-ресурсов. Этот список может затем использоваться для блокировки доступа (через прокси-сервер или локально в браузере пользователя).
На что влияет
- Типы сайтов: В первую очередь влияет на сайты, распространяющие вредоносное ПО, фишинговые ресурсы, сайты с агрессивной рекламой (Adware), которые полагаются на неорганические методы генерации трафика через заражение устройств пользователей.
- Влияние на легитимные сайты: Патент не влияет на ранжирование легитимных сайтов. Он направлен исключительно на выявление и блокировку вредоносных ресурсов.
Когда применяется
Алгоритм применяется в режиме обработки накопленных журналов активности браузеров.
Триггеры активации анализа:
- Попытка доступа зафиксирована при первом запуске браузерного приложения (Параметр первого запуска положителен).
- Родительский процесс, инициировавший доступ, отсутствует в Белом списке доверенных процессов.
Пороговые значения для классификации:
- Исторический параметр поиска ниже заранее заданного порога (низкая органическая популярность).
- Доля попыток доступа при первом запуске (неорганический трафик) непропорционально велика по сравнению с Историческим параметром поиска (органический трафик).
Пошаговый алгоритм
- Сбор данных: Получение множества журналов активности от браузеров пользователей. Каждая запись содержит Идентификатор веб-ресурса (URL), Указатель родительского процесса и Параметр первого запуска.
- Нормализация: Нормализация URL до домена заранее определенного уровня (например, домена второго уровня). В описании патента упоминается возможность использования MapReduce для обработки логов.
- Фильтрация подозрительной активности: Для каждой записи проверка условий:
- Условие 1: Параметр первого запуска = True.
- Условие 2: Родительский процесс НЕ находится в Белом списке.
Если оба условия выполнены, попытка доступа помечается как подозрительная (потенциальный неорганический трафик).
- Агрегация подозрительной активности: Группировка подозрительных попыток доступа по нормализованному URL. Определение частоты подозрительных доступов для каждого ресурса.
- Обогащение данными Поиска: Для ресурсов с подозрительной активностью выполняется обращение к Журналу истории поиска поисковой системы.
- Расчет Исторического параметра поиска: Вычисление метрик органической популярности и репутации. Это может включать анализ частоты отображений/кликов, средней позиции в SERP, наличия запросов с негативной коннотацией, или формирование вектора признаков с использованием MLA.
- Анализ расхождений (Discrepancy Analysis): Сопоставление частоты подозрительной активности (Шаг 4) и Исторического параметра поиска (Шаг 6). Определение соотношения неорганического и органического трафика.
- Классификация и Блокировка: Если Исторический параметр поиска ниже порога И/ИЛИ доля неорганического трафика непропорционально велика, веб-ресурс классифицируется как вредоносный и добавляется в Черный список.
Какие данные и как использует
Данные на входе
Система использует два основных источника данных:
1. Данные из Журналов активности браузеров (Клиентские данные):
- Технические факторы: Идентификатор веб-ресурса (URL).
- Пользовательские/Системные факторы: Указатель родительского процесса (Parent Process ID, формируется ОС), Параметр первого запуска (First Launch Flag).
- Дополнительные факторы: Информация о количестве и источнике установленных плагинов (упоминается в патенте как опция).
2. Данные из Журнала истории поиска (Данные Поисковой Системы):
- Поведенческие факторы: Частота отображения ресурса в SERP, Частота обращения (клики), количество «органических» обращений.
- Факторы ранжирования (Исторические): Усредненная позиция ресурса на SERP.
- Контентные/Семантические факторы: Поисковые запросы, связанные с ресурсом, включая идентификацию запросов с негативной коннотацией.
Какие метрики используются и как они считаются
- Исторический параметр поиска (Historical Search Parameter): Ключевая метрика, характеризующая органическую популярность и легитимность ресурса. Рассчитывается на основе агрегации данных из истории поиска. Указано, что он пропорционален частоте отображения и обращения (Claim 2).
- Вектор признаков (Feature Vector): Патент упоминает возможность формирования вектора признаков для расчета Исторического параметра поиска (Claim 8). В описании упоминается использование алгоритмов машинного обучения (MLA) и методов понижения размерности (PCA, латентно-семантический анализ, автокодировщик и др.) для формирования этого вектора.
- Соотношение трафика: Система анализирует соотношение количества попыток доступа при первом запуске (прокси для неорганического трафика) и Исторического параметра поиска (прокси для органического трафика). Непропорционально высокий уровень неорганического трафика является сигналом вредоносности (Claim 7).
- Категоризация запросов: Используется механизм определения негативной коннотации поисковых запросов (например, «как удалить плагин Х»).
Выводы
- Органическая производительность как сигнал доверия (Trust Signal): Это ключевой вывод для SEO. Патент демонстрирует, что Яндекс использует видимость в органическом поиске, позиции в SERP и органический трафик как индикаторы легитимности сайта в рамках своей инфраструктуры безопасности. Сильное присутствие в органике защищает сайт от ложных срабатываний.
- Репутация в поиске (SERM) имеет значение для безопасности: Система учитывает запросы с негативной коннотацией, связанные с ресурсом. Негативный бренд-серч (например, пользователи ищут, как удалить ваш продукт) может способствовать классификации сайта как нежелательного.
- Синергия кросс-продуктовых данных: Яндекс активно использует данные, собранные через браузеры (паттерны запуска, родительские процессы), и валидирует их с помощью данных из Поиска. Это подчеркивает важность комплексного взгляда на экосистему Яндекса.
- Анализ расхождений (Discrepancy Analysis): Сайт наказывается не за низкую популярность, а за то, что его неорганический, подозрительный трафик (автоматические запуски) непропорционально высок по сравнению с его органической популярностью.
- Глубокий анализ источников трафика: Система строго разграничивает органический трафик и подозрительный неорганический трафик, генерируемый потенциально вредоносным ПО, анализируя данные на уровне операционной системы.
Практика
Best practices (это мы делаем)
- Приоритет органической видимости и авторитетности: Инвестируйте в долгосрочное SEO. Высокие позиции и стабильный органический трафик выступают в качестве «щита доверия» (Trust Shield) и индикатора легитимности для систем безопасности Яндекса, повышая Исторический параметр поиска.
- Мониторинг репутации в поиске (SERM): Активно отслеживайте поисковые запросы, связанные с вашим брендом, на предмет негативной коннотации (например, «[Бренд] удалить», «[Бренд] вирус»). Работайте над устранением причин негатива, так как он учитывается при оценке безопасности.
- Обеспечение легитимности источников трафика: Убедитесь, что ваши маркетинговые каналы используют прозрачные методы. Если вы распространяете ПО или браузерные расширения, они не должны генерировать автоматические переходы или вызывать негативную реакцию пользователей.
Worst practices (это делать не надо)
- Использование серого/черного трафика и Adware: Покупка трафика, генерируемого через интрузивное ПО или вредоносные расширения, которые автоматически открывают ваш сайт. Такие методы генерируют паттерны «первого запуска» от нелегитимных процессов и являются прямой целью этого патента.
- Игнорирование органического SEO: Полный отказ от работы над органической видимостью и опора исключительно на неорганические источники делает сайт более уязвимым для классификации как нежелательного из-за низкого Исторического параметра поиска.
- Игнорирование репутационных проблем: Наличие большого количества запросов с негативной коннотацией способствует классификации ресурса как нежелательного.
Стратегическое значение
Патент подтверждает стратегическое значение SEO не только как канала привлечения трафика, но и как фундаментального элемента доверия к домену в экосистеме Яндекса. Он показывает, что метрики органического поиска (позиции, трафик, репутация) используются далеко за пределами алгоритмов ранжирования, в частности, в системах безопасности. Это усиливает аргументацию в пользу инвестиций в качественное, белое SEO как основу долгосрочной стратегии.
Практические примеры
Сценарий 1: Классификация вредоносного сайта (Adware)
- Ситуация: Сайт «free-downloads.ru» продвигается через установку пользователям навязчивого ПО («оптимизатор системы»).
- Действие ПО: Это ПО (Родительский процесс не в Белом списке) периодически автоматически запускает браузер (Параметр первого запуска = True) и открывает «free-downloads.ru».
- Анализ Яндекса: Система фиксирует множество таких подозрительных доступов (Высокий неорганический трафик).
- Проверка Поиска: Система рассчитывает Исторический параметр поиска и обнаруживает, что сайт имеет нулевой органический трафик, низкие позиции в SERP и много запросов с негативной коннотацией («как удалить free-downloads»).
- Результат: Наблюдается сильное расхождение (много неорганического трафика, мало органического). Сайт добавляется в Черный список и блокируется.
Сценарий 2: Обработка легитимного доступа
- Ситуация: Пользователь получает письмо в Microsoft Outlook и кликает по ссылке на сайт «trusted-news.ru».
- Действие ПО: Outlook (Родительский процесс) инициирует запуск браузера (Параметр первого запуска = True) для доступа к «trusted-news.ru».
- Анализ Яндекса: Система фиксирует доступ. Она проверяет Родительский процесс (Outlook) и находит его в Белом списке доверенных программ.
- Результат: Попытка доступа классифицируется как органическая (легитимная). Дальнейший анализ Исторического параметра поиска для этого события не требуется.
Вопросы и ответы
Что такое «Параметр первого запуска» и почему он важен?
Параметр первого запуска — это флаг, указывающий, что доступ к сайту произошел в момент запуска браузерного приложения (а не во время уже идущей сессии). Он важен, потому что вредоносное ПО часто автоматически запускает браузер для доступа к нежелательным ресурсам без ведома пользователя. Это сильный индикатор неорганического, автоматизированного доступа.
Означает ли этот патент, что сайты с низким органическим трафиком будут пессимизированы или заблокированы?
Нет. Низкий органический трафик (низкий Исторический параметр поиска) сам по себе не является причиной блокировки. Блокировка происходит только при сочетании двух факторов: (1) Низкий органический трафик И (2) Высокая частота подозрительного неорганического трафика (автоматические запуски неизвестными программами). Если у сайта нет подозрительного трафика, он не будет затронут этой системой.
Что такое «Исторический параметр поиска»?
Это комплексная оценка «объективной популярности» и репутации сайта в органическом поиске Яндекса. Согласно патенту, он может включать частоту показов и кликов в SERP, средние позиции сайта, а также анализ связанных с сайтом поисковых запросов на предмет негативной коннотации. По сути, это метрика органического здоровья сайта.
Как этот патент влияет на стратегию SEO для легитимных сайтов?
Он подтверждает стратегическую важность инвестиций в органическое SEO. Сильное присутствие в органическом поиске (высокий Исторический параметр поиска) интерпретируется Яндексом как сигнал доверия и легитимности. Это означает, что качественное SEO не только приносит трафик, но и способствует формированию общего траста к домену в экосистеме Яндекса, включая его системы безопасности.
Что считается «запросами с негативной коннотацией» и как это влияет на SERM?
Это поисковые запросы, указывающие на негативное отношение пользователя к сайту или продукту (например, «как удалить», «[бренд] вирус»). Наличие большого количества таких запросов снижает Исторический параметр поиска и может способствовать классификации сайта как нежелательного. Это подчеркивает важность SERM (управления репутацией в поиске).
Является ли описанная система алгоритмом ранжирования?
Нет, это алгоритм классификации веб-ресурсов для целей безопасности (выявления вредоносных сайтов). Он не определяет позиции сайта в поиске напрямую. Однако он использует данные о ранжировании (позиции в SERP) и поведении пользователей в поиске для оценки качества и легитимности сайта.
Откуда Яндекс получает данные о родительских процессах и активности браузера?
Эти данные собираются непосредственно с устройств пользователей. Для этого необходимо, чтобы на устройстве было установлено ПО, способное собирать и отправлять такие логи (например, Яндекс.Браузер или специфические расширения). Родительский процесс (Parent Process ID) определяется через API операционной системы.
Что такое «Белый список родительских процессов»?
Это список доверенных программ, которым разрешено автоматически запускать браузер. Например, если пользователь кликает на ссылку в Microsoft Outlook или Telegram, эти программы запустят браузер. Они находятся в белом списке, поэтому такая активность не будет считаться подозрительной, даже если это «первый запуск». Это фильтр для легитимной автоматизации.
Как этот патент влияет на сайты, которые покупают трафик?
Патент создает риски, если покупной трафик генерируется некачественными методами, имитирующими автоматизированный доступ (например, через Adware), и при этом у сайта слабая органическая видимость. Если система зафиксирует много «неорганического» трафика, а Исторический параметр поиска будет низким, сайт может быть классифицирован как вредоносный.
Может ли этот механизм использоваться для борьбы с накруткой поведенческих факторов (ПФ)?
Косвенно, да. Трафик, генерируемый ботами для накрутки ПФ, часто имеет признаки автоматизированного доступа и может исходить от подозрительных процессов. Если система идентифицирует такой трафик как «неорганический» и при этом определит, что реальная органическая популярность сайта (Исторический параметр поиска) низкая, это может привести к пессимизации или блэклистингу сайта.