Как Яндекс использует графы совместных посещений для выявления накрутки поведенческих факторов (ПФ)

Яндекс патентует метод выявления аномального трафика (накрутки ПФ) путем анализа истории посещений пользователей. Система строит граф, связывающий сайты, которые часто посещаются одними и теми же пользователями. Если группа сайтов сильно связана в графе (высокий уровень совместных посещений), но при этом не имеет естественной тематической связи или логики в действиях пользователей, эти сайты помечаются как получающие аномальный трафик и пессимизируются в выдаче.

Описание

Какую задачу решает

Патент решает критически важную задачу борьбы с манипуляциями поисковой выдачей, в частности, с искусственной накруткой поведенческих факторов (ПФ). Изобретение направлено на выявление аномальных посещений веб-сайтов — трафика, генерируемого ботами или клик-фермами с целью симуляции положительного поведения пользователей. Это позволяет пессимизировать сайты-нарушители, а также очищать логи от фродового трафика для корректного обучения алгоритмов машинного обучения.

Что запатентовано

Запатентована система и способ обнаружения аномального трафика на основе анализа графа совместных посещений (Co-visitation Graph). Суть изобретения заключается в идентификации групп веб-сайтов, которые статистически значимо часто посещаются одними и теми же пользователями (или ботами), но при этом не имеют между собой естественной связи (тематической или поведенческой). Отсутствие естественной связи при наличии сильной связи в графе посещений является индикатором аномалии.

Как это работает

Система анализирует историю веб-поиска множества пользователей и строит граф истории веб-поиска. В этом графе вершины — это веб-хосты, а ребра соединяют хосты, которые посещались одними и теми же пользователями. Вес ребра определяется количеством таких пользователей. Далее граф кластеризуется, выделяя группы часто совместно посещаемых сайтов. Затем система применяет фильтры для удаления кластеров, имеющих естественное объяснение (например, сайты одной тематики или сайты, связанные логикой действий пользователя). Оставшиеся кластеры, которые сильно связаны, но не имеют естественного объяснения, помечаются как аномальные. Сайты в этих кластерах пессимизируются, а пользователи, создавшие эти связи, помечаются как боты.

Актуальность для SEO

Высокая. Манипуляции поведенческими факторами являются одной из главных угроз качеству поиска. Графовые методы анализа и обнаружения аномалий являются стандартом в индустрии для борьбы с фродом и скоординированными атаками. Описанный метод является эффективным способом выявления сетей ботов и их клиентов.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент описывает конкретный механизм, который Яндекс использует для выявления и наказания за накрутку поведенческих факторов. Это напрямую затрагивает Black Hat SEO стратегии, делая их крайне рискованными. Для специалистов, использующих белые методы, этот патент объясняет, как система защищает качество выдачи от манипуляций, обеспечивая более справедливую конкуренцию.

Детальный разбор

Термины и определения

Аномальные посещения веб-сайтов (Anomalous Website Visits): Посещения, которые идентифицируются системой как неестественные. На практике это трафик, генерируемый с целью манипуляции поведенческими факторами (накрутка ПФ), боты или клик-фермы.
Веб-хост (Web-host): Сайт или домен, который посещают пользователи. Является вершиной (узлом) в графе истории веб-поиска.
Граф истории веб-поиска (Co-visitation Graph): Структура данных, где вершины представляют веб-хосты. Ребра соединяют два хоста, если существуют пользователи, посетившие оба хоста.
Вес ребра (Edge Weight): Метрика силы связи между двумя веб-хостами в графе. Определяется на основе количества пользователей, посетивших оба хоста. В альтернативном варианте может определяться на основе количества совпадающих поисковых запросов, введенных этими пользователями.
Данные о действиях пользователей (User Activity Data): Информация, используемая для верификации связей между хостами в кластере. Может включать историю веб-поиска, данные об использовании веб-браузера или данные веб-сценария.
Естественная связь (Natural Relation): Связь между веб-хостами, которая имеет логическое объяснение. В патенте упоминаются два типа: связь на основе схожих тем (например, два сайта про автомобили) и связь на основе данных о действиях пользователей (например, пользователь переходит с сайта А на сайт Б в рамках решения одной задачи).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе выявления аномалий путем исключения естественных связей в графе совместных посещений.

Claim 1 (Независимый пункт): Описывает основной алгоритм.

Получение истории веб-поиска множества пользователей.
Формирование графа истории веб-поиска. Вершины = хосты. Вес ребра = количество пользователей, посетивших оба хоста.
Кластеризация вершин графа на основе весов ребер (выделение групп часто совместно посещаемых сайтов).
Получение данных о действиях пользователей, соответствующих этим кластерам.
Определение связанных веб-хостов внутри кластера на основе этих данных о действиях.
Ключевой шаг: Удаление из графа кластеров, содержащих веб-хосты, связанные на основе данных о действиях пользователей (т.е. удаление естественно связанных кластеров).
Сохранение индикатора аномальных посещений для веб-хостов в оставшихся кластерах.

Логика здесь такова: если сайты часто посещаются вместе (сильная связь в графе), но анализ действий пользователей не показывает логической связи между этими посещениями, значит, эти посещения аномальны (скоординированы).

Claim 2 (Зависимый от п. 1): Описывает дополнительный механизм фильтрации естественных связей — тематический.

Перед кластеризацией для каждой вершины (хоста) определяется одна или несколько тем.
Из графа удаляются ребра, соединяющие две вершины со связанными (схожими) темами.

Этот шаг направлен на то, чтобы исключить из анализа естественные паттерны, когда пользователь посещает несколько сайтов одной тематики. Аномалией считаются частые совместные посещения тематически не связанных сайтов.

Claim 4 и 5 (Зависимые от п. 1): Описывают применение результатов алгоритма в поиске (пессимизация).

При формировании SERP ранг веб-хоста, помеченного как связанный с аномальными посещениями, снижается (Claim 4).
Или такой веб-хост полностью удаляется из SERP (Claim 5).

Claim 7 (Зависимый от п. 1): Описывает идентификацию источников аномального трафика.

Определение множества идентификаторов пользователей (User IDs), соответствующих аномальным посещениям.
Сохранение индикатора того, что этот User ID связан с аномальными посещениями (т.е. это бот или сотрудник клик-фермы).

Где и как применяется

Изобретение применяется в инфраструктуре обработки данных и на слое контроля качества поиска.

Офлайн-процессы и обработка данных (Связь с INDEXING и CRAWLING)
Основная часть алгоритма работает офлайн в режиме пакетной обработки больших данных:

Сбор и агрегация истории веб-поиска и данных о действиях пользователей (логи браузеров, метрик).
Построение и анализ масштабного графа истории веб-поиска. Это ресурсоемкая операция, включающая расчет весов миллиардов ребер и кластеризацию.
Взаимодействие с базой данных тем для определения тематики хостов (Claim 3).

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Алгоритм является частью системы контроля качества, вероятно, интегрированной с Antiquality. Он генерирует сигналы о некачественном трафике.

На входе: История веб-поиска, данные об использовании веб-браузера, данные веб-сценариев.
На выходе: Два набора индикаторов:
- Индикаторы для Веб-хостов, получающих аномальный трафик.
- Индикаторы для User IDs, генерирующих аномальный трафик.

RANKING – Ранжирование (Уровни L3/L4)
Результаты работы алгоритма применяются на этапе ранжирования. Если для документа или хоста есть индикатор аномальных посещений, формула ранжирования применяет пессимизацию (снижение ранга или удаление из выдачи).

На что влияет

Специфические запросы и Ниши: Наибольшее влияние оказывается на конкурентные коммерческие тематики, где манипуляции поведенческими факторами наиболее распространены (например, недвижимость, авто, финансы).
Типы сайтов: Влияет на любые сайты, прибегающие к услугам накрутки ПФ. Механизм обнаружения основан на паттернах трафика и не зависит от типа контента.

Когда применяется

Частота применения: Построение и анализ графа, вероятно, происходит периодически (например, ежедневно или еженедельно) из-за вычислительной сложности.
Применение результатов: Применение индикаторов (пессимизация в ранжировании и фильтрация ботов) происходит в реальном времени при обработке запросов.

Пошаговый алгоритм

Процесс выявления аномальных посещений:

Сбор данных: Получение истории веб-поиска и данных о действиях пользователей (логи браузеров, данные метрик) за определенный период.
Построение графа: Формирование графа истории веб-поиска.
1. Идентификация всех уникальных веб-хостов (вершины).
2. Для каждой пары хостов (A, B) определение количества уникальных пользователей, посетивших и A, и B. Это значение становится весом ребра между A и B.
Фильтрация 1 (Тематическая): (Опциональный, но важный шаг по Claim 2).
1. Определение тем для каждого веб-хоста (запрос к базе данных тем).
2. Удаление ребер, соединяющих хосты со связанными (схожими) темами. Это оставляет в графе только связи между тематически разными сайтами.
Кластеризация: Применение алгоритмов кластеризации к графу на основе весов ребер. Это выделяет плотные группы хостов, которые часто посещаются вместе (потенциальные группы клиентов одного сервиса накрутки).
Фильтрация 2 (Поведенческая): (Ключевой шаг по Claim 1).
1. Анализ данных о действиях пользователей внутри каждого кластера.
2. Определение наличия естественной поведенческой связи между хостами в кластере (например, логичные переходы, решение одной задачи).
3. Удаление кластеров, где такая естественная связь обнаружена.
Идентификация аномалий: Кластеры, оставшиеся после всех фильтраций, объявляются аномальными. Это группы сайтов, которые сильно связаны в графе посещений, но не связаны ни тематически, ни поведенчески.
Применение результатов:
1. Пометка всех веб-хостов в оставшихся кластерах индикатором аномальных посещений (для последующей пессимизации).
2. Идентификация и пометка User IDs, которые создали эти аномальные связи (идентификация ботов).
3. Очистка истории веб-поиска от данных, связанных с этими аномальными посещениями (Claim 6).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Это основной источник данных для построения графа и его анализа.
- История веб-поиска: Логи посещенных URL пользователями (Claim 1, 8).
- Данные об использовании веб-браузера: Более детальные данные о сессиях, возможно, полученные через Яндекс.Браузер или Метрику (Claim 9).
- Данные веб-сценария: Информация о последовательности действий пользователя на сайте (Claim 10).
- Поисковые запросы: Используются для альтернативного расчета веса ребра (Claim 11).
Контентные факторы (Тематические):
- Темы веб-хостов: Используются для фильтрации естественных связей. Эти данные, вероятно, берутся из отдельной базы данных или классификатора (Claim 2, 3).
Пользовательские факторы:
- Идентификаторы пользователей (User IDs): Используются для агрегации истории посещений и последующей идентификации ботов (Claim 7).

Какие метрики используются и как они считаются

Вес ребра (Edge Weight): Ключевая метрика. Рассчитывается как количество уникальных пользователей, посетивших оба хоста, соединенных ребром. Альтернативный расчет: количество совпадающих поисковых запросов, введенных пользователями, посетившими оба хоста.
Алгоритмы кластеризации графов: Используются для выделения плотных подграфов (сообществ). Конкретные алгоритмы не указаны, но применяются стандартные методы для анализа социальных сетей или графов взаимодействий.
Сравнение тем: Метод определения схожести тем хостов для фильтрации ребер. Детали реализации не раскрыты.

Выводы

Яндекс активно борется с накруткой ПФ, используя графовый анализ: Патент описывает сложный и эффективный механизм для обнаружения скоординированных аномальных посещений, что является основным паттерном работы сервисов по накрутке поведенческих факторов.
Совместное посещение не связанных сайтов — ключевой индикатор фрода: Алгоритм основан на предположении, что реальные пользователи посещают тематически или поведенчески связанные сайты. Если множество пользователей (ботов) систематически посещают группу тематически разных сайтов (клиентов одного сервиса накрутки), это выявляется как аномалия.
Многоуровневая фильтрация естественного поведения: Система использует как тематические данные, так и детальные данные о действиях пользователей, чтобы минимизировать ложные срабатывания и точно выделить искусственный трафик.
Двойное наказание: Алгоритм идентифицирует как сайты, получающие фродовый трафик (и пессимизирует их), так и пользователей/ботов, генерирующих этот трафик (что позволяет фильтровать их активность в будущем и очищать данные для обучения).
Серьезность последствий: Патент прямо указывает на возможность как снижения ранга, так и полного удаления сайта из результатов поиска (Claim 4 и 5).

Практика

Best practices (это мы делаем)

Фокус на привлечении органического, диверсифицированного трафика: Обеспечивайте естественные паттерны посещений. Трафик должен приходить из разных источников и соответствовать тематике сайта.
Мониторинг качества трафика: Регулярно анализируйте источники трафика в Яндекс.Метрике. Резкие изменения в паттернах поведения, подозрительно высокий процент прямых заходов (часто используемых для накрутки) или нетипичная география пользователей должны вызывать подозрение.
Развитие Topical Authority: Создание тематически целостного ресурса способствует формированию естественных поведенческих паттернов у аудитории, что является защитой от ложных срабатываний алгоритмов антифрода.

Worst practices (это делать не надо)

Использование сервисов накрутки ПФ (КАТЕГОРИЧЕСКИ НЕТ): Этот патент детально описывает, как именно Яндекс выявляет такие активности. Сервисы накрутки обслуживают множество клиентов из разных ниш. Боты посещают эти сайты последовательно или параллельно. Алгоритм обнаруживает эту неестественную связь через граф совместных посещений и наказывает все вовлеченные сайты.
Покупка трафика низкого качества (Бот-трафик): Любые попытки симулировать активность пользователей с помощью ботов будут обнаружены и приведут к пессимизации.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса в борьбе с манипуляциями поведенческими факторами. Он демонстрирует глубокую интеграцию данных о поведении пользователей и графовых методов анализа для обеспечения качества поиска. Для SEO-специалистов это означает, что любые стратегии, основанные на искусственном влиянии на ПФ, являются не только рискованными, но и технически обнаруживаемыми с высокой точностью. Долгосрочная стратегия должна полагаться исключительно на белые методы оптимизации и привлечение реальной аудитории.

Практические примеры

Сценарий: Выявление сети накрутки ПФ

Исходные данные: Сервис накрутки ПФ обслуживает трех клиентов: Сайт А (Онлайн-казино), Сайт Б (Доставка цветов) и Сайт В (Ремонт холодильников). Для выполнения задачи используется пул из 1000 ботов (User IDs).
Действия ботов: Каждый из 1000 ботов посещает Сайт А, Сайт Б и Сайт В в течение дня.
Построение графа Яндексом: Система строит граф истории веб-поиска. Между А и Б, А и В, Б и В появляются ребра с весом 1000 (так как 1000 пользователей посетили обе пары). Это очень сильная связь.
Кластеризация: Сайты А, Б и В формируют плотный кластер.
Фильтрация 1 (Тематическая): Система проверяет темы. Казино, цветы и ремонт холодильников не связаны. Фильтр пройден (связь не является тематически естественной).
Фильтрация 2 (Поведенческая): Система анализирует данные о действиях пользователей. Не обнаруживается логической причины, по которой 1000 пользователей одновременно интересуются казино, цветами и ремонтом холодильников в рамках одной сессии или короткого периода. Фильтр пройден (связь не является поведенчески естественной).
Результат: Кластер помечен как аномальный. Сайты А, Б и В получают индикатор накрутки и пессимизируются в выдаче. 1000 User IDs помечаются как боты.

Вопросы и ответы

Что в этом патенте подразумевается под «аномальными посещениями веб-сайтов»?

Под аномальными посещениями подразумевается трафик, который система идентифицирует как неестественный или скоординированный. В контексте SEO это практически всегда означает накрутку поведенческих факторов (ПФ) с использованием ботов или клик-ферм для симуляции интереса пользователей к сайту.

Как работает «граф истории веб-поиска»?

Это структура данных, где каждый сайт (веб-хост) является вершиной. Если определенное количество пользователей посетило и Сайт А, и Сайт Б, между этими вершинами создается ребро. Чем больше общих пользователей у двух сайтов, тем «толще» (больше вес) ребро. Этот граф позволяет визуализировать и анализировать паттерны совместных посещений.

Почему сайты, которые не связаны тематически, могут оказаться в одном кластере?

Это ключевой момент патента. Если сайты из разных ниш (например, автосервис и магазин косметики) часто посещаются одними и теми же пользователями, это выглядит подозрительно. На практике это происходит, когда оба сайта являются клиентами одного сервиса накрутки ПФ, и один и тот же пул ботов используется для посещения обоих сайтов. Алгоритм специально ищет такие неестественные связи.

Как система отличает бота от реального пользователя, который просто интересуется разными темами?

Система использует два уровня фильтрации. Во-первых, анализируется статистическая значимость: однократное посещение разных сайтов одним пользователем не создаст сильной связи в графе. Сильная связь возникает при массовых скоординированных действиях. Во-вторых, анализируются «данные о действиях пользователей» (Claim 1) для поиска логики в посещениях. Если логики нет, а связь сильная, это считается аномалией.

Какие наказания предусмотрены для сайтов с аномальными посещениями?

Патент прямо указывает два варианта (Claim 4 и 5): снижение ранга веб-хоста на странице результатов поисковой системы или полное удаление веб-хоста со страницы результатов поисковой системы. Это соответствует стандартным санкциям Яндекса за накрутку ПФ.

Может ли этот алгоритм ошибочно наказать мой сайт, если конкуренты закажут на меня накрутку ПФ?

Теоретически, любая система антифрода может иметь ложные срабатывания. Однако описанный механизм графового анализа является достаточно надежным для выявления именно системных накруток. Яндекс заявляет, что умеет отличать попытки навредить конкурентам от действий владельца сайта, хотя детали этого механизма не раскрываются. В любом случае, важно мониторить качество трафика в Метрике.

Идентифицирует ли система только сайты или также и ботов?

Система выполняет обе задачи. Она идентифицирует веб-хосты, получающие аномальный трафик (Claim 1), и также определяет множество идентификаторов пользователей (User IDs), которые этот трафик создают, помечая их как ботов (Claim 7). Это позволяет Яндексу не только наказывать нарушителей, но и очищать свои данные от фрода.

Что такое «данные о действиях пользователей», упомянутые в патенте?

Патент дает несколько примеров (Claim 8, 9, 10): это может быть история веб-поиска, данные об использовании веб-браузера (вероятно, собранные через Яндекс.Браузер или Метрику) и данные веб-сценария (последовательность действий пользователя). Эти данные используются для верификации, является ли связь между сайтами естественной или аномальной.

Влияет ли этот патент на White Hat SEO?

Прямого влияния на белые методы продвижения нет. Косвенно, этот патент улучшает среду для White Hat SEO, так как он направлен на очистку поисковой выдачи от сайтов, использующих манипуляции для получения высоких позиций. Это повышает эффективность работы над качеством сайта и контентом.

Насколько сложно Яндексу реализовать описанный механизм?

Реализация требует значительных вычислительных ресурсов для обработки огромных объемов логов и построения масштабного графа. Однако, учитывая инфраструктуру Яндекса и его опыт в области больших данных и графового анализа (например, для расчета ссылочных факторов), этот механизм является полностью реализуемым и, вероятно, уже используется в продакшене как часть системы Antiquality.