Яндекс патентует метод борьбы с накруткой поведенческих факторов (ПФ). Система строит граф посещений сайтов и ищет группы сайтов, которые посещаются одними и теми же пользователями, но не имеют естественной связи (ни тематической, ни поведенческой). Такие паттерны считаются аномальными (накруткой), и эти данные исключаются из ранжирования, а сайты могут быть пессимизированы.
Описание
Какую задачу решает
Патент решает критическую проблему манипулирования результатами поиска через симуляцию пользовательского поведения — так называемую «накрутку поведенческих факторов» (ПФ). Злоумышленники (bad actors) инструктируют пользователей или ботов выполнять определенные запросы и кликать на целевые сайты для искусственного повышения их ранга. Это загрязняет данные истории поиска (web search history), которые Яндекс использует для оценки релевантности, и ухудшает качество выдачи. Изобретение предлагает механизм для выявления таких скоординированных аномальных посещений (abnormal site visits) и нейтрализации их влияния.
Что запатентовано
Запатентована система и метод выявления веб-хостов, получающих аномальный трафик. Суть изобретения заключается в использовании графового анализа истории поиска с последующей двухэтапной фильтрацией для изоляции паттернов трафика, которые не имеют естественного объяснения. Система ищет группы сайтов, которые часто посещаются одними и теми же пользователями, но при этом не являются естественно связанными (naturally affiliated).
Как это работает
Система строит граф, где узлы — это сайты, а связи (ребра) между ними отражают количество пользователей, посетивших оба сайта. Далее применяется двухэтапная фильтрация для удаления естественных связей:
- Тематическая фильтрация: Удаляются связи между сайтами схожей тематики (например, два сайта о футболе), так как их совместное посещение нормально.
- Поведенческая фильтрация: Оставшиеся узлы кластеризуются. Анализируются данные о взаимодействии пользователей (user interaction data), чтобы определить, есть ли естественная поведенческая связь между сайтами в кластере (например, сайты о гольфе и яхтинге могут посещаться одной демографической группой). Если связь есть, кластер удаляется.
Оставшиеся кластеры содержат сайты, которые тематически и поведенчески не связаны, но часто посещаются вместе. Это интерпретируется как скоординированная накрутка. Эти сайты помечаются как получатели аномального трафика.
Актуальность для SEO
Высокая. Поведенческие факторы играют значительную роль в ранжировании Яндекса, и их накрутка является одной из основных угроз качеству поиска. Описанный метод представляет собой сложный и нетривиальный подход к очистке поведенческих данных от фрода, что крайне актуально для современных поисковых систем.
Важность для SEO
Влияние на SEO критическое (9/10). Этот патент напрямую описывает механизм борьбы с одной из самых распространенных black-hat техник — накруткой ПФ. Система направлена на выявление и нейтрализацию усилий по манипулированию ранжированием через покупку трафика, использование ботнетов или сетей мотивированных пользователей. Понимание этого механизма необходимо для оценки рисков использования серых схем и подтверждает фокус Яндекса на выявлении естественных паттернов поведения.
Детальный разбор
Термины и определения
- Abnormal Site Visits (Аномальные посещения сайтов)
- Посещения сайтов, которые не являются результатом естественного поведения пользователей, а скоординированы третьей стороной (например, за плату) с целью манипулирования поисковым ранжированием (Накрутка ПФ).
- Edge (Ребро) и Edge Weight (Вес ребра)
- Связь между двумя узлами (сайтами) в графе. Наличие ребра означает, что как минимум один пользователь посетил оба сайта. Вес ребра определяется как количество пользователей, которые посетили оба сайта.
- Graph of Web Search History (Граф истории поиска)
- Структура данных, используемая для анализа паттернов посещений. Узлы представляют сайты (веб-хосты), а ребра — совместные посещения.
- Naturally Affiliated / Affiliated (Естественно связанные)
- Сайты, которые естественно посещаются вместе одной группой пользователей. Патент выделяет два типа связи:
- Тематическая (related themes): Сайты об одном и том же (например, футбол).
- Поведенческая (affiliated based on user interaction data): Сайты на разные темы, но интересующие одну и ту же группу пользователей (например, гольф и яхтинг).
- Themes (Тематики)
- Предметная область или тематика контента сайта. Определяется для выявления тематической близости между сайтами.
- User Interaction Data (Данные о взаимодействии пользователей)
- Более широкий набор данных о поведении пользователей, чем просто история кликов в поиске. Может включать данные браузера (web browser usage data), историю просмотров, данные веб-скриптов (web script data). Используется для выявления поведенческой связи.
- Web Search History (История веб-поиска)
- Логи поисковой системы, включающие идентификаторы пользователей (UID), их запросы и клики по результатам поиска.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на методологии выявления аномального трафика путем последовательного исключения естественного трафика.
Claim 1 (Независимый пункт): Описывает базовый процесс с акцентом на поведенческую фильтрацию.
- Получение истории веб-поиска.
- Построение графа истории поиска: узлы = хосты, вес ребра = количество пользователей, посетивших оба хоста.
- Кластеризация узлов на основе весов ребер.
- Получение данных о взаимодействии пользователей (user interaction data) для этих кластеров.
- Определение для каждого кластера, являются ли хосты в нем связанными (affiliated) на основе этих данных взаимодействия (Поведенческая фильтрация).
- Удаление кластеров, в которых хосты признаны связанными (т.е. трафик естественный).
- Сохранение индикатора аномальных посещений для хостов в оставшихся кластерах.
Claim 2 (Зависимый от 1): Добавляет критически важный этап тематической фильтрации перед кластеризацией.
Перед этапом кластеризации система должна:
- Определить одну или несколько тематик (themes) для каждого узла (хоста) в графе.
- Удалить из графа ребра, соединяющие два узла со связанными тематиками (Тематическая фильтрация).
Это ключевой момент. Система сначала удаляет очевидные естественные связи (по теме), и только потом ищет менее очевидные связи (по поведению) среди оставшихся пар.
Claims 4, 5, 6 (Зависимые от 1): Описывают действия, предпринимаемые после выявления аномалий.
- Понижение ранга (reducing a rank) хоста, связанного с аномальными посещениями, в поисковой выдаче (Claim 4).
- Удаление хоста из поисковой выдачи (Claim 5).
- Удаление данных, соответствующих этим аномальным посещениям, из истории веб-поиска (Claim 6). Это предотвращает использование фродового трафика в обучении моделей ранжирования.
Claim 7 (Зависимый от 1): Описывает идентификацию пользователей, участвующих в накрутке.
- Определение идентификаторов пользователей (UID), соответствующих аномальным посещениям.
- Сохранение индикатора, что данный UID связан с аномальными посещениями (т.е. это бот или мотивированный пользователь).
Где и как применяется
Изобретение применяется в основном в офлайн-процессах обработки данных и влияет на несколько слоев поисковой архитектуры.
CRAWLING & ACQUISITION / INDEXING (Обработка данных)
Процесс является частью обработки и индексации поведенческих сигналов. Система анализирует огромные массивы данных из Web Search History и User Interaction Data. Процесс выполняется периодически (в пакетном режиме) из-за его вычислительной сложности.
На этапе определения тематик (Themes) система взаимодействует с компонентами лингвистического анализа и классификаторами контента, которые анализируют проиндексированный контент сайтов.
QUALITY & GOVERNANCE LAYER (Слой качества и метрик)
Это ядро применения патента. Он напрямую связан с механизмами Anti-Quality и системами борьбы со спамом. Цель — очистка данных, используемых для расчета метрик качества и поведенческих факторов ранжирования.
RANKING (Ранжирование)
Результаты работы алгоритма используются на этапе ранжирования двояко:
- Пессимизация: Сайты, помеченные как получатели аномального трафика, могут быть понижены в выдаче или удалены из нее (Claims 4, 5).
- Использование очищенных данных: Модели машинного обучения (CatBoost) используют поведенческие факторы, из которых удален фродовый трафик (Claim 6), что повышает общее качество ранжирования.
На что влияет
- Типы контента и ниши: Влияет на все типы контента и ниши. Однако наибольшее влияние оказывается на высококонкурентные коммерческие тематики, где накрутка ПФ наиболее распространена.
- Специфические запросы: Влияет на ранжирование по тем запросам, которые являлись целью манипуляций.
Когда применяется
- Условия работы и частота: Алгоритм применяется периодически для анализа накопленной истории поиска за определенный период (в описании патента упоминается примерный период в 6 месяцев).
- Триггеры активации: Построение графа и кластеризация активируются для анализа всего массива данных. Пороговые значения для весов ребер (Edge Weights) могут использоваться для фильтрации шума перед кластеризацией.
Пошаговый алгоритм
Процесс выявления аномальных посещений:
- Сбор данных: Извлечение истории веб-поиска (UID, Запрос, Кликнутые хосты) за определенный период времени.
- Построение графа: Создание графа, где каждый хост является узлом. Если пользователь посетил Хост А и Хост Б, между ними создается ребро.
- Взвешивание ребер: Присвоение веса каждому ребру на основе общего количества уникальных пользователей, посетивших оба хоста.
- Определение тематик (Этап 1 Фильтрации): Для каждого узла определяется его основная тематика (например, с помощью ML/NLP моделей).
- Тематическая очистка графа: Удаление ребер между узлами, имеющими связанные тематики (например, если косинусное расстояние между векторами тематик меньше порога). Эти связи считаются естественными.
- Кластеризация: Кластеризация оставшихся узлов в графе на основе весов ребер. В результате получаются кластеры тематически не связанных сайтов, которые часто посещаются вместе.
- Сбор расширенных данных: Извлечение более широких данных о взаимодействии пользователей (User Interaction Data) для хостов в кластерах.
- Анализ поведенческой связи (Этап 2 Фильтрации): Для каждого кластера анализируется, являются ли хосты связанными на основе паттернов поведения пользователей. Система проверяет, существует ли естественная группа пользователей, интересующаяся всеми этими разными темами одновременно.
- Поведенческая очистка кластеров: Если поведенческая связь обнаружена (т.е. трафик естественный, хоть и не тематический), кластер удаляется из рассмотрения.
- Идентификация аномалий: Хосты в оставшихся кластерах помечаются как получатели аномальных посещений (накрутка ПФ).
- Применение мер: Понижение ранга этих хостов, удаление их из SERP и/или удаление данных об этих посещениях из истории поиска. Идентификаторы пользователей (UID), участвовавших в этих посещениях, также помечаются как фродовые.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Это основные данные для анализа. Используется Web Search History (UID, запросы, клики, таймстампы) для построения графа. Также используется расширенные User Interaction Data (включая историю браузера, данные веб-скриптов, если доступны) для анализа поведенческой связи.
- Контентные/Структурные факторы: Используются косвенно на этапе определения тематик (Themes). Система анализирует контент, метаданные страниц хостов для определения их тематической принадлежности.
Какие метрики используются и как они считаются
- Edge Weight (Вес ребра): Метрика совместного посещения. Рассчитывается как количество уникальных UID, посетивших оба хоста, соединенных ребром. Может также учитывать количество совпадающих поисковых запросов, которые привели к посещению обоих хостов.
- Тематическая близость (Thematic Similarity): Метрика, определяющая схожесть тематик двух сайтов. В патенте упоминается использование NLP моделей (LSA, pLSA, Word2vec, GloVe, LDA). На практике это может быть косинусная близость (cosine similarity) между векторами (эмбеддингами) тематик сайтов. Если близость выше порога, сайты считаются тематически связанными.
- Поведенческая связь (Behavioral Affiliation): Метрика, определяющая, насколько естественно совместное посещение тематически разных сайтов на основе анализа User Interaction Data. Патент не дает конкретной формулы, но подразумевает статистический анализ паттернов поведения групп пользователей.
- Алгоритмы кластеризации: Используются для группировки узлов на основе весов ребер (например, k-spanning tree, minimum spanning tree, shared nearest neighbor).
Выводы
- Яндекс активно борется с накруткой ПФ: Патент демонстрирует сложный, вычислительно затратный метод, направленный на выявление скоординированных манипуляций поведенческими факторами.
- Двухэтапная фильтрация как ядро метода: Ключевая инновация — это последовательное исключение естественного трафика. Система признает, что естественная связь может быть не только тематической (Этап 1), но и поведенческой/демографической (Этап 2). Аномалией считается только то, что не может быть объяснено ни тем, ни другим.
- Графовый анализ для выявления сетей накрутки: Построение графа совместных посещений позволяет эффективно выявлять сети сайтов (кластеры), которые продвигаются одним и тем же источником фродового трафика (например, одним ботнетом или биржей заданий).
- Комплексные меры противодействия: Яндекс не просто пессимизирует сайты, но и очищает свои данные от фродовых сигналов (чтобы не обучать на них ML-модели) и идентифицирует пользователей (UID), участвующих в накрутке.
- Важность четкого тематического позиционирования: Для корректной работы Этапа 1 (тематическая фильтрация) важно, чтобы система могла точно определить тематику сайта.
Практика
Best practices (это мы делаем)
- Фокус на органическом и тематически релевантном трафике: Убедитесь, что ваш трафик приходит из источников, которые естественно связаны с вашей тематикой. Паттерны посещения вашего сайта должны соответствовать паттернам тематических лидеров.
- Четкое тематическое позиционирование сайта: Помогайте поисковой системе правильно определить тематику вашего ресурса через контент, структуру и метаданные. Это важно для корректной работы тематической фильтрации в описанном алгоритме.
- Анализ источников трафика и поведения пользователей: Регулярно анализируйте логи и системы аналитики на предмет неестественных паттернов поведения или всплесков трафика из подозрительных источников. Если вы видите, что ваш сайт посещают пользователи, которые также массово посещают совершенно не связанные с вами ресурсы низкого качества, это повод для беспокойства.
- Поддержание репутации и качества (White Hat SEO): Стратегии, основанные на качестве контента и естественном привлечении аудитории, полностью защищены от этого алгоритма, так как генерируют naturally affiliated трафик.
Worst practices (это делать не надо)
- Накрутка поведенческих факторов (ПФ): Покупка кликов, использование ботов, бирж заданий или мотивированного трафика для улучшения позиций. Этот патент описывает точный механизм, как такие действия выявляются.
- Участие в сетях обмена трафиком (Click Exchange): Участие в любых схемах, где пользователи скоординированно посещают группу не связанных сайтов, приведет к формированию кластеров, которые будут идентифицированы как аномальные.
- Покупка низкокачественного «прямого» трафика: Попытки замаскировать накрутку под прямые заходы также могут быть выявлены, так как алгоритм анализирует совместные посещения (co-visits) независимо от источника перехода (если эти данные доступны через User Interaction Data).
Стратегическое значение
Патент подтверждает высокую степень развития антифрод-систем Яндекса в области поведенческих факторов. Он показывает, что Яндекс способен отделять «зерна от плевел» в поведенческих данных, анализируя глобальные паттерны поведения. Для SEO-стратегии это означает, что любые попытки системного обмана алгоритмов ранжирования через манипуляции ПФ с высокой вероятностью будут обнаружены. Долгосрочная стратегия должна опираться исключительно на привлечение и удержание естественной, заинтересованной аудитории.
Практические примеры
Сценарий 1: Выявление сети накрутки (Как это работает)
- Ситуация: Владелец биржи заданий дает инструкцию 1000 пользователям посетить три сайта: «Сайт о строительстве А», «Сайт о груминге собак Б» и «Сайт рецептов В».
- Построение графа: Система Яндекса строит граф. Между А, Б и В появляются ребра с высоким весом (1000).
- Тематическая фильтрация: Система определяет тематики: Строительство, Животные, Кулинария. Темы не связаны. Ребра остаются.
- Кластеризация: Сайты А, Б и В формируют плотный кластер из-за высоких весов ребер.
- Поведенческая фильтрация: Система анализирует User Interaction Data. Она не находит естественной группы пользователей, которые массово интересуются одновременно строительством, грумингом и кулинарией в таких паттернах. Поведенческая связь отсутствует.
- Результат: Кластер помечается как аномальный. Сайты А, Б и В пессимизируются, а трафик от этих 1000 пользователей исключается из расчета ПФ.
Сценарий 2: Исключение естественного трафика (Защита от ложных срабатываний)
- Ситуация: Многие пользователи посещают «Сайт о рыбалке Г» и «Сайт о внедорожниках Д».
- Построение графа и Тематическая фильтрация: Между Г и Д формируется ребро с высоким весом. Тематики (Рыбалка, Авто) не идентичны. Ребро остается.
- Кластеризация: Г и Д попадают в один кластер.
- Поведенческая фильтрация: Система анализирует User Interaction Data и видит, что существует значительная, естественная группа пользователей, которые интересуются и рыбалкой, и внедорожниками. Поведенческая связь присутствует.
- Результат: Кластер признается естественно связанным и удаляется из рассмотрения. Сайты Г и Д не пессимизируются, трафик считается легитимным.
Вопросы и ответы
Что в контексте этого патента означает «Аномальное посещение сайта» (Abnormal Site Visit)?
Это посещение, которое не является результатом естественного интереса пользователя, а выполнено по инструкции третьей стороны (например, за деньги или с помощью бота) с целью искусственного улучшения поведенческих факторов и манипулирования ранжированием. Ключевой признак аномальности — скоординированное посещение группы сайтов, не имеющих между собой естественной связи.
В чем разница между тематической и поведенческой связью (фильтрацией)?
Тематическая связь (Этап 1) означает, что сайты посвящены одной и той же теме (например, оба о спорте). Поведенческая связь (Этап 2) означает, что сайты посвящены разным темам, но ими естественно интересуется одна и та же группа пользователей (например, сайты о гольфе и дорогие часы). Алгоритм ищет трафик, где нет ни той, ни другой связи.
Как Яндекс определяет тематику сайта для этого алгоритма?
Патент упоминает использование моделей обработки естественного языка (NLP) и машинного обучения, таких как LSA (Latent Semantic Analysis) или LDA (Latent Dirichlet Allocation), а также векторные модели (Word2Vec, GloVe). Система анализирует контент и метаданные сайта, чтобы создать векторное представление его тематики и сравнить его с другими сайтами.
Может ли мой сайт быть пессимизирован, если я не покупал трафик, но конкуренты направили на меня ботов (Негативное SEO)?
Теоретически это возможно, если фродовый трафик создает паттерны, которые алгоритм идентифицирует как аномальные. Однако в описании патента упоминается возможность отделения (removing) хоста от кластера, если установлено, что он стал целью атаки с целью понижения его рейтинга. На практике антифрод-системы Яндекса стремятся наказывать организаторов накрутки, а не жертв атак.
Как этот патент влияет на стандартные поведенческие метрики (CTR, время на сайте)?
Он напрямую влияет на то, какие данные используются для расчета этих метрик. Если посещение признано аномальным, оно исключается из Web Search History (Claim 6). Это означает, что фродовые клики и время, проведенное ботами на сайте, не будут учитываться при расчете CTR и других ПФ для целей ранжирования.
Какие данные Яндекс использует для анализа поведенческой связи (User Interaction Data)?
Патент указывает, что это более широкий набор данных, чем просто логи поиска. Он может включать историю веб-поиска, данные об использовании веб-браузера (например, через Яндекс.Браузер или Метрику) и данные веб-скриптов (cookies). Это позволяет системе анализировать поведение пользователей за пределами поисковой выдачи.
Как я могу убедиться, что мой трафик считается «естественно связанным»?
Прямого инструмента нет, но вы должны стремиться к тому, чтобы паттерны посещения вашего сайта были логичными. Если вы продаете автозапчасти, ваша аудитория должна пересекаться с аудиторией других автосайтов (тематическая связь) или сайтов смежных интересов (поведенческая связь). Если ваша аудитория пересекается с несвязанными сайтами низкого качества, это может выглядеть подозрительно.
Идентифицирует ли эта система пользователей, которые занимаются накруткой?
Да. Claim 7 прямо указывает на определение идентификаторов пользователей (UID), соответствующих аномальным посещениям, и сохранение индикатора, что этот UID связан с фродом. Вероятно, активность таких пользователей в дальнейшем игнорируется поисковой системой.
Как работает графовый анализ в этом методе?
Система строит граф, где сайты — это узлы. Если много пользователей посещают и Сайт А, и Сайт Б, между ними формируется прочная связь (ребро с большим весом). После удаления естественных связей (тематических и поведенческих), оставшиеся плотные группы сайтов (кластеры) сигнализируют о сети накрутки, где одни и те же боты или мотивированные пользователи обходят все сайты в группе.
Является ли это алгоритмом ранжирования или анти-спам системой?
Это в первую очередь анти-спам и антифрод система (часть Anti-Quality). Она не вводит новые факторы ранжирования, а занимается двумя вещами: очисткой существующих поведенческих данных от шума и манипуляций, а также идентификацией сайтов-нарушителей для их последующей пессимизации в процессе ранжирования.