Яндекс патентует метод обнаружения искусственных (аномальных) посещений сайтов, направленных на манипуляцию ранжированием. Система строит граф посещений и ищет группы сайтов, которые посещаются одними и теми же пользователями, но при этом не связаны ни общей тематикой, ни естественными поведенческими паттернами. Такие связи считаются признаком накрутки, что приводит к пессимизации сайтов и очистке истории поиска от этих данных.
Описание
Какую задачу решает
Патент решает критическую проблему манипуляции результатами поиска через накрутку поведенческих факторов. Поисковые системы используют историю поиска (web search history) для ранжирования. Этим пользуются злоумышленники (bad actors), которые инструктируют пользователей (часто за плату) или ботов вводить определенные запросы и кликать на целевые сайты. Эти действия определяются как abnormal site visits (аномальные посещения). Патент предлагает механизм для выявления таких аномальных посещений и нейтрализации их влияния на выдачу.
Что запатентовано
Запатентована система и метод выявления веб-хостов, получающих аномальный трафик с целью манипуляции ранжированием. Суть изобретения заключается в анализе истории поиска с помощью графовых методов и двухступенчатой фильтрации для отделения естественного поведения пользователей от искусственно сгенерированного. Система идентифицирует группы сайтов, которые посещаются одними и теми же пользователями, но не имеют между собой естественной связи (natural affiliation) ни по тематике, ни по общим паттернам поведения аудитории.
Как это работает
Система строит граф истории поиска, где узлы — это веб-сайты, а ребра соединяют сайты, посещенные одним и тем же пользователем. Вес ребра зависит от количества таких пользователей. Далее применяется двухэтапная фильтрация:
- Тематическая фильтрация: Удаляются ребра между сайтами со схожей тематикой (например, два сайта о футболе), так как их совместное посещение естественно.
- Поведенческая фильтрация: Оставшиеся узлы кластеризуются. Затем анализируются данные о взаимодействии пользователей (user interaction data), чтобы определить, есть ли у кластера естественная поведенческая связь (например, пользователи, интересующиеся гольфом, часто интересуются и яхтами). Если связь есть, кластер удаляется.
Оставшиеся кластеры состоят из сайтов, не связанных ни тематически, ни поведенчески. Совместное посещение таких сайтов считается аномальным (накруткой).
Актуальность для SEO
Критически высокая. Манипуляции поведенческими факторами (накрутка ПФ) являются одной из самых серьезных проблем для качества поиска Яндекс. Описанный метод представляет собой сложный механизм борьбы с этим явлением на системном уровне, используя анализ больших данных и графовые алгоритмы, что полностью соответствует современным подходам к антифроду в 2025 году.
Важность для SEO
Влияние на SEO критическое (10/10). Этот патент напрямую описывает механизм, который Яндекс использует для обнаружения и нейтрализации попыток манипулирования поведенческими факторами. Использование сервисов по накрутке ПФ становится крайне опасным, так как система способна выявлять неестественные паттерны посещений и применять жесткие санкции: понижение рейтинга сайта, удаление его из выдачи и игнорирование аномальных данных при обучении алгоритмов ранжирования.
Детальный разбор
Термины и определения
- Abnormal Site Visits (Аномальные посещения сайтов)
- Посещения сайтов, совершенные пользователями по инструкции злоумышленника (например, за плату) или ботами с целью искусственного влияния на ранжирование. Синоним накрутки ПФ.
- Edge Weight (Вес ребра)
- Метрика в графе истории поиска, присваиваемая ребру между двумя узлами (сайтами). Определяется на основе количества пользователей, которые посетили оба сайта, соединенных этим ребром.
- Graph of Web Search History (Граф истории поиска)
- Структура данных, используемая для анализа посещений. Узлы (nodes) представляют собой веб-хосты, а ребра (edges) соединяют хосты, если они были посещены одним и тем же пользователем.
- Natural Affiliation (Естественная связь/аффилированность)
- Связь между веб-хостами, обусловленная естественным поведением пользователей. Может быть тематической (сайты на одну тему) или поведенческой (сайты посещаются схожими группами пользователей с общими интересами, даже если темы разные).
- Search Result Fraud Server (Сервер для мошенничества с результатами поиска)
- Пример инфраструктуры злоумышленника (bad actor), который координирует действия пользователей для генерации аномальных посещений.
- Themes (Тематики)
- Предметная область контента веб-хоста. Используются для определения тематической близости сайтов. Могут определяться с помощью MLA (например, LSA, PLSA, Word2vec, GloVe, LDA, упомянутых в патенте).
- User Interaction Data (Данные о взаимодействии пользователей)
- Широкий набор данных, описывающий историю просмотров пользователей. Включает историю поиска, данные веб-браузера (web browser usage data) и данные веб-скриптов, например, cookies (web script data). Используются для определения поведенческой связи между хостами.
- Web Search History (История поиска)
- Записанные данные о запросах пользователей (UID) и их взаимодействии с результатами поиска (клики по хостам в SERP). Является основным источником данных для построения графа.
Ключевые утверждения (Анализ Claims)
Патент описывает метод выявления аномальных посещений путем последовательного исключения естественных паттернов поведения из общего массива данных.
Claim 1 (Независимый пункт): Описывает базовый метод обнаружения аномалий с акцентом на поведенческую фильтрацию.
- Получение истории поиска множества пользователей.
- Генерация графа истории поиска: узлы = хосты, вес ребра = количество пользователей, посетивших оба хоста.
- Кластеризация узлов графа на основе весов ребер.
- Получение данных о взаимодействии пользователей (user interaction data).
- Определение для каждого кластера, связаны ли хосты в нем на основе этих user interaction data (поведенческая связь).
- Удаление кластеров, в которых хосты признаны связанными (т.е. поведение естественно).
- Сохранение индикатора о том, что хосты в оставшихся кластерах связаны с аномальными посещениями.
Claim 2 (Зависимый от 1): Добавляет критически важный этап тематической фильтрации, который выполняется ПЕРЕД кластеризацией.
Перед этапом кластеризации выполняются действия:
- Определение одной или нескольких тематик (themes) для каждого узла в графе.
- Удаление из графа ребер, соединяющих два узла со связанными тематиками.
Это ключевой момент. Система сначала удаляет очевидно естественные связи (тематические), чтобы сфокусировать дальнейший анализ (кластеризацию и поведенческую фильтрацию) только на подозрительных связях между разнородными сайтами.
Claims 4, 5, 6 (Зависимые от 1): Описывают действия, предпринимаемые после обнаружения аномалий.
- Понижение ранга (reducing a rank) в SERP для хоста, связанного с аномальными посещениями (Claim 4).
- Или удаление (removing) такого хоста из SERP (Claim 5).
- Удаление данных, соответствующих этим аномальным посещениям, из истории поиска (очистка данных для обучения моделей) (Claim 6).
Claim 7 (Зависимый от 1): Описывает идентификацию пользователей, генерирующих аномальный трафик.
- Определение идентификаторов пользователей (user identifiers/UID), соответствующих аномальным посещениям.
- Сохранение индикатора о том, что эти идентификаторы связаны с аномальными посещениями.
Где и как применяется
Изобретение является частью системы контроля качества поиска и антифрода.
Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Основное применение патента происходит в рамках офлайн-процессов анализа данных для выявления манипуляций. Это часть системы Anti-Quality (Антикачество) или аналогичных антифрод-систем.
- Входные данные: Система принимает Web Search History (из Query Log и User Interaction Log) за определенный период (например, 6 месяцев). Также используются дополнительные User Interaction Data (данные браузера, cookies).
- Процесс: Выполняется построение графа, определение тематик хостов, двухэтапная фильтрация и кластеризация.
- Выходные данные: Списки веб-хостов и пользователей (UID), связанных с аномальным трафиком. Индикаторы (метки) аномальности.
INDEXING – Индексирование и извлечение признаков
На этапе индексации или в ходе офлайн-обработки для веб-хостов определяются их тематики (Themes). Это необходимо для тематической фильтрации. Также алгоритм используется для очистки данных, используемых при обучении моделей ранжирования: данные об аномальных посещениях удаляются из Web Search History (Claim 6).
RANKING – Ранжирование
Результаты работы алгоритма используются на этапе ранжирования (онлайн) для применения санкций.
- Система ранжирования проверяет наличие меток аномальности у документов-кандидатов.
- Если метка есть, ранг документа понижается (Claim 4) или документ удаляется из выдачи (Claim 5).
На что влияет
- Конкретные ниши или тематики: Влияет на любые тематики, где применяются манипуляции поведенческими факторами. Особенно актуально для высококонкурентных коммерческих ниш (ecommerce, недвижимость, финансы, авто).
- Специфические запросы: Влияет на ранжирование по запросам, которые были целью накрутки.
Когда применяется
- Частота применения: Анализ графа и выявление аномалий выполняются периодически в офлайн-режиме, так как требуют обработки большого объема исторических данных (упоминается период до 6 месяцев).
- Применение санкций: Понижение ранга происходит в реальном времени на этапе ранжирования после того, как хост был помечен как аномальный.
- Пороговые значения: Для включения хоста в граф может использоваться порог по количеству уникальных посетителей (например, 500). Для определения схожести тематик может использоваться порог косинусного расстояния (threshold cosine distance).
Пошаговый алгоритм
Процесс выявления аномальных посещений (на основе Claims 1 и 2):
- Сбор данных: Извлечение истории поиска (Web Search History) за определенный период. Данные включают UID, запросы и клики по хостам.
- Построение графа: Генерация графа, где каждый хост является узлом. Если пользователь посещал два хоста, между ними создается ребро.
- Расчет весов: Каждому ребру присваивается вес (Edge Weight), основанный на количестве пользователей, посетивших оба хоста.
- Определение тематик: Для каждого узла (хоста) определяются тематики (например, с помощью MLA, таких как Word2vec/GloVe/LDA).
- Фильтрация 1 (Тематическая): Сравнение тематик узлов, соединенных ребром. Если тематики схожи (естественная связь), ребро удаляется из графа.
- Кластеризация: Узлы в отфильтрованном графе кластеризуются. Получаются кластеры не связанных тематически хостов, которые, тем не менее, часто посещаются вместе.
- Сбор дополнительных данных: Извлечение расширенных данных о взаимодействии пользователей (User Interaction Data) для хостов в кластерах.
- Фильтрация 2 (Поведенческая): Анализ User Interaction Data для определения, есть ли у хостов в кластере естественная поведенческая связь (т.е. посещаются ли они схожей группой пользователей в рамках их общих интересов).
- Удаление естественных кластеров: Если поведенческая связь обнаружена, кластер удаляется.
- Идентификация аномалий: Хосты в оставшихся кластерах помечаются как получающие аномальные посещения (Abnormal Site Visits).
- Применение мер: Понижение ранга этих хостов, удаление их из SERP, очистка истории поиска от данных об этих посещениях, идентификация пользователей-нарушителей (UID).
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Являются основным источником данных.
- Web Search History (для построения графа): UID, запросы, клики по хостам в SERP.
- User Interaction Data (для Фильтрации 2): Расширенные данные, включающие данные веб-браузера (web browser usage data) и данные веб-скриптов/cookies (web script data).
- Контентные факторы: Используются для определения тематики хостов (Фильтрация 1). Патент упоминает использование контента страницы (page content) и метаданных (metadata).
Какие метрики используются и как они считаются
- Edge Weight (Вес ребра): Рассчитывается как количество пользователей (UID), посетивших оба хоста. В альтернативном варианте может рассчитываться на основе количества совпадающих поисковых запросов, которые привели пользователей на оба хоста.
- Тематическая близость (Related Themes): Определяется для пары хостов. Патент упоминает использование моделей машинного обучения (MLA) и методов NLP: LSA, PLSA, Word2vec, GloVe, LDA. Схожесть может определяться путем сравнения тематических векторов (например, с помощью косинусного сходства (cosine similarity)) и сравнения результата с пороговым значением.
- Кластеризация: Используются графовые алгоритмы кластеризации (упомянуты k-spanning tree, minimum spanning tree, shared nearest neighbor based algorithms) для группировки узлов на основе весов ребер.
- Поведенческая связь (Affiliation based on User Interaction Data): Определяется путем анализа User Interaction Data для выявления того, посещает ли веб-хосты в кластере связанная группа пользователей в рамках естественного поведения. Конкретные метрики для этого анализа в патенте не детализированы.
Выводы
- Цель патента — борьба с накруткой ПФ: Патент описывает конкретный и сложный механизм для выявления искусственных посещений сайтов (Abnormal Site Visits), направленных на манипуляцию ранжированием.
- Графовый анализ ко-визитов: Основой метода является построение графа посещений, где анализируются связи между сайтами, которые посещают одни и те же пользователи.
- Двухэтапная фильтрация как ядро метода: Ключевая инновация — отделение накрутки от естественного поведения с помощью двух фильтров. Сначала удаляются тематические связи (Фильтр 1), затем — естественные поведенческие связи, даже если тематики разные (Фильтр 2).
- Накрутка оставляет следы в виде неестественных связей: Аномальное поведение (накрутка) характеризуется тем, что пользователи (или боты) посещают сайты, которые не связаны ни общей темой, ни общими паттернами интересов аудитории. Именно эти связи выявляет система.
- Использование широкого спектра данных: Для анализа используются не только логи поиска, но и расширенные данные (данные браузера, cookies), что повышает точность определения поведенческой связанности.
- Комплексные санкции: Выявленные нарушения ведут не только к понижению ранга или удалению сайта из выдачи, но и к очистке истории поиска от фродовых данных (что важно для обучения ML-моделей) и идентификации пользователей-нарушителей.
Практика
Best practices (это мы делаем)
- Фокус на привлечении органического, тематического трафика: Создавайте качественный контент и развивайте сайт так, чтобы привлекать пользователей, искренне заинтересованных в вашей тематике. Естественный трафик формирует естественные связи (тематические и поведенческие), которые система фильтрует как нормальные.
- Анализ источников трафика и поведения пользователей: Регулярно отслеживайте метрики на предмет аномалий в поведении, которые могут указывать на некачественный трафик или попытки конкурентов «накрутить» ваш сайт (чтобы подвести под фильтр). Патент упоминает возможность того, что сайт может стать целью атаки с целью снижения его рейтинга.
- Развитие бренда и лояльности аудитории: Работайте над формированием ядра постоянной аудитории. Это способствует формированию четких поведенческих паттернов, которые система идентифицирует как естественные (affiliated based on user interaction data).
Worst practices (это делать не надо)
- Использование сервисов накрутки ПФ (боты, мотивированный трафик, буксы): Это прямая цель данного патента. Система специально разработана для выявления паттернов, когда пользователи выполняют задания по посещению разнородных сайтов. Такие действия формируют кластеры аномальных посещений и ведут к жестким санкциям.
- Покупка низкокачественного трафика из сомнительных источников: Любой трафик, который ведет себя неестественно (например, посещает ваш сайт и множество не связанных с ним ресурсов), увеличивает риск пессимизации по описанному алгоритму.
- Участие в схемах обмена трафиком с нерелевантными сайтами: Попытки искусственно связать свой сайт с другими ресурсами, не имеющими тематической или поведенческой связи, могут быть обнаружены как аномальная активность.
Стратегическое значение
Этот патент демонстрирует высокий уровень развития антифрод-систем Яндекса и подтверждает, что борьба с манипуляциями поведенческими факторами является стратегическим приоритетом. Это означает, что любые попытки краткосрочного роста за счет «черных» или «серых» методов SEO с высокой вероятностью приведут к долгосрочным негативным последствиям. Единственная надежная стратегия — это развитие качественного ресурса, привлекающего естественный трафик и формирующего естественные поведенческие сигналы.
Практические примеры
Сценарий 1: Выявление накрутки (Как это работает против SEO-нарушителя)
- Действие нарушителя: Владельцы сайтов Site A (Строительные материалы), Site B (Стрижка собак) и Site C (Рейтинг книг) покупают услугу накрутки ПФ у одного сервиса (биржи заданий).
- Генерация трафика: Сервис дает задание пользователю (например, UID 855921) посетить все три сайта через поиск.
- Анализ Яндекса (Граф): Система строит граф. Между Site A, B и C появляются ребра. По мере того как другие пользователи биржи выполняют задания, вес ребер увеличивается.
- Фильтр 1 (Тематический): Система определяет, что темы сайтов (Строительство, Животные, Литература) не связаны. Ребра остаются.
- Кластеризация: Site A, B и C формируют плотный кластер из-за большого количества общих пользователей.
- Фильтр 2 (Поведенческий): Система анализирует User Interaction Data и видит, что в норме пользователи редко интересуются этими тремя темами одновременно в таком сочетании. Естественная поведенческая связь отсутствует.
- Результат: Кластер помечается как аномальный. Site A, B и C пессимизируются. Пользователи (включая UID 855921) помечаются как нарушители. Данные об этих кликах удаляются из истории поиска.
Сценарий 2: Естественное поведение (Как система избегает ложных срабатываний)
- Действие пользователя: Пользователь ищет информацию о тренировках (посещает Site D — Workoutadvice.com) и о спортивном питании (посещает Site E — Mealreplacement.org).
- Анализ Яндекса (Граф): Система строит граф. Между Site D и E появляется ребро.
- Фильтр 1 (Тематический): Система может определить, что темы (Спорт/Здоровье) связаны, и удалить ребро. В этом случае анализ заканчивается.
- Альтернативный путь (если темы признаны разными): Если система посчитает темы разными (Тренировки vs Питание), ребро останется. Site D и E попадают в один кластер.
- Фильтр 2 (Поведенческий): Система анализирует User Interaction Data и видит, что значительная часть пользователей, интересующихся тренировками, также интересуется спортивным питанием. Поведенческая связь (affiliation) присутствует.
- Результат: Кластер удаляется как естественный. Санкции не применяются.
Вопросы и ответы
Что такое «аномальные посещения» (Abnormal Site Visits) согласно этому патенту?
Это посещения сайтов, совершенные пользователями по инструкции третьей стороны (злоумышленника или bad actor), часто за вознаграждение, или ботами. Цель таких посещений — искусственно завысить поведенческие метрики сайта, чтобы манипулировать его позициями в поисковой выдаче. Это классическое определение накрутки поведенческих факторов (ПФ).
В чем суть метода, который использует Яндекс для выявления накрутки?
Метод основан на предположении, что естественное поведение пользователей формирует предсказуемые связи между сайтами. Яндекс строит глобальный граф посещений и применяет два фильтра для исключения естественных связей. Если группа сайтов часто посещается вместе, но это нельзя объяснить ни общей темой, ни общими интересами реальных пользователей, это считается признаком скоординированной накрутки.
Как работает тематическая фильтрация (Фильтр 1)?
Система определяет тематику каждого сайта (используя NLP-модели, такие как LSA, Word2vec, LDA, упомянутые в патенте). Если два сайта, посещенные одним пользователем, имеют схожие тематики (например, оба про автомобили), то связь между ними считается естественной и удаляется из дальнейшего анализа. Это позволяет системе сосредоточиться на подозрительных связях между разнородными сайтами.
Что такое поведенческая фильтрация (Фильтр 2) и зачем она нужна?
Она нужна, чтобы избежать ложных срабатываний из-за пользователей с разнообразными интересами. Например, пользователи, интересующиеся дорогими часами, могут также интересоваться элитной недвижимостью, хотя тематики разные. Поведенческая фильтрация анализирует широкие данные о взаимодействии пользователей (User Interaction Data), чтобы выявить такие нетематические, но естественные связи и исключить их.
Какие санкции применяются к сайтам, уличенным в получении аномального трафика?
Патент описывает жесткие меры. К сайту может быть применено понижение ранга в результатах поиска (reducing a rank) или он может быть полностью удален из поисковой выдачи (removing from the SERP). Кроме того, данные об этих аномальных посещениях удаляются из истории поиска, чтобы они не влияли на обучение алгоритмов ранжирования.
Может ли система определить, какие именно пользователи занимаются накруткой?
Да, патент это предусматривает (Claim 7). Система определяет идентификаторы пользователей (UID), которые генерируют аномальные посещения. Эти пользователи помечаются специальным индикатором. Вероятно, их действия в дальнейшем полностью игнорируются поисковой системой при расчете поведенческих факторов.
Какие данные Яндекс использует для анализа, помимо кликов в SERP?
Для глубокого поведенческого анализа (Фильтр 2) используются расширенные данные (User Interaction Data). В патенте явно упоминаются данные об использовании веб-браузера (web browser usage data) и данные веб-скриптов (web script data, например, cookies). Это позволяет анализировать поведение пользователя в более широком контексте, а не только в рамках поисковой сессии.
Насколько опасно сейчас использовать сервисы по накрутке ПФ?
Крайне опасно. Этот патент описывает сложный и многоуровневый механизм обнаружения, который анализирует не просто поведение на отдельном сайте, а глобальные паттерны посещений. Сервисы накрутки, обслуживающие множество разных клиентов, неизбежно создают неестественные связи между сайтами разных тематик, которые и выявляет данный алгоритм.
Может ли этот алгоритм ошибочно наказать мой сайт из-за атаки конкурентов?
Такой риск существует. Если конкурент закажет накрутку ПФ на ваш сайт, это может привести к пессимизации. Однако в патенте упоминается, что если веб-хост считается мишенью атаки, он может быть удален из фродового кластера, чтобы избежать падения его рейтинга. Это подразумевает наличие защитных механизмов, но SEO-специалистам важно самостоятельно мониторить качество трафика.
Работает ли этот алгоритм в реальном времени?
Нет, сам анализ — это офлайн-процесс. Алгоритм требует анализа больших объемов накопленной истории поиска (упоминаются периоды в несколько месяцев) и выполнения ресурсоемких операций (построение графа, кластеризация). Однако применение результатов (пессимизация сайтов) происходит уже в реальном времени на этапе ранжирования.