Яндекс патентует метод борьбы с накруткой поведенческих факторов (ПФ). Система анализирует историю посещений и строит граф связей между сайтами. Если пользователи массово посещают группу сайтов, которые не связаны ни тематически, ни общими интересами аудитории, система маркирует эти посещения как аномальные (накрутку), а сайты пессимизирует в выдаче.
Описание
Какую задачу решает
Патент решает критическую проблему манипуляции ранжированием через искусственное формирование поведенческих сигналов (накрутка ПФ). Он направлен против «недобросовестных акторов», которые инструктируют или оплачивают пользователей за выполнение определенных запросов и кликов по целевым сайтам. Такие аномальные посещения искусственно повышают ранг сайтов, даже если их релевантность низкая, что снижает качество поиска. Изобретение направлено на выявление и нейтрализацию этих манипуляций.
Что запатентовано
Запатентована система и способ определения веб-хостов с аномальными посещениями путем анализа истории веб-поиска. Суть изобретения заключается в построении графа совместных посещений сайтов и применении двухуровневой фильтрации для изоляции неестественных паттернов. Система идентифицирует группы сайтов, которые часто посещаются одними и теми же пользователями, но при этом не имеют «естественной связи» — ни тематической, ни основанной на общих интересах аудитории.
Как это работает
Система строит граф истории веб-поиска, где вершины — это сайты (веб-хосты), а ребра соединяют сайты, посещенные одним и тем же пользователем. Вес ребра зависит от количества общих пользователей. Далее применяется ключевой механизм — фильтрация естественных связей:
- Фильтр 1 (Тематический): Удаляются ребра между сайтами с близкими темами (естественная связь).
- Кластеризация: Оставшиеся вершины кластеризуются. Это выявляет группы тематически не связанных сайтов, которые часто посещаются вместе.
- Фильтр 2 (Поведенческий): Анализируются широкие данные о действиях пользователей. Если кластер можно объяснить общими интересами аудитории (например, любители гольфа также интересуются лодками), кластер удаляется как естественный.
Оставшиеся кластеры помечаются как аномальные (накрученные). Сайты в этих кластерах могут быть пессимизированы или удалены из выдачи.
Актуальность для SEO
Высокая. Манипуляции поведенческими факторами (ПФ) являются одной из основных угроз для качества поиска Яндекса. Описанный метод, использующий графовый анализ и многоуровневую фильтрацию для выявления скоординированных аномальных действий, является актуальным и технически сложным подходом к борьбе с накрутками в 2025 году.
Важность для SEO
Влияние на SEO критическое (9/10). Этот патент описывает конкретный механизм, который Яндекс использует для обнаружения и нейтрализации одной из самых распространенных и опасных SEO-манипуляций — накрутки ПФ. Для сайтов, использующих такие методы, алгоритм представляет прямую угрозу пессимизации. Для white-hat SEO патент подтверждает важность работы над естественной вовлеченностью пользователей.
Детальный разбор
Термины и определения
- Аномальные посещения веб-сайтов (Abnormal visits)
- Посещения веб-сайтов, выполненные пользователями (или ботами) по указанию недобросовестного актора с целью искусственного повышения ранга этих сайтов. В контексте SEO — накрутка поведенческих факторов (ПФ).
- Веб-хост (Web Host)
- Сайт или ресурс в интернете. Является вершиной в графе истории веб-поиска.
- Граф истории веб-поиска (Web search history graph)
- Структура данных, где каждая вершина представляет собой веб-хост. Вершины соединены ребрами, если одни и те же пользователи посещали оба хоста.
- Вес ребра (Edge weight)
- Метрика, назначенная ребру в графе. Определяется на основе количества пользователей, посетивших оба хоста, соединенных этим ребром. Может также определяться на основе количества совпадающих поисковых запросов.
- Естественно связанные веб-хосты (Naturally related web hosts)
- Веб-хосты, имеющие общую или близкую тему. Пользователи обычно посещают такие хосты последовательно (например, два сайта о футболе).
- Данные о действиях пользователей (User activity data)
- Широкие данные, описывающие историю просмотра пользователей. Включают посещенные хосты и поведение при посещении. Могут содержать историю веб-поиска, данные веб-браузера, данные веб-сценариев (например, куки). Используются для второго уровня фильтрации.
- Сервер фальсификации результатов поиска (Search result manipulation server)
- Сервер недобросовестного актора, который предоставляет инструкции пользователям (часто за вознаграждение) о том, какие запросы вводить и какие результаты выбирать.
- История веб-поиска (Web search history)
- Агрегированные данные о предыдущих запросах и действиях пользователей (UID, Запрос, Выбранные хосты). Основа для построения графа.
Ключевые утверждения (Анализ Claims)
Патент защищает метод выявления аномальных посещений путем последовательной фильтрации связей между сайтами для исключения естественных паттернов.
Claim 1 (Независимый пункт): Описывает базовый процесс выявления аномалий через поведенческую фильтрацию.
- Получение истории веб-поиска.
- Формирование графа: вершины = веб-хосты; вес ребра = количество пользователей, посетивших оба хоста.
- Кластеризация вершин графа на основе весов ребер (выявление групп часто посещаемых вместе сайтов).
- Получение общих данных о действиях пользователей для этих кластеров.
- Анализ кластеров: Определение, связаны ли веб-хосты в кластере на основе этих общих данных (т.е. объясняется ли совместное посещение естественными интересами аудитории).
- Удаление кластеров, которые признаны связанными (естественное поведение).
- Сохранение индикатора аномальных посещений для веб-хостов в оставшихся кластерах (накрутка).
Claim 2 (Зависимый от 1): Добавляет критически важный этап тематической фильтрации ПЕРЕД кластеризацией. Это формирует двухэтапный процесс, описанный в патенте как предпочтительный вариант.
- Определение одной или нескольких тем для каждой вершины (веб-хоста).
- Удаление из графа ребер, соединяющих две вершины со связанными темами.
Этот шаг удаляет естественные тематические связи, оставляя в графе только те связи, которые требуют дополнительного анализа.
Claims 4, 5, 6 (Зависимые от 1): Описывают конкретные действия по нейтрализации выявленных аномалий.
- Claim 4: Снижение ранга (пессимизация) веб-хоста, связанного с аномальными посещениями, на SERP.
- Claim 5: Удаление веб-хоста из SERP.
- Claim 6: Удаление данных, соответствующих аномальным посещениям, из истории веб-поиска (очистка логов от накрученных сигналов).
Claim 7 (Зависимый от 1): Описывает идентификацию аккаунтов, участвующих в накрутке.
- Определение идентификаторов пользователей (UID), соответствующих аномальным посещениям, и сохранение индикатора для каждого UID.
Claim 19 (Независимый пункт): Альтернативное описание способа, использующее списки совместных посещений вместо графа, но с той же логикой двухэтапной фильтрации (тематической, согласно Claim 20, и поведенческой).
Где и как применяется
Изобретение является частью системы контроля качества поиска и борьбы со спамом (Anti-Quality). Оно функционирует как офлайн или nearline процесс анализа логов, влияя на последующее ранжирование.
INDEXING и Офлайн-обработка данных
Основная часть работы происходит до момента запроса:
- Сбор данных: Система использует Историю веб-поиска (Журнал запросов и Журнал действий пользователей) и широкие Данные о действиях пользователей.
- Анализ и Фильтрация: Сервер обнаружения аномальных посещений выполняет построение графа, тематический анализ (используя данные, извлеченные при индексации), кластеризацию и поведенческий анализ.
- Генерация Сигналов: Результатом работы являются индикаторы (флаги), которые сохраняются для веб-хостов и идентификаторов пользователей (UID). Эти признаки добавляются в индекс или базу данных факторов.
RANKING – Ранжирование (Уровни L2/L3)
На этапе ранжирования система использует сгенерированные признаки для коррекции выдачи.
- При формировании SERP проверяется наличие индикатора аномальных посещений для кандидатов.
- Если индикатор есть, ранг веб-хоста снижается или он полностью удаляется из выдачи.
- Кроме того, поведенческие данные, признанные аномальными, могут быть исключены из расчета факторов ранжирования (если используется очищенная история поиска).
На что влияет
- Конкретные ниши и запросы: Влияет на любые типы сайтов и ниши, где возможно применение накрутки ПФ. Особенно актуально для высококонкурентных коммерческих тематик, где манипуляции встречаются чаще.
- Поведенческие факторы: Алгоритм напрямую влияет на интерпретацию поведенческих сигналов, дискредитируя те, которые признаны искусственными.
Когда применяется
- Частота применения: Анализ графа и кластеризация, вероятно, выполняются периодически (например, ежедневно или еженедельно) в офлайн-режиме, так как требуют значительных вычислительных ресурсов и анализа исторических данных (в патенте упоминается период в 6 месяцев).
- Условия работы: Требуется накопление достаточного объема истории веб-поиска для статистически значимого анализа.
- Пороговые значения: Используются пороги, например, пороговое количество посещений для включения веб-хоста в граф (например, 500 уникальных посетителей) и пороговое косинусное расстояние для определения тематической близости.
Пошаговый алгоритм
Детальный процесс определения аномальных посещений (на основе предпочтительного варианта с двумя фильтрами).
Этап 1: Сбор данных и построение графа
- Сбор данных: Получение истории веб-поиска (UID, Запрос, Выбранные хосты) за определенный период.
- Формирование графа: Создание графа, где каждая вершина — это веб-хост (с возможной фильтрацией по минимальному количеству посетителей). Добавление ребер между хостами, посещенными одним пользователем.
- Назначение весов: Расчет веса ребра на основе количества общих пользователей.
Этап 2: Фильтрация 1 (Тематическая связь)
- Определение тем: Для каждого хоста определяется тема (с помощью MLA/NLP или запроса к базе данных).
- Удаление естественных связей: Сравнение тем связанных хостов (например, через косинусную близость). Удаление ребер, соединяющих хосты со связанными темами. В графе остаются только тематически не связанные хосты, которые часто посещаются вместе.
Этап 3: Кластеризация и Фильтрация 2 (Поведенческая связь)
- Кластеризация: Кластеризация оставшихся вершин на основе весов ребер. Формируются подозрительные кластеры.
- Анализ активности пользователей: Получение и анализ широких данных о действиях пользователей для каждого кластера. Определение, связаны ли хосты в кластере естественными интересами аудитории.
- Удаление естественных кластеров: Если связь объясняется естественными паттернами поведения, кластер удаляется.
Этап 4: Применение результатов
- Идентификация аномалий: Оставшиеся кластеры считаются результатом аномальных посещений (накрутки).
- Применение санкций: Сохранение индикаторов для хостов и UID. Снижение ранга хостов в выдаче или их удаление. Очистка логов от аномальных данных.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Ключевые данные):
- История веб-поиска: Журналы (UID, Запросы, Выбранные хосты). Используется для построения графа (Этап 1).
- Данные о действиях пользователей (Широкие): История просмотра, данные веб-браузера, данные веб-сценариев (куки). Используются для поведенческой фильтрации (Этап 3).
- Контентные факторы:
- Контент и метаданные веб-хостов. Используются для определения Темы хоста на Этапе 2 (Тематическая фильтрация).
Какие метрики используются и как они считаются
- Вес ребра: Рассчитывается как количество уникальных пользователей (UID), посетивших оба соединенных ребром хоста.
- Тематическая близость: Определяется с помощью NLP моделей. В патенте упоминаются LSA, pLSA, Word2vec, GloVe, LDA. Близость может измеряться как косинусное расстояние между векторами тем. Если близость выше порога, хосты считаются связанными.
- Алгоритмы кластеризации: Применяются для группировки вершин на основе весов ребер. Упоминаются алгоритмы на основе остовного k-дерева, минимального остовного дерева, общих ближайших соседей.
- Связь на основе данных о действиях пользователей: Метрика, определяющая, существует ли естественный паттерн интересов аудитории, объясняющий совместное посещение тематически не связанных хостов. Расчет основан на статистическом анализе широких поведенческих данных.
Выводы
- Двухуровневая защита от накрутки ПФ: Яндекс использует сложный механизм для отделения естественного поведения от искусственного. Система анализирует глобальные связи между сайтами, а не только отдельные сессии.
- Определение аномалии методом исключения: Ключевая идея — изоляция трафика, который нельзя объяснить естественными причинами. Если совместное посещение сайтов НЕ объясняется их тематикой (Фильтр 1) И НЕ объясняется общими интересами аудитории (Фильтр 2), оно считается аномалией (накруткой).
- Накрутка создает аномальные связи: Искусственные посещения (например, через буксы или ботнеты) часто связывают сайты, которые в реальной жизни не связаны ни темой, ни аудиторией. Именно эти аномальные кластеры выявляет система с помощью графового анализа.
- Использование широких данных о пользователях: Для верификации поведения Яндекс использует не только историю поиска, но и более широкие данные (данные браузера, куки), что дает глубокое понимание интересов пользователя.
- Комплексные санкции: Яндекс применяет жесткие меры: пессимизация сайта, полное удаление из выдачи, очистка логов от накрученных сигналов и маркировка аккаунтов (UID), участвующих в схеме.
Практика
Best practices (это мы делаем)
- Фокус на привлечении органического, тематического трафика: Убедитесь, что ваш трафик приходит от пользователей, которые естественно заинтересованы в вашей тематике. Паттерны посещений таких пользователей будут выглядеть естественно и успешно пройдут оба фильтра системы.
- Развитие Topical Authority и четкое позиционирование: Четкое тематическое позиционирование помогает системе корректно определить тему сайта. Это гарантирует, что связи с другими релевантными ресурсами будут правильно классифицированы как естественные (Фильтр 1).
- Анализ аудитории и ее интересов: Понимайте латентные интересы вашей аудитории. Если ваша аудитория естественно интересуется смежными темами (даже если они отличаются от основной темы сайта), это будет верифицировано системой как нормальное поведение (Фильтр 2).
- Мониторинг источников трафика и поведения: Регулярно анализируйте паттерны поведения пользователей. Резкие изменения или появление пользователей с нетипичными паттернами просмотра (посещение множества не связанных ресурсов) должны вызывать подозрение.
Worst practices (это делать не надо)
- Накрутка поведенческих факторов (ПФ): Использование бирж заданий, мотивированного трафика или ботнетов. Это именно та активность, на борьбу с которой направлен патент. Такие действия создают аномальные кластеры, которые будут обнаружены.
- Участие в сетях обмена трафиком (Click-rings): Схемы, где участники кликают на сайты друг друга. Это создает неестественные связи между тематически не связанными сайтами, что является прямым триггером для алгоритма.
- Покупка низкокачественного трафика: Приобретение трафика из сомнительных источников, который не имеет четких паттернов интересов, может быть интерпретировано системой как аномальная активность.
Стратегическое значение
Патент демонстрирует высокий уровень сложности антифрод-систем Яндекса и подтверждает стратегический приоритет на чистоту поведенческих сигналов. Он показывает, что Яндекс анализирует не только прямые сигналы накрутки, но и применяет сложный графовый анализ на уровне всей экосистемы. Стратегически это означает, что любые попытки манипулирования ПФ сопряжены с очень высоким риском. Долгосрочная стратегия должна полностью исключать серые методы и фокусироваться на качестве ресурса и привлечении реальной аудитории.
Практические примеры
Сценарий 1: Обнаружение накрутки ПФ через биржу заданий
- Ситуация: Владельцы сайтов А (Строительство), Б (Доставка еды) и В (Медицина) заказывают накрутку ПФ на одной бирже. Пользователи биржи последовательно посещают А, Б и В.
- Построение графа: В графе Яндекса между А, Б и В появляются ребра с высоким весом.
- Фильтр 1 (Тематический): Темы (Строительство, Еда, Медицина) не связаны. Ребра остаются.
- Кластеризация: Сайты А, Б и В формируют плотный кластер.
- Фильтр 2 (Поведенческий): Система не находит естественных паттернов, объясняющих, почему люди массово интересуются этими тремя темами одновременно. Кластер остается.
- Результат: Кластер (А, Б, В) маркируется как аномальный. Все три сайта пессимизируются.
Сценарий 2: Исключение легитимного поведения (Тематическая связь)
- Ситуация: Пользователь посещает сайт строительных материалов (Сайт С) и сайт с советами по ремонту (Сайт D).
- Построение графа: Между С и D появляется ребро.
- Фильтр 1 (Тематический): Яндекс определяет, что оба сайта относятся к теме «Ремонт». Темы связаны.
- Результат: Ребро удаляется на этапе Фильтра 1. Поведение считается естественным.
Сценарий 3: Исключение легитимного поведения (Связь по интересам)
- Ситуация: Пользователь посещает сайт о фитнесе (Сайт E) и сайт о белковых добавках (Сайт F).
- Фильтр 1 (Тематический): Темы «Фитнес» и «Добавки» могут быть определены как не связанные напрямую. Ребро остается.
- Кластеризация: E и F попадают в один кластер.
- Фильтр 2 (Поведенческий): Яндекс анализирует широкие данные и видит, что значительная часть пользователей естественно интересуется обеими темами. Связь легитимна.
- Результат: Кластер удаляется на этапе Фильтра 2. Поведение считается естественным.
Вопросы и ответы
Что такое «Аномальные посещения» в контексте этого патента?
Аномальные посещения — это то, что в SEO-сообществе называется накруткой поведенческих факторов (ПФ). Это скоординированные действия пользователей (часто оплачиваемые или выполняемые ботами), направленные на имитацию интереса к сайту с целью искусственного повышения его ранга в поисковой системе.
Как работает двухуровневая фильтрация, описанная в патенте?
Система ищет группы сайтов, которые часто посещаются одними и теми же людьми. Фильтр 1 (Тематический) удаляет связи между сайтами с похожей тематикой, так как это нормально. Фильтр 2 (Поведенческий) удаляет связи между тематически разными сайтами, если они объясняются общими легитимными интересами аудитории. Если связь нельзя объяснить ни темой, ни поведением, она признается аномальной (накруткой).
Что такое «связь на основе данных о действиях пользователей» (Фильтр 2) и чем она отличается от тематической?
Это латентная связь, обусловленная общими интересами аудитории, даже если темы разные. Например, сайты о гольфе и о лодках тематически различны. Но если анализ широких данных о поведении показывает, что значительная часть пользователей естественно интересуется обеими темами, система признает связь между этими сайтами естественной. Это предотвращает ложные срабатывания.
Какие данные Яндекс использует для поведенческой фильтрации (Фильтр 2)?
Яндекс использует широкий набор «данных о действиях пользователей». Патент упоминает не только историю поиска (клики на SERP), но и данные об использовании веб-браузера (история просмотра) и данные веб-сценариев (например, куки). Это позволяет системе анализировать поведение пользователей за пределами поисковой выдачи и лучше понимать их интересы.
Какие последствия для сайта влечет обнаружение «аномальных посещений»?
Патент предусматривает жесткие меры. Сайт может быть понижен в ранжировании (Claim 4) или полностью удален из результатов поиска (Claim 5). Кроме того, данные об этих аномальных посещениях могут быть удалены из истории поиска (Claim 6), что лишает сайт накопленного эффекта от накрутки.
Может ли этот алгоритм использоваться для атаки на конкурентов (негативное SEO)?
Теоретически, можно попытаться накрутить ПФ конкуренту, чтобы вызвать санкции. В патенте упоминается такая возможность и предлагается решение: если предполагается такая ситуация, веб-хост может быть удален из аномального кластера, чтобы избежать снижения его ранга. Это указывает на то, что Яндекс осознает риск и имеет механизмы защиты от таких атак.
Что происходит с аккаунтами пользователей, которые участвуют в накрутке?
Согласно патенту (Claim 7), система идентифицирует идентификаторы пользователей (UID), связанные с аномальными посещениями, и сохраняет для них соответствующий индикатор (флаг). Это означает, что поведенческие сигналы от этих аккаунтов, скорее всего, будут игнорироваться поисковой системой в будущем при расчете ранжирования.
Как система определяет тематику сайта для Фильтра 1?
Патент упоминает использование моделей NLP на основе контента и метаданных сайта. Упоминаются примеры вроде Word2vec, LDA, LSA для генерации векторных представлений тем. Близость определяется, например, через косинусное расстояние. На практике Яндекс, вероятно, использует более современные модели (например, на базе трансформеров) для классификации контента.
Работает ли этот алгоритм в реальном времени?
Нет, описанный процесс слишком ресурсоемкий для работы в реальном времени. Построение глобального графа посещений и его анализ — это офлайн-процессы, которые выполняются периодически на основе накопленных исторических данных (упоминается период до 6 месяцев). Результаты (помеченные сайты) затем используются системой ранжирования.
Опасна ли покупка рекламы или трафика в свете этого патента?
Опасна покупка низкокачественного, нецелевого или мотивированного трафика (буксы). Качественная контекстная или таргетированная реклама привлекает естественную аудиторию, чьи паттерны поведения будут понятны системе и не вызовут санкций. Важно качество и естественность трафика, а не сам факт его покупки.