Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google фильтрует поведенческие сигналы, моделируя типичное поведение пользователей для выявления и нейтрализации кликового спама

    DETECTING CLICK SPAM (Обнаружение клик-спама)
    • US8694374B1
    • Google LLC
    • 2014-04-08
    • 2007-03-14
    2007 Антиспам Безопасный поиск Патенты Google Поведенческие сигналы

    Google использует систему для обнаружения аномальной сетевой активности (кликового спама) путем создания статистических моделей ожидаемого поведения сетевых объектов (IP-адресов, cookies, запросов). Система анализирует множество параметров и выявляет объекты, чье поведение отклоняется от нормы. Активность таких объектов (например, клики по результатам поиска) дисконтируется или полностью игнорируется при ранжировании, что защищает поиск от манипуляций поведенческими факторами.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему манипуляции результатами поиска через имитацию пользовательской активности, известную как «кликовый спам» (click spam) или накрутка поведенческих факторов. Если система ранжирования использует реакции пользователей (например, клики, dwell time) как сигнал релевантности, возникает уязвимость: злоумышленники могут генерировать фальшивые сигналы для искусственного повышения позиций. Изобретение направлено на повышение качества ранжирования за счет фильтрации этих аномальных сетевых поведений.

    Что запатентовано

    Запатентована система и метод обработки сетевой активности для выявления и нейтрализации кликового спама. Суть заключается в создании статистических моделей «типичного» поведения для различных сетевых объектов (network objects), таких как IP-адреса, cookies, запросы или URI. Система сравнивает активность конкретного объекта с моделью по множеству атрибутов. Если объект демонстрирует значительное количество отклонений (deviations) от модели, его активность помечается как аномальная («спамная» или spammy), и ее вклад в алгоритмы ранжирования снижается или обнуляется.

    Как это работает

    Система функционирует путем многоуровневого анализа сетевой активности:

    • Сбор данных и Извлечение статистики: Система регистрирует сетевую активность (запросы, клики) в логах (Network Activity Logs) и вычисляет множество статистических атрибутов для каждого сетевого объекта (например, соотношение кликов к запросам, распределение длительности кликов).
    • Моделирование: На основе агрегированных данных строятся модели ожидаемого поведения (Model of Typical Behavior), определяющие нормальное распределение и пороговые значения для каждого атрибута.
    • Обнаружение отклонений: Атрибуты конкретного объекта сравниваются с моделью. Фиксируется количество атрибутов, выходящих за пороговые значения (Count of Deviations).
    • Классификация и Зонирование: Объекты классифицируются по общему количеству отклонений. Система определяет зоны «спамности» (Zones) в распределении всех объектов.
    • Дисконтирование: В зависимости от зоны, в которую попал объект, к его активности применяется весовой коэффициент (Weighting Factor или Discount). Активность объектов из высокорисковых зон может быть полностью исключена из расчетов ранжирования.

    Актуальность для SEO

    Высокая. Использование поведенческих сигналов в ранжировании остается важным аспектом поисковых систем. Соответственно, механизмы валидации этих сигналов и защиты от манипуляций критически важны. Описанные в патенте методы статистического моделирования и профилирования пользователей для выявления аномалий являются стандартной практикой в современных системах борьбы с фродом и спамом.

    Важность для SEO

    Патент имеет высокое стратегическое значение (8/10). Он детально раскрывает механизмы, которые Google использует для фильтрации поведенческих сигналов. Это напрямую влияет на эффективность и безопасность SEO-стратегий. Патент делает очевидным, что любые попытки искусственной накрутки поведенческих факторов (боты, клик-фермы) сталкиваются со сложной системой обнаружения, которая анализирует не отдельные клики, а общие паттерны поведения источника. Это подчеркивает важность фокусировки на привлечении органического трафика и стимулировании естественного, качественного взаимодействия пользователей с сайтом.

    Детальный разбор

    Термины и определения

    Attribute / Statistics (Атрибут / Статистика)
    Измеряемые характеристики сетевого объекта. Например, для IP-адреса это может быть количество запросов, распределение длительности кликов, соотношение кликов к запросам и т.д.
    Click Spam (Кликовый спам)
    Недействительные или мошеннические клики (выборы гиперссылок), направленные на манипуляцию системами, использующими сетевую активность для ранжирования.
    Count of Deviations (Количество отклонений)
    Общее число атрибутов сетевого объекта, которые были классифицированы как отклоняющиеся от модели. Используется как мера «спамности» (Spamminess) объекта.
    Deviation (Отклонение)
    Ситуация, когда атрибут конкретного сетевого объекта выходит за пределы пороговых значений (Thresholds), определенных моделью типичного поведения.
    Long Click / Short Click (Длинный клик / Короткий клик)
    Метрики, основанные на времени пребывания пользователя на странице результата поиска (dwell time). Длинный клик часто интерпретируется как признак релевантности, короткий – как признак ее отсутствия.
    Model of Typical Behavior (Модель типичного поведения)
    Статистическая модель, описывающая ожидаемые атрибуты и поведение сетевого объекта. Строится на основе агрегированных данных о сетевой активности множества объектов.
    Network Object (Сетевой объект)
    Сущность, участвующая в сетевой активности. Примеры включают идентификаторы пользователей (cookies, IP-адреса, MAC-адреса), поисковые запросы (Queries), веб-страницы (URI) или целые домены.
    Weighting Factor / Discount (Весовой коэффициент / Дисконт)
    Значение, применяемое к сетевой активности (например, кликам) объекта. Определяется зоной, в которую попал объект. Снижает влияние активности объекта на алгоритмы ранжирования.
    Zones (Зоны)
    Диапазоны в распределении количества отклонений. Используются для классификации сетевых объектов по уровню риска (например, Зона без дисконта, Зона 1, Зона 2, Зона 3).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки данных о выборе результатов поиска (кликов) для идентификации и нейтрализации спама.

    1. Система получает модель типичного поведения (model of typical behavior) для множества различных статистических показателей, извлеченных из данных о кликах (selection data), связанных с множеством идентификаторов пользователей (user identifiers).
    2. Определяется распределение количества отклонений (distribution of counts of deviations). Это ключевой шаг: система сначала определяет, является ли конкретный статистический показатель пользователя отклонением от модели. Затем она подсчитывает, сколько всего отклонений у каждого пользователя. Наконец, она строит распределение этих подсчетов по всей популяции пользователей.
    3. В этом распределении определяется множество зон (plurality of zones). Каждая зона определяет диапазон количества отклонений (например, 0-2 отклонения, 3-5 отклонений и т.д.).
    4. Определяется, что конкретный (первый) идентификатор пользователя имеет количество отклонений, попадающее в определенную зону (particular zone).
    5. В ответ на это определение система модифицирует данные о кликах, связанные с этим идентификатором, на основе веса (weight), ассоциированного с этой определенной зоной.

    Claim 3 (Зависимый от 1): Уточняет, что модификация данных означает снижение влияния (reducing an influence) данных о кликах этого пользователя при вычислении статистики между поисковыми запросами и результатами поиска (т.е. при расчете ранжирования).

    Claim 4 (Зависимый от 1): Перечисляет примеры статистических показателей, используемых для моделирования. Включает click to query ratio, количество разных типов кликов, медианную длину клика, распределение длин кликов, распределение позиций кликов, долю кликов за пределами первой страницы, долю кликов по рекламе и другие.

    Где и как применяется

    Изобретение является критически важным компонентом обработки данных, которые используются на этапе ранжирования.

    INDEXING – Индексирование и извлечение признаков (Обработка данных офлайн)
    Процессы сбора логов, вычисления статистики и построения моделей происходят офлайн, как часть обработки данных для подготовки признаков ранжирования.

    • Сбор данных: Network Monitor собирает логи сетевой активности (запросы и клики).
    • Моделирование: Modeling Engine обрабатывает логи, вычисляет статистику для сетевых объектов (IP, Cookies, Queries) и строит Models of Typical Behavior.
    • Оценка спамности: Система вычисляет Count of Deviations для каждого объекта и определяет его Zone и соответствующий Weighting Factor.

    RANKING – Ранжирование / RERANKING – Переранжирование
    Результаты офлайн-обработки используются для корректировки сигналов ранжирования.

    • Применение весов: Rank Modifier Engine использует поведенческие данные (например, клики) как сигнал релевантности. Однако перед использованием эти данные модифицируются (дисконтируются) на основе Weighting Factor источника клика. Если источник клика признан спамным (например, находится в Зоне 3), его клик не повлияет на ранжирование.

    Входные данные:

    • Логи сетевой активности (Network Activity Logs): запросы, выбранные URI, временные метки, идентификаторы пользователей (IP, Cookies).

    Выходные данные:

    • Модели типичного поведения (Models of Typical Behavior).
    • Оценки спамности (Count of Deviations) и весовые коэффициенты (Weighting Factors) для сетевых объектов.
    • Модифицированные (взвешенные) данные о сетевой активности, передаваемые в алгоритм ранжирования.

    На что влияет

    • Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, где поведенческие факторы имеют значительный вес и которые подвержены манипуляциям (например, высококонкурентные коммерческие тематики).
    • Специфические запросы: Влияет на запросы, которые становятся объектами кликового спама. Система может анализировать спамность не только пользователей, но и самих запросов (например, если запрос исходит от аномально большого числа спамных IP).

    Когда применяется

    • Триггеры активации: Система моделирования и обнаружения работает постоянно для обработки всех поступающих поведенческих сигналов.
    • Условия применения дисконта: Дисконт применяется, когда для конкретного сетевого объекта (источника клика) количество отклонений (Count of Deviations) от модели превышает порог и объект попадает в одну из зон дисконтирования (Зона 1, 2, 3).
    • Временные рамки: Построение и обновление моделей происходит периодически (упоминаются варианты: ежечасно, ежедневно, еженедельно, ежемесячно). Применение дисконтов происходит при каждом расчете ранжирования, использующем поведенческие данные.

    Пошаговый алгоритм

    Процесс А: Построение Модели и Определение Зон (Офлайн)

    1. Доступ к логам: Система получает доступ к логам сетевой активности.
    2. Генерация параметров модели: Для определенного типа сетевого объекта (например, IP-адреса) система генерирует параметры модели. Это включает вычисление распределения статистических атрибутов (например, распределение количества уникальных запросов) на основе агрегированных данных.
    3. Определение порогов: Для каждого параметра определяются пороговые значения (например, нижний и верхний пороги), которые определяют диапазон типичного поведения.
    4. Расчет распределения отклонений: Система анализирует все объекты и подсчитывает, сколько атрибутов у каждого объекта отклоняется от нормы. Строится распределение количества отклонений по всей популяции.
    5. Определение Зон и Весов: На основе этого распределения определяются Zones спамности (например, Зона 1, Зона 2, Зона 3) и связанные с ними весовые коэффициенты (Weighting Factors).
    6. Обновление модели: Процесс периодически повторяется для обновления модели на основе свежих данных.

    Процесс Б: Оценка Сетевого Объекта и Применение Дисконта

    1. Выбор объекта и атрибута: Система выбирает сетевой объект (например, конкретный IP-адрес) и один из его атрибутов (например, количество коротких кликов) для анализа.
    2. Определение отклонения: Система определяет, отклоняется ли значение атрибута от соответствующих параметров (порогов) в Модели Типичного Поведения. Если да, это фиксируется как отклонение (Deviation).
    3. Агрегация отклонений: Процесс повторяется для всех атрибутов объекта. Подсчитывается общее количество отклонений (Count of Deviations).
    4. Определение Зоны: На основе общего количества отклонений объект помещается в одну из предопределенных зон, определенных в Процессе А.
    5. Назначение вклада (Дисконтирование): В зависимости от зоны объекту назначается весовой коэффициент. Например, Зона 3 может иметь коэффициент 0.
    6. Передача в ранжирование: Сетевая активность (клики) этого объекта передается в алгоритм ранжирования, скорректированная на этот весовой коэффициент.

    Какие данные и как использует

    Данные на входе

    Патент описывает обширный набор данных, извлекаемых из логов сетевой активности. Ключевыми являются поведенческие факторы, привязанные к идентификаторам.

    Поведенческие факторы (на уровне пользователя — Cookie/IP):

    • Количество и частота запросов (общие, уникальные, повторяющиеся).
    • Общее количество кликов (по результатам поиска, по рекламе).
    • Распределение кликов: по позициям (median click position), по времени (time delay between search and selection).
    • Длительность кликов (Click length): количество длинных, средних, коротких кликов (dwell time).
    • Паттерны навигации: доля кликов за пределами первой страницы.
    • Специфика поиска: количество поисков по картинкам (image searches).

    Технические и Пользовательские факторы:

    • Идентификаторы: IP-адреса, Cookies (включая их возраст и валидность), MAC-адреса, аппаратные конфигурации.
    • Связи между идентификаторами: количество уникальных IP для одного Cookie, количество Cookies для одного IP.
    • Данные о клиенте: наличие тулбаров веб-браузера, тип устройства (браузер, ОС).
    • Географические и языковые факторы: язык пользователя, местоположение (страна, регион, город).

    Поведенческие факторы (на уровне запроса или URI/Домена):

    • Количество пользователей (Cookies/IP), отправивших запрос или кликнувших по результатам.
    • Распределение кликов по URI, по позициям, по длине.
    • Характеристики источников трафика: распределение возрастов cookies, распределение «спам-оценок» (spam scores) пользователей, кликнувших по результатам запроса.
    • Соотношение кликов к показам.

    Какие метрики используются и как они считаются

    Система использует статистический анализ и сравнение распределений для вычисления ключевых метрик.

    • Модель Типичного Поведения: Вычисляется путем агрегации статистики по всем сетевым объектам. Для каждого атрибута строится распределение.
    • Пороговые значения (Thresholds): Определяются на основе распределения (например, как перцентили). Определяют границы нормального поведения (например, нижний порог $T_{HL}$ и верхний порог $T_{HH}$).
    • Count of Deviations («Spamminess»): Агрегированная метрика для объекта, подсчитывающая, сколько его атрибутов вышло за пороговые значения модели.
    • Зоны (Zones): Диапазоны, определяемые на основе распределения метрики Count of Deviations среди всех объектов.
    • Weighting Factor: Коэффициент дисконтирования, назначаемый в зависимости от Зоны. Может быть фиксированным или переменным. Патент приводит примеры формул: Зона 1 (например, 0.5 + A), Зона 2 (например, 0.3 + B), Зона 3 (например, 0), где A и B — переменные, зависящие от точной позиции объекта внутри зоны.

    Выводы

    1. Валидация поведенческих сигналов критична: Google активно использует поведенческие сигналы (клики, dwell time), но полагается на сложные системы фильтрации для их очистки от спама и манипуляций. Качество источника сигнала важнее самого факта сигнала.
    2. Моделирование поведения пользователей: Система строит детальные профили и модели ожидаемого поведения для IP-адресов, cookies и даже запросов. Аномалии выявляются через отклонения от этих статистических моделей по множеству параметров.
    3. Многофакторный анализ спама: «Спамность» определяется не одним фактором, а совокупностью отклонений (Count of Deviations). Пользователь может иметь одно аномальное свойство, но не быть признанным спамером, если остальное поведение в норме.
    4. Гранулированное дисконтирование (Зонирование): Система использует зонирование и весовые коэффициенты. Это позволяет снижать влияние подозрительной активности пропорционально уровню аномальности, не обязательно полностью ее игнорируя (кроме самых спамных зон, где вес может быть 0).
    5. Сложность имитации естественного поведения: Чтобы обойти такую систему, манипуляторам необходимо имитировать естественное распределение десятков статистических параметров (длительность кликов, частота запросов, разнообразие запросов, соотношение IP/cookies и т.д.), что крайне ресурсоемко и сложно масштабируемо.
    6. Многоуровневый анализ: Фильтрация происходит на уровне отдельных пользователей (IP/Cookies), на уровне запросов и потенциально на уровне целевых URI/доменов.

    Практика

    Best practices (это мы делаем)

    • Фокус на качестве взаимодействия (Quality UX): Сосредоточьтесь на создании контента и UX, которые стимулируют естественное положительное поведение пользователей: длинные клики (высокий dwell time), низкий показатель возвратов в выдачу, вовлеченность. Эти сигналы, исходящие от «нормальных» пользователей (попадающих в Зону без дисконта), будут иметь полный вес.
    • Привлечение разнообразного органического трафика: Чем разнообразнее источники трафика (по географии, устройствам, IP-адресам) и естественнее их поведение, тем меньше вероятность того, что активность будет выглядеть аномальной с точки зрения статистических моделей.
    • Оптимизация сниппетов для релевантных кликов: Создавайте точные и привлекательные сниппеты, чтобы пользователи понимали, что они найдут на странице. Это повышает вероятность длинных кликов и снижает количество коротких кликов, улучшая поведенческий профиль страницы.
    • Мониторинг качества трафика: Анализируйте трафик в системах аналитики на предмет аномалий (например, внезапный всплеск трафика из нетипичного региона с паттернами, похожими на ботов). Это может указывать на негативные SEO-атаки или проблемы с качеством привлекаемого трафика.

    Worst practices (это делать не надо)

    • Использование сервисов накрутки ПФ (Click Farms, Боты, Мотивированный трафик): Это прямая цель данного патента. Активность таких сервисов почти гарантированно будет иметь аномальные статистические распределения (например, неестественное распределение длины кликов, много cookies с одного IP, аномальное соотношение кликов к запросам) и будет дисконтирована или приведет к санкциям.
    • Генерация «мусорного» трафика: Привлечение массового нецелевого трафика (например, через кликбейт), который генерирует короткие клики. Хотя источники могут быть реальными пользователями, паттерн массовых коротких кликов на уровне запроса или URI может негативно повлиять на ранжирование.
    • Игнорирование UX и скорости загрузки: Медленная загрузка или плохой UX, вынуждающие пользователей быстро покидать сайт (короткие клики), ухудшают естественные поведенческие сигналы.

    Стратегическое значение

    Патент подтверждает, что Google рассматривает поведенческие факторы как важный, но «шумный» сигнал, требующий сложной очистки. Для SEO это означает, что стратегии, основанные на манипулировании ПФ, крайне рискованны и неэффективны в долгосрочной перспективе, так как системы фильтрации эволюционируют и эффективно выявляют статистические аномалии. Стратегический приоритет должен отдаваться улучшению реального пользовательского опыта и качества контента, что ведет к генерации положительных поведенческих сигналов от валидных пользователей.

    Практические примеры

    Сценарий: Анализ эффективности поведенческих сигналов

    1. Ситуация: SEO-команда решает улучшить поведенческие факторы для ключевой коммерческой страницы. Рассматриваются два варианта: А) Закупка мотивированного трафика (пользователям платят за клики) и Б) Улучшение UX/контента страницы.
    2. Применение патента (Вариант А): Система Google анализирует источники трафика. Она замечает, что клики исходят от IP-адресов, которые генерируют аномально много запросов в день, имеют неестественно короткую медианную длину клика по другим запросам и используют множество свежесозданных (young) cookies с одного IP.
    3. Результат (Вариант А): Count of Deviations для этих IP высокий. Они попадают в Зону 3. Weighting Factor = 0. Закупленные клики полностью игнорируются при ранжировании. Деньги потрачены зря.
    4. Применение патента (Вариант Б): Улучшение контента приводит к увеличению dwell time (длинные клики) органических пользователей. Эти пользователи имеют нормальные профили поведения по другим запросам.
    5. Результат (Вариант Б): Count of Deviations для этих пользователей низкий. Они попадают в Зону без дисконта. Weighting Factor = 1. Улучшенные поведенческие сигналы учитываются с полным весом, способствуя росту позиций.

    Вопросы и ответы

    Что такое «Сетевой объект» (Network Object) в контексте этого патента?

    Это любая сущность, активность которой анализируется системой. Чаще всего это идентификаторы пользователей, такие как IP-адреса или cookies. Однако патент также упоминает возможность моделирования поведения для поисковых запросов (Queries), отдельных URI или целых веб-доменов. Это позволяет выявлять аномалии на разных уровнях.

    Как система определяет, что поведение является «типичным»?

    Система строит статистическую модель (Model of Typical Behavior) путем агрегирования данных о поведении всех пользователей. Для каждого атрибута (например, «количество запросов в час») вычисляется распределение. На основе этого распределения устанавливаются пороговые значения (Thresholds), определяющие границы нормы. Поведение считается нетипичным, если оно выходит за эти пороги.

    Достаточно ли одного аномального действия, чтобы пользователя признали спамером?

    Нет, система использует агрегированную метрику – количество отклонений (Count of Deviations). Пользователь оценивается по множеству атрибутов. Чтобы быть классифицированным как спамер (и попасть в зону дисконтирования), необходимо накопить определенное количество отклонений, превышающее установленный порог. Это защищает обычных пользователей с нетипичным, но легитимным поведением.

    Что такое «Зоны» и как они влияют на ранжирование?

    Зоны – это диапазоны в распределении «спамности». Например, Зона 0 – нормальные пользователи, Зона 1 – подозрительные, Зона 3 – явные спамеры. Каждой зоне назначается весовой коэффициент (Weighting Factor). Если пользователь в Зоне 1 имеет коэффициент 0.5, его клики будут учитываться в ранжировании с половиной веса. Если в Зоне 3 коэффициент 0 (как предложено в патенте), его клики будут полностью проигнорированы.

    Делает ли этот патент накрутку поведенческих факторов невозможной?

    Он делает ее значительно сложнее и дороже. Чтобы обойти такую систему, нужно не просто генерировать клики, а идеально имитировать естественное распределение десятков сложных статистических параметров (включая историю поведения, технические данные устройств, паттерны навигации). Масштабирование такой имитации крайне затруднительно, что делает большинство коммерческих сервисов накрутки ПФ неэффективными.

    Какие конкретные атрибуты анализируются для выявления спама?

    Патент приводит множество примеров: соотношение кликов к запросам, распределение длительности кликов (long/short clicks), распределение позиций кликов, максимальное число кликов за период, количество уникальных запросов, частота поиска по картинкам, а также связи между IP и cookies (например, слишком много cookies на одном IP).

    Может ли система ошибочно принять активность моего сайта за спам, если я провожу рекламную кампанию?

    Если рекламная кампания приводит валидных пользователей, чье поведение соответствует моделям, проблем быть не должно. Однако если кампания генерирует массовый нецелевой трафик с аномальным поведением (например, очень короткими кликами) или использует мошеннические сети, эта активность будет дисконтирована и может негативно повлиять на восприятие качества сайта.

    Учитывает ли система возраст источника клика?

    Да, патент упоминает анализ возраста cookies (ages of cookies). В тексте патента указано, что активность от «молодых» cookies (например, созданных в последние семь дней) может быть отброшена, так как спамеры часто генерируют новые cookies для своей активности.

    Как часто обновляются модели типичного поведения?

    Патент указывает, что модели могут обновляться или перестраиваться на регулярной основе (например, ежедневно, еженедельно, ежемесячно) на основе свежих логов сетевой активности. Это позволяет системе адаптироваться к изменениям в общем поведении пользователей интернета.

    Каков главный вывод для SEO-стратегии из этого патента?

    Главный вывод – необходимо полностью отказаться от искусственных манипуляций поведенческими факторами и сосредоточиться на улучшении реального пользовательского опыта (UX). Только естественное, положительное взаимодействие валидных пользователей (длинные клики, вовлеченность) будет учтено системой ранжирования с полным весом, так как механизмы фильтрации спама очень сложны и эффективны.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.