Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует кластерный анализ и двудольные графы для выявления сетей сайтов и ссылочных схем (спама)

    METHODS AND SYSTEMS FOR IDENTIFYING MANIPULATED ARTICLES (Методы и системы для идентификации манипулируемых статей)
    • US7302645B1
    • Google LLC
    • 2007-11-27
    • 2003-12-10
    2003 Антиспам Индексация Патенты Google Ссылки

    Google выявляет поисковый спам, анализируя группы (кластеры) документов, а не только отдельные страницы. Система ищет подозрительные структуры, такие как сети ссылок (плотные двудольные графы), и агрегирует сигналы манипуляции (скрытый текст, редиректы, неестественный текст) со всех страниц кластера. Это позволяет обнаружить спам, даже если сигналы на отдельных страницах слабые.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности обнаружения манипулируемых документов (спама), когда анализ проводится на уровне отдельных страниц. Индивидуальные сигналы манипуляции часто бывают слишком слабыми для надежной идентификации спама. Изобретение улучшает обнаружение скоординированных спам-активностей, таких как ссылочные фермы или сети сайтов, путем анализа агрегированных сигналов на уровне группы документов.

    Что запатентовано

    Запатентована система идентификации манипулируемых статей путем кластеризации потенциально связанных документов и анализа совокупности сигналов на уровне кластера. Основная идея — вычислить Overall Signal (общий сигнал) для кластера, который будет сильнее, чем сигналы отдельных документов. Один из ключевых методов кластеризации — выявление dense bipartite subgraphs (плотных двудольных подграфов), которые часто указывают на искусственные ссылочные структуры.

    Как это работает

    Система работает в несколько этапов:

    • Кластеризация: Идентифицируются группы потенциально манипулируемых документов. Это делается путем анализа ссылочной структуры (поиск двудольных графов с doorway articles и target articles) или группировки документов на подозрительном хосте.
    • Сбор сигналов: Анализируются Outside Signals (сигналы, связанные со структурой кластера, например, массовые ссылки из гостевых книг) и Document Signals (сигналы на уровне страниц, например, скрытый текст, редиректы, переспам).
    • Агрегация: Сигналы объединяются для вычисления Overall Signal для кластера или его подмножества, используя правила или машинное обучение.
    • Идентификация: Если Overall Signal превышает порог, документы в кластере помечаются как манипулированные (Manipulated Articles) с помощью Manipulation Indicator.

    Актуальность для SEO

    Высокая. Хотя патент подан в 2003 году, описанные в нем принципы являются фундаментальными для борьбы со спамом. Анализ ссылочных структур для выявления схем (Penguin) и агрегация сигналов на уровне кластеров/сайтов (SpamBrain) остаются центральными элементами поиска Google. Конкретные сигналы спама, упомянутые в патенте (скрытый текст, редиректы, переспам), также сохраняют актуальность.

    Важность для SEO

    Патент имеет высокое значение для SEO (85/100). Он описывает конкретные технические методы, которые Google использует для борьбы как со ссылочным, так и с контентным спамом. Понимание механизма двудольных графов критически важно для оценки рисков использования PBN и других ссылочных схем. Агрегация сигналов на уровне кластера подчеркивает опасность «вины по ассоциации» и скоординированных неестественных паттернов.

    Детальный разбор

    Термины и определения

    Cluster (Кластер)
    Группа статей (документов), определенная системой как потенциально связанная в рамках манипулятивной схемы.
    Dense Bipartite Subgraph (Плотный двудольный подграф)
    Структура в графе веба, состоящая из двух наборов узлов (статей), где статьи из первого набора ссылаются на статьи из второго набора. Используется как метод определения кластера, указывающий на ссылочные схемы (например, PBN).
    Document Signals (Сигналы документа)
    Сигналы, получаемые из анализа отдельного документа в кластере, которые указывают на возможную манипуляцию (например, скрытый текст, редиректы).
    Doorway Articles (Статьи-дорвеи / Документы-источники)
    Первый набор статей в двудольном графе, которые содержат ссылки на Target Articles.
    Guest Book Document (Документ гостевой книги)
    Тип веб-страницы, позволяющий посетителям оставлять текст и гиперссылки. Часто используется для автоматизированного размещения спам-ссылок.
    Manipulated Articles (Манипулированные статьи / Спам)
    Документы, которые автор или издатель изменил с целью повышения их ранжирования в поисковой системе обманным путем.
    Manipulation Indicator (Индикатор манипуляции)
    Метка, присваиваемая документу, если он идентифицирован как манипулированный. Может быть бинарным значением или отражать степень/вероятность манипуляции.
    Overall Signal (Общий сигнал / Overall Value)
    Агрегированная метрика, вычисленная на основе анализа Outside Signals и Document Signals для всего кластера. Определяет вероятность того, что кластер является спамом.
    Outside Signals (Внешние сигналы)
    Сигналы, связанные с кластером в целом или его структурой, а не с отдельным документом (например, структура двудольного графа или наличие большого количества ссылок из гостевых книг).
    Target Articles (Целевые статьи / Документы-акцепторы)
    Второй набор статей в двудольном графе, на которые ссылаются Doorway Articles.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод идентификации манипулированных статей.

    1. Определение как минимум одного кластера, включающего множество статей.
    2. Ключевое уточнение: Определение кластера включает вычисление dense bipartite subgraph, состоящего из doorway articles и target articles, где первые ссылаются на вторые.
    3. Анализ сигналов, связанных с одной или несколькими статьями в кластере, для определения Overall Signal для кластера.
    4. Определение того, являются ли статьи манипулированными, основываясь, по крайней мере частично, на Overall Signal.

    Ядром изобретения является использование анализа графовых структур (двудольных подграфов) для нахождения потенциальных ссылочных схем и последующая агрегация сигналов внутри этих структур для подтверждения манипуляции.

    Claim 8 (Независимый пункт): Детализирует процесс и условия маркировки спама.

    1. Формирование кластера документов путем идентификации dense bipartite subgraph.
    2. Анализ множества документов в кластере для определения общего значения (overall value) для кластера.
    3. Если общее значение превышает пороговое значение (threshold value), маркировка как минимум одного документа в кластере как манипулированной статьи.

    Этот пункт подчеркивает автоматизированный процесс использования графов ссылок для поиска потенциальных спам-сетей и использование порога агрегированной оценки для активации пессимизации.

    Claim 2 (Зависимый от 1): Предлагает альтернативный метод кластеризации: идентификация всех документов на определенном хосте (host).

    Claims 15-22 (Зависимые): Перечисляют конкретные примеры Document Signals, используемых для анализа (в рамках Claim 15, который зависит от 8):

    • Claim 16: Большое количество ключевых слов без пропорционального количества предложений (неестественный текст/переоптимизация).
    • Claim 17: Мета-теги с большим количеством повторяющихся ключевых слов.
    • Claim 18: Наличие скрипта для редиректа пользователя.
    • Claim 19: Большое количество текста того же цвета, что и фон (скрытый текст).
    • Claim 20: Большое количество несвязанных ссылок.
    • Claim 21: Недавнее изменение структуры ссылок документа или недавняя смена владельца веб-сайта.
    • Claim 22: Большое количество ссылок, для которых отсутствует соответствующий анкорный текст. (Примечание: В описании патента также упоминается ситуация: мало текста, который не является анкорным — «little or no text that is not anchor text».)

    Где и как применяется

    Изобретение в основном применяется на этапе индексирования и анализа данных для выявления спама.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения патента. Система (Cluster Processor и Manipulation Processor) выполняет:

    1. Анализ ссылок и Кластеризация: Построение графа веба и вычисление dense bipartite subgraphs для идентификации кластеров. Кластеризация по хостам.
    2. Извлечение признаков (Feature Extraction): Анализ контента и структуры документов для выявления Document Signals и Outside Signals.
    3. Классификация спама: Агрегация сигналов, вычисление Overall Signal и присвоение Manipulation Indicator документам. Эти данные сохраняются в индексе.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются данные о контенте и структуре гиперссылок веба (веб-граф), которые необходимы для последующего анализа.

    RANKING / RERANKING – Ранжирование и Переранжирование
    Результаты работы алгоритма используются на этих этапах. Manipulation Indicator применяется для корректировки ранжирования:

    • Понижение ранга документа.
    • Удаление документа из результатов поиска (Claim 10).
    • Исключение документа из расчетов, основанных на структуре ссылок (например, PageRank).

    Входные данные:

    • Структура гиперссылок веба (граф).
    • Содержимое документов (текст, HTML, скрипты).
    • Метаданные документов и сайтов (включая историю изменений и владения, данные хостинга).

    Выходные данные:

    • Manipulation Indicator, связанный с каждым идентифицированным манипулированным документом.

    На что влияет

    • Конкретные типы контента и структуры: Ссылочные фермы, Private Blog Networks (PBN), сети дорвейных страниц, сайты с автоматически сгенерированным контентом.
    • Конкретные ниши или тематики: Конкурентные ниши, подверженные агрессивным методам спама.
    • Ссылочный профиль: Алгоритм напрямую анализирует и пессимизирует неестественные ссылочные структуры, особенно те, которые напоминают двудольные графы.

    Когда применяется

    • Условия работы алгоритма: Алгоритм применяется в процессе индексирования и анализа данных (офлайн или инкрементально) для оценки качества документов и ссылок.
    • Триггеры активации: Обнаружение структур, соответствующих определению dense bipartite subgraph, или анализ хостов, которые считаются подозрительными.
    • Пороговые значения: Алгоритм использует пороги для определения значимости отдельных сигналов (например, «большое количество» ключевых слов) и финальный порог для Overall Signal, при превышении которого кластер признается спамом.

    Пошаговый алгоритм

    Процесс идентификации манипулированных документов:

    1. Определение кластера: Система идентифицирует группу документов для анализа. Методы: Вычисление dense bipartite subgraph (выявление групп дорвеев, ссылающихся на группу целевых страниц) ИЛИ группировка всех документов на определенном хосте.
    2. Определение внешних сигналов (Outside Signals): Анализируется структура кластера. Например, если кластер сформирован двудольным графом, проверяется, не являются ли дорвеи преимущественно гостевыми книгами, ссылающимися на целевые страницы (указывает на ссылочный спам).
    3. Определение документных сигналов (Document Signals): Каждый документ (или выборка документов) в кластере анализируется на наличие признаков манипуляции: скрытый текст, редиректы, неестественный текст, переспам в мета-тегах, недавние изменения владения и т.д.
    4. Оценка и вычисление Общего сигнала (Overall Signal): Система агрегирует все собранные сигналы. Это включает расчет процента документов в кластере с определенным признаком. Для вычисления итогового Overall Signal могут использоваться вручную заданные правила или модель машинного обучения (например, нейронные сети или бустинг), обученная на тренировочном наборе (training set) классифицированных кластеров.
    5. Принятие решения и маркировка: Overall Signal сравнивается с пороговым значением. Если порог превышен, кластер (или его подмножество) определяется как манипулированный. Документам присваивается Manipulation Indicator. (В патенте также упоминается возможность ручной проверки при достижении определенного порога).

    Какие данные и как использует

    Данные на входе

    Патент явно указывает на использование следующих данных:

    • Контентные факторы:
      • Текст документа: для определения, является ли он естественным языком или сгенерирован компьютером (keyword stuffing).
      • Мета-теги: для выявления большого количества повторяющихся ключевых слов.
      • Анкорный текст: анализ соотношения текста, являющегося анкором, к общему тексту.
    • Технические факторы:
      • Скрипты (JavaScript, HTML): для обнаружения редиректов при доступе к документу.
      • Цветовые коды текста и фона: для обнаружения скрытого текста (одинаковый цвет).
      • Данные хоста: для кластеризации по хосту.
    • Ссылочные факторы:
      • Структура гиперссылок (Link structure): используется для построения графа веба и выявления dense bipartite subgraphs.
      • Входящие ссылки: анализ источников ссылок (например, выявление ссылок из guest book documents).
      • Исходящие ссылки: выявление большого количества случайных или несвязанных ссылок на странице.
    • Временные факторы (History):
      • История документа: недавние изменения текста или структуры ссылок.
      • История владения сайтом: недавняя смена владельца.

    Какие метрики используются и как они считаются

    • Overall Signal (Overall Value): Агрегированная метрика вероятности манипуляции кластера. Рассчитывается путем взвешивания и объединения Outside Signals и Document Signals.
    • Процентные метрики: Патент предлагает рассчитывать процент документов в кластере, обладающих определенным сигналом (например, процент документов с редиректами или мета-тегами).
    • Пороговые значения (Thresholds): Используются для определения значимости сигнала (например, порог для количества несвязанных ссылок) и для финальной классификации кластера на основе Overall Signal.
    • Алгоритмы машинного обучения: Упоминается использование ML для определения правил классификации. Система обучается на тренировочном наборе вручную классифицированных кластеров. Упомянутые методы: neural nets (нейронные сети) и boosting (бустинг).

    Выводы

    1. Кластерный анализ эффективнее индивидуального: Главный вывод патента — агрегация сигналов на уровне группы документов позволяет выявить спам, даже если сигналы на отдельных страницах слабые.
    2. «Вина по ассоциации» (Guilt by Association): Документ может быть признан спамом только на основании принадлежности к манипулированному кластеру (например, являясь частью PBN или находясь на спамном хосте), даже если сам он не имеет явных сигналов спама.
    3. Двудольные графы как индикатор ссылочных схем: Dense bipartite subgraphs (Группа А ссылается на группу Б) являются ключевым структурным паттерном для выявления искусственных ссылочных сетей (PBN, ссылочные фермы).
    4. Комплексная борьба со спамом: Патент описывает комплексный подход, анализируя как структуру связей (ссылочный спам), так и содержимое страниц (контентный спам), включая технические манипуляции (редиректы, скрытый текст).
    5. Важность истории домена/страницы: Недавние изменения в контенте, структуре ссылок или владении сайтом рассматриваются как потенциальные сигналы манипуляции, что подчеркивает риски при покупке и перепрофилировании старых доменов (дропов).
    6. Использование ML для детекции спама: Патент подтверждает использование машинного обучения (нейронные сети, бустинг) для классификации спама на основе агрегированных сигналов.

    Практика

    Best practices (это мы делаем)

    • Построение естественного ссылочного профиля: Обеспечивайте органический рост ссылочной массы из разнообразных источников. Избегайте получения большого количества ссылок из однотипных источников, так как это может сформировать структуру, похожую на двудольный граф.
    • Контроль качества контента и технического SEO: Регулярно проводите аудит сайта на наличие классических признаков спама, перечисленных в патенте: скрытый текст, нежелательные редиректы, переоптимизация ключевыми словами (в тексте и мета-тегах), наличие большого количества несвязанных исходящих ссылок.
    • Тщательный анализ при покупке доменов: При покупке старых доменов (дропов) необходимо тщательно анализировать их историю. Патент указывает (Claim 21), что недавняя смена владельца в сочетании с изменением контента или структуры ссылок является сигналом манипуляции.
    • Мониторинг исходящих ссылок и UGC: Если на сайте есть UGC-контент (комментарии, форумы), необходимо модерировать его для предотвращения массового размещения спам-ссылок, так как ваш сайт может быть классифицирован как doorway article в двудольном графе.

    Worst practices (это делать не надо)

    • Построение PBN и ссылочных сетей: Создание сетей сайтов для простановки ссылок на основной ресурс крайне рискованно. Такие сети часто формируют dense bipartite subgraphs, которые являются прямой целью данного патента.
    • Массовое размещение ссылок в гостевых книгах/комментариях: Использование автоматизированных средств для простановки ссылок в UGC-контенте. Патент явно выделяет это как сильный Outside Signal манипуляции.
    • Использование техник «черного» SEO: Применение скрытого текста, клоакинга (упоминается в Background патента), нежелательных редиректов или генерации неестественного текста. Агрегация этих сигналов на уровне кластера упрощает их обнаружение.
    • Игнорирование взлома сайта: Если сайт взломан и на нем размещен спам-контент или ссылки, весь хост может быть классифицирован как манипулированный кластер (согласно Claim 2).

    Стратегическое значение

    Этот патент демонстрирует фундаментальный подход Google к борьбе со спамом: переход от анализа отдельных элементов к анализу структур и паттернов. Он подчеркивает, что любая скоординированная SEO-активность, оставляющая неестественный структурный след в графе веба или в паттернах контента, может быть обнаружена с помощью кластерного анализа. Долгосрочная стратегия должна фокусироваться на создании естественных сигналов, которые невозможно или невыгодно симулировать в масштабе.

    Практические примеры

    Сценарий: Обнаружение PBN (Private Blog Network)

    1. Ситуация: SEO-специалист создает сеть из 50 блогов (PBN), которые ссылаются на 10 коммерческих сайтов (Money Sites). Внутри PBN ссылок нет, между Money Sites ссылок тоже нет.
    2. Анализ Google: Система анализа графа идентифицирует эту структуру как dense bipartite subgraph. PBN-сайты классифицируются как Doorway Articles, а Money Sites — как Target Articles.
    3. Сбор сигналов: Система анализирует кластер. Outside Signal: структура двудольного графа. Document Signals: на PBN-сайтах обнаруживаются признаки низкокачественного контента и недавняя смена владельцев (если это дропы).
    4. Результат: Вычисляется высокий Overall Signal. Все сайты в кластере (и PBN, и Money Sites) маркируются как Manipulated Articles и пессимизируются или удаляются из индекса.

    Вопросы и ответы

    Что такое «плотный двудольный подграф» (Dense Bipartite Subgraph) в контексте SEO?

    Это структура в графе ссылок, состоящая из двух групп сайтов, где сайты из первой группы (Doorway Articles) массово ссылаются на сайты из второй группы (Target Articles), но внутри групп ссылок мало или нет. В SEO это классический паттерн ссылочной схемы, например, когда сеть PBN ссылается на продвигаемые сайты. Google использует обнаружение таких структур для идентификации спама.

    Как этот патент связан с рисками использования PBN?

    Патент напрямую описывает механизм обнаружения структур, типичных для PBN. Если PBN построена по принципу «сеть ссылается на продвигаемый сайт», она формирует dense bipartite subgraph. Это позволяет Google алгоритмически идентифицировать всю сеть как манипулированный кластер и применить санкции ко всем ее участникам.

    Какие конкретные сигналы спама на странице перечислены в патенте?

    Патент перечисляет несколько ключевых Document Signals: неестественный текст (много ключей, мало предложений), переспам в мета-тегах, наличие скриптов для редиректа, скрытый текст (цвет текста совпадает с фоном), большое количество несвязанных исходящих ссылок, а также недавние изменения в структуре ссылок или владении сайтом.

    Что такое «внешние сигналы» (Outside Signals) и чем они отличаются от сигналов документа?

    Outside Signals относятся к характеристикам кластера в целом, а не к отдельной странице. Например, сама структура двудольного графа является внешним сигналом. Другой пример, приведенный в патенте, — это когда источником ссылок в кластере преимущественно являются гостевые книги, что указывает на массовый ссылочный спам.

    Почему анализ кластера эффективнее для обнаружения спама, чем анализ отдельной страницы?

    На отдельной странице сигналы манипуляции могут быть слабыми или отсутствовать. Однако при анализе кластера система агрегирует множество слабых сигналов со всех страниц, что в сумме дает сильный Overall Signal. Кроме того, документ может быть признан спамом просто по факту принадлежности к манипулированному кластеру («вина по ассоциации»).

    Как Google использует историю сайта или страницы согласно этому патенту?

    История используется как один из сигналов манипуляции (Claim 21). Патент указывает, что недавние изменения в тексте документа, его ссылочной структуре или смена владельца сайта могут свидетельствовать о спаме. Это особенно актуально при оценке рисков использования перехваченных доменов (дропов).

    Что происходит с сайтом, который получает метку «Manipulated Article»?

    Патент описывает несколько вариантов использования Manipulation Indicator: понижение ранга документа в результатах поиска, полное удаление документа из поисковой выдачи (Claim 10) или исключение документа из расчетов, основанных на структуре ссылок (таких как PageRank). На практике это означает пессимизацию или бан.

    Актуальны ли методы борьбы со спамом из этого патента (подан в 2003) сегодня?

    Да, принципы, заложенные в патенте, абсолютно актуальны. Кластерный анализ, агрегация сигналов и анализ графа ссылок для выявления неестественных структур являются основой современных анти-спам систем Google, таких как SpamBrain. Конкретные сигналы (скрытый текст, редиректы) также остаются важными индикаторами спама.

    Может ли мой сайт случайно попасть в «манипулированный кластер»?

    Это возможно, если ваш сайт демонстрирует паттерны, схожие со спамом. Например, если вы получаете большое количество ссылок из однотипных низкокачественных источников или если ваш сайт находится на хостинге, где размещено много спам-сайтов (согласно Claim 2, кластеризация по хосту возможна). Важно следить за качеством ссылочного профиля и контента.

    Использует ли Google машинное обучение для обнаружения спама согласно патенту?

    Да, патент явно упоминает использование машинного обучения для классификации кластеров. Система обучается на тренировочном наборе данных (training set), где кластеры вручную размечены как спам или не спам. Упоминаются конкретные методы, такие как нейронные сети (neural nets) и бустинг (boosting).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.