Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google вычисляет «Proxy Pad Score» для обнаружения сайтов-скрейперов и пессимизирует их при каноникализации

    DETECTION OF PROXY PAD SITES (Обнаружение сайтов-прокси-прокладок)
    • US9424340B1
    • Google LLC
    • 2016-08-23
    • 2008-12-29
    2008 Антиспам Краулинг Патенты Google Техническое SEO

    Google использует метрику «Proxy Pad Score» для оценки вероятности того, что сайт систематически копирует контент у разных источников. Система анализирует кластеры дубликатов: если документы сайта часто проигрывают по качеству оригиналам с разных доменов, его Proxy Pad Score увеличивается. Этот балл используется при выборе канонической версии страницы для индексации, снижая шансы скопированного контента попасть в индекс.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему выбора канонической (представительской) версии документа из кластера дубликатов. Основная задача — предотвратить индексацию контента, принадлежащего Proxy Pad Sites (сайтам-прокладкам или скрейперам), которые копируют контент у других организаций. Спамеры часто пытаются манипулировать сигналами качества (например, ссылками), чтобы скопированная версия казалась более авторитетной. Изобретение направлено на нейтрализацию этих манипуляций и обеспечение приоритета оригинальным источникам.

    Что запатентовано

    Запатентована система для вычисления показателя Proxy Pad Score (PPS) на уровне организации (сайта). Этот показатель отражает вероятность того, что сайт систематически копирует контент. PPS рассчитывается путем анализа того, как документы сайта конкурируют по качеству (Quality Score) с документами других организаций внутри кластеров дубликатов. Высокий PPS указывает на поведение скрейпера и используется для пессимизации документов сайта во время процесса каноникализации.

    Как это работает

    Система работает в два этапа. Сначала (офлайн) рассчитывается Proxy Pad Score. Для этого анализируются все документы сайта и кластеры дубликатов, к которым они принадлежат. В каждом кластере сайт классифицируется как Winner (победитель по качеству), Loser (проигравший) или Trivial (уникальный). Также вычисляется Spam Score, который анализирует разнообразие сайтов, которым проигрывает данный ресурс. Проигрыш множеству разных сайтов значительно ухудшает итоговый PPS. Затем (во время индексации) PPS используется для снижения эффективного показателя качества документа перед выбором канонической версии.

    Актуальность для SEO

    Высокая. Дублированный контент, скрейпинг и выбор корректной канонической версии являются фундаментальными задачами для поисковых систем. Описанный механизм предоставляет масштабируемый алгоритмический метод для идентификации и нейтрализации систематического копирования контента, что критически важно для поддержания качества индекса.

    Важность для SEO

    Влияние на SEO значительное (8/10). Этот патент напрямую влияет на то, какой URL будет индексироваться и ранжироваться при наличии дублированного контента на разных доменах. Он обеспечивает механизм защиты для создателей оригинального контента и представляет серьезную угрозу для бизнес-моделей, основанных на скрейпинге, агрегации без добавленной ценности или использовании неуникальных описаний (например, в e-commerce).

    Детальный разбор

    Термины и определения

    Proxy Pad / Proxy Pad Site (Сайт-прокладка, Скрейпер)
    Сайт или организация, основная цель которой — копирование контента из документов, связанных с другими организациями. Используется спамерами для индексации чужого контента.
    Proxy Pad Score (PPS)
    Итоговая оценка, присваиваемая организации (сайту), которая отражает вероятность того, что эта организация является Proxy Pad. Рассчитывается на основе агрегации результатов Winner, Loser и Trivial.
    Duplicate Cluster (Кластер дубликатов)
    Группа документов с одинаковым или практически одинаковым содержанием, расположенных по разным URL или на разных сайтах.
    Quality Score (Показатель качества)
    Метрика качества документа. В патенте упоминаются link-based score (оценка на основе ссылок, например, PageRank), дата создания документа или предсказание спама.
    Winner (Победитель)
    Статус документа организации в кластере дубликатов, если его Quality Score выше, чем у всех документов других организаций в этом кластере.
    Loser (Проигравший)
    Статус документа организации в кластере, если его Quality Score ниже, чем хотя бы у одного документа другой организации в этом кластере.
    Trivial (Тривиальный)
    Статус документа, если он единственный в кластере, или если все документы в кластере принадлежат одной и той же организации.
    Spam Score (Оценка спама)
    Метрика, основанная на анализе разнообразия организаций, которым данный сайт проигрывает (Loses). Используется для корректировки PPS.
    Head и Tail (Голова и Хвост)
    Компоненты для расчета Spam Score. Head — это сумма проигрышей небольшому числу топовых организаций. Tail — сумма проигрышей всем остальным организациям. Spam Score рассчитывается как отношение Tail/Head.
    Representative Document (Канонический документ)
    Документ, выбранный из кластера дубликатов для включения в поисковый индекс.

    Ключевые утверждения (Анализ Claims)

    Патент охватывает два основных процесса: расчет Proxy Pad Score и его применение при индексации.

    Claim 14 (Независимый пункт): Расчет Proxy Pad Score. Защищается метод определения вероятности того, что организация копирует контент.

    1. Идентифицируется набор ресурсов (документов), связанных с определенным веб-сайтом.
    2. Для каждого ресурса идентифицируется кластер дубликатов и его Quality Score.
    3. Ресурс классифицируется (например, Winner, Loser, Trivial) на основе сравнения его Quality Score с ресурсами других сайтов в кластере.
    4. Определяется оценка классификации (classification score).
    5. Генерируются агрегированные оценки для каждой классификации (например, Total Winner Score, Total Loser Score).
    6. Определяется Proxy Pad Score (PPS) для веб-сайта на основе этих агрегированных оценок.
    7. Принимается решение об индексации ресурсов на основе PPS.

    Claim 17 (Зависимый): Уточняет, что PPS определяется как взвешенная сумма (weighted sum) агрегированных оценок классификации. Это подтверждает использование весовых коэффициентов (например, для усиления Loser Score и ослабления Trivial Score).

    Claim 1 (Независимый пункт): Применение Proxy Pad Score. Защищается метод использования PPS для выбора канонического документа.

    1. Система определяет Quality Score для документов в кластере (первый документ Организации А и вторые документы других организаций).
    2. Генерируется значение (PPS) для Организации А, указывающее на вероятность копирования контента.
    3. Это значение используется для определения того, следует ли индексировать первый документ как представительский (канонический) документ.

    Claims 2, 3 (Зависимые): Уточняют механизм применения. Использование PPS включает модификацию Quality Score первого документа. Модификация происходит путем преобразования PPS в коэффициент (factor) и использования этого коэффициента для снижения (reduce) исходного Quality Score.

    Где и как применяется

    Изобретение применяется на этапе индексирования и тесно связано с процессом каноникализации.

    CRAWLING – Сканирование и Сбор данных
    Система собирает документы и извлекает из них сигналы, необходимые для расчета исходных Quality Scores (например, ссылки) и определения кластеров дубликатов.

    INDEXING – Индексирование и извлечение признаков
    Этот этап включает два ключевых процесса, описанных в патенте:

    1. Обнаружение дубликатов и Расчет PPS (Офлайн/Пакетный режим): Компонент Duplicate Detector группирует документы в кластеры. Затем Proxy Pad Analyzer (в частности, Proxy Scorer) периодически анализирует эти кластеры и рассчитывает PPS для организаций. Эти оценки сохраняются.
    2. Каноникализация (Indexing Pipeline): Компонент Indexing Engine (в частности, Representative Selector) использует предварительно рассчитанные PPS для выбора канонического документа. Он модифицирует исходные Quality Scores документов с помощью PPS перед выбором представителя.
    3. Индексирование: Indexer включает в индекс только выбранного представителя.

    Входные данные:

    • Корпус просканированных документов и их связь с организациями (сайтами).
    • Идентификаторы кластеров дубликатов.
    • Исходные Quality Scores документов (например, PageRank).

    Выходные данные:

    • Proxy Pad Score (PPS) для каждой организации.
    • Выбранный канонический URL для каждого кластера дубликатов.

    На что влияет

    • Типы контента и ниши: Наибольшее влияние оказывается на ниши с высоким уровнем дублирования контента между доменами:
      • E-commerce: Использование стандартных описаний товаров от производителей.
      • Агрегаторы и Новости: Перепечатка новостных статей и пресс-релизов.
      • Скрейперы: Автоматическое копирование контента из любых источников.

    Когда применяется

    • Расчет PPS: Выполняется периодически в офлайн-режиме для обновления оценок организаций.
    • Применение PPS: Активируется в процессе индексации каждый раз, когда система обрабатывает кластер дубликатов, содержащий документы от разных организаций.
    • Условие активации пессимизации: Если PPS организации превышает определенный порог (в патенте упоминается порог в 70% от максимального диапазона PPS), система активирует механизм снижения Quality Score.

    Пошаговый алгоритм

    Алгоритм состоит из двух основных процессов.

    Процесс А: Расчет Proxy Pad Score (Офлайн)

    1. Идентификация документов и кластеров: Для Организации А идентифицируются все ее документы и кластеры дубликатов, к которым они принадлежат.
    2. Определение качества: Для всех документов во всех задействованных кластерах определяется Quality Score.
    3. Классификация (W/L/T): Каждый документ Организации А классифицируется для своего кластера:
      • Winner: Качество выше всех остальных организаций в кластере.
      • Loser: Качество ниже хотя бы одной другой организации в кластере.
      • Trivial: В кластере только документы Организации А.
    4. Расчет и Агрегация оценок: Рассчитываются и суммируются оценки по категориям для получения Total Winner Score (W), Total Loser Score (L) и Total Trivial Score (T). (L обычно отрицательное значение, равное разнице в качестве).
    5. Расчет Spam Score (Анализ разнообразия потерь):
      • Составляется и ранжируется список организаций, которым проиграла Организация А, по количеству проигрышей.
      • Определяется «Head» (сумма проигрышей топ-N организациям) и «Tail» (сумма проигрышей всем остальным).
      • Spam Score рассчитывается как отношение Tail/Head.
    6. Определение корректирующих факторов:
      • Фактор YY (множитель для L): Определяется на основе Spam Score (например, от 1 до 3). Чем выше Spam Score, тем больше YY.
      • Фактор XX (делитель для T): Константа для снижения веса тривиального контента (например, 2).
    7. Расчет Proxy Pad Score (PPS): Вычисляется итоговая оценка по формуле: PPS = T/XX + W + L*YY.
    8. Нормализация: PPS нормализуется (например, с использованием логарифмической шкалы) и приводится к заданному диапазону (например, 0-1000).

    Процесс Б: Применение PPS при индексации (Каноникализация)

    1. Идентификация кластера: Система обнаруживает кластер дубликатов.
    2. Ранжирование по качеству: Документы в кластере ранжируются по их исходному Quality Score.
    3. Получение PPS: Для каждого документа извлекается Proxy Pad Score связанной с ним организации.
    4. Модификация Quality Score:
      • Определяется фактор деления (Division Factor) на основе PPS (например, от 1 до 2). Если PPS ниже порога (например, 700 из 1000), фактор равен 1. Если выше — фактор увеличивается.
      • Исходный Quality Score делится на Division Factor.
    5. Переранжирование и Выбор представителя: Документ с наивысшим модифицированным Quality Score выбирается как канонический (Representative).
    6. Индексация: Канонический документ индексируется.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Содержимое документов используется для обнаружения дубликатов и формирования кластеров (content-based clustering).
    • Технические факторы: URL-адреса используются для идентификации организаций (домен, хост) и могут использоваться в предиктивной кластеризации (predictive clustering) и анализе редиректов.
    • Факторы качества (Quality Factors): Критически важные данные. Используется Quality Score. Патент явно упоминает link-based score (оценка на основе ссылок), но также допускает использование даты создания документа и сигналов спама.

    Какие метрики используются и как они считаются

    • Quality Score: Исходная метрика качества документа (например, PageRank).
    • Total Winner Score (W), Total Loser Score (L), Total Trivial Score (T): Агрегированные показатели качества и разниц в качестве по категориям.
    • Spam Score: Метрика разнообразия источников копирования. Рассчитывается как отношение Tail/Head. Высокий показатель означает проигрыш множеству разных сайтов.
    • Фактор YY: Множитель для L, основанный на Spam Score. Усиливает пессимизацию при высоком Spam Score (например, от 1 до 3).
    • Фактор XX: Делитель для T. Снижает влияние уникального контента, который скрейперы могут использовать для маскировки (например, 2).
    • Proxy Pad Score (PPS): Основная метрика патента. Формула: PPS = T/XX + W + L*YY.
    • Division Factor: Фактор, используемый на этапе индексации для снижения Quality Score. Выводится из PPS, если он превышает порог (например, в диапазоне от 1 до 2). Модифицированный Quality Score = Исходный Quality Score / Division Factor.

    Выводы

    1. Систематическое копирование измеряется и наказывается: Google имеет конкретный механизм (Proxy Pad Score) для количественной оценки того, насколько сайт полагается на чужой контент. Эта оценка вычисляется на уровне всей организации (домена), а не отдельных страниц.
    2. Качество (например, ссылки) не спасет скопированный контент: Даже если скрейпер привлечет ссылки на скопированную страницу, высокий PPS сайта активирует Division Factor, который снизит эффективный Quality Score этой страницы. Это нейтрализует влияние привлеченных ссылок при выборе канонической версии.
    3. Анализ разнообразия источников (Spam Score) критичен: Механизм Head/Tail является ключевым. Копирование контента у одного источника (например, при переезде домена) наказывается меньше (низкий Spam Score), чем копирование по одной странице с тысяч разных сайтов (высокий Spam Score).
    4. Защита оригинальных источников: Система активно защищает авторитетные сайты с оригинальным контентом. Их низкий PPS гарантирует, что их Quality Score не будет снижен, обеспечивая им победу в канонических битвах против скрейперов.
    5. Маскировка уникальным контентом ограничена: Снижение веса Total Trivial Score (фактор XX) направлено против тактики спамеров, которые смешивают скопированный контент с большим объемом уникального, но низкокачественного контента, чтобы казаться легитимными.

    Практика

    Best practices (это мы делаем)

    • Приоритет оригинального контента: Основной вывод — создание уникального, оригинального контента является лучшей защитой. Сайты с преимущественно оригинальным контентом будут иметь низкий PPS и выигрывать каноникализацию.
    • Повышение авторитетности (Quality Score): Необходимо работать над повышением исходного Quality Score (например, через качественные ссылки). Чем выше исходное качество, тем больше шансов выиграть кластер дубликатов (стать Winner), что улучшает PPS и гарантирует выбор вашей версии как канонической.
    • Управление синдикацией контента: Если вы синдицируете контент на другие сайты, убедитесь, что ваша оригинальная версия имеет более высокий Quality Score, чем версии партнеров. Использование rel=canonical рекомендуется, но данный патент показывает, что Google может определить оригинал алгоритмически и без этого тега.
    • Добавление ценности при агрегации: Если вы используете чужой контент (например, описания товаров), необходимо добавлять значительную уникальную ценность (обзоры, сравнения), чтобы система не считала страницу прямым дубликатом и классифицировала ее как Trivial.

    Worst practices (это делать не надо)

    • Массовый скрейпинг контента: Это прямая цель патента. Копирование контента из множества разных источников приведет к высокому Spam Score (большой Tail) и катастрофическому PPS, что сделает индексацию сайта практически невозможной.
    • Использование стандартных описаний без доработки: Сайты (особенно e-commerce), использующие только стандартные описания продуктов, рискуют получить высокий PPS, так как они будут постоянно проигрывать (Losers) более авторитетным магазинам или самому производителю.
    • Покупка ссылок на скопированный контент: Попытки искусственно завысить Quality Score скопированного контента неэффективны, так как Proxy Pad Score нейтрализует это преимущество на этапе каноникализации с помощью Division Factor.
    • Разбавление скопированного контента «водой»: Создание большого количества уникальных, но бесполезных страниц (Trivial) для маскировки скрейпинга не поможет, так как вес этих страниц в расчете PPS намеренно снижается (Фактор XX).

    Стратегическое значение

    Патент подтверждает стратегию Google по борьбе с дублированным контентом на уровне индексации. Он демонстрирует сложный механизм, позволяющий алгоритмически определить источник контента не по дате публикации, а по сравнительным сигналам качества и паттернам копирования в масштабах всего сайта. Для SEO это означает, что стратегии, основанные на неуникальном контенте, становятся все более рискованными и неэффективными в долгосрочной перспективе.

    Практические примеры

    Сценарий 1: E-commerce — Производитель против Скрейпера

    1. Контент: Описание продукта X.
    2. Участники:
      • Manufacturer.com (Оригинал). Исходный Quality Score = 80. PPS низкий (50/1000).
      • Scraper-Affiliate.com (Копия). Исходный Quality Score = 100 (за счет купленных ссылок). PPS высокий (900/1000).
    3. Процесс Индексации (Каноникализация):
      • Система идентифицирует дубликат.
      • Рассчитывается Division Factor. Для Manufacturer.com = 1. Для Scraper-Affiliate.com = 1.8 (из-за высокого PPS 900).
      • Модифицированный Quality Score:
        • Manufacturer.com: 80 / 1 = 80.
        • Scraper-Affiliate.com: 100 / 1.8 = 55.5.
    4. Результат: Manufacturer.com выбирается как канонический URL. Scraper-Affiliate.com не индексируется для этого контента, несмотря на более высокий исходный Quality Score.

    Сценарий 2: Расчет Spam Score для Новостного Агрегатора

    1. Сайт: NewsAggregator.com. Он копирует статьи из 100 разных источников.
    2. Анализ потерь (Losers): Он проигрывает всем 100 источникам по 10 раз (всего 1000 поражений).
    3. Расчет Head/Tail:
      • Список ранжируется. Все источники равны (по 10 потерь).
      • Head (Топ 3 источника): 10 + 10 + 10 = 30.
      • Tail (Остальные 97 источников): 97 * 10 = 970.
    4. Spam Score: 970 / 30 = 32.3. Это очень высокий показатель.
    5. Результат: Фактор YY будет максимальным (например, 3). Total Loser Score будет утроен при расчете PPS, что приведет к сильной пессимизации сайта.

    Вопросы и ответы

    Что такое «Proxy Pad Site» в контексте этого патента?

    Proxy Pad Site — это веб-сайт, основная деятельность которого заключается в копировании контента с других ресурсов. По сути, это скрейпер или низкокачественный агрегатор. Цель таких сайтов — попытаться проиндексировать чужой контент и привлечь трафик, часто используя манипулятивные техники, например, покупку ссылок на скопированные страницы.

    Что подразумевается под «Quality Score» в патенте?

    Quality Score — это общая метрика качества документа, используемая для сравнения дубликатов. Патент явно упоминает link-based score (оценка на основе ссылок), что предполагает использование метрик типа PageRank. Однако также упоминается возможность использования даты создания документа или сигналов спама в качестве Quality Score.

    Как рассчитывается «Spam Score» и почему он важен?

    Spam Score анализирует, кому именно сайт проигрывает в качестве. Система ранжирует все сайты-победители и делит их на «Head» (несколько сайтов, которым проиграли больше всего раз) и «Tail» (все остальные сайты). Spam Score = Tail/Head. Если сайт проигрывает множеству разных сайтов (высокий Tail), это сильный индикатор массового скрейпинга. Высокий Spam Score значительно увеличивает общий штраф (PPS).

    Означает ли это, что ссылки не имеют значения, если контент скопирован?

    Они имеют значение, так как формируют исходный Quality Score. Однако, если система определяет, что сайт является Proxy Pad (имеет высокий PPS), то влияние этих ссылок будет значительно снижено или полностью нейтрализовано с помощью Division Factor на этапе каноникализации. Таким образом, для скопированного контента ссылки становятся гораздо менее эффективными.

    Как этот механизм влияет на легитимную синдикацию контента?

    Легитимная синдикация (копирование с разрешения, обычно из одного или нескольких источников) затрагивается в меньшей степени, так как Spam Score будет низким (низкий Tail). Однако создателю оригинала критически важно иметь более высокий Quality Score, чем у партнера, или использовать rel=canonical, чтобы гарантировать каноникализацию на себя.

    В чем разница между Winner, Loser и Trivial?

    Это классификация результата сравнения качества внутри кластера дубликатов. Winner — ваш документ имеет наивысшее качество среди всех дубликатов на других сайтах. Loser — есть хотя бы один дубликат на другом сайте качественнее вашего. Trivial — ваш документ уникален или все дубликаты находятся на вашем же сайте.

    Насколько агрессивно PPS снижает рейтинг скопированного контента?

    Достаточно агрессивно. Патент описывает использование Division Factor (фактора деления) в диапазоне от 1 до 2. Это означает, что для сайта, идентифицированного как явный скрейпер, его исходный Quality Score может быть уменьшен вдвое при выборе канонической версии.

    Proxy Pad Score рассчитывается в реальном времени?

    Нет. Расчет Proxy Pad Score — это ресурсоемкий офлайн-процесс (Процесс А), который анализирует весь сайт и множество кластеров дубликатов. Однако применение PPS (Процесс Б) происходит во время индексации и каноникализации, используя предварительно рассчитанные оценки.

    Что делать сайтам-агрегаторам в контексте этого патента?

    Агрегаторы, которые собирают контент из множества источников, находятся в зоне риска (высокий Tail). Чтобы выжить, агрегатор должен либо иметь значительно более высокий Quality Score, чем источники, либо добавлять существенную уникальную ценность, чтобы его контент не считался прямым дубликатом (и классифицировался как Trivial).

    Где применяется этот алгоритм: при индексации или при ранжировании?

    Он применяется строго при индексации, на этапе выбора канонической версии (Representative Selection). Proxy Pad Score определяет, попадет ли документ в индекс вообще. Если документ не выбран как канонический, он не сможет участвовать в ранжировании.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.