
Google использует механизм для борьбы с сайтами, которые массово копируют контент (Proxy Pads). Система анализирует, как часто контент сайта проигрывает дубликатам с других сайтов по метрикам качества. На основе этого вычисляется «Proxy Pad Score». Если оценка плохая, сайт пессимизируется на этапе индексации при выборе канонической версии, снижая вероятность попадания скопированного контента в индекс.
Патент решает проблему идентификации и нейтрализации так называемых Proxy Pad Sites. Это сайты или организации, чья основная цель — копирование контента с других ресурсов. Спамеры используют такие сайты, пытаясь искусственно повысить их ранг (например, с помощью ссылок), чтобы добиться их индексации. Изобретение направлено на то, чтобы предотвратить выбор контента с Proxy Pad Sites в качестве канонической (представительской) версии при обработке дубликатов, тем самым улучшая качество индекса и защищая оригинальные источники.
Запатентована система для вычисления оценки Proxy Pad Score (PPS) на уровне организации (например, веб-сайта). Эта оценка отражает вероятность того, что организация систематически копирует контент. PPS рассчитывается путем анализа всех документов организации и сравнения их Quality Scores (оценок качества) с Quality Scores дублирующегося контента на других сайтах. Полученный PPS затем используется на этапе индексации для пессимизации документов с высоким (плохим) PPS при выборе представительного документа (representative document) из кластера дубликатов.
Система работает в два основных этапа:
Этап 1: Расчет Proxy Pad Score (Офлайн)
Quality Scores. Определяется статус документа: "Победитель" (Winner), "Проигравший" (Loser) или "Тривиальный" (Trivial).Spam Score, который анализирует разнообразие сайтов, которым организация проиграла. Проигрыш множеству разных сайтов усиливает негативный сигнал.Proxy Pad Score (PPS) с учетом поправок.Этап 2: Применение PPS (Индексация/Каноникализация)
PPS для участвующих организаций.Quality Scores документов, принадлежащих организациям с высоким PPS, искусственно занижаются (модифицируются).Высокая. Борьба с дублированным, скопированным и автоматически сгенерированным контентом остается приоритетом для Google. Процесс каноникализации критически важен для качества индекса. Описанный механизм предоставляет системный подход к идентификации источников неоригинального контента и их исключению из индекса на этапе выбора канонической версии, что полностью соответствует современным требованиям к качеству контента.
Патент имеет высокое значение (8/10) для SEO, особенно для стратегий, связанных с агрегацией контента, синдикацией и электронной коммерцией. Он демонстрирует, что Google анализирует оригинальность контента на уровне всего сайта (организации) и использует эту оценку (Proxy Pad Score) как мощный фактор при каноникализации. Сайты, полагающиеся на неуникальный контент, рискуют систематически проигрывать в выборе канонической версии и, как следствие, терять возможность индексации и ранжирования.
Spam Score: небольшое количество организаций, которым анализируемый сайт проиграл наибольшее количество раз.Quality Score ниже, чем Quality Score хотя бы одного документа другой организации в этом же кластере.Proxy Pad. Используется для модификации Quality Score при выборе представительного документа.link-based score) или включать другие сигналы (дата создания, вероятность спама и т.д.).PPS. Отражает разнообразие источников, с которых организация копирует контент (проигрывает им). Рассчитывается как отношение Tail/Head.Spam Score: большое количество организаций, которым анализируемый сайт проиграл небольшое количество раз.Quality Score выше, чем у всех остальных документов других организаций в этом кластере.Патент описывает два основных процесса: расчет Proxy Pad Score и его применение при индексации.
Claim 1 (Независимый пункт): Описывает комплексный метод обнаружения и обработки Proxy Pads.
Quality Score для каждого документа в кластерах.Quality Score первого документа, чем у вторых документов.Proxy Pad Score (PPS) для организации на основе этих определений. PPS указывает на вероятность того, что организация копирует контент.Quality Score первых документов модифицируется на основе PPS.Quality Scores.Claim 6 (Зависимый от 3): Детализирует механизм учета спама (разнообразия источников копирования) при расчете PPS.
Loser).Spam Score.Total Loser Score) увеличивается на основе Spam Score перед расчетом финального PPS.Claim 9 (Зависимый от 8): Детализирует учет уникального контента (Trivial) и противодействие тактике «разбавления».
Total Trivial Score) уменьшается на определенную величину.Winner и Loser для генерации PPS. Это сделано для того, чтобы спамеры не могли компенсировать скопированный контент большим объемом уникального контента.Claim 27 (Независимый пункт): Описывает процесс применения Proxy Pad Score во время каноникализации.
Quality Score) для каждого документа.Proxy Pad Score организации, которой он принадлежит.Изобретение применяется в рамках глобального конвейера индексирования.
CRAWLING – Сканирование и Сбор данных
Crawler Engine собирает документы, которые являются источником данных для системы.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Он включает несколько подпроцессов:
Quality Scores (например, на основе ссылок) для документов.Duplicate Detector анализирует контент или использует предиктивную кластеризацию для группировки документов в Duplicate Clusters.Proxy Pad Analyzer (в частности, Proxy Scorer) использует данные о кластерах и Quality Scores для расчета Proxy Pad Score (PPS) для организаций. Это ресурсоемкий офлайн-процесс.Representative Selector обрабатывает кластеры дубликатов. Он извлекает заранее рассчитанный PPS и использует его для модификации (понижения) Quality Scores документов. Затем он выбирает Representative Document.Indexer включает в поисковый индекс только выбранный Representative Document.Входные данные:
Quality Scores для документов (например, PageRank или аналоги).Выходные данные:
Proxy Pad Score (PPS) для каждой организации.Representative Document (канонический URL) для каждого кластера.Proxy Pad Score организации превышает определенный порог (в патенте предлагается порог в 70% от максимального нормализованного значения PPS).Процесс А: Расчет Proxy Pad Score (Офлайн)
Quality Scores.Winner: Если Quality Score документа A.com самый высокий в кластере.Loser: Если Quality Score документа A.com ниже, чем у документа другой организации.Trivial: Если в кластере только документы A.com.Total Winner Score (W): Сумма Quality Scores всех Winners.Total Loser Score (L): Сумма разниц между Quality Score проигравшего и Quality Score победителя для всех Losers (отрицательное значение).Total Trivial Score (T): Сумма Quality Scores всех Trivials.Head (Топ-N организаций, которым проиграли чаще всего) и Tail (остальные).Spam Score рассчитывается как соотношение суммы проигрышей в Tail к сумме проигрышей в Head. Высокий балл указывает на копирование из множества источников.Spam Score (например, от 1 до 3), чтобы увеличить вес поражений при высоком Spam Score.PPS может быть подвергнут логарифмической операции и нормализован (например, в диапазон 0-1000).Процесс Б: Применение Proxy Pad Score (Индексация/Каноникализация)
Duplicate Cluster.Quality Scores.Proxy Pad Score его организации.PPS конвертируется в коэффициент понижения. Если PPS высокий (например, >70% от максимума), фактор может варьироваться от 1 до 2. Если низкий, фактор равен 1.Quality Score документа делится на этот фактор. .Modified Score выбирается как Representative Document (канонический).Duplicate Clusters (content-based clustering).predictive clustering). Данные о хостинге/домене используются для идентификации Organization.Quality Score документа. Патент прямо указывает на link-based score.Quality Score.Loser Score рассчитывается как сумма разниц между оценкой проигравшего и победителя в кластере.Spam Score указывает на копирование из множества разных источников.Total Trivial Score (например, 2).Total Loser Score, определяется на основе Spam Score (например, от 1 до 3).PPS (например, от 1 до 2). Используется для понижения Quality Score документа во время индексации.Proxy Pad Score — это метрика на уровне организации, основанная на анализе поведения сайта в кластерах дубликатов по всему интернету.Proxy Pad Score используется для модификации Quality Score во время выбора канонического представителя. Это механизм контроля индексации: если сайт не выбран каноническим, он не может ранжироваться по данному контенту.Spam Score и приводит к более агрессивной пессимизации (увеличение веса Loser Score). Это позволяет отличать скрапинг от легитимного дублирования (например, переезда сайта).Trivial) учитывается, но его вес намеренно снижается (коэффициент XX). Это сделано для того, чтобы спамеры не могли компенсировать скопированный контент большим объемом уникального, но низкокачественного контента.Quality Score документа вплоть до 50% (деление на 2) при выборе канонической версии, если сайт имеет очень высокий (плохой) Proxy Pad Score.Loser. Создание оригинального контента является лучшей защитой. Если контент дублируется (например, описания товаров), необходимо добавлять значительную уникальную ценность.Quality Score, необходимо наращивать авторитет сайта (например, через качественные ссылки). Высокий базовый Quality Score позволяет «выигрывать» в кластерах дубликатов, если ваш контент был скопирован.rel="canonical", указывающего на ваш оригинал. Это помогает системе правильно определить источник и избежать нежелательной конкуренции в кластере дубликатов.Loser исходы.Spam Score (соотношение Tail/Head) и получат высокий Proxy Pad Score, что приведет к исключению их контента из индекса.Trivial Score неэффективны, так как патент предусматривает снижение веса Trivial Score (коэффициент XX).Quality Score скопированного контента рискованны. Даже если удастся превзойти оригинал по базовому Quality Score, высокий Proxy Pad Score может нивелировать это преимущество на этапе каноникализации.Патент подтверждает стратегическую важность уникальности и авторитетности контента. Он демонстрирует, что Google рассматривает копирование контента как характеристику всего сайта (организации), а не только отдельных страниц. Для SEO-стратегии это означает, что управление дубликатами и создание уникальной ценности являются критически важными не только для ранжирования, но и для базовой возможности присутствия в индексе. Систематическое копирование контента приводит к технической пессимизации на уровне инфраструктуры индексирования.
Сценарий 1: Электронная коммерция и описания товаров
Quality Score. Магазин А и Производитель В получают статус Loser.Total Loser Score и высокий Spam Score.Quality Scores. Quality Score Магазина А дополнительно снижается из-за его плохого PPS.Сценарий 2: Сайт-агрегатор рецептов против оригинальных блогов
Loser) сотням разных блогов. Head будет небольшим, а Tail огромным. Spam Score (Tail/Head) будет очень высоким.Spam Score значительно увеличит вес поражений (коэффициент YY). PPS будет плохим.Quality Score (QS=100) выше, чем у блога (QS=80). Из-за плохого PPS у агрегатора применяется Division Factor (например, 1.8). Модифицированный QS агрегатора = 100/1.8 = 55.5.Влияет ли Proxy Pad Score напрямую на ранжирование?
Нет, напрямую не влияет. Патент описывает использование Proxy Pad Score исключительно на этапе индексации для выбора канонической версии (Representative Document). Однако это имеет критическое косвенное влияние: если ваша страница не выбрана канонической из-за плохого PPS, она не будет проиндексирована и, следовательно, не сможет ранжироваться по этому контенту.
Как система определяет Quality Score, упоминаемый в патенте?
Патент не дает точного определения, но приводит в качестве основного примера оценку, основанную на ссылках (link-based score), что подразумевает PageRank или аналогичные метрики авторитетности. Также кратко упоминается возможность использования других сигналов, таких как дата создания документа или предсказание того, является ли документ спамом.
Как система отличает переезд сайта или легитимное зеркало от скрапинга?
Это достигается с помощью механизма Spam Score (анализ Head/Tail). Если сайт А копирует много контента, но весь он взят с сайта Б (переезд), то сайт Б будет в Head, а Tail будет пустым. Spam Score (Tail/Head) будет низким, и пессимизация будет минимальной. Если же сайт А копирует понемногу с сотен разных сайтов (высокий Tail), Spam Score будет высоким, что является сильным индикатором скрапинга и приведет к сильной пессимизации.
Что делать, если мой контент скопировали, и скрапер ранжируется выше меня?
Это означает, что скрапер был выбран канонической версией. Согласно патенту, это может произойти, если базовый Quality Score скрапера значительно выше вашего, и при этом его Proxy Pad Score еще не успел ухудшиться или недостаточно плох, чтобы нивелировать это преимущество. Ваша стратегия должна заключаться в повышении собственного Quality Score (авторитетности сайта).
Как безопасно синдицировать контент, не ухудшая Proxy Pad Score?
Ключевым моментом является использование технических сигналов каноникализации. Если вы публикуете чужой контент, необходимо использовать rel="canonical", указывающий на оригинал. Это должно помочь системе правильно атрибутировать контент и защитить вас от получения статуса Loser по этому документу.
Почему система снижает вес уникального контента (Trivial Score)?
Патент предполагает, что спамеры могут пытаться обмануть систему, смешивая скопированный контент с большим количеством уникального контента (например, автоматически сгенерированного или низкокачественного). Снижение веса Trivial Score (деление на коэффициент XX) уменьшает положительный вклад этого уникального контента в общий Proxy Pad Score, не позволяя маскировать копирование.
Насколько сильно может быть пессимизирован документ из-за Proxy Pad Score?
Согласно патенту, пессимизация реализуется через коэффициент деления (Division Factor), который может достигать значения 2. Это означает, что Quality Score документа может быть уменьшен вдвое перед сравнением с другими документами в кластере дубликатов при выборе канонической версии.
Применяется ли этот механизм к частичному дублированию контента (near-duplicates)?
Патент говорит о дубликатах или "существенных дубликатах" (substantially duplicated). Если система кластеризации определяет два документа как существенные дубликаты и помещает их в один кластер, то описанный механизм будет применен. Если же контент достаточно отличается, они не попадут в один кластер.
Как этот патент влияет на сайты электронной коммерции, использующие стандартные описания?
Такие сайты находятся в зоне риска. Если они используют идентичные описания и не имеют достаточного авторитета (Quality Score), они будут систематически проигрывать более крупным ритейлерам или производителям. Это приведет к плохому Proxy Pad Score и риску исключения страниц товаров из индекса. Критически важно добавлять уникальный контент и ценность.
Может ли авторитетный сайт быть классифицирован как Proxy Pad?
Теоретически да, если он систематически копирует контент и проигрывает в кластерах дубликатов (например, если он копирует контент у еще более авторитетных сайтов). Однако высокий базовый Quality Score авторитетного сайта дает ему значительное преимущество. Чтобы его пессимизировать, Proxy Pad Score должен быть очень плохим, чтобы преодолеть высокий базовый авторитет.

Индексация
Антиспам
Техническое SEO

Ссылки
Антиспам
EEAT и качество

Индексация
Краулинг
Техническое SEO

Антиспам
Ссылки
Техническое SEO

EEAT и качество
SERP
Поведенческие сигналы

Семантика и интент
Ссылки
SERP

Ссылки
Поведенческие сигналы
Мультимедиа

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
Техническое SEO
EEAT и качество

Поведенческие сигналы
Мультимедиа
Семантика и интент

SERP
Семантика и интент
EEAT и качество

Персонализация
Индексация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Антиспам
SERP
Ссылки

Свежесть контента
Ссылки
Техническое SEO
