
Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.
Патент решает проблему надежного обнаружения похожих или почти дублирующихся документов (near duplicate documents) в условиях, когда текст может быть намеренно изменен (например, в спам-рассылках, при плагиате или рерайтинге). Существовавшие методы имели уязвимости:
Изобретение направлено на создание метода, который учитывает порядок слов, но устойчив к локальным изменениям текста.
Запатентован метод обнаружения сходства документов, основанный на анализе относительного порядка термов. Документ характеризуется как «кластер» (cluster), состоящий из набора упорядоченных пар термов (pairs of ordered terms). Пара (U, V) означает, что терм U предшествует терму V в документе, но они не обязательно должны быть последовательными. Сходство определяется путем сравнения количества общих упорядоченных пар между новым документом и существующими кластерами.
Система работает в двух режимах:
1. Построение модели (Индексация):
cluster путем выборки (sampling) упорядоченных пар слов. Выборка является случайной, но смещенной (biased) – например, предпочтение отдается близко расположенным словам и редким словам.Inverted Index), который связывает каждую уникальную пару с кластерами (документами), в которых она встречается.2. Проверка сходства (Сравнение):
enumerate) его собственные пары слов (например, все пары в пределах фиксированного окна).Inverted Index для выявления существующих кластеров, содержащих те же пары.similarity metric). Если она превышает порог, документы считаются похожими или дубликатами.Высокая. Обнаружение дублированного, переписанного (spun) и автоматически сгенерированного контента остается критически важной задачей для Google. Описанный механизм обеспечивает устойчивый способ идентификации структурного сходства контента, который сложнее обойти, чем простые методы сравнения текста. Принципы, заложенные в патенте, лежат в основе систем каноникализации и борьбы с контент-спамом.
Патент имеет высокое значение для SEO (8.5/10), особенно в области контент-стратегии и технического SEO. Он объясняет, как поисковые системы могут идентифицировать неоригинальный контент, даже если он был подвергнут значительному рерайтингу или спиннингу. Понимание этого механизма подчеркивает бесполезность простого переписывания контента и важность создания уникальной структуры и добавленной ценности для избежания проблем с дублированием и индексацией.
fixed window size).randomly sampling), но смещенной (biased).Inverted Index и опционально Table of Pairs.Claim 1 (Независимый пункт): Описывает основной метод определения сходства.
randomly sampling) упорядоченных пар термов из документа для генерации кластера.biased). Смещение реализовано так, что термы, расположенные ближе друг к другу (меньше промежуточных слов), имеют больший шанс быть включенными в пару.similarity model), включающую этот кластер.similarity metrics).Ядром изобретения является использование упорядоченных, но непоследовательных пар в сочетании со смещенной выборкой, предпочитающей близость. Это обеспечивает баланс между устойчивостью к локальным изменениям и чувствительностью к структуре документа.
Claim 5 и 6 (Зависимые): Детализируют дополнительные смещения при выборке. Выборка предпочитает редкие (rare) термы (Claim 5), но исключает очень редкие (very rare) термы (Claim 6).
Редкие термы более информативны для определения темы документа. Очень редкие термы часто являются шумом (например, случайные символы, добавляемые спамерами), и их исключение повышает устойчивость к манипуляциям.
Claim 9 (Зависимый): Описывает процесс сравнения (comparing). При сравнении целевого документа с моделью система перечисляет пары из целевого документа так, что термы в паре находятся в пределах фиксированного расстояния (fixed distance) друг от друга (использование окна).
Claim 10 (Независимый пункт): Описывает устройство (similarity detection device), реализующее метод, включая компонент создания кластеров (с тем же смещением по близости, что и в Claim 1), Inverted Index, компонент перечисления пар и компонент выбора кластеров.
Изобретение применяется преимущественно на этапах индексирования для обеспечения качества контента и эффективности системы.
CRAWLING – Сканирование и Сбор данных
Обнаружение дубликатов может использоваться для оптимизации краулингового бюджета, предотвращая повторное сканирование или загрузку уже известного контента.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. Система используется для:
sampling) и обновление Inverted Index для новых документов.similarity model. Если обнаружено высокое сходство, новый документ может быть отброшен, объединен с существующим или использован для выбора канонической версии.RANKING / RERANKING – Ранжирование и Переранжирование
На этапе формирования выдачи система может использовать данные о сходстве для обеспечения разнообразия SERP, предотвращая показ нескольких почти идентичных результатов (near duplicate documents) одному пользователю.
Входные данные:
Inverted Index, Table of Pairs).Выходные данные:
Similarity metrics) между документами.Алгоритм применяется в двух основных сценариях:
Условия срабатывания:
similarity metric (количество или процент общих упорядоченных пар) между двумя документами превышает заданный порог.Процесс А: Построение модели сходства (Индексация)
Inverted Index обновляется, чтобы включить ссылки на новый кластер для каждой выбранной пары.Table of Pairs обновляется, чтобы отразить общее количество пар в новом кластере.Процесс Б: Проверка сходства документа
fixed window size) (Claim 9).Inverted Index для получения списка кластеров, содержащих эту пару.Метрики выборки (Sampling Biases):
Метрики сходства (Similarity Metrics):
Table of Pairs.Пороговые значения (Thresholds):
Similarity Metric.rel=canonical) для управления дубликатами (например, параметры URL, версии для печати). Это помогает системе консолидировать сигналы ранжирования на правильной версии.Similarity Metric.Патент подтверждает, что Google обладает сложными механизмами для понимания оригинальности контента на структурном уровне. Это подчеркивает стратегическую необходимость инвестиций в создание действительно уникального и ценного контента. Стратегии, основанные на массовом производстве низкокачественного или переработанного контента, несут высокие риски, так как такой контент может быть классифицирован как дублирующийся. Для SEO-специалистов это означает, что оценка уникальности должна включать анализ структуры и добавленной ценности.
Сценарий: Обнаружение рерайтинга статьи
Чем этот метод отличается от метода шинглов (Shingling)?
Метод шинглов анализирует строго последовательные цепочки слов. Если изменить одно слово в цепочке или поменять слова местами (например, «быстрый коричневый лис» на «коричневый быстрый лис»), шингл разрушается. Описанный в патенте метод использует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет обнаруживать сходство, даже если текст был локально изменен, пока общий относительный порядок ключевых слов сохраняется.
Насколько эффективен этот метод против автоматического спиннинга статей?
Он высокоэффективен против стандартного спиннинга, который основан на замене синонимов и перестановке фраз. Поскольку структура документа и последовательность основных идей (и, следовательно, порядок ключевых термов) при спиннинге часто сохраняются, система обнаружит высокую метрику сходства. Для обхода этого метода требуется глубокий рерайтинг, который полностью перестраивает структуру документа.
Что значит «смещенная выборка» (biased sampling) пар и почему она важна?
Это означает, что система не выбирает пары слов случайно, а использует правила для повышения точности. Во-первых, предпочтение отдается словам, которые находятся ближе друг к другу в тексте (Claim 1). Во-вторых, предпочтение отдается более редким (информативным) словам, но игнорируются очень редкие (шум) (Claims 5, 6). Это позволяет создать точный и устойчивый к манипуляциям отпечаток документа.
Как знание о предпочтении близко расположенных пар влияет на создание контента?
Это подчеркивает важность уникальности на уровне предложений и параграфов. Если вы берете чужой параграф и меняете в нем несколько слов, связи между оставшимися словами (которые находятся близко друг к другу) сохранятся. Чтобы создать уникальный контент, нужно не просто менять слова, а перестраивать сами связи между ними, меняя структуру изложения.
Влияет ли этот патент на каноникализацию (Canonicalization)?
Да, напрямую. Этот механизм является одним из инструментов, которые Google использует для идентификации дубликатов. Если система обнаруживает несколько страниц с высокой метрикой сходства, она запускает процесс каноникализации для выбора одной версии для индексации и ранжирования.
Эффективно ли добавлять «воду» или случайный текст для уникализации контента?
Нет. Патент предусматривает механизмы защиты от этого. Система может смещать выборку в сторону редких (значимых) слов, игнорируя частые. Также она может исключать «очень редкие» слова, которые часто являются случайным шумом. Кроме того, выборка может фокусироваться на основной части документа (например, верхней средней части), игнорируя шум в начале или конце.
Как этот патент влияет на использование шаблонного текста (boilerplate) на сайте?
Он оказывает значительное негативное влияние. Если большая часть страницы состоит из повторяющегося шаблонного текста (например, обширные футеры, сайдбары), а уникальный контент занимает малую часть, то разные страницы сайта могут быть признаны структурно похожими (near-duplicates). Необходимо следить за тем, чтобы объем уникального контента значительно превышал объем шаблонного.
Применяется ли этот метод только к целым документам?
Нет. В патенте упоминается возможность применения метода к сегментам документа, например, к отдельным параграфам. Это позволяет использовать систему для обнаружения частичного плагиата или документов, скомпилированных из разных источников.
Как лучше всего обеспечить уникальность контента с точки зрения этого патента?
Необходимо обеспечить уникальность на структурном уровне. Это означает использование уникальной последовательности изложения, включение новых данных, сущностей и примеров, а также глубокую переработку информации. Контент должен иметь уникальный набор упорядоченных пар ключевых термов, а не просто уникальные формулировки предложений.
Актуален ли этот метод в эпоху нейронных сетей и эмбеддингов?
Да, концептуально он актуален. Хотя современные методы могут генерировать сложные векторные представления (эмбеддинги) для оценки семантического сходства, методы структурного сравнения, подобные описанному, по-прежнему полезны для быстрого и эффективного обнаружения точных или почти точных дубликатов в масштабах веба. Они часто используются как часть многоступенчатого процесса дедупликации.

Индексация
Ссылки

Свежесть контента
EEAT и качество

Индексация

Индексация

Индексация
Мультимедиа

Семантика и интент
SERP
Персонализация

Персонализация
Поведенческие сигналы
Антиспам

Ссылки
Индексация
Техническое SEO

Семантика и интент
Поведенческие сигналы

Ссылки
Поведенческие сигналы
Мультимедиа

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы

Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам
