
Google использует механизм для обнаружения дубликатов и почти дубликатов контента. Система анализирует, какие семантически связанные фразы (related phrases) содержатся в документе. Затем она выбирает несколько ключевых предложений с наибольшей концентрацией этих фраз для создания уникальной сигнатуры документа. Если сигнатуры двух документов совпадают, они считаются дубликатами и удаляются из индекса или поисковой выдачи.
Патент решает проблему наличия множественных копий одного и того же документа или почти идентичных документов в большом корпусе (например, в Интернете). Включение дубликатов в результаты поиска снижает разнообразие выдачи и ухудшает пользовательский опыт. Система направлена на эффективное обнаружение и устранение этих дубликатов как на этапе индексирования, так и при формировании результатов поиска.
Запатентован метод обнаружения дубликатов, основанный на сравнении семантических сигнатур документов. Сигнатура (document description) генерируется путем выбора ключевых предложений документа, которые содержат наибольшее количество семантически связанных фраз (related phrases). Если сигнатуры двух документов совпадают, они идентифицируются как дубликаты.
Система функционирует на базе инфраструктуры, которая идентифицирует значимые фразы (good phrases) и определяет семантические связи между ними (related phrases) на основе показателя Information Gain (отношение фактической частоты совместной встречаемости к ожидаемой).
Процесс обнаружения дубликатов включает:
related phrases, присутствующих в документе.related phrases.document description.PageRank), а остальные удаляет из индекса или результатов поиска.Высокая. Борьба с дублированным контентом остается критически важной задачей для поддержания качества и разнообразия поисковой выдачи. Описанный механизм предлагает семантический подход к выявлению дубликатов, который сложнее обойти, чем простое сравнение текста. Учитывая развитие NLP и акцент Google на понимании контента, использование фразовых и семантических сигнатур для управления индексом крайне актуально.
Патент имеет высокое стратегическое значение для SEO (8.5/10). Он раскрывает механизм, с помощью которого Google определяет уникальность контента не на уровне слов, а на уровне концентрации семантически связанных концепций (related phrases) в ключевых предложениях. Это напрямую влияет на стратегии создания контента, синдикации и рерайтинга, подчеркивая необходимость создания подлинной семантической уникальности для успешного индексирования и ранжирования.
related phrases. Используется как уникальная сигнатура для обнаружения дубликатов.Information Gain указывает на сильную связь.Information Gain между ними превышает определенный порог. Это означает, что появление одной фразы в документе значительно увеличивает вероятность появления другой.PageRank приводится в патенте как пример (Claim 4). Используется для выбора канонической версии среди дубликатов.Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов.
document description первого документа с document description второго документа.document description: это выбранный набор предложений документа, которые отобраны и упорядочены в зависимости от количества related phrases в этих предложениях.related phrase: фраза g(j) связана с фразой g(k), если Information Gain между ними превышает порог. Information Gain определяется как функция фактической и ожидаемой частоты совместной встречаемости.Ядро изобретения — использование семантической сигнатуры, основанной на концентрации связанных концепций в ключевых предложениях, для выявления концептуальных, а не только текстуальных дубликатов.
Claim 2 (Зависимый от 1): Уточняет применение метода к результатам поиска.
Claim 3 и 4 (Зависимые от 2): Уточняют критерии выбора документа для исключения. Исключается документ с более низким показателем значимости (document significance measure). Claim 4 уточняет, что этот показатель может включать PageRank.
Claim 6 (Зависимый от 1): Детализирует процесс генерации document description. Для каждого документа описание генерируется путем выбора предложений и их упорядочивания в зависимости от количества related phrases в них.
Claim 11 и 12 (Зависимые): Описывают способ хранения и сравнения сигнатур. Предложения в document description конкатенируются, вычисляется хэш-значение. Сравнение описаний происходит путем сравнения их хэш-значений.
Изобретение может применяться на двух ключевых этапах поисковой архитектуры.
CRAWLING и INDEXING – Сканирование, Сбор данных и Индексирование
Механизм используется для поддержания чистоты индекса. При сканировании нового документа (Claim 9) система генерирует его document description (сигнатуру) на основе related phrases. Эта сигнатура сравнивается с сигнатурами уже проиндексированных документов. Если обнаружен дубликат, новый документ может быть отброшен (Claim 5), или может быть выбрана более авторитетная версия.
RERANKING – Переранжирование
Механизм применяется к набору документов, отобранных на этапе RANKING (Claim 2). Перед показом пользователю система анализирует результаты поиска для выявления дубликатов. Сигнатуры документов сравниваются, и дубликаты удаляются из финальной выдачи (SERP), чтобы повысить ее разнообразие.
Предварительные вычисления (INDEXING): Для работы этого механизма система должна предварительно рассчитать данные о фразах в масштабе всего корпуса: идентифицировать Good Phrases, рассчитать Information Gain и определить Related Phrases.
Входные данные:
Information Gain (Related Phrases).PageRank).Выходные данные:
Document Description).Document Descriptions) двух документов.Процесс А: Генерация сигнатуры документа (Document Description Generation)
Good Phrases и Related Phrases.Related Phrases в предложение.Related Phrases.Document Description.Процесс Б: Обнаружение и устранение дубликатов
PageRank). Документ с наивысшим показателем сохраняется.Патент фокусируется на использовании фразовой информации и структуры документа.
Good Phrases.Related Phrases и значениях Information Gain.document significance measure (Claim 3) и PageRank (Claim 4) как критерии для выбора версии документа при обнаружении дубликатов.Related Phrases, содержащихся в предложении. Используется для ранжирования предложений при создании сигнатуры.Document Description. Используется для быстрого сравнения сигнатур.related phrases (концепциях), а не просто на совпадении слов. Это означает, что документы с разным текстом, но одинаковым набором ключевых концепций в основных предложениях могут быть признаны дубликатами.related phrases. Это "смысловое ядро" документа.PageRank). Авторитетность является решающим фактором при выборе канонической версии.related phrases в ваших ключевых предложениях отличаются от контента конкурентов или других страниц вашего сайта. Добавляйте новую ценность, а не просто переписывайте текст.document description) и подтверждает релевантность контента.related phrases) в ключевых предложениях, неэффективны против этого механизма. Если смысловое ядро остается прежним, система идентифицирует такой контент как дубликат.related phrases в ключевых предложениях, увеличивает риск их классификации как внутренних дубликатов.Патент подтверждает, что Google анализирует контент на глубоком семантическом уровне, используя совместную встречаемость фраз для понимания тем и выявления уникальности. Это подчеркивает переход от анализа ключевых слов к анализу тем и концепций (related phrases). Для SEO-стратегии это означает, что уникальность контента — это не технический показатель (процент уникальности текста), а семантический показатель (уникальность набора и концентрации связанных идей).
Сценарий: Выявление поверхностного рерайтинга статьи о "Кето диете"
related phrases: "кетоз", "низкое потребление углеводов", "высокое потребление жиров", "потеря веса", "инсулин". Ключевые предложения насыщены этими фразами. Система генерирует Сигнатуру А.related phrases в Документе Б идентичен Документу А.Как система определяет, какие фразы являются "связанными" (Related Phrases)?
Связь определяется с помощью метрики Information Gain. Система анализирует весь корпус документов и вычисляет, насколько часто две фразы встречаются вместе по сравнению с тем, как часто они встречаются по отдельности. Если фактическая совместная встречаемость значительно превышает ожидаемую (т.е. Information Gain выше порога), фразы считаются связанными. Это статистический, а не ручной процесс.
Означает ли этот патент, что техническая уникальность текста больше не важна?
Техническая уникальность остается важной, но ее недостаточно. Патент показывает, что Google стремится определить семантическую уникальность. Если вы перепишете текст, но сохраните тот же набор связанных концепций (related phrases) в ключевых предложениях, система может сгенерировать идентичную сигнатуру и признать контент дубликатом.
Как генерируется сигнатура документа для выявления дубликатов?
Система ранжирует все предложения в документе по количеству содержащихся в них related phrases. Затем она выбирает Топ-N (например, 5-10) предложений с наибольшим количеством таких фраз. Эти предложения объединяются и формируют сигнатуру (document description), которая часто хэшируется для быстрого сравнения.
Что произойдет, если мой контент украдут и опубликуют на более авторитетном сайте?
Согласно патенту, если система идентифицирует два документа как дубликаты (на основе совпадения сигнатур), она сравнивает их показатели значимости, такие как PageRank. Версия на более авторитетном сайте, вероятно, будет сохранена, а ваша версия может быть исключена. Это подчеркивает важность быстрого индексирования и построения авторитетности вашего ресурса.
Как этот механизм влияет на каннибализацию контента внутри одного сайта?
Он может усугубить проблемы каннибализации. Если несколько страниц на вашем сайте имеют очень похожий набор related phrases и схожую структуру ключевых предложений, они могут генерировать идентичные сигнатуры. Система может посчитать их внутренними дубликатами и выбрать только одну для ранжирования, игнорируя остальные.
Эффективен ли этот метод против контента, сгенерированного ИИ или спиннинга?
Да, он разработан так, чтобы быть устойчивым к поверхностным изменениям текста. Спиннинг или простой рерайтинг (включая ИИ-генерацию на основе чужого контента) часто сохраняют исходные концепции. Если набор related phrases в ключевых предложениях не меняется, система все равно обнаружит дубликат.
Как я могу убедиться, что мой контент семантически уникален с точки зрения этого патента?
Необходимо не просто переписывать существующую информацию, а добавлять ценность: включать уникальные данные, новые связанные концепции, экспертные мнения или изменять глубину раскрытия темы. Убедитесь, что ключевые предложения вашего текста содержат уникальный набор или уникальную комбинацию related phrases по сравнению с конкурентами.
Применяется ли этот механизм только во время индексирования?
Нет. Патент описывает два сценария применения. Первый — во время индексирования, чтобы предотвратить попадание дубликатов в индекс. Второй — во время формирования результатов поиска (RERANKING), чтобы очистить выдачу от дубликатов непосредственно перед показом пользователю.
Влияет ли структура документа (например, порядок абзацев) на обнаружение дубликатов?
Прямо не влияет, так как система анализирует предложения независимо от их расположения в документе для генерации сигнатуры. Система выберет Топ-N предложений, где бы они ни находились. Однако косвенно влияет: если ключевая информация сконцентрирована в определенных предложениях, они с большей вероятностью попадут в сигнатуру.
Чем этот метод обнаружения дубликатов отличается от стандартного метода шинглов (shingling)?
Метод шинглов сравнивает документы на основе совпадения коротких последовательностей слов (n-грамм) для оценки текстуального сходства. Описанный в патенте метод оценивает семантическое сходство. Он выбирает только наиболее значимые предложения (насыщенные связанными фразами) и использует их как сигнатуру, фокусируясь на ядре контента.

Семантика и интент
Индексация

Индексация
Семантика и интент

SERP

Индексация
Техническое SEO

Семантика и интент
SERP
Персонализация

SERP
Семантика и интент
EEAT и качество

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
Мультимедиа

Ссылки
Поведенческие сигналы
EEAT и качество

Персонализация
Поведенческие сигналы
Local SEO

Персонализация
Поведенческие сигналы
SERP
