
Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.
Патент решает проблему наличия множественных копий одного и того же документа в интернете (точных дубликатов). Сканирование, индексирование и хранение дубликатов неэффективно расходует ресурсы поисковой системы (пропускную способность сети, дисковое пространство, вычислительные мощности). Кроме того, наличие дубликатов в индексе ухудшает пользовательский опыт, вытесняя разнообразный контент из результатов поиска.
Запатентована система и метод для обнаружения дубликатов документов непосредственно в процессе работы веб-краулера (web crawler system). Система (называемая Dupserver) группирует документы с идентичным контентом в «классы эквивалентности» (Equivalence Classes) и выбирает единственный «канонический» (Canonical Page) документ для индексации. Выбор основан на независимой от запроса метрике (Query-Independent Score), например, PageRank, с применением теста гистерезиса для стабильности.
Система работает на этапе фильтрации контента после сканирования. Для каждого документа вычисляются фингерпринты контента и URL. Эти фингерпринты используются для поиска в специализированных таблицах (CFT, UFT) для идентификации существующих дубликатов. Если дубликаты найдены, система определяет каноническую версию. Приоритет отдается версии с наивысшим Document Score (например, PageRank). Для предотвращения частого переключения канонической версии при незначительных колебаниях оценок используется тест гистерезиса (Hysteresis Test). Система также отдельно обрабатывает постоянные (301) редиректы, сохраняя их в PRT, и активно заменяет старые URL на новые во всех найденных исходящих ссылках.
Высокая. Каноникализация является фундаментальным процессом в Google Поиске. Хотя современные системы Google учитывают более сложные сигналы, описанные в патенте принципы остаются актуальными. Использование метрик авторитетности (подобных PageRank) для разрешения конфликтов дубликатов и применение гистерезиса для стабилизации выбора являются ключевыми аспектами работы поиска в 2025 году.
Патент имеет критическое значение (9/10) для SEO. Он описывает базовый механизм, определяющий, какая версия страницы будет проиндексирована при наличии точных дубликатов. Он подчеркивает, что авторитетность (PageRank) является решающим фактором при выборе канонической версии среди идентичных страниц. Также патент демонстрирует важность правильной реализации 301 редиректов для консолидации сигналов и объясняет задержки при смене канонических URL (из-за гистерезиса).
Equivalence Class для индексации поисковой системой.Content Fingerprint. Индексируется по contentfp.contentfp или одинаковый Target URL Fingerprint.PageRank в качестве примера.Target URL Fingerprint.Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов.
Document Content Identifier) и рангов документов (Document Rank).Claim 3 (Зависимый от 2): Детализирует процесс определения репрезентативного документа (каноникализация).
Document Rank нового документа и текущего канонического документа в соответствии с предопределенными критериями сравнения.Это описание механизма гистерезиса (Hysteresis Test).
Claim 4 (Зависимый от 3): Определяет критерии сравнения (гистерезис).
Критерии включают как минимум два параметра: один для сравнения с абсолютной разницей (absolute difference) оценок, а другой для сравнения с отношением (ratio) оценок между новым и текущим каноническим документом.
Claim 7 (Независимый пункт): Описывает метод работы с сегментированным адресным пространством (архитектура Dupserver).
Equivalence Class.Изобретение применяется на стыке этапов сканирования и индексирования.
CRAWLING – Сканирование и Сбор данных
Краулеры (Robots) получают страницы и передают их в Content Filters. Краулеры также передают информацию о типе документа (обычный, 301 или 302 редирект) и его PageRank (полученный от Page Rankers).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Content Filters взаимодействуют с Dupserver для выполнения следующих задач:
CFT и UFT для определения, является ли страница дубликатом.Document Score и Hysteresis Test.PRT.Permanent Redirect Replacement) перед сохранением в Link logs.Только канонические страницы передаются далее индексаторам (Indexers) через RTlogs.
Входные данные:
Document Score (например, PageRank) документа.Выходные данные:
CFT, UFT, PRT.PRT).contentfp). Он не описывает обработку близких дубликатов (near-duplicates).Dupserver поддерживает N+1 набор данных, соответствующий сегментам сканирования интернета. Это позволяет поддерживать глобальную актуальность данных о дубликатах, обрабатывая интернет по частям.Процесс обработки нового сканированного документа в Content Filter и Dupserver.
Этап 1: Получение и классификация документа
Этап 2А: Обработка Постоянного редиректа (301)
src_urlfp) и целевого (trgt_urlfp) URL.PRT. Если запись для src_urlfp уже существует, она обновляется новым trgt_urlfp.Этап 2Б: Обработка Обычного документа или Временного редиректа (302)
contentfp, src_urlfp, trgt_urlfp (для обычного документа src=trgt) и получается Score (PageRank).contentfp в CFT (во всех N+1 сегментах).Equivalence Class в текущем сегменте, документ помечается как канонический по контенту.Score нового документа выше минимального в классе).trgt_urlfp в UFT (применяется в основном для 302 редиректов).CFT.CFT и UFT применяется тест гистерезиса.Score претендента (S_new) с Score текущей канонической страницы (S_original).CFT, и в UFT (если применимо).Этап 3: Постобработка канонического документа
PRT.Content Fingerprint и извлечения исходящих ссылок.URL Fingerprints и индексации в UFT и PRT.Query-Independent Score (явно упоминается PageRank) для выбора канонической версии среди дубликатов.PageRank).Dupserver.Score.Score.Content Fingerprint).Query-Independent Score (например, PageRank). Авторитетность является главным критерием выбора.PRT для консолидации сигналов и перезаписи ссылок. Временные (302) редиректы обрабатываются через UFT, где система выбирает канонический источник среди нескольких временных ссылок.Permanent Redirect Replacement). Если страница А ссылается на URL B, а система знает о 301 редиректе с B на C, ссылка будет учтена как ведущая на C.PageRank (или аналогичная метрика авторитетности) является решающим фактором для выбора канонической версии среди точных дубликатов, необходимо гарантировать, что предпочтительная версия URL получает максимум внутренних и внешних ссылок.Dupserver регистрирует эти редиректы (в PRT) и использует их для автоматической перезаписи исходящих ссылок, обеспечивая эффективную консолидацию ссылочного веса.PageRank на нужные страницы и усилить сигнал для выбора канонической версии.Compress permanent redirect path), рекомендуется держать их короткими (в идеале один шаг) для обеспечения эффективной обработки.Hysteresis Test. Не ожидайте мгновенных изменений.PRT. 302 редиректы обрабатываются сложнее (через UFT) и могут запутать сигналы каноникализации.Hysteresis Test система будет сопротивляться изменениям, что может привести к нестабильности в индексе.Permanent Redirect Replacement. Циклы помечаются как ошибки, а цепочки замедляют обработку.Патент подтверждает, что PageRank (или его современные эквиваленты) является не просто фактором ранжирования, а фундаментальным элементом инфраструктуры индексирования и каноникализации. Стратегии SEO должны учитывать, что архитектура сайта и управление ссылочным весом напрямую влияют на то, какие страницы будут проиндексированы. Механизм гистерезиса подчеркивает стратегический приоритет Google на стабильность индекса: система предпочитает устоявшийся выбор, если нет веских причин его менять.
Сценарий: Консолидация дублей с близким авторитетом (Hysteresis Test)
/page-old (текущая каноническая версия) и /page-new (предпочтительная версия)./page-old имеет Score 50. /page-new имеет Score 52 (из-за недавних изменений во внутренней перелинковке)./page-new. Система запускает Hysteresis Test.Что такое «Тест гистерезиса» (Hysteresis Test) и почему он важен для SEO?
Это механизм, который предотвращает частую смену канонического URL (flapping), если разница в оценках авторитетности (Score) между текущей канонической версией и претендентом незначительна. Чтобы произошла смена, новая страница должна быть значительно авторитетнее (преодолеть как абсолютный, так и относительный порог). Для SEO это означает, что изменения в сигналах (например, перелинковка) могут не привести к немедленной смене канонической версии, если разница в PageRank мала.
На основе чего Google выбирает каноническую версию среди точных дубликатов?
Согласно патенту, основным фактором является Query-Independent Score, примером которого является PageRank. Система стремится выбрать URL с наивысшей оценкой из Equivalence Class. Однако этот выбор подчиняется Hysteresis Test, поэтому не всегда страница с самым высоким баллом является текущей канонической версией.
Означает ли этот патент, что атрибут rel=canonical игнорируется?
Нет. Этот патент был подан в 2003 году, до широкого внедрения rel=canonical (2009). Патент описывает базовую логику системы обнаружения дубликатов, основанную на контенте и авторитетности. Современные системы Google учитывают множество сигналов каноникализации, включая rel=canonical, но этот патент подчеркивает, что Score (PageRank) исторически является фундаментальным входным сигналом для алгоритмов каноникализации.
Как обрабатываются 301 и 302 редиректы во время сканирования?
Патент описывает четкое различие. 301 (Постоянный): краулер не переходит по нему сразу, а регистрирует соответствие в Permanent Redirect Table (PRT). Эта информация используется для замены ссылок в контенте других страниц. 302 (Временный): краулер переходит по нему, получает контент и обрабатывает его как потенциальный дубликат, регистрируя в URL Fingerprint Table (UFT) по целевому URL.
Что такое «Замена постоянных редиректов» (Permanent Redirect Replacement)?
Это процесс нормализации исходящих ссылок в каноническом документе. Если ссылка в контенте указывает на URL, который, по данным PRT, является источником 301 редиректа, система немедленно заменяет эту ссылку на конечный целевой URL. Это гарантирует, что индекс и граф ссылок строятся на основе актуальных, финальных адресов.
Как система обрабатывает цепочки редиректов?
Система выполняет рекурсивный поиск в PRT, чтобы найти конечный целевой URL цепочки. Если обнаруживается петля, URL помечается ошибкой. Если цепочка корректна (например, A->B->C), система выполняет «сжатие пути» (Compress permanent redirect path), обновляя промежуточные записи в PRT так, чтобы A указывал напрямую на C (A->C), ускоряя будущие проверки.
Что такое «Класс эквивалентности» (Equivalence Class)?
Это набор всех известных системе URL, которые имеют идентичный контент (одинаковый Content Fingerprint) или ведут на один и тот же целевой URL (для временных редиректов). Из этого класса выбирается одна каноническая страница для индексации.
Хранит ли Google информацию обо всех дубликатах?
Не обязательно. Патент описывает механизм ограничения размера Equivalence Class предопределенным числом K (например, 4). В классе хранятся только K документов с наивысшими оценками (Score). Если новый дубликат имеет оценку ниже, чем у существующих членов класса, и класс полон, он не будет сохранен в структуре Dupserver.
Как используется анкорный текст неканонических страниц?
Патент утверждает, что список топовых неканонических страниц из Equivalence Class передается индексатору вместе с канонической страницей. Индексатор использует этот список для извлечения анкорного текста ссылок, указывающих на эти неканонические страницы, и ассоциирует его с канонической страницей. Это обогащает индекс и позволяет канонической странице ранжироваться по более широкому спектру анкоров.
Что означает сегментированная архитектура Dupserver (N+1 таблиц)?
Это связано с тем, как Google сканирует интернет сегмент за сегментом (Claim 7). Система хранит данные о дубликатах для всех сегментов одновременно (N прошлых и 1 текущий). При проверке нового документа система объединяет данные из всех сегментов для формирования полного Equivalence Class, но обновляет только данные текущего сегмента. Это позволяет поддерживать актуальность данных о дубликатах по всему интернету, обрабатывая его по частям.

Индексация
Техническое SEO
Структура сайта

Техническое SEO
Краулинг
Индексация

Индексация
Краулинг
Техническое SEO

EEAT и качество
Техническое SEO
Ссылки

Краулинг
Техническое SEO
Индексация

Ссылки
SERP
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
SERP
Семантика и интент

EEAT и качество
Антиспам
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Local SEO
Персонализация

Семантика и интент
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
EEAT и качество
