
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.
Патент решает проблему неэффективного и неточного обнаружения дубликатов контента в процессе индексирования. Стандартные методы могут не идентифицировать все дубликаты, особенно если они скрыты за цепочками редиректов или имеют разные шаблоны URL (например, с сессионными идентификаторами). Это приводит к ошибкам каноникализации, распылению сигналов ранжирования, засорению индекса и трате ресурсов поисковой системы.
Запатентована система итеративного обнаружения дубликатов и каноникализации. Система группирует документы в кластеры и выбирает лучший документ (Representative) в каждом кластере на основе метрик качества. Ключевым элементом является анализ конечной цели редиректа (Final Target Document) этого представителя. Если представители разных кластеров в конечном итоге ведут на один и тот же (или дублирующийся) целевой документ, исходные кластеры объединяются.
Процесс является итеративным:
Predictive-based clustering по шаблонам URL).Measure of Quality), основанной на ссылках, ранге страницы, эстетике URL и т.д.Final Target Document).Predictive-based clustering). Если да, исходные кластеры объединяются.Content-based clustering по контрольным суммам), пока не будет выбран финальный канонический документ (Canonical) для индексации.Высокая. Управление дубликатами и точная каноникализация остаются фундаментальными задачами инфраструктуры поиска Google. Описанные методы — итеративная кластеризация, анализ шаблонов URL (Predictive-based clustering), разрешение редиректов и использование метрик качества для выбора канонической версии — являются основополагающими для конвейера индексирования.
Патент имеет значительное влияние на техническое SEO (8/10). Он напрямую описывает механизм, который Google использует для выбора канонической версии страницы из множества дубликатов. Патент раскрывает конкретные критерии (Quality Information), используемые для этого выбора, включая эстетику URL и ссылочные сигналы, а также подчеркивает критическую важность корректной настройки редиректов и архитектуры сайта для консолидации сигналов ранжирования.
Content-based clustering для группировки документов с идентичным контентом.Checksum ID) или анализ информации о редиректах (Target ID).Predictive ID, например, путем игнорирования неважных частей URL (session ID) или определения эквивалентных хостов.Predictive-based clustering.aesthetic value of an address), популярность, качество и возраст сайта-источника.Measure of Quality) в данном кластере.Claim 1 (Независимый пункт): Описывает основной итеративный метод обработки дубликатов.
re-clustering), объединяя Кластер А и Кластер Б.Claim 2 (Зависимый от 1): Детализирует процесс выбора представителя.
Выбор представителя основан на определении значений качества (quality values). Представителем выбирается документ с наивысшим значением качества в кластере.
Claim 3 (Зависимый от 2): Определяет, что входит в расчет значения качества (Quality Information).
Значение качества определяется на основе как минимум одного из следующих факторов: ссылочная информация, дата создания документа, ранг документа, информация об анкорном тексте, эстетическая ценность адреса (aesthetic value of an address), мера популярности, мера качества веб-сайта, возраст веб-сайта.
Claim 5 (Зависимый от 1): Уточняет, как определяется дублирование целевых документов редиректа.
Определение того, что целевые документы являются дубликатами, основано на технике Predictive-based clustering, при которой обоим документам присваивается одинаковый прогнозный идентификатор (Predictive ID).
Claim 7 (Зависимый от 6): Важное уточнение.
Сетевые адреса (URL) дублирующихся целевых документов могут отличаться (например, если Predictive-based clustering игнорирует определенные параметры).
Изобретение применяется на этапе индексирования.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются исходные данные: контент документов, коды ответов сервера (включая редиректы 3xx) и информация о ссылках.
INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Система обрабатывает сырой контент для организации индекса. Процессы, описанные в патенте, отвечают за:
Система работает итеративно, используя различные методы кластеризации (Predictive-based и Content-based) и метрики качества для уточнения кластеров и выбора лучшего представителя.
Входные данные:
Quality Information для каждого документа (ссылочные метрики, ранг страницы, эстетика URL и т.д.).Predictive-based clustering.Выходные данные:
Canonical Document для каждого кластера.Алгоритм применяется в процессе индексирования после того, как документы были сканированы и для них были извлечены базовые признаки.
Описанный процесс является многоэтапным и итеративным, направленным на последовательное уточнение кластеров дубликатов.
Этап 1: Инициализация и Первая Итерация Кластеризации
Predictive-based clustering на основе шаблонов URL).Measure of Quality) на основе Quality Information.Representative Document — документ с наивысшей мерой качества.Этап 2: Разрешение Редиректов и Объединение Кластеров
Final Target Document (следует по цепочке редиректов до конца).Predictive-based clustering).Этап 3: Вторая Итерация Кластеризации (Content-based)
Representative Document для объединенного кластера.Checksum) контента нового представителя.Content-based clustering для группировки документов на основе Checksum ID.Этап 4: Финализация и Индексация
Canonical Document.Quality Information от других документов в кластере может быть консолидирована и ассоциирована с каноническим документом.Система использует разнообразные данные для кластеризации и оценки качества.
Технические факторы:
Predictive-based clustering и для оценки эстетической ценности (aesthetic value).Final Target Document.Контентные факторы:
Checksum) при Content-based clustering.Факторы Качества (Quality Information, согласно Claim 3):
Link information (link-based score, количество ссылок, позиция ссылки), Anchor text information.Document rank (например, PageRank).Aesthetic value of an address.Система использует ключевые идентификаторы и оценки:
Final Target Document.Quality Information. Используется для выбора Representative Document. Особо выделяется Aesthetic value of an address: короткие и/или основанные на словах URL имеют более высокую ценность, чем длинные URL, содержащие символы (?, !, *, и т.д.).Final Target Document), эти кластеры объединяются.Representative), который часто становится каноническим, явно основан на метриках качества (Quality Information). Это не случайный выбор.Aesthetic value of an address прямо указывает на предпочтение коротких, чистых URL перед длинными и сложными URL с параметрами и символами.Predictive-based clustering играет ключевую роль в идентификации дубликатов, созданных динамически (например, из-за Session IDs), позволяя системе игнорировать незначащие части URL.aesthetic value of an address является фактором при выборе представителя кластера дубликатов.Link information и Anchor text information являются ключевыми компонентами Quality Information.Final Target Document. Это ускоряет процесс разрешения редиректов и снижает вероятность ошибок при объединении кластеров.Predictive-based clustering.Quality of web site также учитывается при выборе представителя из кластера дубликатов.aesthetic value и уменьшает вероятность выбора такой страницы в качестве канонической.Final Target Document, замедляют обработку и могут привести к ошибкам в итеративном процессе объединения кластеров.Quality Information и может привести к выбору неоптимальной канонической версии.Predictive-based clustering и может привести к формированию отдельных кластеров для фактических дубликатов.Патент подтверждает, что техническое SEO и информационная архитектура являются критически важными элементами стратегии продвижения. То, как структурированы URL и как управляются редиректы, напрямую влияет на эффективность индексации, выбор канонических версий и консолидацию сигналов ранжирования. Система предпочитает качество и чистоту: авторитетные сайты с чистыми URL и четкими сигналами имеют преимущество в процессе каноникализации.
Сценарий: Каноникализация страниц товара в E-commerce
Существуют три версии страницы товара:
/product?id=123&session=XYZ (Низкая эстетика, есть Session ID)/product/blue-widget (Высокая эстетика, чистый URL, много ссылок)/promo/blue-widget-sale (Временная страница, настроен 302 редирект на URL B)Процесс обработки Google согласно патенту:
Predictive-based clustering игнорируют session=XYZ. Система может определить, что URL A и URL B ведут к одному контенту и помещает их в Кластер 1. URL C может попасть в Кластер 2.Quality Information. URL B имеет больше ссылок и лучшую aesthetic value, чем URL A. URL B выбирается представителем Кластера 1. URL C выбирается представителем Кластера 2.Final Target Document для представителя Кластера 2 (URL C) как URL B (из-за 302 редиректа).Canonical Document. URL B, обладая наивысшей суммарной оценкой качества, выбирается для индексации.Что такое "эстетическая ценность адреса" (aesthetic value of an address) и почему это важно?
Согласно патенту, это метрика в составе Quality Information. Короткие и основанные на словах URL (чистые, ЧПУ) имеют более высокую эстетическую ценность, чем длинные URL, содержащие символы (?, !, *) или параметры. При выборе канонической версии из группы дубликатов система предпочтет страницу с более высокой эстетической ценностью URL при прочих равных условиях.
Какие факторы качества использует Google для выбора канонической версии согласно этому патенту?
Патент явно перечисляет их в Claim 3: ссылочная информация (количество, качество, анкоры), ранг документа (PageRank), дата создания, популярность, эстетическая ценность URL, а также качество и возраст сайта-источника. Система вычисляет агрегированную оценку качества и выбирает версию с наивысшим баллом в качестве представителя кластера.
Как этот патент влияет на обработку URL с параметрами (например, UTM-метки или фильтры)?
Патент описывает Predictive-based clustering. Эта техника использует правила для анализа шаблонов URL и игнорирования незначащих параметров (например, Session IDs). Это позволяет системе понять, что /page?id=1 и /page?id=1&session=ABC — это один и тот же документ. Однако URL с параметрами обычно имеют низкую aesthetic value, поэтому канонической версией, скорее всего, будет выбран чистый URL без параметров.
Как система обрабатывает цепочки редиректов?
Система итеративно следует по всей цепочке редиректов от документа-представителя, чтобы найти Final Target Document. Только после определения конечной цели система принимает решение о том, следует ли объединять кластеры. Это подчеркивает важность избегания длинных цепочек для ускорения и повышения точности индексации.
Что произойдет, если два разных кластера дубликатов имеют представителей, которые редиректят на одну и ту же страницу?
Это ключевой механизм патента. Если Final Target Documents представителей разных кластеров являются дубликатами (или идентичны), система выполняет re-clustering — объединяет эти два исходных кластера в один большой кластер. Это позволяет консолидировать все сигналы.
Влияет ли этот процесс на PageRank или ссылочный вес?
Да, косвенно. Ранг документа и ссылочная информация используются для выбора представителя. В конце процесса, когда выбирается Canonical Document, патент упоминает, что Quality Information от документов в кластере может быть ассоциирована с каноническим документом. Это подразумевает консолидацию сигналов ранжирования.
Чем отличается Representative Document от Canonical Document?
Representative Document — это лучший документ в кластере на промежуточном этапе итеративного процесса. Он используется для дальнейшего анализа (например, поиска редиректов или вычисления контрольной суммы). Canonical Document — это финальный выбор системы для индексации после завершения всех итераций кластеризации и объединения.
Использует ли система анализ контента или только анализ URL и редиректов?
Система использует оба подхода итеративно. В патенте описаны как Predictive-based clustering (анализ URL) и анализ редиректов, так и Content-based clustering (анализ контента через контрольные суммы). Они применяются на разных этапах для уточнения кластеров.
Как Predictive-based clustering определяет эквивалентность URL?
Система использует набор правил, специфичных для сайта, директории или комбинации параметров. Эти правила могут включать списки эквивалентных префиксов хостов или инструкции по игнорированию определенных частей URL (например, идентификаторов сессий), которые не влияют на контент страницы.
Если я использую rel=canonical, игнорирует ли Google этот процесс?
Патент не упоминает атрибут rel=canonical. Однако, исходя из описанного механизма, можно сделать вывод, что Google все равно должен обработать все дубликаты, кластеризовать их и оценить Quality Information, чтобы принять финальное решение о каноникализации. Атрибут rel=canonical является сильным сигналом, но описанный в патенте процесс является инфраструктурным механизмом для разрешения конфликтов и выбора лучшей версии на основе собственных метрик Google.

SERP
Техническое SEO
Индексация

Индексация
SERP

Техническое SEO
Краулинг
Индексация

Индексация
Краулинг
Техническое SEO

Краулинг
Индексация
Техническое SEO

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
SERP

Индексация
SERP
Персонализация

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
SERP
Ссылки

Индексация
Ссылки
SERP

EEAT и качество
Ссылки

Семантика и интент
EEAT и качество
Индексация

Knowledge Graph
Семантика и интент
EEAT и качество
