
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.
Патент решает фундаментальную проблему эффективности поисковых систем, связанную с существованием идентичного контента, доступного по разным URL (зеркалам). Это приводит к нескольким проблемам: растрате краулингового бюджета при повторном сканировании одного и того же контента, избыточной нагрузке на веб-серверы и увеличению размера индекса. Кроме того, это вызывает размывание сигналов ранжирования (например, ссылочного веса), поскольку авторитетность распределяется между несколькими версиями контента вместо консолидации на одной.
Запатентована система и метод для автоматического обнаружения того, являются ли два имени хоста (Hostnames) или раздела сайта (Subtrees) зеркалами (Mirrors) друг друга. Изобретение использует мультисигнальный анализ (Multiple Signals), агрегируя данные из различных источников (контент, структура, DNS, WHOIS) и рассчитывая уровень уверенности (Confidence Level). Также описан эффективный метод для выявления потенциальных кандидатов путем анализа структурного сходства карты сайта (Sitemap).
Система работает в два основных этапа. Первый этап — эффективная идентификация кандидатов. Чтобы избежать сравнения всех хостов между собой, система инвертирует компоненты пути URL (например, site.com/a/b.html становится b.html/a/site.com) и сортирует их. Хосты с идентичной структурой оказываются рядом в списке. Второй этап — верификация. Для пары кандидатов собираются Multiple Signals: совпадение контента, IP-адресов, данные WHOIS, информация о редиректах и т.д. Этим сигналам присваиваются веса (в примере патента наибольший вес имеют редиректы и IP), и вычисляется Confidence Level. Если зеркало подтверждено, один из вариантов исключается из последующего сканирования и индексирования.
Высокая. Проблемы каноникализации, эффективности сканирования и консолидации сигналов остаются критически важными для Google. Хотя конкретные алгоритмы и веса, вероятно, эволюционировали с момента подачи патента (2005 г.), фундаментальный подход, основанный на анализе инфраструктурных (IP, DNS) и структурных (Sitemap) сигналов для обнаружения зеркал на уровне хостов и разделов, остается актуальным.
Патент имеет высокое значение (8/10) для технического SEO. Он описывает инфраструктурные механизмы, лежащие в основе каноникализации и оптимизации краулингового бюджета. Понимание того, что Google активно анализирует IP-адреса, структуру сайта и редиректы для выявления зеркал, критически важно для управления крупными сайтами, международным SEO, миграциями и предотвращения размывания сигналов ранжирования.
Hostnames или Subtrees являются зеркалами. Рассчитывается на основе взвешенных Multiple Signals.Hostname — это доменное имя (например, www.example.com). Subtree — это раздел иерархии директорий (например, example.com/en/), включающий все объекты ниже этого уровня.Hostnames или Subtrees, которые ссылаются на один и тот же контент.Sitemap) путем сортировки.Claim 1 (Независимый пункт): Описывает основной метод мультисигнального анализа для обнаружения зеркал.
Hostname или Subtree как потенциальных зеркал.Multiple Signals для этой пары.automatically redirects) на другой.weights) сигналам.Confidence Level на основе информации о редиректе, как минимум одного другого сигнала и присвоенных весов.Claim 7 (Независимый пункт): Описывает метод эффективного выявления кандидатов в зеркала (механизм оптимизации).
path components).Reversed URLs) путем изменения порядка компонентов пути.Reversed URLs.Multiple Signals.Claim 12 (Независимый пункт): Описывает полный процесс от выявления кандидатов до применения результатов.
Reversed URLs.Multiple Signals для пары (из Crawl Repository, DNS map или WHOIS database).Confidence Level.Confidence Level.Изобретение применяется на ранних этапах поискового процесса для оптимизации сбора и хранения данных.
CRAWLING – Сканирование и Сбор данных
Основной этап применения патента. Система сканирования (Web Crawler Engine) использует компонент Mirror Detector для анализа хостов и URL.
www.site.com и site.com), и один URL уже был сканирован (www.site.com/page), то система (Content Manager) не будет добавлять в очередь эквивалентный URL с другого зеркала (site.com/page).Fetch Bot) загружает документ, Mirror Detector определяет, является ли он зеркалом ранее загруженного документа. Если да, документ может быть отброшен, а исходящие ссылки в нем проигнорированы.INDEXING – Индексирование и извлечение признаков
На этом этапе результаты работы алгоритма используются для обеспечения того, чтобы в индексе хранилась только одна копия контента. Это критически важно для процесса каноникализации и консолидации сигналов ранжирования (например, ссылочного веса) на предпочтительной версии документа.
Входные данные:
Выходные данные:
Confidence Level.www и без, HTTP/HTTPS.Subtrees. Критично для экономии краулингового бюджета.Sitemap similarity).Процесс определения зеркал состоит из двух основных этапов: идентификация кандидатов и их верификация.
Этап А: Идентификация потенциальных пар (Оптимизация)
www.google.com/news/world/index.html становится index.html/world/news/www.google.com.sitemaps), соответствующие им хосты или поддеревья помечаются как потенциальные зеркала.Этап Б: Верификация и расчет уверенности
Multiple Signals.Me) и приблизительное совпадение (Ms), относительно общего числа сканированных страниц на обоих хостах (Na, Nb).E) между именами хостов.SameRedir), совпадение IP (SameIP), совпадение владельца (SameOwner).confidence_for_mirror(A, B)) с использованием предопределенного алгоритма.Confidence Level пара классифицируется как зеркала.Система использует комбинацию технических, контентных, структурных и внешних данных.
Path Components).DNS Map). Совпадение IP является сильным сигналом.Redirect Information).exact content) и частичного дублирования (nearly duplicate content).Link Structure/Site Map), часто выводимые из анализа URL путей.Owner), полученная из WHOIS Database.Система вычисляет несколько ключевых метрик для расчета итогового Confidence Level для пары (A, B). Патент приводит конкретный пример псевдокода для расчета уверенности. Примечание: В тексте патента указано, что результат находится в диапазоне от 0 до 1, однако приведенный псевдокод допускает значения выше 1. Мы приводим псевдокод точно так, как он указан в патенте.
Subtrees). Система не полагается исключительно на сигналы от вебмастеров (такие как rel=canonical).SameRedir) и совпадение IP-адресов (SameIP) — имеют наибольший вес (1.0 и 0.9 соответственно). Это подчеркивает важность корректной технической инфраструктуры.Sitemap) для эффективного выявления потенциальных зеркал. Техника инвертирования URL путей (Reversed URLs) позволяет быстро находить разделы с идентичной организацией контента.Me) и частичного (Ms) дублирования контента является значимым подтверждающим фактором. Чем больше процент дубликатов, тем выше вероятность признания зеркалом.Subtree как зеркало, она может полностью исключить его из сканирования и индексации.SameRedir имеет максимальный вес в примере патента), который помогает системе быстро и точно определить зеркало.Sitemap) используется для идентификации потенциальных зеркал, крайне важно поддерживать чистую и последовательную структуру URL и внутреннюю перелинковку. Всегда ссылайтесь только на канонические URL.SameIP является сильным сигналом (вес 0.9). Размещение идентичного контента на одном IP помогает Google идентифицировать зеркала. И наоборот, если сайты не должны считаться зеркалами, но имеют схожий контент (например, региональные версии), желательно размещать их на разных IP/подсетях и активно использовать hreflang.SameOwner используется системой для подтверждения связи между доменами.Subtrees и выберет для сканирования только один из них.Патент подтверждает фундаментальную важность технического SEO и чистой архитектуры сайта. Эффективность сканирования напрямую зависит от того, насколько легко Google может идентифицировать и игнорировать дублирующийся контент. Стратегия должна заключаться в максимальном упрощении работы поисковой системы: один уникальный контент должен быть доступен по одному каноническому URL, а все альтернативные пути должны явно указывать на каноникал через редиректы или rel=canonical.
Сценарий 1: Обработка www и non-www версий
site.com и www.site.com, оба отвечают 200 OK.Confidence Level будет максимальным. Google выберет одну версию для сканирования.SameRedir), ускоряет процесс определения зеркала и гарантирует выбор предпочтительной версии.Сценарий 2: Управление региональными доменами на одном IP
brand.de и brand.at (Германия и Австрия). Контент на немецком языке идентичен на 95%. Оба сайта размещены на одном IP-адресе.SameIP=1, SameOwner=1, Ms (почти дубликаты) очень высокое. Confidence Level высокий.brand.de), что приведет к потере видимости в Австрии.hreflang для указания отношений. Чтобы снизить вероятность классификации как полных зеркал, необходимо уникализировать контент (цены, условия доставки, контакты) и рассмотреть возможность размещения на разных IP-адресах.Какова основная цель этого патента с точки зрения Google?
Основная цель — повышение эффективности инфраструктуры поиска. Обнаружение зеркал позволяет Google экономить краулинговый бюджет, не сканируя один и тот же контент многократно, уменьшает размер индекса и снижает нагрузку на веб-серверы. Вторичная цель — консолидация сигналов ранжирования (например, PageRank) на одной канонической версии.
Как метод "Reversed URLs" помогает Google находить зеркала?
Это техника оптимизации для быстрого поиска кандидатов. Путь URL инвертируется (например, site.com/a/b.html становится b.html/a/site.com), а затем список всех URL сортируется. Сайты с идентичной файловой структурой (Sitemap), независимо от домена, оказываются рядом в отсортированном списке. Это позволяет системе быстро выявить структурные совпадения без дорогостоящего сравнения всех возможных пар сайтов.
Какие сигналы имеют наибольший вес при определении зеркал согласно патенту?
В примере формулы, приведенной в патенте, наибольший вес имеют технические сигналы и степень дублирования контента. Информация о редиректах (SameRedir, вес 1.0) и совпадение IP-адресов (SameIP, вес 0.9) являются очень сильными индикаторами. Также критически важна доля страниц с точно или почти совпадающим контентом.
Насколько важен IP-адрес для определения зеркал?
Он очень важен. Совпадение IP (вес 0.9) является одним из самых сильных сигналов. Для SEO это означает, что размещение двух доменов с идентичным контентом и структурой на одном IP-адресе значительно увеличивает вероятность их классификации как зеркал. Если сайты должны ранжироваться независимо, лучше использовать разные IP и уникализировать контент.
Заменяет ли этот механизм необходимость использования rel=canonical или 301 редиректов?
Нет, не заменяет. Этот механизм является автоматизированной системой Google для обнаружения зеркал, когда явные сигналы отсутствуют или противоречивы. SEO-специалисты всегда должны предоставлять четкие сигналы каноникализации с помощью 301 редиректов (предпочтительно, так как это сильный сигнал по патенту) или rel=canonical. Это гарантирует правильную интерпретацию и предотвращает ошибки автоматического обнаружения.
Как этот патент влияет на международное SEO (International SEO)?
Он очень актуален. Если у вас есть несколько сайтов с идентичным контентом на одном языке для разных регионов (например, США и Канада), и они имеют одинаковую структуру и общий IP, они могут быть классифицированы как зеркала. Чтобы обеспечить правильное ранжирование в нужных регионах, критически важно использовать hreflang и локализировать контент.
Что произойдет, если Google ошибочно классифицирует мой уникальный контент как зеркало?
Если уникальный контент ошибочно классифицирован как зеркало другого ресурса, он будет исключен из сканивания и индексирования (Claim 12). Это приведет к полной потере видимости и трафика для этого контента. В таком случае необходимо усилить сигналы уникальности: изменить структуру URL, уникализировать контент и проверить инфраструктурные настройки (IP).
Используются ли данные WHOIS и насколько они важны?
Да, совпадение владельца (SameOwner) на основе данных WHOIS является одним из Multiple Signals. Однако в примере формулы ему присвоен низкий вес (0.1), что указывает на его вспомогательную роль по сравнению с техническими (IP, редиректы) и контентными факторами.
Как система обрабатывает почти дублирующийся контент (near-duplicate)?
Система учитывает как точные совпадения (Me), так и почти дублирующийся контент (Ms). В примере формулы почти дубликатам присваивается чуть меньший вес (0.8), чем точным совпадениям. Это означает, что даже при незначительных отличиях в контенте, но при сильных структурных и технических сигналах, ресурс может быть признан зеркалом.
Что такое "Subtree" (Поддерево) в контексте этого патента?
Subtree относится к разделу иерархии директорий сайта, например, site.com/en/. Система может обнаруживать зеркала не только на уровне целых доменов (site1.com vs site2.com), но и на уровне отдельных разделов (site1.com/blog/ vs site2.com/info/), если их структура и контент идентичны.

Индексация
Краулинг
Техническое SEO

Техническое SEO
Краулинг
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

Мультиязычность
Ссылки
SERP

Персонализация
Поведенческие сигналы
Local SEO

Поведенческие сигналы
Ссылки
SERP

Поведенческие сигналы
Семантика и интент
Антиспам

Семантика и интент
Поведенческие сигналы

Свежесть контента
Ссылки
Техническое SEO

Поведенческие сигналы
Персонализация
SERP

Семантика и интент
Поведенческие сигналы

Knowledge Graph
Семантика и интент
EEAT и качество

Ссылки
Антиспам
SERP
