
Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.
Патент решает проблему неэффективности сканирования интернета, вызванную динамическими веб-страницами. Динамический контент часто доступен по множеству различных URL-адресов с разными параметрами (например, идентификаторы сессий, параметры отслеживания, варианты сортировки), которые ведут на одну и ту же страницу. Если поисковая система сканирует все эти варианты, это приводит к значительной трате ресурсов (сетевой трафик, хранилище, вычислительные мощности) на обработку дубликатов как со стороны поисковой системы, так и со стороны веб-сервера.
Запатентована система автоматического определения значимости параметров URL для управления дубликатами. Система анализирует группы схожих URL (Clusters) и статистически выводит «Правила эквивалентности» (Equivalence Rules). Эти правила определяют, какие параметры влияют на содержание страницы (content-relevant), а какие нет (content-irrelevant). На основе этих правил URL-адреса группируются в «Классы эквивалентности» (Equivalence Classes), и для каждого класса выбирается один «Представительский URL» (Representative URL), который используется для сканирования и индексации.
Система работает путем статистического анализа поведения параметров URL:
example.com/products?).Duplicate Rate), активируется анализ.Significance Analysis и Insignificance Analysis. Например, если изменение параметра 'sessionID' не меняет контент, он помечается как незначимый.Equivalence Rule, определяющее значимые параметры.Equivalence Class), новый URL игнорируется. Если контент уникален, URL сканируется как новый Representative URL.Высокая. Управление параметрами URL и каноникализация динамического контента остаются фундаментальными задачами технического SEO, особенно для крупных сайтов E-commerce и платформ с фасетной навигацией. Базовая логика, описанная в этом патенте (статистический вывод о значимости параметров для определения дубликатов), по-прежнему лежит в основе управления краулинговым бюджетом и процесса каноникализации.
Патент имеет критическое значение (9/10) для технического SEO. Он описывает фундаментальный механизм, с помощью которого Google стремится понять структуру сайта и идентифицировать дублированный контент, вызванный параметрами URL. Понимание этого механизма необходимо для эффективного управления краулинговым бюджетом, обеспечения корректной индексации страниц фасетной навигации, сортировок и страниц с отслеживающими метками. Неправильная автоматическая обработка параметров может привести к массовому индексированию дубликатов или, наоборот, к потере уникального контента.
?).http://www.foo.com/directory?.Equivalence class name), которое выводится путем применения Equivalence Rule.content-relevant, а какие — content-irrelevant.Equivalence Class. Часто это первый обнаруженный URL в классе. Он используется для сканирования и индексации (де-факто канонический URL).content-relevant, чтобы избежать потери контента.Equivalence Rule или доступности Representative URL.Claim 1 (Независимый пункт): Описывает основной метод группировки идентификаторов документов (URL) по их контенту.
Clusters), причем URL в каждом кластере имеют одинаковое имя хоста.Equivalence Rule), которое определяет, какие параметры URL являются значимыми для контента (content-relevant).Equivalence Classes) в соответствии с этим правилом. Все URL в классе ссылаются на практически одинаковый контент.Representative URL).Ядро изобретения — автоматическое создание правил для идентификации дубликатов на основе параметров и выбор единственного канонического представителя для обработки.
Claim 4 (Зависимый от 3): Детализирует процедуру Анализа незначимости (Insignificance Analysis).
Insignificance Index) для параметра. Индекс основан на количестве URL в тех наборах, где данный параметр имеет как минимум два разных значения.Если параметр часто имеет разные значения при одинаковом контенте, его индекс незначимости высок.
Claim 7 (Зависимый от 6): Детализирует процедуру Анализа значимости (Significance Analysis).
document identifier remainder).Significance Index) вычисляется путем суммирования количества уникальных контентов внутри тех наборов, которые содержат как минимум два разных контента.Если удаление параметра приводит к тому, что URL с одинаковыми остатками ведут на разный контент, значит, удаленный параметр был важен для различения этого контента, и его индекс значимости высок.
Изобретение напрямую связано с управлением краулингом и процессом каноникализации.
CRAWLING – Сканирование и Сбор данных
Это основная область применения патента. Система используется для оптимизации процесса сканирования (Crawl Scheduling) и управления краулинговым бюджетом (Crawl Budget Management).
Equivalence Rule.Equivalence Class), сканирование отменяется. Сканируется только Representative URL.INDEXING – Индексирование и извлечение признаков
Система напрямую влияет на процесс Каноникализации.
Representative URL, определенный на этапе краулинга, становится канонической версией документа для индексации.Equivalence Class) консолидируются на Representative URL.Входные данные:
Content Checksum) для проведения анализов.Equivalence Rules и Equivalence Classes.Выходные данные:
Equivalence Rules (при необходимости).Equivalence Classes и их Representative URLs.Система работает в двух режимах: Реактивный (генерация правил) и Проактивный (применение правил).
Триггеры для генерации/обновления правил:
Validation URLs показывает, что правило неверно предсказывает контент.Условия применения правил (URL Screening):
Equivalence Rule.Алгоритм состоит из двух основных процессов: Генерация правил и Скрининг URL.
Процесс А: Генерация Правил Эквивалентности (Equivalence Rule Generation)
Этот процесс запускается, когда Duplicate Rate в кластере превышает порог.
Insignificance Index.Significance Index параметра (так как он отвечал за различие).Content-Relevance Value и Content-Irrelevance Value.content-relevant. Если <10% — content-irrelevant. Между ними — Conflict (обычно трактуется как content-relevant для безопасности).Equivalence Rule для кластера.Процесс Б: Скрининг URL (URL Screening)
Этот процесс применяется к каждому новому кандидату на сканирование.
Equivalence Rule. Если правила нет, URL планируется к сканированию.content-irrelevant параметры, а оставшиеся content-relevant параметры упорядочиваются канонически. Результат — потенциальное имя Equivalence Class.Equivalence Class с таким именем.Validation URL.Equivalence Class, URL назначается его Representative URL и планируется к сканированию.Патент фокусируется на структурных и контентных факторах, связанных с идентификацией дубликатов.
Cluster Name.Significance и Insignificance Analysis).Content Checksum (контрольная сумма контента) для эффективного сравнения.Representative URL.Content-Relevance Value. Content-relevantContent-irrelevantConflictConflict (когда система не уверена) классифицируются как content-relevant. Это означает, что Google предпочтет просканировать несколько дубликатов, чем потерять одну уникальную страницу.Equivalence Class Name (удаление незначимых параметров и сортировка значимых) является формой автоматической каноникализации URL. Representative URL становится канонической версией.Validation URLs) и пересмотра правил. Это позволяет Google адаптироваться к изменениям на сайте (например, если параметр, который был незначимым, стал влиять на контент).Cluster (обычно директории или скрипта). Это означает, что один и тот же параметр (например, id) может быть признан значимым в одной части сайта и незначимым в другой.Representative URL, если он становится недоступным, используя один из Validation URLs. Это подчеркивает важность стабильности канонических адресов.sort=price) меняет контент, он всегда должен его менять. Если параметр (например, utm_campaign) не влияет на контент, он никогда не должен на него влиять. Непоследовательность приводит к классификации Conflict и избыточному сканированию.?color=blue&size=M, а не иногда ?size=M&color=blue). Это помогает системе быстрее сгруппировать URL в Equivalence Class, так как патент упоминает канонический порядок при создании имени класса.Representative URL) был максимально чистым, в идеале без незначимых параметров. Убедитесь, что этот URL доступен для сканирования и отдает код 200.Equivalence Rule или классифицировала параметры как Conflict.rel="canonical" на страницах с параметрами, указывающего на чистый Representative URL, помогает ускорить и уточнить процесс определения Equivalence Class.?id=123 и ?product=123 для одной и той же страницы в пределах одного кластера. Это замедляет выявление дубликатов.Equivalence Rule. Если вы блокируете дубликаты, убедитесь, что Representative URL остается доступным.Representative URL, что негативно сказывается на индексации.Этот патент подчеркивает, что управление краулингом и каноникализация являются не разовой настройкой, а динамическим процессом обучения со стороны Google. Для крупных сайтов, особенно E-commerce, техническая чистота и логическая последовательность в структуре URL имеют первостепенное значение. Стратегия должна заключаться в том, чтобы максимально облегчить Google процесс статистического вывода правил: чем чище и консистентнее структура URL, тем быстрее Google оптимизирует краулинг и тем меньше ресурсов будет тратиться на обработку дубликатов, освобождая бюджет для сканирования важного контента.
Сценарий: Оптимизация фасетной навигации в интернет-магазине
Сайт имеет категорию /dresses/ с фильтрами по цвету (color), размеру (size) и параметром отслеживания (ref).
/dresses/?color=red&size=S&ref=main, /dresses/?color=red&size=S&ref=sidebar и т.д., тратя краулинговый бюджет./dresses/.ref не меняет контент (высокий Insignificance Index для ref).color или size меняет контент (высокий Significance Index).Equivalence Rule: color и size значимы; ref незначим.color перед size).rel="canonical" со страницы /dresses/?color=red&size=S&ref=main на /dresses/?color=red&size=S.ref в один Equivalence Class. Он выбирает /dresses/?color=red&size=S как Representative URL и перестает сканировать URL с параметром ref, фокусируясь на сканировании новых комбинаций цвета и размера.Что такое «Кластер» (Cluster) и «Класс эквивалентности» (Equivalence Class) в контексте этого патента?
Кластер — это группа URL с одинаковым хостом и путем (например, все URL, начинающиеся с example.com/forum/thread.php?). Класс эквивалентности — это подгруппа внутри кластера, состоящая из URL, которые ведут на идентичный контент. Например, thread.php?id=5&session=ABC и thread.php?id=5&session=XYZ находятся в одном кластере и, вероятно, в одном классе эквивалентности, так как контент потока 5 одинаков независимо от сессии.
Как Google определяет, является ли параметр значимым (content-relevant) или нет?
Система использует два статистических метода: Анализ Незначимости и Анализ Значимости. В первом случае она проверяет, меняется ли контент при изменении значения параметра. Во втором случае она проверяет, можно ли различить контент, если этот параметр удалить. На основе этих данных вычисляются индексы, и применяется эвристика (например, «правило 90-10») для финальной классификации.
Что происходит, если система не уверена в значимости параметра (Conflict)?
Если результаты анализа противоречивы (например, Content-Relevance Value находится между 10% и 90%), параметр классифицируется как Conflict. В патенте указано, что такие параметры обычно считаются значимыми (content-relevant), чтобы «перестраховаться». Это означает, что Google предпочтет просканировать дубликаты, чем рискнуть пропустить уникальный контент.
Как этот патент связан с инструментом «Параметры URL» в Google Search Console?
Этот патент описывает автоматическую систему, которая выполняет ту же задачу, что и ручной инструмент «Параметры URL» (который Google в значительной степени устарел). Система, описанная в патенте, позволяет Google автоматически изучать поведение параметров без необходимости вмешательства вебмастера, что критически важно для масштабирования сканирования всего интернета.
Влияет ли порядок параметров в URL на этот процесс?
Да, влияет. В патенте упоминается, что при создании имени Equivalence Class оставшиеся значимые параметры могут быть упорядочены в предопределенном, каноническом порядке. Это позволяет системе распознать ?a=1&b=2 и ?b=2&a=1 как один класс. Однако, если сайт генерирует ссылки с разным порядком, это замедляет процесс обучения системы.
Что такое Representative URL и как он выбирается?
Representative URL — это URL, который Google выбирает в качестве канонического для группы дубликатов (Equivalence Class). Обычно это первый URL из класса, который обнаружила система. Однако, если происходит слияние классов (например, при изменении правил), система может выбрать URL с наивысшим PageRank (как указано в описании патента) в качестве нового представителя.
Что произойдет, если Representative URL станет недоступен (например, 404)?
Патент предусматривает механизм валидации. Система периодически проверяет Representative URL. Если он становится недоступным, система может использовать один из сохраненных Validation URLs (другие URL из того же класса, которые ранее были пропущены при сканировании) для замены представителя, убедившись, что он отдает корректный контент.
Как использование rel="canonical" взаимодействует с этой системой?
Тег rel="canonical" служит сильным сигналом для определения предпочтительного Representative URL. Он помогает системе быстрее и точнее формировать Equivalence Classes, снижая необходимость в длительном статистическом анализе поведения параметров. Использование rel="canonical" рекомендуется для ускорения процесса оптимизации краулинга.
Должен ли я блокировать незначимые параметры в robots.txt?
Это зависит от ситуации, но часто это не лучшая стратегия. Блокировка может помешать системе собрать достаточно данных для генерации точного Equivalence Rule. Кроме того, если ссылки с этими параметрами существуют, блокировка помешает консолидации сигналов на Representative URL. Лучше использовать консистентную структуру URL и rel="canonical".
Как этот патент влияет на сайты с фасетной навигацией?
Он имеет огромное значение. Система пытается определить, какие комбинации фильтров создают уникальный и ценный контент, а какие являются просто вариациями. Если навигация реализована технически чисто и последовательно, система сможет эффективно определить значимые комбинации для индексации и игнорировать избыточные, оптимизируя краулинговый бюджет.

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

Техническое SEO
Краулинг
Индексация

Индексация
Краулинг
Техническое SEO

SERP
Семантика и интент
EEAT и качество

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

SERP
Ссылки
Структура сайта

Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
Индексация
SERP

Knowledge Graph
Свежесть контента
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы
