
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
Патент решает проблему неэффективного сканирования (crawling) и загрязнения индекса, вызванную использованием идентификаторов сессий (Session Identifiers) в URL. Когда веб-сайты встраивают уникальные ID в URL для отслеживания пользователей, краулер (spider) воспринимает одну и ту же страницу как множество разных URL. Это приводит к многократному сканированию идентичного контента (Duplicate Content), нерациональному расходованию краулингового бюджета и созданию массовых дублей в индексе.
Запатентована система автоматического обнаружения и нормализации URL, содержащих идентификаторы сессий. Система анализирует набор URL, полученных с одного хоста, для выявления подстрок, которые соответствуют характеристикам сессионных ID (например, случайность символов) и повторяются в разных URL. Эти идентификаторы затем удаляются для создания «чистых» (канонических) версий URL (Clean URLs).
Система интегрирована в процесс сканирования (Spider component):
Fetch Bot) загружает документы, а Content Manager извлекает из них URL.measure of randomness), имеют достаточную длину и повторяются в нескольких разных URL с того же сайта.Session Identifiers удаляются для создания Clean URL.URL Manager использует Clean URL (или его Fingerprint/хэш), чтобы проверить, сканировалась ли эта страница ранее, предотвращая повторную загрузку.Средняя. Хотя современные веб-платформы предпочитают использовать cookies для управления сессиями, многие устаревшие системы, крупные e-commerce платформы и форумы все еще генерируют URL с идентификаторами сессий. Более того, принципы автоматического обнаружения и нормализации параметров, не влияющих на контент, остаются фундаментальными для Google при обработке любых динамических URL (например, параметров отслеживания) и управлении краулинговым бюджетом.
(6/10). Патент имеет важное значение для технического SEO. Он описывает инфраструктурный механизм, с помощью которого Google справляется с распространенной причиной дублирования контента и проблем с краулинговым бюджетом. Хотя он не влияет напрямую на ранжирование, он подтверждает критическую необходимость обеспечения чистой, стабильной структуры URL для оптимальной индексации и эффективного сканирования.
Clean URL. Используется для быстрого и эффективного сравнения URL и дедупликации.Fingerprints.Claim 1 (Независимый пункт): Описывает основной метод обработки URL во время сканирования.
Session Identifier. Эта идентификация основана на: (а) применении набора правил И (б) множественных вхождениях (multiple occurrences) этой подстроки в разных URL набора.Clean URLs путем удаления идентифицированного Session Identifier.Clean URLs.Claims 7, 11, 17, 20 (Зависимые): Детализируют правила идентификации (упомянутые в Claim 1). Ключевым фактором является то, что подстрока должна демонстрировать по крайней мере определенную «меру случайности» (measure of randomness).
Claim 6 (Зависимый от 1): Описывает стратегию хранения и доступа (Adaptive Crawling).
Система хранит информацию на основе Clean URLs для целей дедупликации. Одновременно она сохраняет исходный набор URL (включая встроенные идентификаторы сессий) для использования при последующем доступе к этим URL, если ID необходим для корректной работы сайта.
Claim 2 (Зависимый от 1): Уточняет метод сравнения.
Сравнение чистых URL основано на вычислении и сравнении Fingerprint значений, полученных из этих чистых URL.
Изобретение является частью инфраструктуры сканирования и индексирования Google.
CRAWLING – Сканирование и Сбор данных
Это основной этап применения. Fetch Bots загружают контент. Content Manager извлекает URL. Система анализа URL (часть Content Manager и URL Manager) анализирует извлеченные URL на лету для обнаружения Session Identifiers. URL Manager использует Clean URL для дедупликации и планирования очереди сканирования.
INDEXING – Индексирование и извлечение признаков
На этапе индексирования происходит процесс каноникализации. Система использует Clean URL, сгенерированный во время сканирования, как предпочтительный (канонический) адрес для индексируемого контента. Это предотвращает попадание множества дубликатов одной и той же страницы в индекс.
Входные данные:
Выходные данные:
Clean URLs для каждого обработанного адреса.Fingerprints этих Clean URLs для хранения в базе данных URL Manager.Session Identifiers. Критично сочетание двух факторов: measure of randomness.Fetch Bot загружает контент документа по заданному URL.Content Manager парсит документ и извлекает все найденные в нем URL.Session Identifiers. Кандидаты должны соответствовать минимальной длине и показывать высокую measure of randomness.Session Identifiers, если они встречаются многократно в разных URL в пределах анализируемого набора.Session Identifiers удаляются из соответствующих URL для создания Clean URL.Clean URL рассчитывается уникальный Fingerprint.URL Manager сравнивает новый Fingerprint с базой данных уже обработанных URL.URL Manager принимает решение о формате URL для сканирования: использовать исходный URL (с ID), Clean URL, или Clean URL с новым сгенерированным ID, в зависимости от того, как сайт реагирует на запросы без идентификатора.Система использует несколько эвристик и метрик для классификации подстрок:
Session Identifier.Clean URL для создания уникального отпечатка.sid или phpsessid). Система анализирует структуру URL и характеристики подстрок.Session Identifier система ищет комбинацию двух факторов: подстрока должна выглядеть случайной (высокая measure of randomness) и она должна повторяться в разных URL на одном и том же сайте.Clean URL. Это позволяет Google эффективно бороться с массовым дублированием контента и значительно экономить краулинговый бюджет.Session Identifier для отдачи контента. Патент предусматривает возможность сохранения исходных ID или генерации новых для обеспечения доступа к контенту (Claim 6), при этом для индексации и дедупликации используется Clean URL.Clean URLs, полагаться на это не стоит. Всегда используйте rel="canonical", чтобы явно указать предпочтительную версию страницы, особенно если CMS генерирует URL с параметрами.Session Identifier и некорректно нормализовать адрес.Патент подтверждает фундаментальную важность технического SEO и информационной архитектуры. Чистая, логичная и стабильная структура URL является основой для эффективного сканирования и индексации. Google инвестирует значительные ресурсы в нормализацию данных. Стратегическая задача Senior SEO-специалиста — предоставить поисковой системе максимально чистые и однозначные данные на входе, чтобы минимизировать вероятность ошибок при автоматической обработке и направить краулинговый бюджет на полезный контент.
Сценарий: Оптимизация краулингового бюджета на устаревшем E-commerce сайте
http://example.com/shop/SESSID_a19f77b2/product/123.html.SESSID_a19f77b2 имеет высокую measure of randomness (чередование символов) и повторяется в разных URL (например, в /product/123.html и /product/456.html). Она классифицирует ее как Session Identifier.http://example.com/shop/product/123.html для индексации и учета.rel="canonical", указывающий на чистую версию URL (без SESSID). Это поможет Google быстрее и точнее выбирать каноническую версию.Как Google определяет, что является идентификатором сессии, а что — частью контента?
Система использует комбинацию факторов. Во-первых, она ищет подстроки с высокой "мерой случайности" (measure of randomness) — например, длинные строки с частым чередованием букв разного регистра и цифр. Во-вторых, критически важным является повторение: если одна и та же случайная строка встречается в нескольких разных URL на сайте, она с высокой вероятностью классифицируется как Session Identifier, а не как уникальный идентификатор контента.
Как именно измеряется «мера случайности» (measure of randomness)?
Патент предлагает конкретный метод: подсчет количества чередований (alternations) между типами символов — цифрами (0-9), строчными буквами (a-z) и прописными буквами (A-Z). Например, в строке «3uSS4A» есть 4 чередования. Чем больше таких чередований, тем выше оценка случайности. Также может использоваться сравнение со словарем.
Означает ли этот патент, что мне не нужно беспокоиться о Session ID в URL, так как Google сам их очистит?
Нет, это неверный вывод. Хотя Google разработал этот механизм для борьбы с проблемой, любая автоматическая система может давать сбои. Если вы используете Session ID в URL, вы тратите свой краулинговый бюджет, так как Google должен сначала скачать дублирующиеся страницы, а затем выполнить дополнительную работу по их анализу и нормализации. Лучшая практика — всегда предоставлять чистые и стабильные URL.
Может ли этот механизм ошибочно удалить важную часть URL?
Да, такой риск существует, хотя он минимизирован за счет проверки на повторение. Если вы используете длинные случайные строки для идентификации контента (например, хэши вместо слагов), и структура URL часто меняется, система может ошибочно принять идентификатор контента за Session Identifier. Это еще один аргумент в пользу использования человекопонятных URL.
Что такое "Fingerprint" в контексте этого патента и зачем он нужен?
Fingerprint — это уникальный идентификатор (обычно результат хэш-функции), рассчитанный на основе "чистого" URL (Clean URL). Он необходим для эффективной дедупликации. Вместо того чтобы сравнивать длинные строки URL между собой, система сравнивает короткие Fingerprints, что значительно быстрее определяет, был ли данный контент уже сканирован.
Что делать, если мой сайт требует наличия Session ID в URL для работы?
Это усложняет сканирование, но патент учитывает такие ситуации (Adaptive Crawling). Система может сохранить исходный URL с валидным Session Identifier и использовать его для доступа к контенту, но при этом использовать Clean URL для индексации. В некоторых случаях система может даже генерировать случайный ID. Тем не менее, рекомендуется модернизировать сайт для использования Cookies.
Как этот патент связан с краулинговым бюджетом (Crawl Budget)?
Связь прямая и критическая. Идентификаторы сессий создают практически бесконечное количество URL для одного и того же контента. Этот патент направлен на оптимизацию краулингового бюджета путем предотвращения повторного сканирования дубликатов, вызванных Session Identifiers, освобождая ресурсы для сканирования полезного контента.
Актуален ли этот патент, если я использую современные JavaScript фреймворки?
В большинстве случаев современные фреймворки используют чистые URL и управляют состоянием через API и локальное хранилище. Для таких сайтов этот патент менее актуален. Однако проблемы могут возникнуть, если используются устаревшие модули или сторонние скрипты, которые модифицируют URL для отслеживания.
Влияет ли этот механизм на ранжирование?
Прямого влияния нет, так как патент не описывает расчет релевантности или качества. Однако он имеет значительное косвенное влияние. За счет эффективной каноникализации и экономии краулингового бюджета, система позволяет Google быстрее находить и индексировать новый контент на сайте, а также корректно консолидировать сигналы ранжирования (например, ссылки) на каноническом URL.
Какова роль rel="canonical" в контексте этого патента?
rel="canonical" служит явным указанием вебмастера на предпочтительную версию страницы. Это значительно более сильный сигнал, чем автоматическое определение Clean URL, описанное в патенте. Если rel="canonical" настроен корректно (указывает на чистый URL без Session ID), Google, скорее всего, будет полагаться на него, а не на автоматический алгоритм нормализации.

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

Техническое SEO
Краулинг
Индексация

Техническое SEO
Краулинг
Индексация

Индексация
Краулинг
Техническое SEO

Семантика и интент
SERP
Поведенческие сигналы

Индексация
SERP
Персонализация

Поведенческие сигналы
SERP
Антиспам

Поведенческие сигналы
Семантика и интент
Структура сайта

Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
EEAT и качество

Ссылки
Индексация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Local SEO
Семантика и интент
Поведенческие сигналы
