
Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.
Патент решает проблему неэффективного сканирования и индексирования дублирующегося контента, вызванную использованием идентификаторов сессий (Session Identifiers или Session ID) в URL. Когда сайты встраивают Session ID для отслеживания пользователей, одна и та же страница становится доступной по множеству разных URL. Краулеры (spiders) могут воспринимать эти URL как уникальные страницы, что приводит к напрасной трате ресурсов сканирования (Crawl Budget) и заполнению поискового индекса дубликатами.
Запатентована система и метод для автоматического обнаружения веб-сайтов, использующих Session ID в URL, и последующей генерации правил для их извлечения. Метод основан на анализе изменений во внутренних ссылках (in-host links) при повторной загрузке одной и той же веб-страницы. Цель — создать "чистую" версию URL (clean URL) для эффективного обнаружения дубликатов перед сканированием.
Система работает в несколько этапов:
Session ID в ссылках.threshold), сайт классифицируется как использующий Session ID.Session ID Rules), описывающие, как именно идентификатор встраивается в URL.Session ID и создания clean URL. Этот clean URL используется для проверки, сканировалась ли страница ранее.Средняя/Высокая. Хотя современные веб-фреймворки предпочитают использовать cookies для управления сессиями, использование параметров URL и Session ID все еще распространено, особенно в сложных или устаревших системах электронной коммерции и порталах. Эффективное управление краулинговым бюджетом и каноникализация URL остаются критически важными задачами для Google, и описанный механизм является фундаментальной частью этого процесса.
Патент имеет высокое значение для технического SEO (7/10). Он не описывает алгоритмы ранжирования, но напрямую касается эффективности сканирования (Crawl Budget) и чистоты индекса. Неспособность поисковой системы корректно обрабатывать Session ID приводит к индексации дубликатов, размыванию сигналов ранжирования и неэффективному расходованию краулингового бюджета, что критически важно для видимости сайта.
Spider), отвечающий за загрузку контента по заданным URL.URL Manager для быстрого определения того, был ли URL уже обработан.Session ID. Работает путем сравнения ссылок из двух разных копий одной страницы.Session ID и генерирует правила, описывающие, как именно сайт вставляет эти идентификаторы.Session ID и генерацию Fingerprints.Claim 1 (Независимый пункт): Описывает метод сканирования документов.
Session ID, если доля (portion) URL, которые изменились между копиями документа, превышает установленный порог (threshold).Claim 11 (Независимый пункт): Описывает метод идентификации сайтов (вне контекста текущего краулинга).
Session ID, если сравнение показывает, что по крайней мере часть URL изменилась между копиями.Claim 3 (Зависимый от 1): Детализирует процесс обработки URL после идентификации.
Session ID, система извлекает идентификатор из URL для получения clean URL.clean URL с набором clean URLs, которые представляют ранее просканированные страницы.Claim 14 (Зависимый от 11): Описывает генерацию правил.
Session ID, система анализирует извлеченные URL для генерации как минимум одного правила.Session ID встраиваются в URL на данном сайте.Изобретение применяется на этапе CRAWLING – Сканирование и Сбор данных. Оно является критически важной частью инфраструктуры сканирования, направленной на повышение его эффективности и качества собираемых данных.
Взаимодействие компонентов:
Session ID Locator и генерирует правила для конкретных сайтов. В патенте упоминается, что этот компонент может быть реализован как автоматически (с использованием методов классификации паттернов), так и вручную операторами.clean URL, генерирует Fingerprint и принимает решение о необходимости сканирования, передавая задачу Fetch Bots.INDEXING – Индексирование и извлечение признаков
Патент напрямую влияет на процессы каноникализации и дедупликации на этапе индексирования. Использование clean URL гарантирует, что в индекс не попадут дубликаты страниц с разными Session ID.
Входные данные:
Session ID (опционально).Выходные данные:
Session ID).Session ID Rules) для извлечения идентификаторов для конкретного сайта.clean URLs.Session ID вместо Cookies.Алгоритм применяется в двух основных сценариях:
URL Manager обнаруживает исключительно большое количество "разных" ссылок для одного сайта.in-host links) на странице, которые изменились между двумя последовательными загрузками, должна превысить установленный порог (threshold).URL Manager обрабатывает новый URL.Session ID.Процесс разделен на две основные части: идентификация сайтов и применение знаний во время сканирования.
Процесс А: Идентификация сайтов, использующих Session ID (Session ID Locator)
Session ID.in-host) ссылки.Session ID. (Альтернативный метод, упомянутый в патенте: проверка того, ведут ли изменившиеся ссылки на дублирующийся или почти дублирующийся контент).Session ID, ссылки анализируются (с помощью Session ID Rule Generator) для определения правил, описывающих паттерн вставки идентификаторов (например, "вставить после имени хоста, отделить символами '/'").Процесс Б: Обработка URL во время сканирования (URL Manager)
URL Manager получает кандидатный URL для сканирования из ранее обработанных документов.Session ID.Session ID Rules) для этого сайта.Session ID из кандидатного URL, получая clean URL.URL Manager использует clean URL (часто через Fingerprint), чтобы определить, была ли эта страница уже просканирована ранее.Fetch Bots) для загрузки.Патент фокусируется на инфраструктуре краулинга и использует следующие данные:
Session ID.in-host) ссылок из первой копии страницы с набором из второй копии. .Session ID. Значение порога определяется эмпирически.clean URL. Используется для эффективного и быстрого сравнения URL и обнаружения дубликатов.Session ID.Session ID в URL, без необходимости ручной настройки параметров. Это достигается путем двойной загрузки страницы и анализа изменчивости внутренних ссылок.clean URL) перед принятием решения о сканировании и индексировании.Session ID для каждого конкретного сайта (или группы сайтов) на основе анализа паттернов в его URL.Fingerprints) нормализованных URL, что является стандартной практикой в крупномасштабных системах сканирования.Session ID в URL неизбежно (например, из-за ограничений CMS), критически важно использовать атрибут rel="canonical" на всех страницах. Каноническая ссылка должна указывать на clean URL (версию без Session ID). Это служит страховкой на случай сбоя автоматических систем Google.Session ID (если они используются) вставляются по четким и последовательным правилам. Это облегчит работу Session ID Rule Generator по автоматическому определению и применению правил очистки.Session ID. Это гарантированно приведет к проблемам с дублированием контента и неэффективному расходованию краулингового бюджета.Session ID (как описано в патенте), рискованно. Отсутствие rel="canonical" усложняет работу поисковой системы.Session ID в robots.txt может привести к тому, что контент станет недоступен для сканирования (если краулер обнаруживает ссылки только в таком формате) или помешает консолидации сигналов.Патент подтверждает фундаментальную важность чистой, стабильной и канонической структуры URL для оптимального SEO. Системы сканирования Google направлены на максимальную эффективность и борьбу с дубликатами. Технические ошибки, приводящие к генерации множества вариативных URL (фасетная навигация, параметры отслеживания, Session ID), напрямую влияют на способность сайта полностью и корректно индексироваться. Стратегия технического SEO должна минимизировать такие проблемы на стороне сервера.
Сценарий: Оптимизация E-commerce сайта, использующего Session ID
sid для отслеживания сессий. Карточка товара доступна по адресам: example.com/productA, example.com/productA?sid=12345, example.com/productA?sid=67890. Google тратит бюджет на сканирование всех вариантов./productA?sid=12345, во второй раз — /productA?sid=67890. Система замечает изменение и классифицирует сайт. Генерируется правило: "удалить параметр sid". Clean URL становится /productA.sid в URL.sid элемент <link rel="canonical" href="https://example.com/productA"> указывает на версию без параметра.clean URL. Краулинговый бюджет перераспределяется на сканирование уникального контента, улучшается общая индексация сайта.Что такое Session ID и почему это проблема для SEO?
Session ID — это идентификатор, который сайт присваивает пользователю для отслеживания его действий во время визита (например, для сохранения товаров в корзине). Проблема возникает, когда этот ID встраивается непосредственно в URL. Поскольку каждый визит генерирует новый ID, одна и та же страница становится доступной по множеству разных URL. Это приводит к дублированию контента в индексе и напрасной трате краулингового бюджета.
Как именно Google определяет, что сайт использует Session ID, согласно патенту?
Google использует метод сравнения. Система загружает одну и ту же страницу сайта дважды. Затем она извлекает все внутренние ссылки из обеих копий и сравнивает их. Если значительная доля ссылок отличается между двумя загрузками (поскольку сайт вставил разные Session ID) и эта доля превышает установленный порог, система делает вывод, что сайт использует идентификаторы сессий в URL.
Что такое "Clean URL" в контексте этого патента?
Clean URL — это нормализованная версия URL, из которой были удалены идентификаторы сессий. После того как Google определяет, как именно сайт встраивает Session ID, он генерирует правила для их удаления. Полученный Clean URL используется системой для проверки, сканировался ли этот контент ранее, избегая повторной обработки дубликатов.
Означает ли этот патент, что мне не нужно беспокоиться о Session ID, так как Google сам их обработает?
Нет, полагаться только на автоматическую обработку рискованно. Хотя Google имеет механизмы для обнаружения и обработки Session ID, этот процесс может быть неидеальным, особенно при сложной структуре URL. Лучшая практика для SEO — предотвращать проблему на своей стороне: использовать Cookies вместо URL-параметров или, как минимум, корректно настраивать rel="canonical".
Как использование Session ID влияет на краулинговый бюджет?
Влияние крайне негативное. Если у вас 1000 страниц, но из-за Session ID краулер видит 50000 уникальных URL, он потратит большую часть своего времени и ресурсов на сканирование дубликатов. Это означает, что реальный уникальный контент или новые страницы будут сканироваться и индексироваться значительно медленнее.
Что такое "in-host links" и почему система анализирует именно их?
In-host links (или локальные ссылки) — это ссылки, ведущие на тот же самый домен. Система анализирует именно их, потому что сайты обычно встраивают Session ID только во внутренние ссылки для отслеживания навигации пользователя по своему сайту. Внешние ссылки (ведущие на другие домены) обычно остаются неизменными.
Как генерируются правила для извлечения Session ID?
После того как система обнаружила, что ссылки меняются, компонент Session ID Rule Generator анализирует паттерны в этих изменениях. Например, он может определить, что идентификатор всегда является числовой строкой после параметра ?sid= или что он вставляется как директория сразу после хоста. В патенте упоминается, что это может делаться автоматически или вручную операторами.
Что делать, если моя CMS принудительно использует Session ID в URL?
Первый шаг — проверить настройки CMS, часто это можно изменить на использование Cookies. Если это невозможно, критически важно убедиться, что для каждой страницы с Session ID корректно прописан тег rel="canonical", указывающий на версию страницы без идентификатора (clean URL).
Использует ли Google этот метод для обработки других параметров URL, например, UTM-меток?
Патент сфокусирован именно на Session ID — параметрах, которые меняются при каждой загрузке, но не меняют контент. UTM-метки более статичны. Хотя базовые принципы нормализации URL применимы ко всем параметрам, метод "двойной загрузки и сравнения" предназначен именно для обнаружения динамически изменяющихся идентификаторов сессий.
Что такое "Fingerprint" URL и как он связан с Session ID?
Fingerprint — это хеш или уникальный отпечаток URL. Чтобы эффективно сравнивать миллионы URL, система сравнивает их короткие отпечатки. В контексте патента, Fingerprint генерируется из Clean URL (после удаления Session ID). Это гарантирует, что разные URL с разными Session ID, но ведущие на один контент, будут иметь одинаковый Fingerprint.

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO
Индексация

Техническое SEO
Краулинг
Индексация

Техническое SEO
Краулинг
Индексация

SERP
Техническое SEO
Индексация

Семантика и интент
Поведенческие сигналы
Персонализация

Техническое SEO
Ссылки

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Семантика и интент

Антиспам
SERP
Поведенческие сигналы

Индексация
Поведенческие сигналы

EEAT и качество
SERP
Knowledge Graph

Персонализация
Поведенческие сигналы
SERP

Ссылки
SERP
Поведенческие сигналы

Knowledge Graph
Семантика и интент
EEAT и качество
