
Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.
Патент решает фундаментальные проблемы традиционного краулинга, основанного на обнаружении ссылок (discovery-based crawling). Эти проблемы включают:
Запатентована система и метод для автоматической генерации списков документов (Sitemaps) непосредственно на стороне веб-сервера (выступающего в роли «клиента» для краулера). Этот «клиент» собирает информацию о доступных URL и их метаданных из различных источников (файловая система, логи доступа, CMS). Сгенерированный Sitemap предоставляет краулеру полный список URL для сканирования, а также метаданные (дата изменения, приоритет) для оптимизации процесса краулинга.
Ключевой механизм — это Sitemap Generator, работающий на веб-сервере:
lastmod), предполагаемой частотой обновления (changefreq) и относительным приоритетом (priority).Sitemap (например, в формате XML). При наличии нескольких файлов создается Sitemap Index.Sitemap система автоматически отправляет уведомление (notification или «пинг») на удаленный компьютер (поисковую систему), сообщая, что новый список URL доступен для сканирования.Критически высокая. Этот патент описывает техническую основу протокола Sitemaps, представленного Google в 2005 году. Технология Sitemaps является абсолютным стандартом и критически важным инструментом в современном SEO (2025 год) для управления сканированием и индексацией сайтов всех размеров.
Патент имеет фундаментальное значение для SEO (10/10). Он описывает механизм, который позволяет SEO-специалистам напрямую сообщать поисковым системам, какие URL существуют на сайте, когда они были обновлены и насколько они важны. Это напрямую влияет на полноту индексации (Crawl Coverage) и эффективность использования краулингового бюджета (Crawl Efficiency). Без этого механизма управление индексацией крупных или сложных сайтов было бы значительно затруднено.
Sitemap. Используется для группировки нескольких файлов.Sitemap и Sitemap Index.Sitemap (например, шаблоны исключения URL, маппинг путей к URL, предпочтительное время сканирования).Sitemap, содержащий конкретный URL и его метаданные (например, lastmod, changefreq, priority, а также опционально title и author).Update Rate), указывающие, как часто ожидается изменение контента (например, daily, weekly). Является подсказкой для краулера.Sitemap («пинг»).Sitemap, который содержит только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap.Sitemap Index (или Sitemap), применяемые ко всему сайту (например, предпочтительная скорость сканирования crawl_rate, географическое положение location, язык language).access frequency).Claim 1 (Независимый пункт): Описывает основной метод, выполняемый системой веб-сервера для предоставления списка документов.
Sitemap, включающий список документов и соответствующие метаданные для каждого из них.Sitemap в определенном месте.notification) с веб-сервера на удаленный компьютер (систему веб-краулера), включающее информацию о местоположении Sitemap и указывающее на его доступность.Claim 3 (Зависимый от 1): Уточняет источники информации. Источники включают как минимум одно из: файловая система, логи доступа (access logs) или списки местоположения документов (document location lists).
Claim 6 (Зависимый от 1): Уточняет состав метаданных. Метаданные включают информацию об относительном приоритете документа (relative priority information).
Claim 7 (Зависимый от 1): Уточняет процесс генерации. Генерация Sitemap включает создание списка документов, измененных после определенного времени (инкрементальное обновление).
Claim 8 (Зависимый от 1): Описывает использование нескольких файлов. Включает генерацию нескольких Sitemaps и генерацию индекса (Sitemap Index), ссылающегося на них. Уведомление идентифицирует этот индекс.
Claim 9 (Зависимый от 1): Описывает генерацию дифференциального списка. Включает определение разницы между текущим и предыдущим Sitemap и генерацию Differential Sitemap на основе этой разницы.
Изобретение напрямую связано с этапом сбора данных поисковой системой.
CRAWLING – Сканирование и Сбор данных
Патент описывает механизм, который функционирует на стороне веб-сервера, но его единственная цель — оптимизация работы компонента CRAWLING поисковой системы.
Sitemaps), которые используются веб-краулером для обнаружения URL (URL Discovery) и планирования сканирования (Crawl Scheduling).lastmod), система позволяет краулеру сосредоточить ресурсы на новом или обновленном контенте.Sitemap), так и механизм Push (веб-сервер активно уведомляет краулер об обновлении через Sitemap Notification).Входные данные (на стороне веб-сервера):
Access Logs).Sitemap Generator Control Parameters (настройки, заданные вебмастером).Выходные данные (предоставляемые краулеру):
Sitemap (список URL с метаданными lastmod, changefreq, priority).Sitemap Index (список файлов Sitemap и опционально Per-Site Information).Sitemap Notification) происходит сразу после успешной генерации или обновления файла Sitemap.Описание обобщенного процесса генерации Sitemap на стороне веб-сервера.
Sitemap Generator Control Parameters. Определение источников данных, шаблонов исключения URL, правил маппинга путей к URL, правил для changefreq и priority, а также URL для уведомления поисковых систем.lastmod).Access Logs для поиска URL, которые были успешно запрошены (non-error URLs). Опционально: вычисление информации о популярности на основе частоты доступа.URL exclusion patterns) к собранному списку URL.lastmod (если не было получено ранее, например, при использовании логов).changefreq и priority на основе предопределенных правил.title или author.Sitemap.Sitemap Index. Опционально: добавление Per-Site Information (например, crawl_rate, location, language).Sitemap с предыдущей версией для создания Differential Sitemap, содержащего только изменения.Система использует данные, доступные на веб-сервере, и конфигурацию, предоставленную вебмастером.
non-error URLs).lastmod.priority.URL Record заголовка документа (title) и автора (author).Per-Site Information может быть указана геолокация сайта (location) и поддерживаемые языки (language).Патент фокусируется на генерации и передаче следующих метрик:
lastmod: Извлекается напрямую из временных меток файловой системы или БД.changefreq (Update Rate): Устанавливается на основе правил, заданных вебмастером в конфигурации.priority (Relative Priority): Устанавливается на основе правил (диапазон 0.0 до 1.0). Патент явно указывает, что краулер может игнорировать или модифицировать значения приоритета, если они не соответствуют предопределенным критериям (например, требованию, чтобы приоритеты имели предопределенное среднее значение, такое как 0.5).Per-Site Information, определяющая желаемую нагрузку (например, medium, fast) в определенные временные интервалы.Sitemaps из первичных источников (файловая система, логи, БД), что обеспечивает актуальность и полноту данных без ручного вмешательства.lastmod является критически важным для избежания повторного сканирования неизмененного контента.changefreq и priority определены как подсказки (hints). Патент явно указывает, что краулер может их игнорировать, основываясь на собственных данных (например, PageRank) или если они выглядят манипулятивно (например, если средний приоритет не равен 0.5).Sitemap («пинг»), что ускоряет реакцию краулера на изменения.Sitemap Index и Differential Sitemaps обеспечивает масштабируемость для очень крупных сайтов и эффективность передачи данных об обновлениях.Per-Site Information, включая предпочтительное время и скорость сканирования (crawl_rate).Sitemaps. Источником данных должна быть непосредственно база данных или файловая система, чтобы гарантировать точность lastmod.Sitemap, а мусорные URL исключены с помощью URL exclusion patterns.lastmod: Критически важно передавать корректную дату последнего изменения контента. Это напрямую влияет на решение краулера о необходимости повторного сканирования страницы и оптимизирует краулинговый бюджет.Sitemap Index для разделения URL по типу контента или разделам. Это облегчает диагностику проблем индексации.Sitemap Notification) при обновлении контента может ускорить обнаружение изменений.lastmod: Установка текущей даты для всех страниц при каждой генерации (вместо реальной даты изменения контента) является манипуляцией. Поисковые системы могут начать игнорировать этот сигнал.priority: Установка всем страницам приоритета 1.0. Патент указывает, что нереалистичные значения (например, если средний приоритет по сайту значительно отличается от 0.5) могут быть проигнорированы краулером.Этот патент подтверждает, что Sitemaps являются основным каналом коммуникации между веб-сервером и краулером для обнаружения и приоритизации URL. Стратегическое значение заключается в понимании того, что эффективное управление Sitemaps — это критически важный компонент SEO-стратегии, направленный на максимизацию эффективности краулинга и полноты индексации. Он подчеркивает важность технической инфраструктуры сайта, способной предоставлять точные и своевременные данные о своем контенте.
Сценарий: Оптимизация краулинга крупного E-commerce сайта
Sitemap Generator, подключенный к базе данных товаров.Sitemaps, сгруппированных по категориям, используя Sitemap Index.lastmod передается точная дата последнего изменения (цены, описания или наличия) из базы данных.Priority устанавливается на основе маржинальности или популярности товара (используя данные из Access Logs, как предлагает патент), соблюдая принцип относительности.Sitemap с точными lastmod, видит, что большинство старых товаров не изменились, и пропускает их сканирование. Освободившиеся ресурсы направляются на сканирование новых товаров и тех страниц, где lastmod обновился. Эффективность краулинга значительно возрастает.Является ли Sitemap фактором ранжирования?
Нет, наличие Sitemap само по себе не улучшает позиции сайта. Однако Sitemap является критически важным инструментом для обеспечения того, чтобы контент был обнаружен, просканирован и проиндексирован. Если страница не проиндексирована, она не может ранжироваться. Таким образом, Sitemap косвенно влияет на видимость сайта, обеспечивая полноту и свежесть индекса.
Насколько важны поля changefreq и priority в 2025 году?
Их важность снизилась. Google заявляет, что в значительной степени игнорирует priority, так как вебмастера часто злоупотребляли им (и патент это предусматривал, указывая на возможность игнорирования при несоответствии критериям). changefreq используется как слабая подсказка. Основным сигналом для планирования сканирования остается lastmod.
Что более приоритетно для Google: URL, найденный по ссылке, или URL в Sitemap?
Оба метода обнаружения URL важны и дополняют друг друга. Ссылки остаются основным способом обнаружения и сигналом авторитетности (PageRank). Sitemap гарантирует обнаружение, но не гарантирует индексацию или ранжирование. В идеальной ситуации все важные URL должны быть доступны как через внутренние ссылки, так и перечислены в Sitemap.
Стоит ли использовать механизм уведомления (ping) об обновлении Sitemap?
Патент описывает Sitemap Notification как важную часть системы. Хотя Google сканирует известные Sitemaps достаточно часто, механизм пинга может быть полезен для очень новых сайтов, для ускорения индексации критически важных обновлений или при работе с другими поисковыми системами, которые могут реже проверять Sitemaps автоматически.
Что такое Differential Sitemap и стоит ли его использовать?
Differential Sitemap содержит только URL, измененные с момента последней генерации. Это может повысить эффективность передачи данных для очень крупных сайтов. Однако стандартные реализации обычно генерируют полный список URL с актуальными lastmod. Если система может эффективно генерировать полный Sitemap, использование дифференциальных списков обычно не требуется, так как краулер сам определит изменения по полю lastmod.
Патент предлагает использовать логи доступа (Access Logs) для генерации Sitemap. Это хорошая идея?
Это может быть полезным дополнительным источником данных, особенно для обнаружения реально используемых URL (non-error URLs), которые могли быть пропущены при сканировании файловой системы. Также логи могут помочь определить популярность для установки priority. Однако основным источником должна оставаться база данных или CMS, так как логи могут содержать много мусорных URL.
Что делать, если lastmod в Sitemap не соответствует реальной дате изменения контента?
Это серьезная техническая проблема. Если lastmod старше реального изменения, Google может не узнать о необходимости обновить индекс. Если lastmod новее (обновляется без изменения контента), Google потратит краулинговый бюджет впустую и может начать игнорировать этот сигнал. Необходимо настроить Sitemap Generator так, чтобы он брал точную дату изменения контента из надежного источника (БД).
Патент упоминает Per-Site Information, например, предпочтительную скорость сканирования. Как это использовать?
Патент предусматривал возможность предлагать желаемое время и скорость сканирования (crawl_rate), чтобы снизить нагрузку на сервер. Однако этот механизм не стал частью общепринятого стандарта Sitemaps. Управлять скоростью сканирования Google можно через настройки в Google Search Console, а не через файл Sitemap.
Как лучше структурировать Sitemaps для крупного сайта?
Следует использовать Sitemap Index и разделять URL на несколько файлов Sitemap (до 50 000 URL в каждом). Рекомендуется структурировать их логически: по разделам сайта (например, блог, товары, категории) или по типам контента. Это значительно упрощает мониторинг и диагностику проблем индексации в Google Search Console.
Может ли Sitemap помочь проиндексировать страницы, на которые нет внутренних ссылок?
Да, это одна из ключевых целей изобретения. Патент создан для решения проблемы неполного охвата при традиционном сканировании. Включение URL в Sitemap гарантирует, что краулер узнает о его существовании, независимо от внутренней перелинковки.

Краулинг
Техническое SEO
Свежесть контента

Краулинг
Индексация
Техническое SEO

Краулинг
Техническое SEO
Индексация

Ссылки
Поведенческие сигналы
SERP

Краулинг
Свежесть контента
Индексация

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
SERP

EEAT и качество
Антиспам
Ссылки

Local SEO
Ссылки
SERP

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
Индексация
Поведенческие сигналы

Семантика и интент
Ссылки
Knowledge Graph

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам

Ссылки
SERP
