
Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.
Патент решает фундаментальные проблемы традиционного сканирования, основанного на обнаружении ссылок (discovery-based crawling):
Запатентована система и метод планирования сканирования (Web Crawler Scheduler), который активно использует файлы Sitemap, предоставляемые веб-сайтами. Суть изобретения заключается в использовании метаданных из Sitemap — даты последнего изменения (lastmod), частоты обновления (changefreq) и приоритета (priority) — для принятия эффективных решений о том, какие документы сканировать, когда и в каком порядке.
Система функционирует следующим образом:
Sitemap с метаданными и отправляет уведомление (notification или ping) краулеру.SiteMap Crawler загружает и обрабатывает Sitemap.URL Scheduler анализирует метаданные и сравнивает их с внутренней историей сканирования.lastmod) или если прошло недостаточно времени (на основе changefreq).score), которая учитывает внутреннюю важность (например, PageRank) и корректируется с помощью повышающего коэффициента (boost factor) на основе значения priority из Sitemap.Критически высокая. Этот патент описывает фундаментальные механизмы протокола XML Sitemap, который был представлен Google в 2005 году и стал отраслевым стандартом. Описанные принципы оптимизации краулингового бюджета и управления сканированием остаются центральными в техническом SEO по сей день.
Патент имеет критическое значение для SEO (10/10). Он детально описывает, как именно Google интерпретирует и использует данные из XML Sitemap для управления процессом сканирования. Это позволяет SEO-специалистам напрямую влиять на обнаружение URL, частоту пересканирования и приоритизацию контента, что является основой для эффективной индексации и управления краулинговым бюджетом.
Sitemap. Используется для группировки.Sitemap и внутренние сигналы.Sitemap.<lastmod>), указывающие дату последнего изменения документа. Используется для определения факта обновления контента.<changefreq>), указывающие ожидаемую частоту обновления (например, daily, weekly). Используется для прогнозирования необходимости сканирования.<priority>), указывающие относительную важность документа. Используется для влияния на очередность сканирования.priority, который используется для корректировки оценки приоритета сканирования URL.page importance score), используемая планировщиком в сочетании с priority.Sitemap Index, применяемые ко всему сайту. Примеры: предпочтительная скорость сканирования (crawl rate), время сканирования, язык, географическое положение.Sitemap, содержащий только те URL, которые были добавлены или изменены с момента генерации предыдущего Sitemap.Патент содержит несколько ключевых независимых пунктов, защищающих использование различных метаданных Sitemap для планирования.
Claim 1 (Независимый пункт) – Использование частоты обновления (changefreq):
Sitemap.Sitemap и извлекает URL и метаданные, включая document update rate information (частоту обновления).Claim 6 (Независимый пункт) – Использование приоритета (priority):
Sitemap.document importance information (приоритет).score), присвоенной каждому документу.score) документа корректируется с помощью boost factor (повышающего коэффициента), соответствующего значению приоритета из Sitemap.Claim 3 и Claim 8 (Зависимые пункты) – Использование даты изменения (lastmod):
document modification date information (дату изменения).Изобретение является центральной частью инфраструктуры сканирования.
CRAWLING – Сканирование и Сбор данных
Это основной этап применения патента. Система определяет ЧТО, КОГДА и В КАКОМ ПОРЯДКЕ сканировать.
Sitemap и извлекают URL и метаданные.URL Status Information (историей сканирования) для сравнения дат (lastmod) и времени (changefreq).Page Rankers (метриками важности) для получения базовой оценки, которая затем корректируется с помощью priority.URL Scheduler, и с учетом Per-Site Information (например, скорости сканирования).INDEXING – Индексирование и извлечение признаков
Патент упоминает, что метаданные из Sitemap (такие как title, author) могут использоваться для создания Anchor Maps (карт анкоров), помогая индексировать контент без текста (например, изображения). Также Per-Site Information (язык, местоположение) может добавляться в индекс.
Входные данные:
Sitemap и Sitemap Index (содержащие URL, lastmod, changefreq, priority, Per-Site Information).URL Status Information).PageRank).Выходные данные:
scores), запланированных для загрузки краулерами.Sitemap (веб-страницы, PDF, изображения, видео и т.д.).Sitemap.Sitemap на основе сохраненной информации о частоте обновлений (stored update rate information).lastmod новее даты последнего сканирования, ИЛИ если время, прошедшее с последнего сканирования, превышает интервал changefreq.Процесс планирования сканирования на основе Sitemap:
Sitemap. (Альтернативно: Периодический выбор Sitemap для обработки).SiteMap Crawler загружает выбранный файл Sitemap.Sitemap сохраняется в SiteMap Database. Per-Site Information также извлекается и сохраняется.URL Status Information:lastmod: Если дата изменения позже даты последнего сканирования, это кандидат. Если нет, сканирование может быть отложено (deferred).changefreq: Если время с последнего сканирования превышает интервал changefreq, это кандидат.score). Оценка базируется на PageRank и корректируется с помощью Boost Factor, основанного на значении priority из Sitemap.budgets) и ограничений сайта (site constraints), включая Per-Site Information о скорости сканирования.Данные из Sitemap:
loc).Last Modification Date (lastmod).Change Frequency (changefreq).Priority (priority).title, author (упоминаются как источники для Anchor Maps).crawl rate), предпочтительное время, язык, географическое положение.Внутренние данные Google:
PageRank или аналогичные метрики авторитетности URL.Патент описывает конкретные логические операции и метрики:
Логика: Отложить сканирование (Defer Crawl).
Условие: Если .
Логика: Запланировать сканирование (Schedule Crawl).
Условие: Если .
Оценка рассчитывается на основе комбинации внутренних метрик и данных Sitemap.
Формула (концептуально): Оценка = Функция(PageRank, Boost Factor).
Boost Factor определяется на основе значения Priority из Sitemap.
Sitemap — это ключевой инструмент для оптимизации процесса сканирования и управления краулинговым бюджетом.<lastmod>, <changefreq> и <priority> не игнорируются; они напрямую интегрированы в алгоритмы планирования (URL Scheduler).<lastmod> для эффективности: Основной механизм экономии ресурсов — это откладывание сканирования неизмененного контента на основе точного lastmod (Claim 3).<changefreq> для прогнозирования: Этот тег используется для прогнозирования вероятности обновления контента, определяя, когда следует вернуться на страницу (Claim 1).<priority> как Boost Factor: Значение приоритета используется как повышающий коэффициент (boost factor) при расчете оценки сканирования. Оно комбинируется с внутренними сигналами важности, такими как PageRank (Claim 6).Sitemap Index.Sitemaps по расписанию.<lastmod>: Это критически важно для экономии краулингового бюджета (Claim 3). Убедитесь, что lastmod обновляется только при значительном изменении контента. Точный lastmod позволяет Googlebot сфокусироваться на обновленном контенте и не тратить ресурсы на неизмененные страницы.<priority>: Используйте priority для указания относительной важности страниц. Поскольку патент подтверждает его использование как boost factor (Claim 6), это помогает направить краулер на ключевые страницы (главная, категории) раньше, чем на менее важные (архивы).<changefreq>: Указывайте частоту, соответствующую реальным обновлениям. Это помогает планировщику прогнозировать визиты (Claim 1). Используйте 'daily' для новостей и 'monthly'/'yearly' для статического контента.Sitemap Index для разделения URL на логические части. Это упрощает управление и обработку данных.Sitemap. Патент описывает это как основной триггер для обработки.<lastmod>: Установка текущей даты для всех страниц, независимо от изменений. Это заставляет Googlebot тратить бюджет на сканирование неизмененного контента и может подорвать доверие к вашим данным.<priority>: Установка максимального приоритета (1.0) для всех страниц. Это делает сигнал бесполезным. Патент упоминает, что краулер может игнорировать значения приоритета, если они не соответствуют определенным критериям (например, среднему значению).<changefreq>: Указание 'hourly' для контента, который редко меняется. Планировщик адаптируется к реальным наблюдениям и может начать игнорировать этот сигнал.Sitemap дубликатов, неканонических версий или страниц, закрытых от индексации. Это тратит краулинговый бюджет и размывает сигналы приоритета.Этот патент подтверждает, что оптимизация сканирования (Crawl Optimization) является фундаментальной частью SEO. Google предоставляет инструменты (Sitemaps) для прямого влияния на поведение краулера. Стратегия должна заключаться в обеспечении надежной технической инфраструктуры для генерации точных и актуальных Sitemaps, чтобы максимально эффективно использовать краулинговый бюджет, гарантируя приоритетное сканирование важного и свежего контента.
Сценарий: Оптимизация сканирования крупного E-commerce сайта
Sitemap Index, разделяющий URL на: Категории, Новые товары, Остальные товары.Priority 0.9, Changefreq 'daily'.Priority 0.8, Changefreq 'daily'. Точный lastmod.Priority 0.5, Changefreq 'weekly'. Точный lastmod обновляется только при изменении цены/наличия.URL Scheduler применяет boost factor к Категориям и Новым товарам (Claim 6), ставя их в начало очереди.lastmod не изменился (Claim 3).Changefreq для определения частоты возврата на страницы (Claim 1).Влияет ли поле Priority в Sitemap напрямую на ранжирование сайта в поиске?
Нет, напрямую на ранжирование не влияет. Патент четко описывает использование Priority исключительно для планирования сканирования (URL Scheduler). Он используется как boost factor для расчета оценки сканирования (Crawl Score), определяя очередность сканирования URL на вашем сайте. Хорошая индексация важна для ранжирования, но Priority — это сигнал для краулера, а не для алгоритма ранжирования.
Насколько важно использовать точный Lastmod?
Это критически важно для эффективности. Патент описывает механизм (Claim 3), при котором планировщик откладывает (deferring) сканирование, если Lastmod не новее даты последнего визита краулера. Точный Lastmod позволяет Googlebot сосредоточиться только на обновленном контенте, экономя ваш краулинговый бюджет и ресурсы сервера.
Что произойдет, если я буду указывать неверный Lastmod (например, всегда текущую дату)?
Это приведет к неэффективному использованию краулингового бюджета, так как Googlebot будет повторно сканировать неизмененный контент. Это нейтрализует механизм экономии ресурсов, описанный в патенте. Со временем, если система обнаружит, что данные Lastmod ненадежны, она может начать игнорировать этот сигнал для вашего сайта.
Является ли использование Changefreq обязательным, и гарантирует ли оно частоту сканирования?
Использование Changefreq не является обязательным, это подсказка (hint). Патент (Claim 1) описывает, что планировщик использует эту информацию для прогнозирования обновлений, но не гарантирует сканирование именно с такой частотой. Фактическая частота зависит от важности документа (например, PageRank), реальных наблюдений за изменениями и указанного Changefreq.
Как именно Google комбинирует Priority из Sitemap и PageRank?
Патент указывает (Claim 6), что планировщик присваивает оценку (score) каждому URL-кандидату на основе PageRank (или аналогичной метрики важности) и Priority. Конкретно указано, что Priority используется как boost factor (повышающий коэффициент) для корректировки этой оценки. Это означает, что Priority модифицирует базовую важность страницы при определении очередности сканирования.
Что такое "Per-Site Information", упомянутая в патенте?
Это метаданные на уровне всего сайта, которые могут быть включены в Sitemap Index. Патент упоминает примеры: предпочтительные интервалы и скорость сканирования (crawl rate), язык и географическое положение. Эта информация помогает Google оптимизировать нагрузку на сервер и лучше понимать контекст сайта.
Что такое дифференциальная Карта сайта (Differential Sitemap)?
Это Sitemap, который содержит только те URL, которые были добавлены или изменены (имеют новый lastmod) с момента генерации предыдущего Sitemap. Патент описывает поддержку этого механизма для повышения эффективности передачи данных, уменьшая размер файла и ускоряя обработку обновлений.
Нужно ли мне "пинговать" Google при обновлении Sitemap?
Да, это рекомендуется. Патент описывает механизм уведомлений (notifications или pings) как основной триггер для загрузки и обработки Sitemap. Это самый быстрый способ сообщить планировщику об изменениях, хотя система также предусматривает периодическую проверку Sitemaps без уведомлений.
Может ли Google использовать Title и Author из Sitemap для индексации?
Да. Патент упоминает, что метаданные, такие как title и author (если они включены в Sitemap), могут использоваться для создания Anchor Maps. Это помогает индексировать документы, не содержащие текста (например, изображения или видео), используя эти метаданные как эквивалент анкорного текста.
Что делать, если я установлю Priority 1.0 для всех страниц?
Это неэффективная стратегия. Priority предназначен для указания *относительной* важности страниц внутри сайта. Если все страницы имеют одинаковый приоритет, сигнал теряет свою ценность. Патент также отмечает, что краулер может игнорировать значения приоритета, если они не соответствуют определенным критериям (например, если среднее значение по сайту слишком высокое).

Краулинг
Техническое SEO
Индексация

Краулинг
Свежесть контента
Индексация

Краулинг
Индексация
Техническое SEO

Краулинг
Индексация
Свежесть контента

Краулинг
Индексация
Свежесть контента

Семантика и интент
Структура сайта
Ссылки

EEAT и качество
Антиспам
Ссылки

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP

Индексация
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

EEAT и качество
Ссылки
SERP

Поведенческие сигналы
SERP
Семантика и интент

Ссылки
Индексация
Краулинг
