Как Google использует данные из Sitemaps для планирования, приоритизации и оптимизации сканирования

Google использует файлы Sitemap как ключевой источник данных для управления сканированием. Патент описывает, как система обрабатывает метаданные (lastmod, changefreq, priority) и интегрирует их с внутренними сигналами (PageRank) в планировщик краулера. Это позволяет оптимизировать краулинговый бюджет, повысить полноту индекса и ускорить обнаружение обновлений.

Описание

Какую задачу решает

Патент решает фундаментальные проблемы традиционного сканирования, основанного на обнаружении ссылок (discovery-based crawling):

Неполный охват (Incomplete Coverage): Трудность обнаружения страниц, на которые нет прямых ссылок (например, контент в базах данных, доступный через формы, или ссылки в JavaScript).
Неэффективность сканирования: Краулер не знает, изменился ли документ с момента последнего посещения, что приводит к трате ресурсов на сканирование неизмененного контента.
Управление нагрузкой: Сложность определения оптимального времени и допустимой нагрузки (load) для сканирования конкретного сайта, что может негативно влиять на его производительность.

Что запатентовано

Запатентована система и метод, позволяющие веб-краулеру использовать файлы Sitemap, предоставляемые веб-сайтами, для планирования сканирования. Суть изобретения — в механизме обработки метаданных из Sitemap (дата изменения, частота обновления, приоритет) и интеграции этих данных в URL Scheduler. Это позволяет повысить эффективность и полноту сканирования, а также оптимизировать использование сетевых ресурсов.

Как это работает

Система функционирует на двух уровнях:

На стороне веб-сайта: SiteMap Generator создает файлы Sitemap, извлекая URL и метаданные из файловой системы, логов доступа (Access Logs) или CMS. При обновлении сайт может отправить уведомление (SiteMap Notification) поисковой системе.
На стороне поисковой системы: SiteMap Crawler загружает и обрабатывает Sitemap. Извлеченные данные передаются в URL Scheduler.
Планирование: Планировщик определяет кандидатов на сканирование (например, если lastmod новее последнего визита) и присваивает им оценку (score). Эта оценка учитывает как метаданные Sitemap (например, priority), так и внутренние сигналы важности (например, PageRank). Затем список фильтруется на основе бюджетов и ограничений.

Актуальность для SEO

Чрезвычайно высокая. Описанные в патенте механизмы лежат в основе протокола Sitemaps.org, который является индустриальным стандартом. Управление краулинговым бюджетом и обеспечение полноты индексации через Sitemaps остаются критически важными задачами технического SEO в 2025 году.

Важность для SEO

Влияние на SEO критическое (9/10). Патент описывает инфраструктуру, которая напрямую влияет на то, как Google обнаруживает, приоритизирует и обновляет контент в своем индексе. Понимание этих механизмов необходимо для эффективного управления краулинговым бюджетом, особенно для крупных и динамических сайтов.

Детальный разбор

Термины и определения

Sitemap (Файл Sitemap): Документ (часто XML), содержащий список URL веб-сайта, доступных для сканирования, и связанные метаданные.
Sitemap Index (Индексный файл Sitemap): Документ, который перечисляет один или несколько файлов Sitemap. Может содержать Per-Site Information.
lastmod (Last Modification Date): Метаданные URL, указывающие дату и время последнего изменения документа. Критичны для определения необходимости повторного сканирования.
changefreq (Change Frequency): Метаданные URL, предоставляющие подсказку (hint) о частоте изменения контента (например, hourly, daily).
priority (Priority): Метаданные URL, указывающие относительный приоритет документа на сайте (например, от 0.0 до 1.0).
URL Scheduler (Планировщик URL): Компонент поисковой системы, определяющий, какие URL сканировать и в каком порядке. Использует данные Sitemap и другие сигналы (например, PageRank).
Per-Site Information (Информация по сайту): Данные уровня сайта, которые могут содержаться в Sitemap Index. Примеры: crawl_rate (скорость сканирования), location (геоположение), language (язык).
Differential Sitemap (Дифференциальный Sitemap): Файл Sitemap, содержащий только URL, добавленные или измененные с момента генерации предыдущего файла.
Anchor Map (Карта анкоров): Структура данных, связывающая анкорный текст с целевыми URL. Патент предполагает использование метаданных Sitemap (например, title, author) для создания этих карт.
Crawl Budget (Краулинговый бюджет): Ограничение количества документов, которые краулер сканирует с сайта за определенный период. Упоминается как фактор фильтрации при планировании.

Ключевые утверждения (Анализ Claims)

Патент US9355177B2 является продолжением (continuation) более ранних заявок.

Claim 1 (Независимый пункт): Описывает основной метод планирования сканирования.

Система идентифицирует обновленный Sitemap, используя дату последнего изменения (last change date) в файле Sitemap Index.
Система загружает обновленную информацию Sitemap.
Условие: Информация включает список URL и как минимум два типа метаданных из: last modification date, change frequency, priority.
Система планирует сканирование в соответствии с этой информацией.

Claim 4 и 5 (Зависимые): Уточняют возможности Sitemap Index. Он может включать специфичную для сайта информацию (site-specific information), такую как интервалы сканирования (crawl intervals), скорость сканирования (crawl rate) и географическое положение (geographic location).

Claims 6-9 (Зависимые): Определяют использование метаданных. Утверждается, что планирование может использовать change frequency (Claim 6) и priority (Claim 8). Однако также утверждается, что планирование может быть независимым (independent) от них (Claims 7 и 9). Это юридически закрепляет статус этих полей как подсказок (hints), которые система может игнорировать.

Claim 10 (Зависимый): Определяет триггеры. Процесс может быть запущен (i) в ответ на уведомление об изменении Sitemap или (ii) по предопределенному расписанию.

Claim 18 (Зависимый): Детализирует процесс планирования:

Выбор URL-кандидатов.
Присвоение оценки (score) каждому кандидату.
Применение критериев фильтрации.
Планирование сканирования отфильтрованных кандидатов.

Где и как применяется

Изобретение является ключевым элементом инфраструктуры сканирования.

CRAWLING – Сканирование и Сбор данных
Это основной этап применения.

Планирование (Crawl Scheduling): URL Scheduler использует данные Sitemap для определения приоритетов и частоты сканирования. Метаданные (lastmod, priority) используются для определения кандидатов и расчета оценки сканирования (score).
Управление бюджетом и нагрузкой: Использование lastmod позволяет экономить бюджет, избегая сканирования неизмененного контента. Per-Site Information (например, crawl_rate) используется для контроля скорости запросов к сайту.
Обнаружение: Sitemap служит прямым источником URL, дополняя традиционное сканирование по ссылкам.

INDEXING – Индексирование и извлечение признаков
Патент косвенно влияет на этот этап:

Расчет оценок: Планировщик использует предварительно рассчитанные оценки важности (PageRank) в сочетании с priority из Sitemap для определения оценки сканирования. В описании также предполагается, что priority может влиять на саму оценку важности страницы.
Извлечение признаков (Anchor Maps): Метаданные из Sitemap (например, title, author, упомянутые в описании) могут использоваться для создания Anchor Maps, помогая индексировать контент (например, изображения) по тексту.
Индексирование по сайту: Per-Site Information (геоположение, язык) может добавляться в индекс для поддержки поиска с ограничениями.

Входные данные:

Уведомления о Sitemap (Pings).
Файлы Sitemap и Sitemap Index (URL и все метаданные).
URL Status Information (история сканирования, дата последнего визита).
Оценки важности страниц (PageRank).

Выходные данные:

Приоритезированный список URL для сканирования (Sorted & Filtered List of Candidate URLs, with scores).
Обновленные данные в Sitemap Database и Per-Site Info DB.

На что влияет

Типы контента: Влияет на все типы контента, перечисленные в Sitemap. Особенно критично для контента, который трудно обнаружить (изолированные страницы, контент баз данных).
Конкретные ниши: Критически важно для крупных сайтов (E-commerce, Новости, Агрегаторы), где управление бюджетом и свежестью индекса имеет первостепенное значение.

Когда применяется

Триггеры активации:
- Реактивный: Получение уведомления (Sitemap Notification) от веб-сайта.
- Проактивный: Периодическая проверка известных Sitemap на основе ожидаемой частоты обновлений или возраста файла.
Условия применения: Применяется при наличии доступного и валидного файла Sitemap.

Пошаговый алгоритм

Процесс планирования сканирования (на стороне поисковой системы)

Инициация обработки: Получение уведомления о Sitemap ИЛИ выбор Sitemap для обработки из Sitemap Database на основе времени/частоты обновления.
Загрузка: Sitemap Crawler загружает выбранный Sitemap (и/или Sitemap Index).
Обновление баз данных: Обновление Sitemap Database и Per-Site Info DB новой информацией.
Определение кандидатов: Для каждого URL определяется, является ли он кандидатом на сканирование. Используется URL Status Information (история сканирований) и метаданные Sitemap (lastmod, changefreq), чтобы понять, произошло ли обновление или оно вероятно.
Присвоение оценки (Scoring): Каждому кандидату присваивается оценка (score). Патент указывает, что оценка может основываться на PageRank и значении priority из Sitemap.
Фильтрация (Опционально): Список кандидатов фильтруется на основе краулинговых бюджетов (budgets) и ограничений сайта (site constraints).
Планирование: Формируется отсортированный и отфильтрованный список URL для загрузки роботами.
Вторичное планирование (Опционально): Невыбранные кандидаты могут быть переданы вторичному краулеру (Secondary Web Crawler).

Какие данные и как использует

Данные на входе

Система использует данные, предоставляемые вебмастером через файлы Sitemap:

Технические факторы:
- loc: URL документа.
Временные факторы:
- lastmod: Дата последнего изменения документа.
- changefreq: Ожидаемая частота изменения документа.
Факторы приоритизации:
- priority: Относительный приоритет URL на сайте.
Контентные факторы (Опционально, упомянуты в описании):
- title (Заголовок), author (Автор). Могут использоваться для Anchor Maps.

Данные в Per-Site Information (в Sitemap Index):

Факторы управления краулингом: crawl_rate (скорость сканирования) и временные интервалы.
Географические и Языковые факторы: location (геоположение сайта), language (язык сайта).

Внутренние данные системы:

PageRank (оценка важности страницы).
URL Status Information (история сканирования).
Crawl Budgets и Site Constraints.

Какие метрики используются и как они считаются

Определение кандидатов на сканирование:
- Сравнение lastmod с датой последнего сканирования. Если lastmod новее, URL становится кандидатом.
- Прогнозирование на основе changefreq. Если время с последнего сканирования превышает указанную частоту, URL может стать кандидатом.
Score (Оценка для планирования): Метрика, определяющая очередность сканирования. Рассчитывается на основе комбинации PageRank и Priority из Sitemap.
Boost Factors (Повышающие коэффициенты): Планировщик может применять коэффициенты на основе priority или популярности документа (document popularity information, если она доступна из логов доступа при генерации Sitemap) к базовым оценкам.

Выводы

Sitemaps как основа планирования сканирования: Патент подтверждает, что Sitemaps — это не просто механизм обнаружения URL, а ключевой источник данных для URL Scheduler, напрямую влияющий на распределение ресурсов краулера.
Критичность lastmod для эффективности: Основной механизм повышения эффективности — использование lastmod для избежания повторного сканирования неизмененного контента. Это основа оптимизации краулингового бюджета.
Интеграция Priority и PageRank: Система явно комбинирует оценку важности страницы (PageRank) и указанный вебмастером приоритет (priority) для расчета финальной оценки (score), определяющей очередность сканирования.
Подсказки vs. Директивы: Патент юридически закрепляет (Claims 7, 9), что changefreq и priority являются подсказками (hints). Система может их игнорировать, если данные недостоверны или не соответствуют критериям нормализации.
Управление нагрузкой и таргетинг (Per-Site Information): Система поддерживает получение глобальных настроек через Sitemap Index, включая управление скоростью сканирования (crawl_rate) и получение гео/языковых данных для индексации.
Потенциальное использование данных для индексации (Anchor Maps): Метаданные из Sitemap (title, author) могут использоваться для создания Anchor Maps, помогая в индексации контента, особенно нетекстового.

Практика

Best practices (это мы делаем)

Обеспечение абсолютной точности lastmod: Это критически важно. Указывайте точную дату и время последнего значимого изменения контента. Это основной сигнал для планировщика о необходимости повторного сканирования и главный инструмент экономии краулингового бюджета.
Использование Sitemap Index и Сегментация: Для больших сайтов используйте индексные файлы и разделяйте URL по разделам или типам контента. Это соответствует механизму обнаружения обновлений, описанному в патенте (проверка даты изменения файла Sitemap в индексе).
Автоматическая генерация и обновление: Внедрите автоматизированные процессы генерации Sitemap (из CMS, БД или логов доступа), чтобы обеспечить актуальность и полноту данных.
Логичное использование priority: Используйте priority для указания относительной важности страниц внутри сайта. Это помогает планировщику приоритизировать сканирование в условиях ограниченного бюджета, учитывая, что этот сигнал комбинируется с PageRank.
Обеспечение чистоты Sitemaps: Включайте только канонические, индексируемые URL с кодом ответа 200 OK.

Worst practices (это делать не надо)

Указание ложной даты lastmod: Установка текущей даты в lastmod для неизмененного контента. Это приводит к неэффективному расходованию бюджета и может привести к потере доверия к данным Sitemap.
Злоупотребление priority: Установка приоритета 1.0 для всех страниц. Патент указывает, что краулер может игнорировать значения priority, если они не соответствуют критериям (например, если среднее значение слишком высоко).
Включение мусорных URL: Включение страниц с ошибками, редиректов, неканонических версий или закрытых в robots.txt страниц снижает эффективность сканирования.
Игнорирование changefreq: Хотя это подсказка с меньшим весом, предоставление реалистичных данных помогает планировщику лучше прогнозировать нагрузку.

Стратегическое значение

Патент лежит в основе технического SEO и управления сканированием. Он подтверждает, что Google стремится к эффективному использованию своих ресурсов и полагается на точные данные от вебмастеров. Стратегия должна строиться на обеспечении максимальной прозрачности через Sitemaps. Эффективное управление Sitemaps напрямую конвертируется в более быструю индексацию, свежесть индекса и оптимальное распределение краулингового бюджета.

Практические примеры

Сценарий: Оптимизация краулингового бюджета для крупного E-commerce сайта

Задача: На сайте 1 млн товаров, краулинговый бюджет ограничен. Новые товары и обновленные категории должны индексироваться быстро, а старые товары без изменений — реже.
Действия (на основе патента):
- Использовать Sitemap Index.
- Сегментировать Sitemaps: Категории, Новые Товары (за последние 7 дней), Старые Товары.
- Настройка Категорий: Точный lastmod (при изменении листинга), высокий priority (0.9), changefreq daily.
- Настройка Новых Товаров: Точный lastmod (дата создания), высокий priority (0.8).
- Настройка Старых Товаров: Точный lastmod (дата последнего изменения цены/описания), низкий priority (0.5), changefreq monthly.
Результат: URL Scheduler видит, что lastmod старых товаров не изменился, и откладывает их сканирование. Ресурсы перераспределяются на категории и новые товары, которые получают более высокий score для сканирования благодаря priority и свежести lastmod.

Вопросы и ответы

Насколько важен тег lastmod согласно этому патенту?

Он критически важен. lastmod является основным механизмом для повышения эффективности сканирования. Система сравнивает эту дату с датой последнего сканирования. Если контент не изменился (дата та же или старше), сканирование может быть отложено для экономии краулингового бюджета. Точность этого тега имеет первостепенное значение.

Влияет ли значение priority в Sitemap на ранжирование?

Прямое влияние на ранжирование маловероятно. Патент описывает использование priority в контексте планирования сканирования (URL Scheduler). Он используется для расчета оценки (score), которая определяет очередность сканирования URL на вашем сайте, в комбинации с PageRank. Однако, помогая краулеру быстрее сканировать важные страницы, priority косвенно способствует лучшей индексации.

Может ли Google игнорировать данные priority и changefreq?

Да. Патент явно закрепляет это право (Claims 7 и 9), указывая, что планирование может происходить независимо от этих значений. Они рассматриваются как подсказки (hints). В описании указано, что краулер может игнорировать или модифицировать значения priority, если они не соответствуют определенным критериям (например, если вебмастер злоупотребляет высокими значениями).

Что произойдет, если я буду указывать неверную дату lastmod?

Указание свежей даты lastmod для неизмененного контента заставит планировщик добавить URL в список кандидатов на сканирование. Это приведет к неэффективному расходованию краулингового бюджета. Если система обнаружит, что контент фактически не изменился, она может потерять доверие к данным Sitemap вашего сайта и начать игнорировать этот сигнал.

Гарантирует ли наличие URL в Sitemap его сканирование?

Нет. Патент описывает этап фильтрации в процессе планирования (Claim 18). Даже если URL является кандидатом на сканирование, он может быть отфильтрован на основе краулинговых бюджетов (Crawl Budgets) или ограничений сайта (Site Constraints). URL конкурируют за ресурсы на основе назначенных им оценок (scores).

Что такое Per-Site Information и как это использовать?

Это данные уровня сайта, которые могут быть включены в Sitemap Index. Они включают предпочтительную скорость сканирования (crawl rate), время сканирования, геоположение (location) и язык (language). Это позволяет вебмастерам влиять на нагрузку, создаваемую краулером, и потенциально улучшать таргетинг в поиске.

В патенте упоминается использование Title и Author из Sitemap. Зачем это нужно?

Патент предполагает, что эти метаданные могут использоваться для создания Anchor Maps. Anchor Maps помогают поисковой системе понять контекст документа, аналогично анкорному тексту ссылок. Это особенно полезно для индексации документов, которые сами не содержат текста (например, изображений или PDF), улучшая их находимость по текстовым запросам.

Как часто Google сканирует файлы Sitemap?

Патент описывает два механизма (Claim 10). Первый — реактивный: Google сканирует файл после получения уведомления (Sitemap Notification или пинга). Второй — проактивный: система периодически проверяет известные файлы Sitemap по расписанию, основанному на ожидаемой частоте обновлений сайта или предыдущих данных.

Как PageRank взаимодействует с данными Sitemap при планировании?

Патент указывает, что планировщик (URL Scheduler) назначает финальную оценку (score) для определения очередности сканирования, основываясь как на PageRank (общая важность страницы в вебе), так и на priority (важность внутри сайта). Страница с высоким PageRank будет сканироваться часто, но priority может дополнительно скорректировать ее позицию в очереди сканирования сайта.

Что происходит с URL, которые были отфильтрованы планировщиком?

Если URL были отфильтрованы (например, из-за ограничений бюджета), они не попадают в основное расписание. Однако патент упоминает, что список невыбранных кандидатов (List of Unselected Candidate URLs) может быть передан вторичному веб-краулеру (Secondary Web Crawler) для обработки с более низким приоритетом.