
Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.
Патент решает проблему неэффективного распределения ресурсов сканирования, особенно когда краулер отстает от графика (behind schedule) и не успевает обработать все запланированные URL. Он устраняет недостаток традиционных систем последовательного переобхода, при котором менее важные или редко обновляемые страницы могут сканироваться в ущерб более важным (important pages) или часто изменяющимся страницам.
Запатентован метод динамического управления расписанием сканирования (Crawl Schedule). Система рассчитывает оптимальную частоту сканирования и определяет дату следующего обхода (Due Date) для каждого URL. Ключевой особенностью является механизм обработки «просроченных» страниц (Past Due Items): в зависимости от степени отставания краулера от графика система динамически выбирает метод сортировки очереди сканирования, переключаясь с хронологического порядка на приоритизацию по важности (Importance Rank).
Система работает в два этапа:
Change Period) на основе истории сканирования и его важность (Importance Rank, например, PageRank). На основе этих данных, а также административных правил (Hints), рассчитывается период сканирования (Crawl Period) и назначается Due Date.Importance Rank.Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и обеспечение свежести индекса для важных страниц остаются фундаментальными задачами поисковых систем. Хотя методы оценки важности и частоты изменений с 2005 года эволюционировали (например, с использованием ML), базовая логика динамической приоритизации сканирования при ограниченных ресурсах остается крайне актуальной.
Патент имеет высокое значение (8.5/10) для SEO, особенно для крупных веб-сайтов. Он раскрывает конкретный механизм распределения краулингового бюджета. Ключевой вывод: авторитетность страницы (Importance Rank/PageRank) является определяющим фактором для частоты и приоритета сканирования в условиях ограниченных ресурсов Google. Если сайт не обладает достаточной авторитетностью, его страницы могут сканироваться с большими задержками.
Change Period (например, 50%), чтобы точнее отслеживать реальную частоту изменений.Due Date).Crawl Period. Включают Minimum Hints (не сканировать чаще, чем X) и Maximum Hints (сканировать не реже, чем Y).Importance Rank. Гарантирует частое сканирование важных страниц, даже если они редко меняются.PageRank® как один из вариантов реализации.Due Date) уже прошло.Claim 1 (Независимый пункт): Описывает основной метод управления расписанием повторного сканирования.
Change Period) для набора элементов (URL).Crawl List), включающего элементы, которые просрочены (overdue) для сканирования.Ядром изобретения является динамический выбор метода приоритизации (сортировки) для просроченных задач сканирования. Система адаптирует приоритеты на лету в зависимости от текущего состояния и нагрузки.
Claims 2, 3, 4 (Зависимые пункты): Детализируют возможные методы сортировки, упомянутые в Claim 1.
Importance Rank).Change Period).Система может переключаться между приоритизацией по авторитетности, свежести или давности ожидания в очереди. Выбор режима зависит от степени отставания краулера от графика (Tardiness).
Изобретение полностью относится к этапу CRAWLING – Сканирование и Сбор данных. Оно является центральным компонентом системы планирования сканирования (Crawl Scheduling) и управления краулинговым бюджетом (Crawl Budget Management).
Взаимодействие компонентов:
Ranking Engine на этапе индексации рассчитывает и предоставляет Importance Rank (например, PageRank). History Server хранит данные о предыдущих сканированиях.Crawl Scheduler использует историю и Importance Rank для расчета Crawl Period и Due Date.Crawl Manager отслеживает расписание, идентифицирует просроченные элементы, оценивает Tardiness и динамически выбирает метод сортировки очереди.Crawler (Googlebot) выполняет сканирование согласно отсортированному списку.Входные данные:
Importance Rank для каждого URL.Hints).Выходные данные:
Ready to Crawl List), передаваемый краулеру.Importance Rank будут первыми страдать от задержек в сканировании, когда ресурсы Googlebot ограничены. Высокоавторитетные сайты получают приоритет.Процесс планирования работает непрерывно, но ключевой механизм динамической сортировки активируется при определенных условиях:
Past Due Items) в очереди.Tardiness) для переключения стратегий. Альтернативные методы сортировки (при высоком отставании):
Importance Rank (PageRank). При этом может применяться отсечение: например, сканируются топ 80% самых важных страниц, а нижние 20% игнорируются (discarded).Importance Rank, Due Date и Change Rate.Алгоритм состоит из двух основных процессов: Планирование сканирования и Исполнение сканирования.
Процесс А: Планирование следующего сканирования URL
Change Period.Crawl Period. Например, он устанавливается равным половине Change Period, чтобы быстрее обнаруживать изменения частоты обновлений.Crawl Period максимально допустимый интервал для данного уровня важности (Importance Crawl Period). Если превышает, Crawl Period уменьшается до этого максимума.Minimum/Maximum Hints). Crawl Period корректируется, если он выходит за установленные рамки.Due Date) устанавливается как Время последнего сканирования + итоговый Crawl Period.Процесс Б: Исполнение сканирования и Приоритизация (Ключевая часть патента)
Due Date уже прошла (Past Due Items).Ready to Crawl List.Tardiness). Importance Rank или гибридный метод).Ready to Crawl List сортируется выбранным методом. При сортировке по важности наименее важные URL могут быть отброшены.Importance Rank. Патент явно упоминает PageRank® как пример. Это ключевой сигнал для установки порогов сканирования и для приоритизации очереди при отставании.Last Crawl) и исторические временные метки. Критичны для определения Change Period и статуса просрочки.Checksum/Hash) контента. Используется для обнаружения факта изменения контента между сканированиями.If-Modified-Since.Hints) – правила на основе шаблонов URL.Change Period (например, ChangePeriod/2). Далее корректируется ограничителями по важности и подсказками.Tardiness высок), Importance Rank становится главным фактором приоритизации. Авторитетные страницы будут просканированы в первую очередь, даже если менее авторитетные страницы ждут дольше.Importance Rank гарантирует, что страница не будет оставаться без внимания слишком долго, даже если она редко меняется (Importance Crawl Period).Crawl Period = 1/2 Change Period), чтобы поддерживать индекс максимально свежим и точнее определять частоту обновлений.Importance Rank и, следовательно, их приоритет в очереди сканирования.Last-Modified, ETag) и поддерживайте актуальные даты в <lastmod> XML Sitemaps. Это помогает системе точнее определить Change Period и экономить ресурсы.Importance Rank страницы будут деприоритизированы, как только ресурсы Googlebot окажутся ограничены.Importance Rank и приоритет сканирования.Importance Rank (например, фасеты, технические страницы) размывает краулинговый бюджет. При высокой нагрузке эти страницы рискуют быть отброшенными (discarded) из очереди сканирования.Патент подтверждает фундаментальный принцип SEO: авторитетность (Importance Rank/PageRank) определяет не только ранжирование, но и сканирование. Оптимизация краулингового бюджета — это не просто техническая задача, а стратегическая задача повышения воспринимаемой важности ресурса. В условиях ограниченных ресурсов Google всегда будет отдавать предпочтение авторитетности.
Сценарий: Приоритизация сканирования крупного E-commerce сайта во время пиковой нагрузки (например, Черная Пятница).
Tardiness превышает порог.Importance Rank.Importance Rank) получают наивысший приоритет и сканируются в первую очередь.Importance Rank) смещаются вниз очереди.Importance Rank) могут быть полностью отброшены из текущей очереди сканирования.Что важнее для частоты сканирования: частота обновления страницы или ее авторитетность (PageRank)?
Оба фактора важны, но их роль меняется. В штатном режиме Google старается адаптироваться к частоте обновлений (Change Period). Однако, когда краулер отстает от графика (нехватка ресурсов), Importance Rank (PageRank) становится доминирующим фактором приоритизации. Авторитетная страница получит приоритет.
Как Google определяет "важность" (Importance Rank) страницы для сканирования?
Патент явно упоминает PageRank® как пример реализации Importance Rank. Это метрика, оценивающая авторитетность страницы на основе количества и качества входящих ссылок (внешних и внутренних). Чем выше ранг, тем выше приоритет страницы в очереди сканирования.
Как Google определяет, что краулер отстает от графика?
Система отслеживает время, прошедшее с запланированной даты сканирования (Due Date) для URL в очереди (Tardiness). Если это время превышает установленный порог (например, 3 часа, как указано в патенте), система фиксирует отставание и может изменить стратегию приоритизации.
Мой сайт часто обновляется, но Googlebot приходит редко. Почему?
Вероятно, у вашего сайта или его страниц низкий Importance Rank. Когда ресурсы Google ограничены (глобальное отставание от графика), система приоритизирует более авторитетные сайты. Необходимо работать над повышением авторитетности (ссылочный профиль, внутренняя перелинковка) для улучшения сканирования.
Что такое механизм "Crawl Period = 1/2 Change Period"?
Система стремится сканировать страницу чаще, чем она реально меняется. Если страница меняется раз в 10 дней (Change Period), система может запланировать сканирование раз в 5 дней (Crawl Period). Это позволяет не пропускать обновления и более точно определять реальную частоту изменений, если она увеличится.
Что происходит с неважными страницами, когда краулер перегружен?
Патент описывает агрессивный подход: при сильном отставании и сортировке по важности система может полностью игнорировать (discard) нижнюю часть списка. Например, сканируются только топ 80% самых важных страниц, а нижние 20% удаляются из очереди до следующего цикла планирования.
Как этот патент связан с краулинговым бюджетом (Crawl Budget)?
Этот патент описывает ядро механизма управления краулинговым бюджетом. Он показывает, как Google распределяет свои ограниченные ресурсы сканирования, балансируя между необходимостью обновления контента (свежесть) и его важностью, и как эта стратегия меняется в зависимости от нагрузки.
Что такое "Importance Crawl Period"?
Это гарантия минимальной частоты сканирования для важных страниц. Например, система может определить, что страницы с высоким Importance Rank должны сканироваться не реже раза в 4 дня, даже если их контент меняется раз в месяц. Это гарантирует актуальность индекса для авторитетных ресурсов.
Как Google определяет частоту изменений (Change Period)?
При каждом сканировании система вычисляет хэш (контрольную сумму) контента и сохраняет его в History Server. При следующем сканировании новый хэш сравнивается с предыдущим. Если хэши отличаются, фиксируется факт изменения. Анализируя историю этих изменений во времени, система оценивает Change Period.
Патент подан в 2005 году. Актуален ли он сейчас?
Хотя патент старый, описанные в нем принципы являются фундаментальными для работы любой крупномасштабной поисковой системы. Управление ресурсами сканирования и приоритизация на основе важности и свежести – это вечные задачи. Современные системы Google, вероятно, более сложные, но базовая логика, заложенная в этом патенте, остается актуальной.

Краулинг
Свежесть контента
Техническое SEO

Краулинг

Краулинг
Индексация
Свежесть контента

Краулинг
Техническое SEO
Индексация

Краулинг
Свежесть контента
Индексация

Поведенческие сигналы
Семантика и интент
SERP

EEAT и качество
Свежесть контента
Семантика и интент

Knowledge Graph
Семантика и интент
EEAT и качество

Поведенческие сигналы
Семантика и интент
SERP

Структура сайта
Техническое SEO
Ссылки

Ссылки
Индексация
Техническое SEO

Персонализация
EEAT и качество
Поведенческие сигналы

Структура сайта
SERP
Ссылки

SERP
Поведенческие сигналы

SERP
EEAT и качество
Персонализация
