
Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.
Патент решает проблему неэффективности традиционного последовательного повторного сканирования. При таком подходе менее важные или редко меняющиеся страницы могут сканироваться раньше, чем более важные или часто обновляемые. Это приводит к неоптимальному использованию ресурсов сканирования (Crawl Budget) и снижению свежести индекса. Цель изобретения — создать адаптивный график сканирования, приоритизирующий важный и обновленный контент.
Запатентована система и метод для определения оптимального графика повторного сканирования документов. Система оценивает историческую частоту изменений документа (Change Period) и рассчитывает желаемую частоту его проверки (Crawl Period). Этот период затем корректируется на основе важности документа (Importance Rank) и специфических правил (Hints). Изобретение описано в контексте поискового устройства (Search Appliance) для интранета.
Система работает в несколько этапов:
checksums/hash) контента из прошлых сканирований для определения факта изменения.Importance Rank, например, PageRank) частота сканирования увеличивается, даже если они меняются редко.Средняя. Фундаментальные концепции патента — оптимизация сканирования на основе важности (PageRank) и частоты изменений — остаются крайне актуальными в 2025 году. Однако описанная реализация (простые эвристики, такие как установка Crawl Period в половину Change Period, и ручные правила Hints) устарела, так как оригинальная заявка подана в 2005 году. Современные системы Google используют сложное машинное обучение для планирования сканирования. Кроме того, патент фокусируется на Search Appliance для интранета, что отличается от основного веб-поиска.
Патент имеет высокое значение (8/10) для понимания основ управления Crawl Budget. Он четко определяет ключевые входные данные для планировщика сканирования: частоту изменений и важность страницы (где PageRank указан как пример). Это подтверждает стратегическую необходимость повышения авторитетности сайта для улучшения частоты его сканирования и обеспечения свежести в индексе.
Change Period и корректируется.Crawl Period, и выбирает URL для отправки краулеру.Change Period на основе данных от History Server.Crawl Period. Включают Minimum Hints (не сканировать чаще, чем X) и Maximum Hints (не сканировать реже, чем Y).Crawl Period, установленное для определенного уровня Importance Rank. Гарантирует, что важные страницы сканируются достаточно часто.Claim 1 (Независимый пункт): Описывает метод определения графика повторного сканирования элементов в интранете с использованием Search Appliance.
Change Period (частоты изменения контента) для элементов на основе истории сканирования.Crawl Period для каждого элемента, который устанавливается относительно Change Period.Crawl Period с использованием критериев корректировки (adjustment criteria). Критерии включают комбинацию Importance Rank элемента и списка Hints.Crawl Period для выбранных элементов. Корректировка происходит, если элемент соответствует Hint И расчетный Crawl Period превышает порог (threshold), связанный с этим Hint.recrawl schedule) с использованием времени повторного сканирования (recrawl time). Это время основано на времени последнего сканирования плюс расчетный или скорректированный Crawl Period.Ядро изобретения — это процесс адаптивного планирования сканирования, который использует историю изменений как базовую линию, а затем применяет модификаторы (важность и правила) для оптимизации графика.
Claim 3 и 4 (Зависимые): Уточняют процесс использования графика.
more overdue), сканировались раньше, чем менее просроченные (less overdue).Изобретение целиком относится к этапу CRAWLING – Сканирование и Сбор данных. Оно описывает логику работы системы планирования сканирования (Crawl Scheduling) и управления бюджетом сканирования (Crawl Budget Management).
Хотя патент описывает применение в контексте Search Appliance для интранета, он также указывает, что изобретение может быть реализовано в веб-поисковой системе (например, Google.com).
Взаимодействие компонентов:
History Server предоставляет данные о прошлых сканированиях (время, хеш).Crawl Scheduler использует эти данные для расчета Change Period.Ranking Engine (на этапе INDEXING) предоставляет Importance Rank (например, PageRank).Crawl Manager использует Change Period, Importance Rank и Hints для расчета и корректировки Crawl Period, поддерживает график и формирует Ready to Crawl List.Crawler запрашивает URL из Crawl Manager, скачивает их и обрабатывает.Входные данные:
Importance Rank (PageRank) для каждого URL.Hints).Выходные данные:
Recrawl Schedule).Ready to Crawl List).Алгоритм применяется непрерывно в рамках жизненного цикла управления сканированием.
Crawl Manager постоянно проверяет график, чтобы определить, какие URL готовы к сканированию.alternate crawl order) активируются, если краулер отстает от графика на определенное пороговое значение (в патенте приведен пример порога в 3 часа).Процесс А: Расчет периода сканирования (Crawl Period)
Crawl Scheduler анализирует историю сканирования URL, сравнивая контрольные суммы контента. Оценивается интервал между обнаруженными изменениями.Crawl Period устанавливается на основе Change Period. В описанном варианте он устанавливается равным половине Change Period. Это делается для агрессивного обнаружения изменений и более точного определения истинной частоты обновлений.Crawl Period с Importance Crawl Period (максимально допустимым интервалом сканирования для данного уровня Importance Rank).Crawl Period длиннее, чем Importance Crawl Period, он сокращается до значения Importance Crawl Period. (Важные страницы сканируются чаще, даже если меняются редко).Minimum Hints и Maximum Hints).Minimum Hint и его Crawl Period короче заданного минимума, он устанавливается на минимум (защита от перекрауливания).Maximum Hint и его Crawl Period длиннее заданного максимума, он устанавливается на максимум (обеспечение свежести).Crawl Period сохраняется.Процесс Б: Выполнение сканирования
Crawl Manager проверяет график сканирования. Время следующего сканирования рассчитывается как время последнего сканирования плюс Crawl Period.Ready to Crawl List.Importance Rank (PageRank), или по комбинации важности и времени просрочки, или по комбинации важности, даты и частоты изменений. При сортировке по важности часть наименее важных страниц может быть отброшена.Crawler обрабатывает элементы списка в отсортированном порядке, пока список не опустеет.Time Crawled). Критически важны для расчета интервалов.Hash) содержимого, используемые для обнаружения изменений. Упоминается возможность использования HTTP-заголовка If-Modified-Since.Importance Rank. Патент явно упоминает PageRank® как один из вариантов реализации метрики важности, которая не зависит от запроса.Hints), основанные на шаблонах URL (например, начало строки, окончание строки или регулярные выражения). Данные о состоянии системы (отставание от графика) для выбора метода сортировки.Change Period. Пример эвристики из патента: Crawl Period=2Change Period.Importance Rank. (Например, Ранг 9 = макс. 4 дня, Ранг 1 = макс. 4 месяца).Change Period) и необходимостью поддерживать точность индекса для важного контента (Importance Rank/PageRank).Importance Rank. Эта метрика используется для установки верхней границы интервала сканирования. Очень важные страницы будут сканироваться часто, даже если их контент меняется редко.Crawl Period короче, чем наблюдаемый Change Period (например, вдвое).Importance Rank).Minimum Hints предназначен для предотвращения чрезмерного сканирования таких страниц.Hints (ручное управление частотой сканирования администратором) специфичны для контекста Search Appliance в интранете и недоступны в основном веб-поиске Google.Importance Rank (PageRank) напрямую влияет на максимальную частоту сканирования и приоритет при перегрузке краулера, работа над повышением авторитетности ключевых страниц (через качественные внешние и внутренние ссылки) критически важна для обеспечения достаточного Crawl Budget.If-Modified-Since. Корректная отдача заголовка Last-Modified помогает системе понять, изменился ли контент, экономя ресурсы.Change Period). Регулярное и значимое обновление контента тренирует краулер посещать страницы чаще.Importance Rank за счет продуманной перелинковки, гарантирует их приоритетное сканирование.Change Period и неэффективному расходованию Crawl Budget.Importance Rank, интервал ее сканирования будет большим, независимо от частоты обновлений.Importance Rank и, как следствие, частоту сканирования.Патент подтверждает критическую связь между авторитетностью (PageRank) и поведением краулера. Crawl Budget в значительной степени зависит от воспринимаемой важности (Importance Rank) и полезности обновления контента (Change Period). Хотя конкретные эвристики, описанные в патенте 2005 года, устарели и заменены ML-моделями, стратегический императив остается неизменным: для обеспечения максимальной видимости и быстрой индексации необходимо строить авторитетный ресурс.
Сценарий 1: Улучшение частоты сканирования страницы категории интернет-магазина
Проблема: Новые товары в категории появляются в индексе Google с задержкой в несколько дней.
Анализ на основе патента: Задержка вызвана длинным Crawl Period. Это следствие либо низкого Importance Rank страницы категории, либо система считает, что Change Period страницы длинный.
Действия:
Last-Modified.Ожидаемый результат: Сокращение Crawl Period за счет повышения важности и подтвержденной частоты изменений, что приведет к более быстрому обнаружению новых товаров.
Сценарий 2: Оптимизация сканирования новостного сайта при высокой нагрузке
Проблема: Во время пиковых новостных событий краулер не успевает оперативно индексировать все новые статьи.
Анализ на основе патента: Краулер отстает от графика и переключается в режим сортировки по Importance Rank.
Действия: Необходимо обеспечить быструю передачу Importance Rank новым статьям. Размещать ссылки на самые важные новости на главной странице и в топе рубрик (страницах с высоким Importance Rank).
Ожидаемый результат: При перегрузке краулер будет выбирать для сканирования те статьи, которые получили наибольший вес, гарантируя индексацию самого важного контента.
Какие два основных фактора определяют, как часто Google сканирует страницу?
Согласно патенту, это Importance Rank (важность страницы, например, PageRank) и Change Period (оценка того, как часто меняется контент страницы). Система балансирует эти два фактора, чтобы определить оптимальный период сканирования (Crawl Period).
Что важнее для частоты сканирования: частота обновления контента или его авторитетность (PageRank)?
Оба фактора критичны. Частота обновления определяет базовую потребность в сканировании. Авторитетность (Importance Rank) гарантирует минимальную частоту сканирования для важных страниц, даже если они меняются редко. Кроме того, авторитетность становится главным критерием приоритезации, если краулер перегружен и отстает от графика.
В патенте говорится, что Crawl Period устанавливается как половина Change Period. Почему?
Это механизм для агрессивного обнаружения реальной частоты изменений. Если система заметила, что страница меняется раз в 10 дней, она запланирует визит через 5 дней. Это позволяет быстрее обнаружить, если частота обновлений увеличилась, и скорректировать график сканирования.
Что происходит, если Googlebot не успевает сканировать мой сайт по графику?
Если краулер значительно отстает от графика (превышает порог задержки), он меняет стратегию сортировки очереди. Вместо хронологического порядка (кто дольше ждет), он переключается на сортировку по Importance Rank (PageRank). В этом случае самые авторитетные страницы будут просканированы в первую очередь, а менее важные могут быть проигнорированы.
Как система определяет, что контент изменился?
Система рассчитывает контрольную сумму (Hash или Checksum) содержимого страницы при каждом сканировании. При следующем визите она сравнивает новую чек-сумму с сохраненной. Если они отличаются, система фиксирует факт изменения контента.
Что такое “Hints” и применимы ли они к обычному Google Поиску?
Hints в патенте — это правила, заданные администратором Search Appliance для принудительной установки минимальной или максимальной частоты сканирования. В обычном веб-поиске у SEO-специалистов нет возможности так прямо управлять частотой. Мы используем косвенные сигналы, но не прямые директивы.
Стоит ли добавлять динамические элементы (например, блок с текущей датой), чтобы увеличить частоту сканирования?
Нет. Патент признает, что это может привести к чрезмерно частому сканированию и неэффективному расходованию Crawl Budget. Для таких случаев в патенте предусмотрен механизм Minimum Hints, чтобы ограничить частоту сканирования страниц с незначительными динамическими изменениями.
Применяется ли этот патент в основном поиске Google или только в корпоративных Search Appliances?
Патент описывает реализацию в Search Appliance для интранета. Однако в тексте указано, что изобретение может быть реализовано и в веб-поисковой системе. Описанные принципы (баланс свежести и важности, приоритизация по PageRank) являются фундаментальными для работы Google и используются в основном поиске, хотя реализация может отличаться.
Как этот патент связан с понятием Краулингового Бюджета (Crawl Budget)?
Этот патент описывает ключевую часть управления краулинговым бюджетом — планирование спроса на сканирование (Crawl Demand). Система определяет, какие страницы нужно сканировать и как часто, основываясь на их важности и частоте изменений. Это напрямую формирует потребность сайта в ресурсах краулера.
Как лучше всего ускорить индексацию новой страницы согласно этому патенту?
Чтобы новая страница была быстро просканирована, она должна быстро получить высокий Importance Rank. Лучший способ добиться этого — разместить ссылки на новую страницу с уже известных и авторитетных страниц сайта (например, с главной страницы или важных категорий). Это гарантирует ее обнаружение и присвоение высокого приоритета в очереди на сканирование.

Краулинг
Свежесть контента
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Индексация
Свежесть контента

Краулинг
Индексация
Свежесть контента

Краулинг
Индексация
Техническое SEO

Knowledge Graph
SERP
Семантика и интент

Поведенческие сигналы
SERP
Семантика и интент

Техническое SEO
SERP
Ссылки

Мультиязычность
Ссылки
SERP

Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Ссылки
EEAT и качество
Антиспам

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
Поведенческие сигналы
EEAT и качество

Персонализация
SERP
Ссылки
