
Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.
Патент решает фундаментальную проблему масштабируемости веб-краулинга: как эффективно управлять сканированием миллиардов документов в интернете, превышающих возможности поисковой системы. Он описывает архитектуру для определения того, какие документы следует сканировать в следующем цикле, в каком порядке, и следует ли загружать их заново или использовать (Reuse) существующую копию, чтобы оптимизировать свежесть и покрытие в рамках ограничений пропускной способности.
Запатентована распределенная система планирования (Scheduler System) для краулера. Система использует важность страницы (Page Importance, например, PageRank) и исторические данные о сканировании (History Logs, Status Data) для расчета приоритета (Priority Score) каждого известного URL. Планировщики отбирают Топ-N самых приоритетных URL, применяют к ним ограничения емкости (Scheduler Limits) на уровне хоста или домена и определяют логику повторного использования контента (Reuse Logic) для оптимизации ресурсов.
Система работает в двух ключевых направлениях:
Priority Score (Важность Страницы * Boost Factor). URL сортируются, выбирается Топ-N, после чего применяются Capacity Limits (например, максимум URL на хост).Reuse Server анализирует историю изменений (через Content Checksum) и важность страницы. Высоковажные страницы часто загружаются заново (DOWNLOAD). Страницы средней важности могут использовать условную загрузку (REUSE IF NOT MODIFIED SINCE). Низковажные, неизменившиеся страницы используются повторно из локального репозитория (REUSE) для экономии ресурсов.Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и приоритизация сканирования на основе авторитетности являются фундаментальными аспектами работы современных поисковых систем. Принципы, описанные в этом патенте, остаются критически важными для управления масштабом и эффективностью сканирования в 2025 году.
Патент имеет критическое значение для технического SEO, особенно для крупных сайтов. Он раскрывает механизмы, лежащие в основе управления бюджетом сканирования. Патент прямо указывает, что Page Importance (PageRank) является основным фактором приоритизации сканирования. Понимание логики фильтрации ошибок, применения лимитов на хост и механизма повторного использования контента позволяет SEO-специалистам оптимизировать архитектуру сайта и серверную инфраструктуру для обеспечения максимальной скорости и полноты индексации.
Priority Score URL. Например, для продвижения новостных сайтов или главных страниц крупных компаний.Timestamp, Crawl Status (статус сканирования), Content Checksum, Source ID (источник загрузки) и Page Importance на момент сканирования.Page Importance. Является основой для расчета Priority Score.Page Importance и Boost Factor.History Logs для определения, следует ли загружать документ из сети или использовать локальную копию.Reuse Table. Варианты: DOWNLOAD (загрузить), REUSE (использовать копию) или REUSE IF NOT MODIFIED SINCE (условная загрузка).Claim 1 (Независимый пункт): Описывает систему планирования.
Status Data) из предыдущих сканирований.Priority Scores и планируют сканирование на основе этих оценок И Status Data.plurality of consecutive prior crawls).Claim 5 (Зависимый от 1): Детализирует расчет Priority Score.
Оценка приоритета рассчитывается с использованием функции: . Boost Factor используется для повышения или понижения приоритета.
Claim 8 (Зависимый от 6): Описывает применение ограничений.
После выбора приоритизированных URL, из этого списка удаляются URL в соответствии с одним или несколькими Scheduler Limits (например, лимиты мощности хоста или домена).
Изобретение является центральным компонентом этапа CRAWLING – Сканирование и Сбор данных. Оно определяет всю логику планирования работы краулера (Googlebot).
CRAWLING – Сканирование и Сбор данных
URL Schedulers определяют план сканирования (Crawl Scheduling) и управляют бюджетом (Crawl Budget Management). Они решают, что именно Robots будут загружать.
INDEXING – Индексирование и извлечение признаков
Система планирования использует данные, сгенерированные на этапе индексирования предыдущих циклов:
Page Importance Scores (например, PageRank), рассчитанные Page Rankers.History Logs и URL Status Files, созданные Content Processing Servers.Входные данные:
URL Status Files (история ошибок и доступности).Page Importance scores (PageRank).History Logs (контрольные суммы контента, временные метки).Scheduler Limits (параметры мощности) и Boost Factors.Выходные данные:
Schedule Output File (приоритизированный список URL для сканирования).Reuse Table (инструкции по повторному использованию).Unscheduled URLs File (опционально, список URL, не попавших в расписание).Scheduler Limits и приоритизация играют ключевую роль в том, какая часть сайта будет обновлена.epoch или crawl cycle).Система состоит из двух основных процессов: Процесс А (Планирование URL) и Процесс Б (Определение повторного использования).
Процесс А: Планирование URL (URL Scheduler)
URL Status File.Exception Filters), например, удаление спама.Priority Score по формуле: .Priority Score, выбираются первые N URL (N резервирует часть мощности для новых ссылок).Scheduler Limits (например, не более K документов с одного хоста/домена).Schedule Output File.Процесс Б: Определение повторного использования (Reuse Server)
History Logs.Page Importance > Threshold 1. Reuse Type = DOWNLOAD.Page Importance > Threshold 2. Reuse Type = REUSE UNLESS MODIFIED SINCE (условная загрузка).Reuse Type = DOWNLOAD.Content Checksum за определенный период (например, 45 дней). Reuse Type = DOWNLOAD.Reuse Type = DOWNLOAD (принудительное обновление).Reuse Type = REUSE.Reuse Type в Reuse Table.Capacity Limits).Crawl Status): коды ошибок (HTTP 4xx), недоступность хоста (unreachable status).Source ID: Источник предыдущей загрузки (Веб или Репозиторий).Page Importance (PageRank). Критически важен для расчета Priority Score и определения логики Reuse.Timestamps сканирования, история изменений за период.Content Checksum используется для отслеживания изменений контента между сканированиями.Reuse Server. Значения: DOWNLOAD, REUSE, REUSE IF NOT MODIFIED SINCE.Page Importance для логики Reuse.Page Importance является основой для Priority Score. Чем выше PageRank, тем выше приоритет и чаще сканирование (и меньше вероятность Reuse).Scheduler Limits (лимиты на хост/домен). Это объясняет, почему на крупных сайтах не все страницы сканируются одновременно, даже если они приоритетны.Page Importance.Page Importance (PageRank) напрямую влияет на Priority Score, необходимо стратегически распределять ссылочный вес на ключевые страницы. Это повысит их приоритет сканирования и частоту обновления в индексе.REUSE IF NOT MODIFIED SINCE. Корректная настройка заголовков Last-Modified и ETag на сервере позволяет эффективно использовать этот механизм, экономя краулинговый бюджет и ускоряя обработку.Capacity Limits. Избегайте генерации мусорных URL (например, неоптимизированной фасетной навигации), которые могут потреблять лимиты хоста до того, как будут просканированы важные страницы.Page Importance, но требует обновления в индексе, необходимо вносить значимые изменения в контент. Это изменит Content Checksum и заставит систему установить Reuse Type в DOWNLOAD.Page Importance, низкому приоритету сканирования и частому использованию механизма Reuse.Reuse, приводя к избыточному сканированию или индексации устаревшего контента.Этот патент подтверждает фундаментальную связь между ссылочной авторитетностью (PageRank) и поведением краулера. PageRank используется не только для ранжирования, но и является основным сигналом для планирования сканирования. Для Senior SEO-специалистов это подчеркивает необходимость интеграции стратегий по управлению ссылочным весом с технической оптимизацией сайта для достижения максимальной эффективности индексации и управления краулинговым бюджетом.
Сценарий 1: Медленное обновление карточки товара в индексе (E-commerce)
Page Importance). Цена изменилась, но в индексе Google старая информация.Page Importance и, возможно, незначительного изменения Content Checksum, Reuse Server установил Reuse Type = REUSE. Система экономит ресурсы.Page Importance страницы через улучшение внутренней перелинковки (блоки похожих товаров, ссылки из категорий). Это повысит Priority Score и увеличит вероятность перевода страницы в режим DOWNLOAD или Conditional Reuse.Сценарий 2: Резкое снижение количества сканируемых страниц после сбоя сервера
URL Scheduler зафиксировал несколько последовательных ошибок сканирования (превышен порог X) и исключил URL из активного расписания согласно Claim 1.Как именно PageRank влияет на сканирование согласно этому патенту?
PageRank (упомянутый как пример Page Importance) является основным компонентом для расчета Priority Score. Чем выше Page Importance, тем выше приоритет URL в очереди на сканирование. Кроме того, он используется в логике Reuse: очень важные страницы (выше Threshold 1) чаще загружаются заново (DOWNLOAD), тогда как неважные страницы чаще используются повторно (REUSE).
Что происходит, если мой сервер был временно недоступен или отдавал ошибки?
Если недоступность была кратковременной, URL сохранит свой приоритет. Однако, если URL был недоступен (unreachable) или выдавал ошибки в течение нескольких последовательных попыток сканирования (порог X), планировщик удалит его из расписания следующего цикла. Техническая стабильность критична.
Как заставить Google быстрее обновить страницу с низкой важностью (PageRank)?
Для страниц с низкой важностью часто применяется механизм Reuse. Чтобы принудительно перевести её в режим DOWNLOAD, необходимо внести существенные изменения в контент, что изменит Content Checksum. Если это невозможно, единственным надежным способом является повышение Page Importance страницы через улучшение перелинковки.
Что такое Boost Factor и можем ли мы на него влиять?
Boost Factor — это множитель, который позволяет Google искусственно повышать или понижать приоритет сканирования. В патенте приводятся примеры повышения для главных страниц крупных компаний или новостных сайтов. Прямого способа влияния на этот фактор для SEO-специалистов нет, это внутренний механизм Google.
Что такое Scheduler Limits (Capacity Limits) и как они связаны с Crawl Budget?
Scheduler Limits — это ограничения на количество URL, которые можно сканировать с одного хоста или домена. Они применяются после приоритизации для управления нагрузкой. Это прямое инфраструктурное воплощение краулингового бюджета. Если вы достигаете этих лимитов, необходимо оптимизировать производительность сервера или структуру сайта.
Как система определяет, что контент изменился?
Система использует Content Checksum, который рассчитывается при каждом сканировании и сохраняется в History Logs. Сравнивая контрольные суммы, Reuse Server определяет факт изменения контента. Также может использоваться условный запрос к серверу (If-Modified-Since).
Если страница долго не менялась, Google перестанет её сканировать?
Не совсем. Система переведет её в режим REUSE. Однако в патенте предусмотрен механизм защиты: если страница использовалась повторно Y раз подряд (например, 3 раза), то в следующем цикле ей принудительно будет присвоен тип DOWNLOAD для проверки актуальности.
Насколько важна корректная настройка заголовков Last-Modified и ETag?
Она очень важна, особенно для страниц средней важности. Для них система может применять REUSE IF NOT MODIFIED SINCE. Корректные заголовки позволяют роботу быстро проверить актуальность контента без загрузки всего документа (ответ 304 Not Modified), что экономит краулинговый бюджет и ускоряет сканирование.
Влияет ли этот патент на сканирование новых (впервые обнаруженных) URL?
Патент фокусируется на планировании сканирования уже известных URL. Однако он упоминает, что при выборе Топ-N URL планировщик резервирует часть мощности краулера. Эта зарезервированная мощность используется для сканирования вновь обнаруженных ссылок.
Что важнее для Crawl Budget: скорость сервера или количество ссылок (PageRank)?
Оба фактора критичны. Количество ссылок (Page Importance) определяет спрос на сканирование и приоритет (Priority Score). Скорость и стабильность сервера определяют предложение (Scheduler Limits и фильтрация ошибок). Необходимо оптимизировать оба аспекта для достижения максимального бюджета сканирования.

Краулинг
Индексация
Свежесть контента

Краулинг
Техническое SEO
Свежесть контента

Краулинг
Техническое SEO
Индексация

Краулинг
Индексация
Свежесть контента

Краулинг
Свежесть контента
Техническое SEO

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

Ссылки
Индексация
Техническое SEO

Поведенческие сигналы
Мультиязычность
Персонализация

Ссылки

Семантика и интент
Поведенческие сигналы

Семантика и интент
EEAT и качество
SERP

Семантика и интент
Local SEO
Персонализация

Семантика и интент
Индексация
Мультимедиа
