
Google использует распределенную систему управления сканированием, которая группирует URL по хостам и определяет оптимальное время следующего обращения к серверу («Stall Time»). Эта система адаптивно регулирует частоту запросов на основе фактической скорости ответа сервера («Retrieval Time»), чтобы эффективно сканировать интернет, не перегружая отдельные сайты.
Патент решает фундаментальную проблему масштабного сканирования интернета: как эффективно сканировать наиболее важные страницы (определяемые по приоритету, например, PageRank), не создавая при этом чрезмерной нагрузки на отдельные хосты (соблюдение "вежливости" или Rate Limiting). Если система фокусируется только на приоритете ссылок, она может попытаться одновременно загрузить множество страниц с одного сервера, что приведет к его перегрузке.
Запатентована система и метод управления распределенной очередью сканирования. Ядром изобретения является механизм адаптивного ограничения скорости запросов с использованием Stall Time (время ожидания) для каждого хоста. Это время определяет минимальную паузу перед повторным обращением к хосту и динамически рассчитывается на основе желаемой нагрузки (Load Factor) и фактического времени ответа сервера (Retrieval Time).
Система работает следующим образом:
URL Server запрашивает и получает списки высокоприоритетных ссылок от нескольких распределенных Link Managers.URL Server группирует ссылки по хостам, а хосты — в "корзины" (Buckets) в зависимости от количества URL, ожидающих сканирования. Внутри корзин хосты сортируются по Stall Time.Stall Time (время, до которого нужно ждать) уже прошел.Retrieval Time). На основе этого времени и Load Factor рассчитывается новый Stall Time. Если сервер отвечает медленно, Stall Time увеличивается.Высокая. Несмотря на дату подачи (2000 год), описанные в патенте принципы управления нагрузкой на сервер, адаптации к скорости ответа и оптимизации краулингового бюджета остаются фундаментальными для работы Googlebot. Это ключевая инфраструктурная разработка, описывающая механизмы Crawl Budget, авторами которой являются ведущие инженеры Google (Jeffrey Dean, Sanjay Ghemawat).
Патент имеет высокое значение (8.5/10) для технического SEO. Он критически важен для понимания того, как Google управляет краулинговым бюджетом (Crawl Budget Management). Патент напрямую демонстрирует механизм, с помощью которого скорость ответа сервера, его стабильность и пропускная способность динамически влияют на частоту, скорость и полноту сканирования сайта.
URL Server для группировки хостов. Хосты группируются по количеству URL, оставшихся для сканирования на этом хосте (например, Корзина 10 содержит все хосты, на которых осталось 10 URL).PageRank). Они предоставляют списки высокоприоритетных ссылок для URL Server.Stall Time.Buckets, управляет Stall Time и выдает URL краулерам.Claim 1 (Независимый пункт): Описывает основной метод управления очередью сканирования и адаптации к производительности сервера.
Link Manager на основе приоритета.Buckets в зависимости от количества документов, которые нужно просканировать на каждом хосте.Bucket на основе их Stall Time.Buckets в соответствии с его Stall Time.Retrieval Time) для этого документа.Stall Time для выбранного хоста на основе измеренного Retrieval Time.Ядром изобретения является использование комбинации Buckets (приоритизация по объему работы) и сортировки по Stall Time (контроль нагрузки) для планирования, а также динамическая адаптация Stall Time к фактической скорости ответа сервера.
Claim 4 (Зависимый от 1): Уточняет логику выбора хоста для эффективности.
Система проверяет Buckets в порядке убывания количества документов (начиная с самой полной корзины) до тех пор, пока не будет найден хост, чей Stall Time раньше текущего времени. Это гарантирует, что система предпочитает хосты с большим объемом несканированного контента, но только если они технически готовы.
Claim 22 (Независимый пункт): Описывает распределенную архитектуру сбора ссылок и планирования.
URL Server).Link Managers.Stall Time.Retrieval Time и корректировка Stall Time.Этот пункт защищает масштабируемую архитектуру, где глобальное планирование и контроль нагрузки (URL Server) отделены от хранения и приоритизации ссылок (Link Managers).
Изобретение применяется исключительно на этапе CRAWLING – Сканирование и Сбор данных.
Это ядро системы планирования сканирования (Crawl Scheduling) и управления краулинговым бюджетом (Crawl Budget Management).
Взаимодействие компонентов:
Link Managers хранят ссылки и их приоритеты.URL Server запрашивает у них высокоприоритетные ссылки.URL Server организует очередь, используя Buckets и Stall Time.Crawlers запрашивают у URL Server следующий URL для сканирования.Crawlers выполняют загрузку и сообщают о результатах (включая Retrieval Time).Входные данные:
Link Managers.Load Factor для хостов.Retrieval Time от краулеров.Выходные данные:
Stall Time для хоста, с которого был загружен документ.Алгоритм применяется непрерывно в процессе сканирования интернета.
Stall Time (Текущее время > Stall Time). Корректировка Stall Time происходит после каждого акта сканирования.Процесс А: Управление очередью в URL Server (Планирование)
Buckets по количеству ожидающих URL (N). Хосты внутри Buckets отсортированы по Stall Time.Buckets, начиная с самой полной (максимальное N).Bucket проверяется первый хост. Stall Time меньше текущего времени, этот хост выбирается.Bucket пропускается (так как остальные хосты в нем имеют еще больший Stall Time) и система переходит к следующему Bucket (N-1).Bucket с меньшим количеством оставшихся URL.Процесс Б: Сканирование и Адаптация (Обратная связь)
Retrieval Time).Stall Time для хоста. Расчет основан на Retrieval Time и Load Factor. Например, если Load Factor = 0.1 (10%) и Retrieval Time = 3 секунды, интервал до следующего запроса составит 3 / 0.1 = 30 секунд. Новый Stall Time = Текущее время + 30 секунд.Bucket (из Процесса А) в соответствии с новым Stall Time для поддержания сортировки.Процесс В: Пополнение пула (Фоновый процесс)
URL Server падает ниже порога.Link Managers для получения новых высокоприоритетных ссылок.Buckets.Патент фокусируется на инфраструктуре сканирования и использует следующие данные:
PageRank. Используется Link Managers для выбора ссылок, отправляемых в URL Server.Bucket поместить хост (Bucket Categorization).Retrieval Time и Load Factor. В патенте приводится пример, который интерпретируется как: Retrieval Time) увеличивается, Google автоматически замедляет сканирование этого хоста, увеличивая Stall Time.Retrieval Time приводит к более коротким Stall Time, что позволяет Google сканировать больше страниц за тот же период времени (увеличение Crawl Rate).Stall Time является основным механизмом для предотвращения перегрузки серверов (Crawl Politeness). Он определяет максимальную частоту запросов к хосту.Buckets показывает, что Google стремится в первую очередь сканировать хосты с большим количеством известных, но еще не просканированных URL, но только при условии их технической готовности (истекший Stall Time).Retrieval Time напрямую уменьшает интервал между запросами (сокращает Stall Time). Это позволяет Googlebot сканировать больше страниц за единицу времени, увеличивая эффективность использования краулингового бюджета.Retrieval Time и, как следствие, Stall Time, замедляя индексацию.Retrieval Time и показывают, как система оценивает производительность вашего сервера и какой интервал (Stall Time) она применяет.Buckets отдает приоритет хостам с большим количеством ожидающих URL. Убедитесь, что у Google есть большой бэклог для сканирования (через эффективную перелинковку и Sitemap), чтобы сайт попадал в более приоритетные Buckets.Retrieval Time напрямую ведет к увеличению Stall Time и неэффективному расходованию краулингового бюджета.Stall Time, замедляя сканирование и индексацию (если только это не временная мера при реальной аварийной перегрузке).Stall Time в сторону увеличения, предполагая, что сервер перегружен.Патент подтверждает, что техническая оптимизация и производительность сервера являются фундаментом SEO. Краулинговый бюджет (Crawl Budget) — это не фиксированная величина, а динамический параметр, который является функцией как важности контента (Crawl Demand), так и способности сервера этот контент отдавать (Crawl Rate Limit). Стратегия SEO должна включать постоянную работу над улучшением инфраструктуры, так как невозможно добиться хорошей видимости, если сайт невозможно быстро просканировать.
Сценарий: Ускорение индексации за счет оптимизации производительности сервера
Retrieval Time (1.2 сек) приводит к большому Stall Time. Если условный Load Factor = 0.1 (10%), то интервал между запросами составляет 1.2 сек / 0.1 = 12 секунд. Googlebot сканирует медленно.Retrieval Time уменьшился).Stall Time. Новый интервал: 0.2 сек / 0.1 = 2 секунды.Что такое "Stall Time" и почему это важно для SEO?
Stall Time (Время ожидания) — это метка времени, указывающая, когда Googlebot может в следующий раз обратиться к вашему серверу. Это механизм защиты от перегрузки (Rate Limiting). Для SEO это критически важно, так как определяет максимальную частоту сканирования вашего сайта (Crawl Rate). Чем короче Stall Time, тем быстрее Google сможет обнаружить и проиндексировать ваш контент.
Как я могу уменьшить "Stall Time" моего сайта?
Основной способ — уменьшить Retrieval Time (время ответа сервера). Stall Time рассчитывается на основе того, как быстро ваш сервер отдает контент. Оптимизация производительности сервера (TTFB и общее время загрузки), использование быстрого хостинга и CDN напрямую ведут к сокращению Stall Time и увеличению частоты сканирования.
Что такое "Buckets" (Корзины) и как они влияют на сканирование?
Buckets используются для группировки хостов по количеству оставшихся для сканирования URL. Google предпочитает сканировать хосты из более полных корзин (где много несканированного контента), чтобы повысить эффективность обхода. Однако он сделает это только тогда, когда Stall Time этого хоста истечет, то есть когда сервер будет готов.
Что важнее для скорости сканирования: PageRank или скорость сервера?
Оба фактора критичны. PageRank (или аналоги авторитетности) определяет приоритет ссылок и то, насколько сильно Google *хочет* их просканировать (Crawl Demand). Скорость сервера (влияющая на Stall Time) определяет, насколько быстро Google *может* их просканировать (Crawl Rate Limit). Высокий авторитет без быстрого сервера приведет к неэффективному расходованию краулингового бюджета.
Что произойдет, если мой сервер начнет отвечать медленнее?
Система адаптивна. Googlebot измерит увеличение Retrieval Time. Система автоматически пересчитает и увеличит Stall Time для вашего хоста, чтобы снизить нагрузку. Это приведет к тому, что интервалы между запросами Googlebot станут больше, и общая скорость сканирования сайта замедлится.
Что такое "Load Factor" и могу ли я на него повлиять?
Load Factor — это коэффициент допустимой нагрузки на сервер, который определяет Google (например, использовать не более 10% ресурсов). Напрямую повлиять на него сложно, но Google может устанавливать более высокий Load Factor (допускать более интенсивное сканирование) для высокопроизводительных хостов, которые доказали свою способность выдерживать нагрузку.
Объясняет ли этот патент работу краулингового бюджета?
Да, этот патент описывает ключевые механизмы управления краулинговым бюджетом. В частности, он описывает компонент Crawl Rate Limit — ограничение частоты сканирования, основанное на производительности сервера (Stall Time, Retrieval Time) и желании Google не перегружать хост (Load Factor).
Влияет ли PageRank на этот процесс?
Да, но косвенно. PageRank используется на этапе предварительного отбора Link Managers, чтобы решить, какие ссылки отправить в центральную очередь (URL Server). Однако, когда ссылки уже в очереди, URL Server решает, *когда* их сканировать, основываясь на Stall Time и Buckets, а не на PageRank.
Где я могу увидеть признаки работы этого алгоритма?
Прямые признаки можно увидеть в отчете "Статистика сканирования" в Google Search Console. Если вы видите корреляцию между увеличением "Среднего времени ответа" и уменьшением "Общего числа запросов на сканирование", это и есть работа механизма адаптации Stall Time к производительности вашего сервера.
Насколько актуален этот патент, учитывая, что он подан в 2000 году?
Несмотря на возраст, патент крайне актуален. Он описывает базовые инженерные решения для масштабируемого и вежливого сканирования интернета, разработанные ключевыми инженерами Google. Эти принципы управления нагрузкой и адаптации к скорости сервера остаются фундаментальными для работы Googlebot и сегодня.

Краулинг
Свежесть контента
Индексация

Краулинг

Краулинг
Техническое SEO
Индексация

SERP

Краулинг
Свежесть контента
Индексация

Поведенческие сигналы
Персонализация
Семантика и интент

SERP
Семантика и интент
EEAT и качество

Ссылки
Антиспам
Краулинг

Мультиязычность
Поведенческие сигналы
Персонализация

Мультиязычность
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
Мультимедиа
Семантика и интент

Персонализация
SERP
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP
