
Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early Rejection), не дожидаясь таймаута, чтобы обеспечить быстрое сканирование важного контента.
Патент решает проблему управления очередью запросов на сканирование (backlog), когда общий спрос превышает доступную пропускную способность (crawl capacity) для конкретного хоста. Цель — обеспечить низкую задержку (low latency) для высокоприоритетных URL. Традиционные методы, основанные на таймаутах (удаление запроса из очереди по истечении времени), неэффективны, так как увеличивают среднюю задержку и не гарантируют своевременную обработку важных запросов при перегрузке.
Запатентована система для предиктивного управления бэклогом сканирования, которая использует механизм немедленного отклонения (early rejection) низкоприоритетных запросов. Система динамически рассчитывает адаптивный Порог Приоритета (Priority Threshold) на основе фактической пропускной способности сканирования (измеряемой через Average Response Interval) и истории запросов. Это позволяет системе адаптироваться к производительности сервера в реальном времени.
Механизм работает следующим образом:
Average Request Interval) и скорость их обработки сервером (Average Response Interval).Estimated Request Success Rate).Priority Threshold.Высокая. Управление краулинговым бюджетом (Crawl Budget Management) остается критически важным аспектом технического SEO, особенно для крупных и динамических сайтов. Этот патент описывает фундаментальный инфраструктурный механизм того, как Google приоритизирует контент и адаптирует нагрузку к возможностям сервера в условиях ограниченных ресурсов.
Значительное влияние (8/10). Хотя патент является инфраструктурным и не описывает факторы ранжирования, он детально объясняет механику использования краулингового бюджета. Он устанавливает прямую математическую связь между производительностью сервера (временем ответа) и способностью Google сканировать менее приоритетные URL. Медленные ответы сервера напрямую приводят к увеличению числа отклоненных запросов на сканирование.
throughput) сканирования для данного хоста. Зависит от скорости ответа сервера. Используется как знаменатель.maximum wait time).Average Request Interval к Average Response Interval.Priority Threshold.Priority Threshold.Claim 1 (Независимый пункт): Описывает основной метод управления бэклогом сканирования в условиях ограниченной емкости.
Priority Threshold, помещаются в бэклог (backlog data structure), имеющий максимальное время ожидания (maximum wait time).Priority Threshold, отклоняются. Ключевое условие: отклонение происходит без выполнения сканирования И без ожидания в бэклоге до истечения maximum wait time (механизм Early Rejection).Priority Threshold корректируется на основе оценки вероятности того, что новые запросы будут удовлетворены.Ядро изобретения — использование динамического порога для немедленного отклонения запросов вместо ожидания таймаута.
Claim 5 (Зависимый): Уточняет механизм хранения данных для расчета порога. Приоритеты сохраняются в Record of Priorities и используются для определения Priority Threshold, независимо от того, находятся ли сами запросы в бэклоге (т.е. они могли быть отклонены или уже выполнены).
Это означает, что приоритеты немедленно отклоненных (низкоприоритетных) запросов влияют на расчет порога для будущих запросов.
Claim 6 (Зависимый): Запросы в бэклоге сортируются по приоритету для определения того, какой URL будет сканироваться следующим.
Claim 7 (Зависимый от 1): Определяет факторы вероятности успеха. Вероятность выше, если интервал между запросами больше (меньше нагрузка) и если пропускная способность (throughput) выше (быстрее обработка).
Claim 8 (Зависимый от 1): Описывает поведение при высокой вероятности успеха. Если вероятность успеха высокая (в патенте упоминается пример 90%), Priority Threshold ослабляется (например, до 0), так что новые запросы не отклоняются. Это гарантирует стремление системы использовать всю доступную Crawl Capacity.
Claim 9 (Зависимый от 1): Описывает обработку пограничных случаев. Запросы с приоритетом, равным Priority Threshold, отклоняются с определенной частотой (Failure Rate).
Изобретение применяется исключительно на первом этапе поисковой архитектуры.
CRAWLING – Сканирование и Сбор данных
Система реализована в компоненте URL Crawler and Backlog Manager и напрямую управляет процессами:
Взаимодействие с компонентами:
Average Response Interval).Входные данные:
Выходные данные:
Backlog.Priority Threshold.Average Response Interval. Чем медленнее сервер, тем ниже пропускная способность, тем выше становится Priority Threshold, и тем больше низкоприоритетных URL отклоняется.Алгоритм применяется непрерывно при обработке запросов на сканирование для конкретного хоста.
Priority Threshold > 0) активируется, когда расчетная вероятность успеха запроса (Estimated Request Success Rate) падает ниже определенного уровня (например, ниже 0.9 или 90%). Это происходит, когда спрос превышает предложение (т.е. система перегружена или сервер медленный).Priority Threshold обновляется периодически (например, раз в минуту) или по событию.Процесс А: Обработка нового запроса на сканирование
Record of Priorities. Обновляется скользящее среднее Average Request Interval.Priority Threshold.Backlog.Early Rejection).Failure Rate at Priority Threshold для принятия или отклонения.Процесс Б: Выполнение сканирования и обновление статистики ответов (Параллельный процесс)
Backlog.Average Response Interval на основе времени завершения сканирования.Процесс В: Корректировка порога приоритета (Периодический процесс)
Estimated Request Success Rate (ESR).
Average Response Interval) является ключевым фактором, определяющим объем сканирования. Ухудшение производительности сервера приводит к снижению Estimated Request Success Rate и повышению Priority Threshold.low latency) для принятых высокоприоритетных запросов.Priority Threshold не является фиксированным. Он постоянно адаптируется к текущей нагрузке и производительности сервера с использованием скользящих средних.Record of Priorities и влияют на расчет порога для будущих запросов (Claim 5).Average Response Interval является знаменателем в расчете вероятности успеха, уменьшение времени ответа напрямую увеличивает пропускную способность и снижает Priority Threshold, позволяя сканировать больше URL.Early Rejection для низкоприоритетных URL.Average Response Interval.lastmod) и, при необходимости, Indexing API, чтобы максимизировать шансы на высокий приоритет сканирования для ключевых страниц.Priority Threshold и активно отклонит запросы на сканирование.Average Response Interval и, как следствие, к повышению Priority Threshold и отклонению URL.Early Rejection.Патент подтверждает критическую важность технического SEO и производительности инфраструктуры для обеспечения полноты и скорости индексации. Он демонстрирует, что управление краулинговым бюджетом — это не статичный лимит, а динамическая система, которая реагирует на возможности сервера в реальном времени. Стратегия SEO для крупных сайтов должна рассматривать оптимизацию скорости загрузки как фундаментальный фактор, влияющий на видимость контента.
Сценарий: Крупный E-commerce сайт во время распродажи
Average Response Interval увеличивается. Estimated Request Success Rate падает ниже порога (например, 0.9).Priority Threshold, чтобы соответствовать снизившейся пропускной способности.Early Rejection) запросы на сканирование низкоприоритетных URL (например, старые товары, глубокие страницы пагинации, страницы фильтров).Как этот патент связан с краулинговым бюджетом (Crawl Budget)?
Патент описывает конкретный механизм управления краулинговым бюджетом на практике. Он показывает, как Google динамически регулирует количество принимаемых запросов на сканирование (Crawl Demand) в зависимости от доступной пропускной способности хоста (Crawl Capacity). Если сервер не справляется или система перегружена, Google активно сокращает количество сканируемых URL, отдавая предпочтение высокоприоритетным.
Как скорость ответа сервера (TTFB) влияет на этот механизм?
Влияние прямое и критическое. Время ответа сервера определяет метрику Average Response Interval. Чем выше это значение (медленнее сервер), тем ниже расчетная вероятность успеха сканирования (Estimated Request Success Rate). Это, в свою очередь, приводит к повышению Priority Threshold и отклонению большего количества URL.
Могу ли я повлиять на приоритет (Priority) моих URL?
Патент указывает, что приоритеты назначаются внутренними приложениями Google. Напрямую установить приоритет нельзя. Однако в тексте упоминается, что приоритет может быть выше для популярного контента и контента, требующего свежести (например, новости). Работа над улучшением сигналов популярности страницы (ссылки, трафик) и регулярное обновление контента могут косвенно повысить приоритет сканирования.
Что происходит, если мой сервер очень быстрый и система Google не перегружена?
В этом случае Average Response Interval будет низким. Если Estimated Request Success Rate превысит пороговое значение (например, 90%), система установит Priority Threshold в ноль (Claim 8). Это означает, что все запросы на сканирование будут приниматься в очередь, и Google будет стремиться максимально использовать доступную пропускную способность.
Что означает «Раннее отклонение» (Early Rejection) и почему это важно?
Early Rejection означает, что система немедленно отклоняет запрос, если его приоритет ниже порога, вместо того чтобы добавлять его в очередь и ждать таймаута. Это важно, так как позволяет Google поддерживать низкую задержку (low latency) для принятых высокоприоритетных запросов, не засоряя очередь запросами, которые вряд ли будут выполнены.
Применяется ли этот механизм к каждому сайту?
Механизм управления бэклогом применяется на уровне хоста (host-level). Логика работает для всех хостов, но активация режима отклонения запросов (когда Priority Threshold > 0) происходит только тогда, когда спрос на сканирование превышает доступную емкость. Для небольших сайтов с хорошим хостингом емкость почти всегда достаточна.
Что такое Record of Priorities и почему он хранит отклоненные запросы?
Это история приоритетов недавних запросов. Она используется для определения статистического распределения приоритетов. Хранение приоритетов отклоненных запросов необходимо для корректного расчета Priority Threshold. Если бы учитывались только принятые (высокоприоритетные) запросы, система не смогла бы точно определить, где следует провести границу отсечения для адаптации к текущей нагрузке.
Как система реагирует на внезапное замедление сервера?
Система использует скользящие средние для Average Response Interval. При внезапном замедлении эта метрика начнет расти. Система периодически пересчитывает Priority Threshold. Как только порог будет обновлен на основе новых данных о производительности, система начнет более агрессивно отклонять низкоприоритетные запросы.
Что происходит с URL, которые были отклонены механизмом Early Rejection?
Патент не уточняет механизм повторных попыток. В рамках текущего цикла обработки запрос отклоняется и не занимает место в бэклоге. Однако внутренние приложения Google, запросившие сканирование, вероятно, имеют собственную логику для повторного запроса этого URL позже. Если условия не изменятся (приоритет останется низким, а емкость ограниченной), он может быть снова отклонен.
Как обрабатываются запросы с одинаковым приоритетом?
Если приоритеты равны и находятся в бэклоге, порядок может быть FIFO. Если приоритет равен Priority Threshold, система использует метрику Failure Rate at Priority Threshold, чтобы статистически решить, принять или отклонить запрос, обеспечивая справедливое распределение оставшейся емкости (Claim 9).

Краулинг
Свежесть контента
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Техническое SEO

Краулинг
Индексация
Свежесть контента

Краулинг
Свежесть контента
Индексация

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Local SEO
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Local SEO

Семантика и интент
Поведенческие сигналы
Local SEO
