
Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.
Патент решает проблему неэффективного распределения ограниченных ресурсов сканирования (краулингового бюджета). В условиях постоянно растущего интернета система стремится избежать траты ресурсов на сканирование страниц, контент которых не изменился, или страниц, которые недоступны из-за технических проблем. Одновременно система стремится минимизировать устаревание контента в индексе (stale content) и пропуск важных обновлений (miss penalties) на популярных и часто изменяющихся ресурсах.
Запатентована система и метод для динамического планирования сканирования ресурсов (Crawl Scheduling). Суть изобретения заключается в расчете оптимального интервала сканирования (Crawl Interval) для каждого отдельного документа на основе трех ключевых параметров: (1) «Здоровье» документа (Health/Доступность), (2) Популярность документа (Popularity), и (3) Частота «интересных» или существенных изменений контента (Frequency of Interesting Changes).
Планировщик сканирования (Crawl Scheduler) динамически корректирует интервалы:
Error Count) ресурс может быть классифицирован как «Временно мертвый» (Temporarily Dead) (при проблемах с сервером) или «Мертвый» (Dead) (при проблемах с контентом).Buckets) на основе популярности (например, количества подписчиков). Более популярные ресурсы получают более короткие интервалы.Prominent) секциях страницы, определенных после рендеринга. Для адаптации к темпу обновлений используется скользящее среднее (Rolling Average).Высокая. Оптимизация краулингового бюджета является фундаментальной задачей для поисковых систем. Механизмы, описанные в патенте, — адаптивное сканирование на основе важности и частоты обновлений, а также стратегии обработки ошибок (back-off) — являются стандартом в современных системах сканирования и критически важны для технического SEO.
Влияние на SEO высокое (8/10). Этот патент напрямую описывает логику, по которой поисковая система определяет частоту посещения страниц. Понимание этих механизмов критично для управления краулинговым бюджетом, обеспечения быстрой индексации обновлений и диагностики технических проблем. Стабильность сервера и характер обновлений контента напрямую влияют на эффективность сканирования.
Prominent Section) страницы.Subscription Count (количество подписчиков веб-фида), но может включать и другие сигналы (например, просмотры страниц).Change Frequency, позволяющий адаптировать оценку к недавней активности ресурса.Claim 1 (Независимый пункт): Описывает метод планирования сканирования, сочетающий анализ значимости контента и специфическую обработку ошибок.
Prominent Section) на основе визуальных размеров рендеринга этой секции.Change Frequency), основанная на обнаруженных изменениях именно в этой «значимой секции».Crawl Interval).Error Count) с момента последнего успеха НЕ превышает максимум.Ядром изобретения является метод определения частоты изменений через анализ визуально значимых блоков (рендеринг) И специфический механизм замедления (back-off) при наличии ошибок, который зависит от времени простоя ресурса (времени с последнего успеха).
Claim 2 (Зависимый от 1): Уточняет расчет Change Frequency.
Частота изменений рассчитывается как скользящее среднее (Rolling Average) разниц во времени между последовательными обнаруженными изменениями.
Claim 13 (Зависимый от 1): Уточняет формулу увеличения интервала сканирования (back-off).
Новый интервал сканирования устанавливается равным произведению времени, прошедшего с момента последнего успешного сканирования, и некоего коэффициента (фактора).
Claim 17 (Зависимый от 1): Описывает действия при превышении порога ошибок.
Если Error Count ПРЕВЫШАЕТ максимум, система определяет, следует ли продолжать попытки сканирования ресурса (т.е. принимает решение о статусе Dead или Temporarily Dead).
Изобретение полностью относится к этапу CRAWLING – Сканирование и Сбор данных.
Система является реализацией Crawl Scheduler, который управляет работой краулера (например, Googlebot).
Взаимодействие компонентов:
Data Storage (история сканирования, популярность, частота изменений) и определяет приоритеты.Web Feed Generation System) анализирует контент, определяет визуальный макет (Visual Layout), выделяет Prominent Sections и фиксирует Interesting Changes. Эта информация используется планировщиком для расчета Change Frequency.Входные данные:
Error Count).Subscription Count, просмотры).Change Frequency).Выходные данные:
Healthy, Temp. Dead, Dead).eCI).Prominent Sections.Алгоритм применяется непрерывно. Конкретные механизмы активируются при следующих условиях:
eCI) для ресурса истек.Max failures threshold (max): Порог для счетчика ошибок (n), после которого меняется статус ресурса.Prominent Section.Процесс А: Обработка ресурса планировщиком (Управление очередью)
External Server Issues (DNS, таймауты, перегрузка): Установить статус «Temporarily Dead». Установить значительно увеличенный интервал. Уменьшить счетчик ошибок (например, n=max/2), чтобы дать шанс на восстановление.Процесс Б: Оценка интервала сканирования (Crawl Interval Estimation)
Popularity и Change Frequency (скользящее среднее интервалов между «интересными» изменениями).Bucket) на основе его характеристик. Каждая корзина имеет диапазон допустимых интервалов.Система использует комбинацию технических, контентных (визуальных) и поведенческих факторов.
capacity limits).visual layout information).Prominent Section.Subscription Count) – основной пример.Error Count.Rolling Average) времени между «интересными» изменениями. В патенте отмечается, что больший вес может придаваться недавним изменениям для быстрой адаптации.Popularity и Change Frequency через систему Buckets.Crawl Budget распределяется динамически на основе трех измерений: Популярность (важность), Частота существенных изменений и Здоровье (доступность) ресурса.Prominent Sections). Изменения вне этих секций (например, в футере) могут не повлиять на частоту сканирования.Temporarily Dead) от перманентных проблем (например, 404 – статус Dead).Rolling Average) с весами для последних данных позволяет системе адаптироваться к изменениям в поведении сайта (например, если активность увеличилась или уменьшилась).Temporarily Dead, значительно снижая частоту сканирования.Prominent Sections). Поскольку Google оценивает частоту сканирования по изменениям именно в этих блоках, обновления в основном контенте должны быть приоритетом.Prominent Sections. Сложный или медленный рендеринг может негативно повлиять на оценку значимости контента.Change Frequency.Bucket).Interesting Changes в Prominent Sections и игнорирует шум.Патент подтверждает фундаментальные принципы управления краулинговым бюджетом и подчеркивает стратегическую важность анализа рендеринга (Visual Layout) в SEO. Техническая стабильность сайта (Health) является базовым требованием. Для Senior SEO-специалистов это означает, что оптимизация сканирования требует комплексного подхода, включающего мониторинг инфраструктуры, оптимизацию UX/UI (в части визуальной иерархии контента) и контент-стратегию.
Сценарий 1: Обработка ошибок на сайте eCommerce во время пиковой нагрузки
Error Count (n) растет.eCI). Согласно Claim 13, новый интервал может быть рассчитан на основе времени с последнего успеха, что быстро увеличивает паузу.External Server Issues.Temporarily Dead. Интервал сканирования увеличивается радикально (например, до нескольких дней). Индексация обновлений цен и наличия замедляется.Сценарий 2: Оценка обновления контента на блоге
Prominent Section, а футер и сайдбар — нет.Interesting Change. Изменения в футере и сайдбаре игнорируются.Change Frequency (скользящего среднего), что поддерживает или улучшает частоту сканирования этой страницы.Как Google определяет, какие изменения контента являются «интересными» (Interesting Changes)?
Патент указывает, что «интересные изменения» определяются по их расположению в «значимых секциях» (Prominent Sections) страницы. Эти секции идентифицируются на основе анализа визуального макета (рендеринга), учитывая их размер и расположение (например, занимают более 50% ширины и высоты). Изменения вне этих областей (футер, боковые панели) имеют меньший вес.
Что происходит, когда мой сайт часто выдает ошибки 5xx или таймауты?
Каждая ошибка увеличивает счетчик (Error Count). Сначала Google активирует механизм замедления (back-off), увеличивая интервал сканирования. Если ошибки продолжаются и счетчик превышает порог, система классифицирует это как временные проблемы сервера (External Server Issues). Ресурс получит статус Temporarily Dead, и интервал сканирования будет значительно увеличен, чтобы дать время на восстановление.
Как рассчитывается частота изменений (Change Frequency)?
Она рассчитывается как скользящее среднее (Rolling Average) интервалов времени между обнаруженными «интересными» изменениями. Это позволяет системе адаптироваться к темпу обновлений сайта. В патенте упоминается, что больший вес может придаваться недавним данным, чтобы быстро реагировать на всплески активности после периода затишья.
Что важнее для частоты сканирования: популярность страницы или частота её обновления?
Система балансирует оба фактора, используя «корзины» (Buckets). Высокая популярность повышает приоритет, но если контент редко обновляется, система увеличит интервал сканирования для экономии ресурсов. Если же контент обновляется очень часто, он может получить более высокий приоритет, даже если его популярность не максимальна.
Что такое механизм замедления (Back-off) и как он работает согласно Claim 13?
Это защитный механизм, который активируется при ошибках сканирования для экономии ресурсов. Claim 13 предлагает конкретную формулу для расчета нового интервала: он может быть произведением времени, прошедшего с последнего УСПЕШНОГО сканирования, и некоего коэффициента. Это означает, что чем дольше сайт недоступен, тем реже Google будет пытаться его сканировать.
Влияет ли использование JavaScript и CSS на определение «значимых секций»?
Да, напрямую. Патент подчеркивает, что определение Prominent Sections основано на анализе визуального макета (рендеринга). Это означает, что Google должен отрендерить страницу, применив CSS и, вероятно, выполнив JavaScript, чтобы понять, какие блоки являются визуально доминирующими и где находится основной контент.
Чем отличается статус «Temporarily Dead» от «Dead»?
Статус Dead присваивается, когда система считает проблему постоянной (например, последовательные ошибки 404 Not Found). Сканирование таких ресурсов прекращается. Статус Temporarily Dead присваивается при ошибках, которые могут быть устранены (DNS, таймауты, 5xx). Сканирование приостанавливается на длительный период, но не прекращается навсегда.
Как я могу использовать принципы этого патента для оптимизации краулингового бюджета?
Ключевые действия: Обеспечить максимальную техническую стабильность сервера (Health), чтобы избежать замедления. Регулярно обновлять основной контент (Change Frequency), чтобы поддерживать интерес краулера. Убедиться, что основной контент является визуально заметным (Prominent) в рендеринге страницы.
Если я изменю дизайн сайта, повлияет ли это на частоту сканирования?
Да, это возможно. Если новый дизайн изменит визуальное расположение и размеры блоков, система может переоценить, какие секции являются Prominent. Если ключевой контент станет менее заметным визуально при рендеринге, система может решить, что «интересные» изменения происходят реже, и снизить частоту сканирования.
Использует ли Google соотношение текста к ссылкам при планировании сканирования?
Да, патент упоминает использование соотношения между размером обычного текста и анкорного текста. Это помогает отличить портальные страницы (много ссылок) от контентных страниц (много текста/изображений). Это может влиять на то, как система оценивает «интересные изменения» и рассчитывает оптимальную частоту сканирования.

Краулинг
Индексация
Свежесть контента

Краулинг
Свежесть контента
Техническое SEO

Краулинг
Индексация
Свежесть контента

Краулинг
Свежесть контента
Индексация

Краулинг

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Мультиязычность
Персонализация

EEAT и качество
SERP
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
SERP

Ссылки
Поведенческие сигналы
Антиспам

Семантика и интент
Персонализация
Поведенческие сигналы

EEAT и качество
Индексация
Семантика и интент

Ссылки
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Персонализация
Поведенческие сигналы
