Как Google динамически оптимизирует частоту сканирования (Crawl Budget) с помощью истории изменений, популярности и авторитетности

Google использует итеративный процесс для определения оптимального интервала сканирования (Web Crawl Interval) для каждого документа. Система анализирует историю изменений контента, важность документа (PageRank) и частоту его просмотра пользователями (User View Rate). Цель — минимизировать вероятность показа устаревших данных (Stale Content), сканируя важный и часто обновляемый контент чаще, и экономя ресурсы на статичных страницах. Документы группируются в Тиры (Tiers) по схожим интервалам сканирования.

Описание

Какую задачу решает

Патент решает задачу оптимизации ресурсов сканирования (Crawl Budget) для поддержания максимальной свежести индекса. Проблема заключается в необходимости балансировать между слишком частым сканированием статичных документов (трата ресурсов) и слишком редким сканированием динамичных документов, что приводит к появлению Stale Content (устаревших данных) в индексе. Цель изобретения — минимизировать вероятность того, что пользователь увидит устаревший контент (Probability(Seen_Stale Data) или P_stale).

Что запатентовано

Запатентована система и метод для динамического определения и корректировки интервала сканирования (Web Crawl Interval) документа. Система итеративно анализирует результаты последовательных сканирований: если контент существенно изменился, интервал может быть сокращен; если нет — увеличен. Оптимальный интервал рассчитывается как функция от частоты обновления документа (Document Update Rate), частоты его просмотра пользователями (User View Rate) и важности (PageRank). Для эффективного планирования документы группируются в Tiers (уровни) на основе схожих интервалов сканирования.

Как это работает

Система работает по итеративному алгоритму:

Сканирование: Документ сканируется в соответствии с текущим Web Crawl Interval.
Сравнение: Новая версия сравнивается с предыдущей (хранящейся в History Log). Определяется, произошли ли Critical Content Changes (критические изменения).
Перерасчет интервала: Scheduler пересчитывает Web Crawl Interval. Если были существенные изменения, интервал может быть сокращен. Если нет — увеличен. Цель — найти баланс, при котором результаты сканирования чередуются между «изменено» и «не изменено».
Учет важности и популярности: При расчете интервала также учитываются PageRank и User View Rate (клики/показы). Более важные и популярные документы получают более короткий интервал сканирования.
Перемещение между Tiers: Если новый интервал выходит за пределы диапазона текущего Tier, документ перемещается в соответствующий Tier.

Актуальность для SEO

Высокая. Управление бюджетом сканирования и поддержание свежести индекса являются фундаментальными задачами для Google. Описанные в патенте механизмы, связывающие частоту сканирования с важностью документа (PageRank), его популярностью у пользователей (Clicks/Impressions) и историей изменений, лежат в основе современных систем планирования сканирования (Crawl Scheduling).

Важность для SEO

Патент имеет высокое значение (8.5/10) для технического SEO и стратегии контент-маркетинга. Он точно описывает факторы, влияющие на частоту повторного сканирования документа: важность (ссылочный профиль), вовлеченность пользователей и частота/значимость обновлений контента. Понимание этих механизмов позволяет SEO-специалистам напрямую влиять на скорость индексации изменений и оптимизировать использование краулингового бюджета.

Детальный разбор

Термины и определения

Crawl Interval (Интервал сканирования): Период времени между последовательными сканированиями документа. Может быть Actual (фактический) или Desired (желаемый/рекомендованный).
Critical Content Changes (Критические изменения контента): Изменения в документе, которые считаются существенными. Критичность может определяться частью документа, контекстом изменений или взвешенной суммой изменений отдельных признаков (features).
Content Fingerprint (Цифровой отпечаток контента): Хеш-значение или сигнатура контента, используемая для быстрого сравнения версий и определения факта изменения.
Document Update Rate (Частота обновления документа): Скорость, с которой контент документа обновляется на хостинг-сервере. Оценивается системой итеративно.
Features (Признаки документа): Отдельные компоненты документа (например, цена, наличие товара), которые могут обновляться независимо. Каждый признак может иметь свой вес (weight) и интервал изменения (feature change interval).
History Log (Журнал истории): База данных, хранящая предыдущие версии сканированных документов и историю результатов сканирования (изменился/не изменился).
PageRank: Метрика важности документа (document importance score). Используется как один из факторов при определении приоритета и интервала сканирования.
Probability(Seen_Stale Data) / P_stale: Вероятность того, что пользователь увидит устаревший контент документа в результатах поиска. Цель системы — минимизировать это значение.
Scheduler (Планировщик): Компонент системы, который управляет веб-краулерами, сравнивает версии документов и пересчитывает Web Crawl Interval.
Stale Content (Устаревший контент): Информация в базе данных поисковой системы, которая больше не отражает текущее состояние документа на веб-сервере.
Tiers (Уровни/Тиры): Структура данных (Crawl-Scheduling Tier), группирующая документы со схожими Web Crawl Intervals. Документы в Tier A (высокий приоритет) имеют более короткие интервалы, чем в Tier Z (низкий приоритет).
User View Rate (Частота просмотра пользователем): Метрика, показывающая, как часто пользователи взаимодействуют с документом. Включает User Impression Rate (частота показов в выдаче) и User Click Rate (частота кликов).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод планирования интервала сканирования с использованием многоуровневой структуры (Tiers).

Система сравнивает первую и вторую копии документа, полученные с интервалом, равным первому интервалу сканирования (first crawl interval).
Документ изначально назначен первому уровню (first crawl-scheduling tier), который имеет определенный диапазон интервалов сканирования.
Вычисляется второй интервал сканирования (second crawl interval) как функция от результата сравнения (изменился/не изменился контент).
Система определяет, попадает ли второй интервал сканирования в диапазон первого уровня.
Если НЕТ, документ переназначается на другой уровень.

Ядро изобретения — это динамическая корректировка интервала сканирования на основе истории изменений и автоматическое перемещение документа между предопределенными уровнями приоритета сканирования (Tiers).

Claim 6 (Зависимый): Уточняет результат сравнения.

Результат сравнения может быть одним из: нет изменений (no change), критическое изменение (critical change) или некритическое изменение (non-critical change). Система способна дифференцировать значимость изменений.

Claim 7 (Зависимый): Вводит концепцию взвешенных частей документа.

Документ может состоять из нескольких частей (portions) или признаков, каждой из которых присвоен вес (comparison weight). Сравнение использует эти веса. Это позволяет фокусироваться на важных элементах страницы.

Claim 13, 14 (Зависимые): Определяют факторы для расчета интервала сканирования.

Интервал определяется с использованием: желаемой вероятности свежести контента, частоты просмотра (user view rate, включающей impression rate и click rate) и частоты обновления документа (document update rate).

Claims 20 и 22 (Зависимые): Описывают логику корректировки интервала на основе последовательных результатов (итеративный поиск баланса).

Claim 20: Если два сравнения подряд (в контексте патента) показывают отсутствие изменений, интервал увеличивается. Claim 22 (и контекст патента): Если последовательные сравнения показывают наличие изменений, интервал уменьшается.

Claim 25 (Зависимый): Уточняет определение начального интервала.

Начальный интервал сканирования (initial crawl interval) определяется в соответствии с оценкой важности документа (document’s importance score, т.е. PageRank). Более важные документы изначально сканируются чаще.

Claim 30 (Зависимый): Вводит концепцию признаков (features).

Документ может рассматриваться как набор признаков (features). Каждый признак имеет свой интервал изменения и оценку важности. Интервал сканирования документа определяется с использованием этих данных. Это позволяет адаптировать сканирование на основе того, какие именно элементы страницы меняются и насколько они важны.

Где и как применяется

Изобретение применяется в основном на этапе сканирования и сбора данных, взаимодействуя с этапом индексирования.

CRAWLING – Сканирование и Сбор данных

Это основная область применения патента. Система напрямую управляет процессом планирования сканирования (Crawl Scheduling) и управлением бюджетом сканирования (Crawl Budget Management).

Планирование: Scheduler использует Tiers для определения приоритетов и частоты сканирования.
Сбор данных и Анализ: Краулеры извлекают контент, после чего Scheduler сравнивает версии с данными из History Log и пересчитывает Web Crawl Interval.

INDEXING – Индексирование и извлечение признаков

Триггер переиндексации: Если Scheduler обнаруживает критическое изменение, он инициирует переиндексацию документа. Если изменений нет, переиндексация не требуется (экономия ресурсов).
Использование данных индекса: Система сканирования использует данные, вычисленные на этапе индексирования, такие как PageRank.

Входные данные:

Текущий и предыдущие Web Crawl Intervals.
Предыдущая и новая копии документа (или их content fingerprints).
Данные о User View Rate (Clicks, Impressions).
Оценка важности документа (PageRank).

Выходные данные:

Новый Web Crawl Interval.
Решение о переиндексации документа.
Перемещение документа в новый Tier (при необходимости).

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, который требует высокой свежести: новости, часто обновляемые товарные карточки (цены, наличие), главные страницы активных сайтов. Статичный контент будет сканироваться реже.
Конкретные ниши или тематики: Влияет на динамичные ниши (e-commerce, медиа, финансы), где частота обновления, важность и популярность контента высоки.

Когда применяется

Алгоритм применяется непрерывно в процессе работы системы сканирования.

Условия работы: Перерасчет Web Crawl Interval происходит после каждого акта сканирования документа.
Триггеры корректировки:
- Обнаружение Critical Content Change может привести к сокращению интервала.
- Отсутствие изменений или Non-Critical Change может привести к увеличению интервала.
- Система стремится достичь состояния, при котором результаты сканирования чередуются (изменено/не изменено).

Пошаговый алгоритм

Процесс динамического обновления интервала сканирования:

Планирование сканирования: Документ планируется к сканированию на основе его текущего Desired Web Crawl Interval, хранящегося в одном из Tiers.
Извлечение и запись: Web Crawler извлекает новую копию документа и записывает ее в History Log.
Сравнение версий: Scheduler сравнивает новую копию с предыдущей. Сравнение может использовать content fingerprints или анализ взвешенных признаков (features) для определения наличия Critical Content Changes.
Принятие решения об индексации:
- Если контент изменился (критически): Scheduler инициирует переиндексацию документа.
- Если контент не изменился (или изменения некритические): Переиндексация не требуется.
Вычисление нового интервала сканирования (Crawl Interval Computation): Scheduler вычисляет новый Web Crawl Interval.
Логика вычисления:
- Если контент изменился: Интервал может быть сокращен (например, T/2), чтобы быстрее обнаружить следующее изменение.
- Если контент не изменился: Интервал может быть увеличен, чтобы сэкономить ресурсы.
- Итеративная оптимизация: Используются принципы, схожие с законом Найквиста (Nyquist sampling law), и анализ последовательных результатов (Claims 20, 22).
- Корректировка по важности: Интервал также корректируется на основе PageRank, User View Rate и целевого значения P_stale.
Проверка принадлежности к Tier: Scheduler проверяет, соответствует ли новый Web Crawl Interval диапазону текущего Tier документа.
Обновление данных: Если интервал выходит за пределы диапазона, документ перемещается в другой Tier. В противном случае он остается в текущем Tier с новым интервалом.

Какие данные и как использует

Данные на входе

Патент фокусируется на данных, используемых для планирования сканирования.

Контентные факторы: Содержимое документа используется для сравнения версий. Система анализирует конкретные признаки (features) или части документа для определения Critical Content Changes.
Ссылочные факторы (Важность): Используется PageRank (или аналогичная document importance score) как мера важности документа.
Поведенческие факторы: Используется User View Rate, который включает User Click Rate (частота кликов) и User Impression Rate (частота показов). Упоминаются методы сбора этих данных через редиректы или клиентские приложения.
Временные факторы: История сканирования, предыдущие Crawl Intervals, данные о том, когда были обнаружены изменения (используются для оценки Document Update Rate).

Какие метрики используются и как они считаются

Web Crawl Interval (T_web_crawl): Основная рассчитываемая метрика. В одном из воплощений приводится формула: Web_Crawl_Interval ≈ Probability_Desired / (User_View_Rate * Document_Update_Rate). Интервал обратно пропорционален частоте просмотра и частоте обновления.
Document Update Rate (T_content_update_rate): Оценивается итеративно на основе истории сканирования. Система стремится найти интервал, близкий к фактической частоте обновления.
Probability(Seen_Stale Data) / P_stale: Вероятность показа устаревшего контента. Это функция от PageRank, User Click Rate, Content Update Rate и Web Crawl Interval: P_stale = f(PR_pagerank, T_click_rate, T_content_update_rate, T_web_crawl). Эта метрика используется для определения порядка сканирования (Crawl Priority).
Document Change Interval (для feature-based анализа): Может рассчитываться как взвешенная сумма интервалов изменения признаков: document_interval = Σ (weight_feature_i * interval_i).
Оценка критичности изменений (C): Может рассчитываться как взвешенная сумма весов измененных признаков: C = Σ (weight_feature_i) (для измененных признаков i). Если C превышает порог, изменение считается критическим.
Средние интервалы: Система может использовать средний интервал между сканированиями, когда изменения были обнаружены, и средний интервал, когда изменений не было, для определения оптимального Crawl Interval.

Выводы

Частота сканирования динамична и индивидуальна: Google не сканирует сайты с фиксированной частотой. Для каждого документа итеративно вычисляется индивидуальный Web Crawl Interval, основанный на его истории изменений.
Ключевые факторы влияния на скорость сканирования: Патент четко определяет три основных фактора:
- Частота обновления (Document Update Rate): Чем чаще обновляется контент, тем чаще он сканируется.
- Важность (PageRank): Более авторитетные документы сканируются чаще.
- Популярность (User View Rate): Документы, которые часто показываются и кликаются пользователями, сканируются чаще, чтобы минимизировать риск P_stale.
Оптимизация ресурсов через итерации: Система стремится найти оптимальный интервал, при котором чередуются результаты «изменено» и «не изменено». Два подряд «не изменено» ведут к увеличению интервала (экономия ресурсов), два подряд «изменено» — к сокращению (повышение свежести).
Значимость изменений (Critical Content Changes): Система способна игнорировать несущественные изменения (например, рекламу, изменения в футере). Частота сканирования адаптируется только к критическим изменениям контента.
Гранулярный анализ (Feature-based): Google может рассматривать документ как набор признаков (features) с разными весами. Изменение важного признака (например, цены товара) сильнее повлияет на частоту сканирования, чем изменение менее важного.
Структурирование по приоритетам (Tiers): Документы группируются в Tiers по частоте сканирования. Это организационная модель для управления миллиардами URL, где документы перемещаются между уровнями по мере изменения их характеристик.

Практика

Best practices (это мы делаем)

Регулярное и значимое обновление ключевых страниц: Чтобы увеличить частоту сканирования важных страниц, необходимо регулярно вносить в них Critical Content Changes. Обновление основного контента (а не только даты публикации) сигнализирует системе о необходимости сокращения Web Crawl Interval.
Повышение авторитетности (PageRank): Работа над качественным ссылочным профилем напрямую влияет на частоту сканирования. Более высокий PageRank ведет к более коротким интервалам сканирования, так как документ считается более важным.
Улучшение поведенческих факторов (User View Rate): Оптимизация сниппетов для повышения CTR и работа над улучшением вовлеченности пользователей увеличивают User View Rate. Это сигнализирует Google о популярности документа и необходимости поддерживать его свежесть в индексе.
Структурирование контента (Feature-based optimization): Размещайте наиболее важную информацию (цены, наличие, ключевые характеристики) в основном контенте и используйте микроразметку. Это поможет системе идентифицировать эти элементы как важные features и реагировать на их изменения как на Critical Changes.

Worst practices (это делать не надо)

Имитация обновлений (Fake Updates): Попытки обмануть систему путем изменения даты публикации, незначительных правок текста или обновления технических элементов (рекламы) неэффективны. Система ищет Critical Content Changes и может игнорировать незначительные обновления, в итоге увеличивая Crawl Interval.
Частое изменение второстепенного контента: Если на страницах постоянно меняются только блоки рекламы или футер, это может не привести к учащению сканирования основного контента, так как система классифицирует эти изменения как некритические.
Игнорирование важности страницы при частых обновлениях: Создание часто обновляемого контента на страницах с низким PageRank и User View Rate не гарантирует частого сканирования. Система выделит им меньше ресурсов, так как риск P_stale для них ниже.

Стратегическое значение

Патент подтверждает, что управление сканированием (Crawl Budget Management) — это комплексная стратегия, интегрированная с контент-планом, UX и линкбилдингом. Невозможно добиться быстрой индексации только техническими методами. Авторитетность сайта и вовлеченность пользователей играют решающую роль в том, как часто Google будет возвращаться к контенту. Стратегия должна быть направлена на создание и поддержание контента, который является одновременно важным (PageRank), популярным (User View Rate) и актуальным (Document Update Rate).

Практические примеры

Сценарий 1: Увеличение частоты сканирования карточки товара в E-commerce

Задача: Цена и наличие товара часто меняются, но Google медленно индексирует обновления.

Действия на основе патента:

Повышение Importance Score и User View Rate: Усилить внутреннюю перелинковку и получить внешние ссылки (повышение PageRank). Оптимизировать сниппет для повышения CTR.
Анализ Features: Убедиться, что цена и наличие (ключевые features) находятся в основном контенте и размечены (Schema.org), чтобы изменения классифицировались как Critical.
Мониторинг Document Update Rate: При каждом изменении цены/наличия система будет фиксировать Critical Content Change. Scheduler начнет итеративно сокращать Web Crawl Interval (например, с 7 дней до 3.5, затем до 1.75 и т.д.), пока не найдет оптимальный баланс.
Ожидаемый результат: Документ перемещается в более приоритетный Tier, частота сканирования увеличивается.

Сценарий 2: Снижение нагрузки от сканирования старых архивов

Задача: Googlebot постоянно сканирует старые архивные страницы, которые никогда не меняются.

Действия на основе патента:

Убедиться, что контент на этих страницах абсолютно статичен (включая сквозные блоки).
Снизить внутренний Pagerank этих страниц, убрав лишние внутренние ссылки на них.
Ожидаемый результат: При каждом посещении Scheduler будет фиксировать отсутствие изменений. Согласно алгоритму (Claim 20), это приведет к последовательному увеличению Web Crawl Interval. Страницы переместятся в самый низкий Tier и будут сканироваться крайне редко.

Вопросы и ответы

Как Google определяет, насколько часто нужно сканировать конкретную страницу?

Частота сканирования (Web Crawl Interval) рассчитывается динамически на основе четырех ключевых факторов: частоты обновления контента (Document Update Rate), важности документа (Pagerank), частоты просмотра пользователями (User View Rate/Click Rate) и истории предыдущих сканирований. Цель — минимизировать вероятность показа устаревшего контента (P_stale).

Что такое Tiers (Уровни) сканирования и как мой сайт попадает в них?

Tiers — это способ группировки документов со схожими интервалами сканирования. Например, Tier A содержит документы, которые сканируются каждые несколько минут, а Tier Z — раз в несколько месяцев. Попадание документа в Tier определяется автоматически на основе рассчитанного для него интервала сканирования (который зависит от частоты обновлений, PageRank и популярности). Система динамически перемещает документы между Tiers при изменении этих параметров.

Как Google оценивает частоту обновления моего контента (Document Update Rate)?

Google оценивает ее итеративно. После каждого сканирования система проверяет, изменился ли контент. Если да, она может сократить интервал (например, вдвое). Если нет, она может его увеличить. Цель — найти такой интервал, при котором результаты сканирования чередуются между «изменено» и «не изменено» (идеальный баланс по патенту). Это позволяет системе адаптироваться к фактической частоте обновлений.

Что такое «Critical Content Changes» и как Google отличает их от незначительных?

Critical Content Changes — это существенные изменения документа. Патент описывает использование взвешенного анализа признаков (features). Например, изменение цены товара (важный признак с высоким весом) может быть критическим, а изменение текста в футере или рекламного блока (низкий вес) — нет. Если изменение не признано критическим, оно не приведет к увеличению частоты сканирования.

Влияет ли CTR в выдаче на частоту сканирования страницы?

Да, напрямую. Патент указывает, что User View Rate (который включает User Click Rate и User Impression Rate) является одним из ключевых факторов при расчете Web Crawl Interval. Чем чаще пользователи видят и кликают на документ, тем короче будет интервал сканирования, чтобы минимизировать P_stale для популярного контента.

Как PageRank влияет на частоту сканирования согласно этому патенту?

PageRank (или оценка важности документа) используется как минимум в двух аспектах. Во-первых, он может использоваться для определения начального интервала сканирования — более важные документы изначально сканируются чаще. Во-вторых, он учитывается при расчете P_stale. Более важные документы имеют больший вес, поэтому система стремится поддерживать их свежесть, сокращая интервал сканирования.

Поможет ли частое обновление Sitemap.xml или использование Last-Modified увеличить частоту сканирования?

Патент не упоминает Sitemap.xml или заголовки Last-Modified. Он фокусируется на итеративном анализе изменений самого контента, а также на PageRank и поведенческих факторах. Система полагается на эмпирическое наблюдение за изменениями контента для определения оптимальной частоты повторного сканирования.

Что такое Feature-based анализ документа в контексте сканирования?

Это подход, при котором документ рассматривается как набор отдельных признаков (features), например, цена, заголовок, наличие, отзывы. Каждому признаку присваивается вес важности и отслеживается его собственный интервал изменения. Общий интервал сканирования документа рассчитывается как функция от этих данных. Это позволяет системе реагировать на изменение важных элементов, даже если остальная часть документа статична.

Если Google два раза подряд не обнаружил изменений, что произойдет?

Согласно патенту (Claim 20), если два последовательных сканирования не выявили изменений, Web Crawl Interval считается слишком коротким, и по крайней мере одно из сканирований было напрасным. В такой ситуации система увеличит интервал сканирования, чтобы сэкономить ресурсы.

Как лучше всего увеличить частоту сканирования новой важной страницы?

Для новой страницы критически важно быстро сформировать начальные сигналы важности и популярности. Необходимо поставить на нее ссылки с авторитетных страниц (внутренних и внешних) для повышения PageRank и обеспечить ей трафик для генерации сигналов User View Rate. Это позволит системе назначить короткий начальный Crawl Interval и поместить страницу в приоритетный Tier.