Как Google экономит краулинговый бюджет, решая, скачать страницу заново или использовать старую версию из кэша, основываясь на ее важности

Google оптимизирует ресурсы сканирования, используя метрику Важности Страницы (Page Importance Score, например, PageRank). Высоковажные страницы всегда скачиваются заново для обеспечения свежести. Менее важные и стабильные страницы могут быть «переиспользованы» из локального репозитория Google для экономии краулингового бюджета, минуя загрузку с сервера.

Описание

Какую задачу решает

Патент решает проблему ограниченных ресурсов поискового краулера (Crawl Budget) при необходимости индексировать огромный объем интернета. Цель — повысить эффективность сканирования за счет выборочного отказа от повторной загрузки документов, которые не изменились или имеют низкий приоритет. Это позволяет системе сосредоточить ресурсы на обновлении важных страниц и обнаружении нового контента.

Что запатентовано

Запатентована система и метод для определения стратегии сканирования документа путем установки флага повторного использования (Reuse Flag). Решение о том, загружать ли текущую версию документа с хоста (First Database, WWW) или использовать ранее загруженную версию из локального репозитория (Second Database), принимается на основе независимой от запроса оценки документа (query-independent score или Page Importance Score) и анализа истории сканирований.

Как это работает

Система использует Reuse Server для анализа журналов (History Logs) и генерации таблицы повторного использования (Reuse Table). Ключевым фактором является Page Importance Score (например, PageRank).

Высокая важность: Если оценка превышает высокий порог (Threshold1), документ всегда помечается для загрузки (DOWNLOAD).
Средняя важность: Может использоваться условная загрузка (REUSE UNLESS MODIFIED SINCE), проверяющая дату модификации на сервере.
Низкая важность и стабильность: Если оценка низкая и анализ контрольных сумм (Content Checksum) показывает, что контент не менялся, документ помечается для повторного использования (REUSE).
Принудительное обновление: Система предусматривает принудительную загрузку, если документ переиспользовался несколько раз подряд (Y Crawls).

Актуальность для SEO

Высокая. Управление краулинговым бюджетом и приоритизация сканирования на основе авторитетности (Page Importance) остаются фундаментальными аспектами работы Googlebot. Описанные механизмы критически важны для эффективного сканирования интернета в 2025 году, учитывая его экспоненциальный рост.

Важность для SEO

Патент имеет высокое значение (85/100) для технического SEO и стратегии. Он напрямую описывает, как авторитетность страницы влияет на скорость индексации обновлений. Если страница имеет низкий Page Importance Score и редко обновляется, Google может значительно снизить частоту ее загрузки, предпочитая режим REUSE, что замедлит попадание изменений в индекс.

Детальный разбор

Термины и определения

Content Checksum (Контрольная сумма контента): Значение, вычисленное на основе содержимого документа. Используется для сравнения версий документа, загруженных в разное время, чтобы определить, изменился ли контент.
First Database (Первая база данных): Исходная сеть, из которой загружаются документы, например, World Wide Web.
History Log (Журнал истории): Файл с записями о предыдущих попытках сканирования. Включает временную метку, Content Checksum, источник (загрузка или переиспользование) и Page Importance на момент сканирования.
Page Importance Score (Оценка важности страницы): Независимая от запроса оценка (query-independent score) или оценка документа (document score). Вычисляется Page Rankers (например, PageRank). Определяет приоритет сканирования и стратегию повторного использования.
Reuse Flag / Reuse Type (Флаг / Тип повторного использования): Индикатор в Reuse Table, определяющий стратегию сканирования для URL. Возможные значения: DOWNLOAD (загрузить), REUSE (использовать из репозитория), REUSE UNLESS MODIFIED SINCE (условная загрузка).
Reuse Server (Сервер повторного использования): Компонент, который анализирует History Logs и генерирует Reuse Table, определяя стратегию сканирования для следующего цикла.
Reuse Table (Таблица повторного использования): Таблица, содержащая записи для URL-адресов с указанием их Reuse Type.
Second Database / Local Repository (Вторая база данных / Локальный репозиторий): Локальное хранилище документов, ранее загруженных из First Database.
Y Crawls (Счетчик повторных использований): Максимальное количество последовательных циклов, в течение которых документ может быть переиспользован до принудительной загрузки.

Ключевые утверждения (Анализ Claims)

Патент US10216847B2 является продолжением (continuation) более ранних патентов. Формула изобретения фокусируется на использовании оценки важности документа как основного критерия.

Claim 1 (Независимый пункт): Описывает метод сканирования.

Система извлекает записи о предыдущих сканированиях.
Система выполняет операцию сканирования, которая включает:
- Загрузку текущей версии документа с хост-компьютера, если определено, что document importance score превышает first threshold (Threshold 1).
- ИЛИ Повторное использование ранее загруженной версии, если определено, что document importance score НЕ превышает first threshold.

Ядро изобретения, согласно Claim 1, заключается в использовании порога важности документа для принятия решения: загружать (если важность высокая) или переиспользовать (если важность недостаточная).

Claim 2 (Зависимый от 1): Детализирует логику, когда оценка НЕ превышает first threshold.

Используются времена предыдущих сканирований (crawl time).
Если оценка важности низкая:
- Документ переиспользуется, если разница между временами сканирований НЕ превышает second threshold (сканировался недавно).
- Документ загружается, если разница превышает second threshold (сканировался давно).

Claim 2 вводит временной фактор для менее важных страниц, гарантируя их обновление по времени.

Важное замечание о вариативности: Формула изобретения (Claims) описывает логику, основанную на важности и времени. Однако в детальном описании патента (Description) приводится более сложный алгоритм (соответствующий FIG. 4C), включающий анализ стабильности контента (Content Checksum), условную загрузку и предотвращение постоянного переиспользования (Y Crawls). Для практического применения важно учитывать этот более сложный алгоритм.

Где и как применяется

Изобретение является ключевой частью инфраструктуры сбора данных Google.

CRAWLING – Сканирование и Сбор данных
Это основной этап применения патента. Система определяет стратегию сбора данных для каждого URL.

Планирование (Crawl Scheduling): Reuse Server работает до начала цикла сканирования (epoch), определяя, какие URL будут загружены, а какие переиспользованы. Он генерирует Reuse Table.
Управление бюджетом (Crawl Budget Management): Механизм оптимизирует использование ресурсов, сокращая количество фактических загрузок.
Сбор данных (Data Acquisition): Роботы (Download Robots) используют данные из Reuse Table, чтобы решить, обращаться ли к World Wide Web (First Database) или к Local Repository (Second Database).

INDEXING – Индексирование и извлечение признаков
На этом этапе система генерирует данные, используемые механизмом повторного использования.

Извлечение Признаков: Вычисляются Content Checksum для загруженных документов.
Анализ Ссылок: Page Rankers вычисляют Page Importance Score (например, PageRank), который является критически важным входным сигналом для Reuse Server.
Логирование: Создаются History Logs.

Входные данные:

History Logs предыдущих сканирований.
Текущие Page Importance Scores.

Выходные данные:

Reuse Table, содержащая Reuse Type для каждого URL.

На что влияет

Конкретные типы контента: Влияет на все типы индексируемого контента. Наиболее заметно влияние на контент, который редко обновляется (архивы, старые статьи) или имеет низкую авторитетность.
Приоритезация и Свежесть: Механизм гарантирует, что ресурсы тратятся на поддержание свежести наиболее важных страниц (с высоким Page Importance Score), в ущерб менее важным.

Когда применяется

Триггеры активации: Процесс запускается перед каждым циклом сканирования (epoch) для набора URL (сегмента).
Условия работы: Применение стратегии (DOWNLOAD vs REUSE) зависит от выполнения пороговых условий по Page Importance Score (Threshold1, Threshold2) и результатов анализа истории изменений (стабильности) и счетчика переиспользований (Y Crawls).

Пошаговый алгоритм

Детальный алгоритм определения типа повторного использования, основанный на описании патента (соответствующий FIG. 4C).

Инициализация: Получение списка URL, загруженных в последнем цикле сканирования. Начало обработки URL.
Проверка Высокой Важности (Threshold1): Сравнение Page Importance Score URL с первым порогом (например, топ X% всех страниц).
- Если превышает: Установить Reuse Type в DOWNLOAD.
Проверка Средней Важности (Threshold2): Если не превышает Threshold1, сравнение со вторым порогом.
- Если превышает: Проверить источник последнего сканирования (из History Log).
  - Если загружена из веба: Установить Reuse Type в REUSE UNLESS MODIFIED SINCE.
  - Если переиспользована: Установить Reuse Type в DOWNLOAD.
- Если НЕ превышает (Низкая важность): Перейти к шагу 4.
Анализ Стабильности Контента: Анализ History Logs и Content Checksums за предопределенный период (например, 45 дней).
- Если контент менялся: Установить Reuse Type в DOWNLOAD.
- Если контент НЕ менялся (стабилен): Перейти к шагу 5.
Проверка Последовательных Переиспользований (Y Crawls): Проверка, был ли URL переиспользован в течение последних Y циклов подряд.
- Если ДА: Установить Reuse Type в DOWNLOAD (принудительное обновление).
- Если НЕТ: Установить Reuse Type в REUSE.
Завершение: Сохранение записи (URL и Reuse Type) в Reuse Table. Переход к следующему URL.

Какие данные и как использует

Данные на входе

Система полагается на данные, собранные во время предыдущих циклов сканирования и индексирования.

Ссылочные факторы: Косвенно используются, так как Page Importance Score (например, PageRank) вычисляется на основе ссылочной структуры веба. Эта оценка является ключевым входным сигналом.
Временные факторы: Timestamp предыдущих сканирований из History Logs используется для определения возраста текущей версии и анализа стабильности контента за период времени.
Системные данные (Контент): Content Checksum из History Logs. Используется для обнаружения изменений контента.
Системные данные (Статус): Crawl Status и Source ID из History Logs, указывающие на источник предыдущего сканирования (веб или репозиторий).

Какие метрики используются и как они считаются

Page Importance Score: Независимая от запроса оценка важности (например, PageRank).
Threshold1 и Threshold2: Предопределенные значения Page Importance Score, разделяющие страницы на категории высокой, средней и низкой важности.
Predefined Period (Предопределенный период стабильности): Временной интервал (например, 45 дней), в течение которого анализируется неизменность контента.
Y Crawls (Счетчик последовательных переиспользований): Максимальное количество раз подряд, которое документ может быть переиспользован (например, 3).

Выводы

Важность (PageRank) определяет частоту загрузки: Page Importance Score является основным фактором. Высоковажные страницы (выше Threshold1) всегда помечаются для загрузки (DOWNLOAD), гарантируя их свежесть в индексе.
Экономия на стабильном контенте: Google активно анализирует историю изменений (Content Checksum). Если страница имеет низкую важность и ее контент стабилен, она будет переиспользована (REUSE) из локального репозитория для экономии ресурсов.
Условное сканирование для средней важности: Для страниц средней важности используется механизм REUSE UNLESS MODIFIED SINCE. Это подчеркивает важность корректной настройки HTTP-заголовков (Last-Modified / If-Modified-Since) на сервере.
Защита от «залипания» (Stagnation): Система предусматривает принудительное обновление. Даже стабильные страницы низкой важности будут загружены после Y последовательных переиспользований, что гарантирует обновление индекса в долгосрочной перспективе.
Инфраструктурная оптимизация: Патент описывает не алгоритм ранжирования, а механизм оптимизации инфраструктуры сканирования, который напрямую влияет на то, как быстро Google узнает об изменениях на сайте.

Практика

Best practices (это мы делаем)

Повышение Page Importance Score: Сосредоточьтесь на стратегиях, повышающих авторитетность и ссылочный вес ключевых страниц (внутренняя перелинковка, качественное внешнее ссылочное продвижение). Чем выше Page Importance Score, тем выше вероятность, что страница будет помечена как DOWNLOAD, что гарантирует своевременное обновление в индексе.
Оптимизация ответов сервера (Last-Modified): Убедитесь, что ваш сервер корректно отдает заголовок Last-Modified и правильно обрабатывает запросы с заголовком If-Modified-Since (отвечая 304 Not Modified, если контент не изменился). Это критично для страниц средней важности, обрабатываемых по логике REUSE UNLESS MODIFIED SINCE.
Регулярное обновление контента для стимуляции сканирования: Для страниц низкой и средней важности демонстрируйте Google, что контент не является стабильным. Регулярные значимые обновления изменят Content Checksum, что предотвратит классификацию страницы как неизменной и увеличит вероятность ее загрузки.
Мониторинг частоты сканирования: Анализируйте логи сервера. Резкое снижение частоты загрузки может указывать на то, что система перевела страницы в режим REUSE из-за низкой важности или высокой стабильности контента.

Worst practices (это делать не надо)

Игнорирование ссылочного веса страниц с часто обновляемым контентом: Если страница содержит важные и динамические данные (например, главная страница, листинги), но имеет низкий Page Importance Score, Google может переиспользовать старую версию, что приведет к задержкам индексации актуальной информации.
Некорректная настройка Last-Modified: Отдавать текущую дату в Last-Modified для всех страниц, независимо от реальных изменений. Это заставит Google всегда загружать контент (тратя краулинговый бюджет впустую), так как механизм условной загрузки не сработает.
«Имитация» обновлений: Внесение незначительных изменений (например, изменение даты в футере), которые меняют Content Checksum, но не несут ценности. Хотя технически это может стимулировать загрузку, это неэффективное использование ресурсов краулера.

Стратегическое значение

Патент подтверждает фундаментальный принцип: ресурсы краулера ограничены и распределяются на основе приоритетов. Важность (авторитетность, PageRank) является ключевым сигналом для этого распределения. Для SEO-специалистов это означает, что техническая оптимизация и ссылочное продвижение напрямую влияют не только на ранжирование, но и на скорость индексации контента. Работа над повышением авторитетности напрямую конвертируется в лучшую индексацию.

Практические примеры

Сценарий: Ускорение индексации обновлений на страницах товаров (E-commerce)

Проблема: Сайт имеет тысячи товаров с низким Page Importance Score. Обновления цен и наличия индексируются с задержкой, так как Google применяет REUSE.
Анализ по патенту: Страницы попадают в категорию низкой важности и высокой стабильности.
Действия:
- Повышение Важности: Улучшить внутреннюю перелинковку с категорий на товары. Стимулировать появление внешних ссылок. Цель — перевести страницы в категорию средней или высокой важности.
- Стимуляция загрузки: Внедрить блоки с динамическим контентом (например, отзывы, похожие товары), которые регулярно обновляются. Это изменит Content Checksum и покажет Google, что страница не является стабильной, стимулируя DOWNLOAD.
- Техническая проверка: Убедиться, что при изменении цены корректно обновляется заголовок Last-Modified.
Ожидаемый результат: Увеличение частоты загрузки страниц товаров и более быстрая индексация обновлений.

Вопросы и ответы

Что такое «Page Importance Score» в этом патенте и как он связан с PageRank?

Page Importance Score — это независимая от запроса оценка важности документа. Патент прямо упоминает PageRank как пример такой оценки. Это ключевая метрика, определяющая стратегию сканирования: чем выше эта оценка, тем больше вероятность, что страница будет загружена заново (DOWNLOAD), а не взята из кэша.

Означает ли этот патент, что Google не будет сканировать мои страницы, если у них низкий PageRank?

Не совсем так. Google будет сканировать их реже. Если страница имеет низкий Page Importance Score и ее контент долго не менялся, Google переведет ее в режим REUSE (использование сохраненной копии). Однако патент предусматривает принудительную загрузку после нескольких циклов переиспользования (Y Crawls), чтобы гарантировать обновление.

Как Google определяет, что контент страницы не изменился?

Патент описывает два механизма. Первый — анализ Content Checksum (контрольной суммы контента), сохраненной в History Logs. Сравнение чексумм за разные даты определяет стабильность. Второй — условная загрузка (REUSE UNLESS MODIFIED SINCE), при которой краулер спрашивает сервер, изменился ли контент с определенной даты (используя HTTP-заголовки).

Как я могу заставить Google чаще загружать мои страницы, если они считаются «стабильными»?

Есть две основные стратегии. Первая — повысить Page Importance Score страницы с помощью внутренней перелинковки и внешних ссылок. Перевод страницы в категорию высокой важности гарантирует ее загрузку. Вторая — регулярно вносить существенные изменения в контент. Это изменит Content Checksum и покажет системе, что страница не является стабильной.

Какую роль играют заголовки Last-Modified и If-Modified-Since в этом процессе?

Они критически важны для страниц средней важности (Threshold 2). Если сервер корректно настроен и отвечает 304 Not Modified, когда контент не изменился, Google переиспользует старую версию, не загружая тело документа. Это эффективный способ управления краулинговым бюджетом.

Что такое «Threshold1» и «Threshold2»?

Это пороговые значения Page Importance Score. Страницы выше Threshold1 (высокая важность) всегда загружаются. Страницы между Threshold1 и Threshold2 (средняя важность) обрабатываются по условной логике. Страницы ниже Threshold2 (низкая важность) загружаются только в том случае, если их контент изменился или если они слишком долго переиспользовались.

Что означает «Y Crawls» в контексте патента?

Это механизм защиты от постоянного переиспользования. Y — это максимальное количество последовательных циклов, в течение которых страница может быть переиспользована (REUSE). Как только этот счетчик достигается (например, 3 раза подряд), система принудительно устанавливает тип DOWNLOAD для следующего цикла.

Влияет ли этот патент на ранжирование?

Патент описывает инфраструктуру сканирования, а не ранжирования. Он не вводит новых факторов ранжирования. Однако он напрямую влияет на свежесть данных в индексе. Если из-за механизма REUSE важные обновления на вашем сайте не индексируются своевременно, это может косвенно негативно повлиять на видимость и трафик.

Может ли страница с высокой авторитетностью быть повторно использована (REUSE)?

Согласно описанному алгоритму, нет. Если Page Importance превышает Threshold 1, система всегда устанавливает тип DOWNLOAD. Это гарантирует, что наиболее важные документы в интернете всегда будут максимально свежими в индексе Google.

Актуален ли этот патент, учитывая, что его корни уходят в 2003/2004 год?

Да, он абсолютно актуален. Патент US10216847B2 был выдан в 2019 году и является продолжением первоначальной идеи. Это указывает на то, что описанные принципы — приоритизация на основе важности и экономия ресурсов за счет переиспользования стабильного контента — остаются фундаментальными для работы поисковых систем.