
Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.
Патент решает проблему эффективного управления ограниченными ресурсами сканирования в условиях, когда размер Интернета значительно превышает возможности поисковой системы. Он автоматизирует процесс определения приоритетов: какие страницы сканировать, с какой частотой их переобходить и какие страницы следует удалить из индекса. Цель — поддерживать максимальную актуальность и качество индекса, фокусируясь на важных и часто меняющихся документах, не перегружая инфраструктуру краулера.
Запатентована система и метод для планирования сканирования (Scheduler). Ядром изобретения является механизм расчета приоритета сканирования на основе трех ключевых факторов: квери-независимой оценки важности (PageRank), частоты изменения контента (Content Change Frequency), определяемой исторически, и возраста документа (Age, время с последнего сканирования). Система вычисляет различные оценки (Scores) и сравнивает их с динамическими порогами для принятия решений о сканировании.
Система работает в несколько этапов:
History Log) временную метку, PageRank и контрольные суммы контента (Content Checksum) и ссылок (Link Checksum).Content Change Frequency).Crawl Score (приоритет сканирования), Daily Score (необходимость частого сканирования) и Keep Score (ценность для индекса). Эти оценки являются функциями от PageRank, частоты изменений и Age.Thresholds) рассчитываются динамически на основе статистической выборки URL и целевых показателей системы (размер индекса, пропускная способность краулера).Base, Daily, Real-time), определяется необходимость их загрузки из сети (Crawl) или использования копии из кэша (Reuse), а также принимается решение об удалении низкоприоритетных URL из индекса.Высокая. Несмотря на возраст патента, описанные принципы остаются фундаментальными для работы поисковых систем. Оптимизация краулингового бюджета (Crawl Budget Optimization) является критически важной задачей в современном SEO. Приоритизация на основе авторитетности (аналог PageRank), частоты обновлений и свежести по-прежнему лежит в основе управления ресурсами сканирования Google.
Патент имеет критическое значение (9/10) для понимания процессов сканирования и индексации. Он предоставляет конкретное понимание механизмов, которые Google использует для определения частоты обхода страниц. Это напрямую влияет на скорость попадания нового или обновленного контента в индекс. Понимание того, что авторитетность (PageRank) и частота значимых обновлений являются ключевыми множителями в формулах приоритета, дает четкое направление для стратегий по управлению индексацией сайта.
expected_shelf_life).Segments). Сканируется циклически, сегмент за сегментом. Предназначен для менее приоритетных URL.History Log и сравнения Content Checksum.PageRank, Content Change Frequency и Age. Используется для решения, будет ли URL загружаться из сети (Crawl) или из репозитория (Reuse).Base Layer (например, ежедневно).Daily Crawl Layer.PageRank на момент сканирования.PageRank.query-independent score) важности документа. Ключевой фактор во всех расчетах планировщика.Claim 1 (Независимый пункт): Описывает основной метод планирования индексирования (сканирования) документов.
PageRank).content change frequency) путем сравнения информации, сохраненной при последовательных загрузках документа.age), связанного со временем последней загрузки.PageRank, частоты изменений и age.Ядром изобретения является использование комбинации трех фундаментальных параметров — важности (PageRank), изменчивости (частота изменений) и устаревания (age) — для принятия автоматизированного решения о приоритете сканирования. "Первая оценка" может относиться к Crawl Score, Daily Score или Keep Score.
Claim 3 и 9 (Зависимые): Уточняют механизм определения частоты изменений.
Частота изменения контента определяется путем сравнения контрольных сумм контента (content checksums), сохраненных в журнале истории для последовательных загрузок документа.
Claim 5, 6, 11 и 12 (Зависимые): Детализируют способ определения порогового значения.
Пороговое значение определяется с использованием оценок, вычисленных для выборки (sample set) URL. Оно также определяется с учетом целевого размера (target size) набора документов, подлежащих сканированию (т.е. пропускной способности краулера или размера индекса).
Это означает, что система использует динамические пороги, рассчитываемые на основе статистического распределения оценок в вебе и текущих возможностей инфраструктуры.
Изобретение является центральным элементом архитектуры сканирования.
CRAWLING – Сканирование и Сбор данных (Crawling & Data Acquisition)
Это основная область применения патента. URL Scheduler управляет всем процессом планирования.
Crawl Score, Daily Score, Keep Score).Crawl Threshold и удаления URL ниже Keep Threshold.History logs (с чек-суммами и временными метками), текущие данные PageRank от Page Rankers.Schedule Output File) со списком URL и флагами (Daily Flag, Crawl/Reuse Flag), который передается краулерам (Robots).INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)
На этом этапе генерируются данные для планировщика.
Content filters) вычисляют новые Content Checksum и Link Checksum после загрузки контента. Page Rankers пересчитывают PageRank.History log и данные PageRank, которые передаются обратно в URL Scheduler.Keep Score) и более частое сканирование.Daily или Real-time layer, при условии достаточного PageRank.Age.PageRank.Epoch), например, ежедневно.Thresholds) пересчитываются периодически для адаптации к изменениям в вебе и возможностям инфраструктуры (изменение target size).Патент описывает два основных процесса: Инициализация (определение порогов) и Планирование.
Процесс А: Инициализация и определение порогов
Keep Score, Crawl Score и Daily Score на основе их PageRank, Content Change Frequency и Age.Target Size) определяются пороговые значения: Процесс Б: Выполнение планирования (для всей базы URL)
Base layer.Keep Score, Crawl Score и Daily Score.Keep Score выше Keep Threshold. Остальные удаляются из индекса.Crawl Score выше Crawl Threshold, устанавливается флаг Crawl (скачать из сети). Иначе — флаг Reuse (использовать копию).Daily Score выше Daily Threshold, устанавливается Daily Flag (переместить в Daily crawl layer).PageRank и флагами записываются в Schedule Output File.Планировщик использует исторические, ссылочные и системные данные.
Age).Content Change Frequency).1. Content Change Frequency (Частота изменения контента)
History Log. Сравнение Content Checksum (и/или Link Checksum) последовательных сканирований. Если чек-суммы отличаются, фиксируется изменение. На основе временных меток вычисляется частота.2. Age (Возраст)
Crawl Score): Важность (PageRank), Изменчивость (Content Change Frequency) и Устаревание (Age). Ни один фактор сам по себе не гарантирует максимального приоритета; важна их комбинация.PageRank является основой для Keep Score (решение о хранении в индексе) и мощным множителем в Crawl Score и Daily Score. Авторитетность является базовым требованием для эффективного сканирования.Content Checksum. Это позволяет точно определить оптимальную частоту сканирования.Base, Daily, Real-time) и различных оценок позволяет тонко настраивать частоту обхода для разных типов контента, от сканирования раз в несколько минут до раза в несколько месяцев.PageRank влияет на все аспекты сканирования (Keep, Crawl, Daily Scores), стратегический фокус на построении качественного ссылочного профиля и оптимизации внутренней перелинковки критически важен для обеспечения стабильной индексации и увеличения частоты сканирования.Content Change Frequency необходимо вносить реальные изменения в контент. Обновляйте основное содержимое, добавляйте актуальные данные (отзывы, цены, новости). Это повышает Crawl Score и Daily Score ключевых страниц.PageRank и высокой частотой сканирования (например, на главной или в основных категориях). Это ускоряет обнаружение изменений краулером.PageRank. Это гарантирует их сохранение в индексе (высокий Keep Score) и регулярное пересканирование за счет фактора Age.Crawl Score, что требует анализа авторитетности и частоты обновлений.Content Change Frequency. Поскольку система использует Content Checksum, она может определить фактическую значимость изменений и проигнорировать "шум".PageRank будут иметь низкий Keep Score и станут первыми кандидатами на удаление из индекса, а также будут редко сканироваться, неэффективно расходуя краулинговый бюджет.PageRank, что напрямую ведет к снижению всех оценок сканирования и уменьшению частоты обхода.Этот патент подтверждает фундаментальную важность управления краулинговым бюджетом (Crawl Budget Management). Он демонстрирует, что Google рассматривает сканирование как инвестицию ресурсов и стремится максимизировать отдачу, фокусируясь на авторитетном и свежем контенте. Патент доказывает, что ссылочный авторитет (PageRank) влияет не только на ранжирование, но и является основой для принятия решений о сканировании и индексации. Долгосрочная SEO-стратегия должна включать оптимизацию архитектуры и контент-плана для максимизации эффективности сканирования.
Сценарий: Ускорение индексации для крупного E-commerce сайта
Задача: Обеспечить быструю индексацию новых товаров и актуальность цен/наличия.
Применение принципов патента:
Keep Score и Daily Score.Content Checksum повышает Crawl Score товара и частоту его проверки краулером.Daily Crawl Layer. Товары сканируются чаще, поддерживая актуальность данных в поиске. Новые товары обнаруживаются быстрее через часто сканируемые категории.Что важнее для частоты сканирования: PageRank или частота обновления контента?
Оба фактора критически важны, так как они перемножаются в формулах расчета оценок (Daily Score, Crawl Score). Высокий PageRank при статичном контенте приведет к периодическому, но не частому сканированию. Высокая частота обновлений при низком PageRank также не гарантирует высокого приоритета, и страница даже может быть удалена из индекса (низкий Keep Score). Максимальная частота достигается при комбинации обоих факторов.
Как Google определяет, что контент действительно изменился?
Патент описывает использование Content Checksum — это хеш-сумма, вычисленная на основе содержимого документа. При каждом сканировании система вычисляет новую чек-сумму и сравнивает ее с сохраненной в History Log. Если значения отличаются, контент считается измененным. Это позволяет точно обнаруживать изменения в тексте.
Что такое Keep Score и почему моя страница может быть удалена из индекса?
Keep Score определяет целесообразность хранения URL в индексе Google. В патенте предлагается использовать PageRank в качестве Keep Score. Если ресурсы системы ограничены, а Keep Score страницы ниже динамически рассчитанного порога (Keep Threshold), она может быть удалена, чтобы освободить место для более важных URL. Это подчеркивает важность работы над авторитетностью для поддержания индексации.
Как рассчитываются пороговые значения (Thresholds)? Они фиксированы?
Нет, пороги не фиксированы. Они рассчитываются динамически на основе возможностей системы и статистики. Google берет случайную выборку URL, считает их оценки (Scores) и сортирует. Затем, исходя из целевых показателей (например, сколько URL система может сканировать ежедневно), устанавливается порог на уровне соответствующего процентиля. Это позволяет адаптироваться к изменениям в вебе.
Что означает флаг Crawl/Reuse?
Этот флаг указывает, как система должна получить контент. Если Crawl Score выше порога, устанавливается флаг Crawl, и краулер загрузит страницу из Интернета. Если Crawl Score ниже порога (но Keep Score достаточен для хранения), устанавливается флаг Reuse, и система может использовать последнюю сохраненную копию документа из своего репозитория, экономя ресурсы.
Как повлиять на Content Change Frequency?
Необходимо регулярно вносить значимые изменения в контент страницы. Обновление текста, добавление новых блоков (отзывы, комментарии), изменение цен или наличия товара. Также патент упоминает Link Checksum, поэтому изменение набора исходящих ссылок на странице также учитывается как изменение.
Что такое Age документа и как он влияет на сканирование?
Age — это время, прошедшее с момента последнего сканирования. Он используется как множитель в расчете Crawl Score. Чем больше времени прошло с последнего визита (чем старше Age), тем выше становится Crawl Score, даже если частота изменений низкая. Это механизм, гарантирующий, что даже статический контент будет периодически пересканироваться.
Учитывает ли эта система данные из файла Sitemap (параметр changefreq или lastmod)?
Патент не упоминает использование данных из Sitemap. Описанная система полагается исключительно на собственный исторический анализ фактических изменений контента (через Content Checksum) и PageRank. Это соответствует заявлениям Google о том, что параметр changefreq игнорируется, а lastmod используется как рекомендация, но не заменяет внутренний анализ частоты изменений.
Что такое Base layer, Daily layer и Real-time layer?
Это разные уровни частоты сканирования. Base layer содержит большинство URL и сканируется медленно (например, раз в несколько недель/месяцев). Daily layer содержит более важные и часто меняющиеся URL, которые сканируются ежедневно. Real-time layer содержит критически важные URL (например, главные страницы мировых новостных агентств), которые сканируются очень часто, возможно, каждые несколько минут.
Влияет ли скорость загрузки сайта на эти оценки?
Патент упоминает поле Download Time в History Log, которое фиксирует время загрузки страницы. Хотя в приведенных примерах формул этот параметр явно не используется, он может учитываться в других реализациях функции расчета оценок или использоваться для регулирования нагрузки на сервер (что косвенно влияет на общий краулинговый бюджет сайта).

Краулинг
Свежесть контента
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Свежесть контента
Техническое SEO

Краулинг
Индексация
Свежесть контента

Краулинг
Свежесть контента
Индексация

Семантика и интент
Персонализация
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Персонализация
SERP

Ссылки
SERP
Техническое SEO

Local SEO
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Ссылки
Мультиязычность
Семантика и интент
