Google использует систему планирования сканирования, которая рассчитывает приоритет для каждого URL. Этот приоритет зависит от авторитетности страницы (PageRank) и частоты изменения ее контента (Content Change Frequency). Система определяет, какие страницы сканировать ежедневно, какие реже, а какие исключить из индекса, чтобы оптимизировать ограниченные ресурсы краулера.
Описание
Какую задачу решает
Патент решает фундаментальную проблему поисковых систем: как оптимизировать ограниченные ресурсы сканирования (Crawling Capacity или Crawl Budget), когда объем интернета значительно превышает возможности краулера. Система определяет приоритеты: какие документы следует сканировать, как часто это делать и какие документы следует хранить в индексе. Цель — поддерживать актуальность важных и часто меняющихся документов, не тратя ресурсы на сканирование статического или малозначимого контента.
Что запатентовано
Запатентована система планирования (URL Scheduler) для краулера поисковой системы. Она использует функции оценки (Scoring Functions), основанные на частоте изменения контента (Content Change Frequency) и важности документа (PageRank), для приоритизации URL. Система управляет различными уровнями сканирования (Base Layer, Daily Crawl Layer) и использует пороговые значения (Thresholds), динамически рассчитанные на основе общей пропускной способности системы, для распределения ресурсов.
Как это работает
Планировщик анализирует историю сканирования (History Log) для каждого URL, чтобы определить, как часто меняется его контент, используя контрольные суммы (Content Checksum). На основе этих данных и PageRank рассчитываются три ключевые оценки:
- Keep Score: Определяет, следует ли вообще хранить URL в индексе.
- Crawl Score: Определяет, нужно ли заново скачивать URL в текущем цикле или можно использовать его сохраненную копию (Reuse).
- Daily Score: Определяет, следует ли переместить URL в сегмент для частого (ежедневного) сканирования.
Эти оценки сравниваются с пороговыми значениями (Thresholds), которые устанавливаются на основе целевого размера индекса и пропускной способности краулера. В результате формируется план сканирования.
Актуальность для SEO
Критически высокая. Управление бюджетом сканирования (Crawl Budget Management) остается одной из главных задач для Google, учитывая экспоненциальный рост контента. Принципы, заложенные в этом патенте — приоритизация на основе авторитетности и частоты изменений, — являются основополагающими для современных систем сканирования.
Важность для SEO
Патент имеет критическое значение (95/100) для технического SEO и стратегий контент-маркетинга. Он детально описывает механику, лежащую в основе Crawl Budget. Для SEO-специалистов это подчеркивает, что для обеспечения частого и своевременного сканирования контента необходимы как высокий авторитет сайта (влияющий на PageRank), так и регулярные, значимые обновления контента (влияющие на Content Change Frequency).
Детальный разбор
Термины и определения
- Base Layer (Базовый уровень)
- Основной набор URL в индексе, разделенный на сегменты. Сканируется реже, чем другие уровни, обычно в циклическом (round-robin) порядке.
- Content Change Frequency (Частота изменения контента)
- Метрика, определяющая, как часто меняется содержимое документа. Рассчитывается на основе истории сканирований и сравнения контрольных сумм.
- Content Checksum (Контрольная сумма контента)
- Числовое значение, рассчитанное на основе содержимого документа. Используется для быстрого определения того, изменился ли документ с момента последнего сканирования.
- Crawl Score (Оценка сканирования)
- Метрика, определяющая необходимость повторного скачивания документа в текущем цикле (Crawl) или использования сохраненной копии (Reuse). Рассчитывается как функция от PageRank, частоты изменений и возраста документа (Age).
- Crawling Capacity (Пропускная способность краулера)
- Ограничение ресурсов системы на скачивание документов (например, сколько URL можно скачать за период). Используется для расчета пороговых значений.
- Daily Crawl Layer (Уровень ежедневного сканирования)
- Набор URL, которые требуют более частого сканирования (например, ежедневно) из-за их высокой важности и частоты обновлений.
- Daily Score (Ежедневная оценка)
- Метрика, определяющая, следует ли переместить URL в Daily Crawl Layer. Рассчитывается как функция от PageRank и частоты изменений.
- History Log (Журнал истории)
- Хранилище данных о прошлых попытках сканирования. Содержит Timestamp, Content Checksum, Link Checksum, PageRank на момент сканирования, Download Time и Error Condition.
- Keep Score (Оценка хранения)
- Метрика, определяющая, следует ли сохранять URL в индексе или его можно удалить для освобождения места. Часто равна PageRank.
- Link Checksum (Контрольная сумма ссылок)
- Числовое значение, соответствующее набору исходящих ссылок в документе. Используется для определения изменения структуры ссылок.
- PageRank (PR)
- Независимая от запроса оценка важности документа (query-independent score). Ключевой входной параметр для расчета всех оценок (Crawl, Daily, Keep).
- Thresholds (Пороговые значения)
- Граничные значения для оценок. Рассчитываются динамически путем статистического анализа выборки URL и основываются на целевом размере (Target Size) индекса и Crawling Capacity.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод планирования сканирования.
- Система получает список идентификаторов документов (URL).
- Для каждого идентификатора определяется частота изменения контента (Content Change Frequency) и рассчитывается первая оценка (first score, например, Crawl Score или Daily Score) как функция от этой частоты.
- Выбирается пороговое значение (threshold value). Выбор происходит после определения оценок и основан на целевом размере (target size) набора документов для сканирования, который, в свою очередь, определяется пропускной способностью краулера (crawling capacity).
- Первая оценка сравнивается с порогом, и на основе результата документ планируется для сканирования.
- Критически важный аспект: частота изменения контента определяется путем сравнения информации, сохраненной при последовательных загрузках документа (например, с помощью Content Checksum).
Ядром изобретения является динамическое управление приоритетами сканирования, основанное на измеряемой частоте изменений, адаптированное к доступным ресурсам системы. Пороги не фиксированы, а плавают в зависимости от мощности краулера.
Claim 2 (Зависимый): Уточняет расчет первой оценки.
- Генерируется вторая оценка (second score), указывающая на независимый от запроса ранг документа (т.е. PageRank).
- Первая оценка (Crawl/Daily Score) генерируется как функция от второй оценки (PageRank) И частоты изменения контента.
Это подтверждает, что планирование сканирования зависит как от важности (PageRank), так и от свежести (Change Frequency).
Claim 3 (Зависимый от 2): Приводит конкретный пример формулы.
Первая оценка может быть рассчитана как произведение квадрата второй оценки (PageRank^2) и частоты изменения контента.
Это критически важное утверждение, показывающее, что влияние PageRank на приоритет частого сканирования может быть экспоненциальным (квадратичным), что значительно усиливает его вес по сравнению с частотой изменений.
Где и как применяется
Изобретение является центральным компонентом управления процессом сканирования.
CRAWLING – Сканирование и Сбор данных
Это основная область применения патента. URL Scheduler отвечает за планирование (Crawl Scheduling) и управление бюджетом (Crawl Budget Management). Система определяет приоритеты, частоту и необходимость сканирования для миллиардов URL, формируя задание для Googlebot.
INDEXING – Индексирование и извлечение признаков
Система использует данные, сгенерированные на этапе индексирования. Процессы индексирования рассчитывают авторитетность (PageRank). Контент-фильтры (Content filters) при обработке скачанного контента генерируют Content Checksum и Link Checksum и записывают данные в History Logs. URL Scheduler использует эти данные для принятия решений.
Входные данные:
- Список URL (идентификаторы документов).
- History Log для каждого URL (временные метки, контрольные суммы, ошибки, время загрузки).
- PageRank для каждого URL.
- Целевые показатели емкости системы (размер индекса, Crawling Capacity).
Выходные данные:
- Schedule Output File: список URL, запланированных для обработки, с флагами, указывающими, нужно ли скачивать документ (Crawl/Reuse Flag) и принадлежит ли он к ежедневному сканированию (Daily Flag).
На что влияет
- Конкретные типы контента и Ниши: Влияет на все типы контента. Наибольшее влияние оказывается на крупные сайты (eCommerce, новостные порталы, агрегаторы), где количество страниц велико, а актуальность данных (наличие, цены, события) имеет первостепенное значение.
- Специфические запросы: Сильно влияет на запросы, требующие свежести (QDF — Query Deserves Freshness). Если контент не сканируется часто из-за низкого приоритета, он не будет отображаться по актуальным запросам.
Когда применяется
Алгоритм применяется периодически для планирования следующего цикла сканирования (эпохи). В патенте упоминается эпоха как предопределенный период времени, например, день.
- Условия работы: Система работает непрерывно, пересчитывая оценки и корректируя план сканирования на основе обновленных данных из History Logs и обновленных значений PageRank.
- Триггеры активации: Запуск процесса планирования происходит перед началом новой эпохи сканирования.
Пошаговый алгоритм
Процесс состоит из двух основных фаз: Инициализация (расчет порогов) и Планирование.
Фаза 1: Инициализация и расчет пороговых значений
- Выборка данных: Случайным образом выбирается репрезентативный набор URL (например, 1-10 миллионов).
- Расчет оценок: Для каждого URL в выборке рассчитываются Keep Score, Crawl Score и Daily Score, используя данные из History Log и PageRank.
- Сортировка: Выборка сортируется по каждой из трех оценок, создавая три упорядоченных списка.
- Определение порогов: На основе целевых размеров (Target Size) и пропускной способности (Crawling Capacity) системы определяются пороговые значения. Например, если система может скачать 30% URL, Crawl Threshold устанавливается на уровне оценки 30-го процентиля в отсортированном списке.
- Keep Threshold: Определяется емкостью индекса.
- Crawl Threshold: Определяется пропускной способностью краулера.
- Daily Threshold: Определяется емкостью Daily Crawl Layer.
- Сохранение порогов: Пороговые значения сохраняются для использования в Фазе 2.
Фаза 2: Планирование сканирования
- Итерация по сегментам: Система последовательно обрабатывает все сегменты базового уровня (Base Layer Segments).
- Расчет оценок для сегмента: Для всех URL в текущем сегменте рассчитываются Keep Score, Crawl Score и Daily Score.
- Фильтрация по Keep Score: Отбираются URL, у которых Keep Score выше, чем Keep Threshold. Остальные могут быть удалены из индекса.
- Установка флагов сканирования: Для отобранных URL устанавливаются флаги:
- Crawl/Reuse Flag: Устанавливается в режим «Crawl» (скачать заново), если Crawl Score выше Crawl Threshold. В противном случае устанавливается в «Reuse» (использовать копию из репозитория).
- Daily Flag: Устанавливается, если Daily Score выше Daily Threshold.
- Запись результата: Выбранные URL, их PageRank и установленные флаги записываются в выходной файл планировщика (Schedule Output File).
- Повторение: Процесс повторяется для следующего сегмента.
Какие данные и как использует
Данные на входе
- Контентные факторы: Содержимое документа используется для генерации Content Checksum. Изменение этого содержимого является ключевым фактором для расчета Content Change Frequency.
- Технические факторы: Error Condition (ошибки при предыдущих скачиваниях, например HTTP 404). Download Time (время загрузки, логируется в History Log).
- Ссылочные факторы: PageRank (независимая от запроса оценка важности/авторитетности страницы). Link Checksum (контрольная сумма исходящих ссылок на странице).
- Временные факторы: Timestamp (время последнего сканивания). Возраст документа (Age или time since last crawl).
Какие метрики используются и как они считаются
Система вычисляет несколько ключевых метрик, используя различные формулы (в патенте приведено несколько вариантов реализации).
Content Change Frequency (Частота изменения контента)
- Расчет: Анализ History Log для конкретного URL. Сравнение Content Checksum и Link Checksum текущего сканирования с предыдущим. На основе частоты несовпадений рассчитывается частота изменений.
Daily Score (Ежедневная оценка)
- Формула: F1(page rank, change frequency, age)
- Пример реализации (подтвержденный Claim 3): (PageRank)^2 * URL change frequency.
- Назначение: Определение кандидатов для перемещения в Daily Crawl Layer.
Crawl Score (Оценка сканирования)
- Формула: F2(page rank, change frequency, age)
- Примеры реализации: (PageRank) * (URL change frequency)^A * (time since last crawl of URL)^B (где A и B — коэффициенты) или (PageRank) * (Age).
- Назначение: Определение необходимости повторного скачивания (Crawl) или использования кэша (Reuse).
Keep Score (Оценка хранения)
- Формула: F3(page rank, change frequency, age)
- Пример реализации: PageRank документа.
- Назначение: Определение URL для удаления из индекса при нехватке места.
Thresholds (Пороговые значения)
- Расчет (Статистические методы): Пороги устанавливаются с помощью статистического анализа выборки URL таким образом, чтобы количество URL, превышающих порог, соответствовало целевой емкости (Target Size) или пропускной способности краулера (Crawling Capacity).
Выводы
- PageRank является доминирующим фактором сканирования и индексации: PageRank используется во всех трех оценках. Он определяет, останется ли страница в индексе (Keep Score). В расчете частоты сканирования (Daily Score) его влияние может быть квадратичным (PR^2), что указывает на экспоненциальное, а не линейное влияние авторитетности на частоту обхода.
- Краулинговый бюджет конечен и управляется динамически: Система явно учитывает ограничения пропускной способности краулера (Crawling Capacity). Пороги (Thresholds) не фиксированы, они устанавливаются на основе доступных ресурсов. Это означает, что сканирование — это игра с нулевой суммой: увеличение частоты сканирования одних URL приводит к снижению для других.
- Частота изменений (Freshness) — второй ключевой фактор: Content Change Frequency напрямую влияет на Crawl Score и Daily Score. Страницы, которые часто меняются, получают более высокий приоритет сканирования, но этот фактор модулируется PageRank.
- Система различает приоритет и действие: Daily Score определяет общую частоту (приоритет), перемещая URL между слоями сканирования (Base, Daily). Crawl Score определяет немедленное действие — загружать страницу заново (Crawl) или использовать версию из репозитория (Reuse), учитывая время с последнего сканирования (Age).
- Техническое измерение изменений: Google определяет факт изменения контента и ссылок с помощью контрольных сумм (Content Checksum, Link Checksum). Это технический, а не семантический анализ изменений.
Практика
Best practices (это мы делаем)
- Максимизация авторитетности сайта (PageRank): Это стратегический приоритет №1 для обеспечения индексации и частого сканирования. Учитывая потенциальное квадратичное влияние (PR^2) на Daily Score, увеличение авторитетности дает экспоненциальный прирост краулингового бюджета.
- Оптимизация внутреннего ссылочного веса: Обеспечьте эффективное распределение PageRank на важные и часто обновляемые страницы с помощью продуманной внутренней перелинковки. Это повысит их индивидуальные оценки Daily Score и Crawl Score.
- Поддержание консистентной частоты обновлений: Для контента, который должен быть свежим (новости, блоги, листинги товаров), важно поддерживать регулярную частоту обновлений. Это увеличивает Content Change Frequency, что положительно влияет на приоритет сканирования.
- Сигнализирование о значимых изменениях: При обновлении контента убедитесь, что изменения существенны и влияют на Content Checksum. Важно, чтобы пересканирование приносило пользу. Обновляйте основной контент, а не только элементы шаблона.
- Техническая оптимизация доступности: Минимизируйте ошибки сервера (Error Condition) и время загрузки (Download Time). Успешные и быстрые сканирования необходимы для поддержания актуальной истории (History Log) и эффективного использования ресурсов краулера.
Worst practices (это делать не надо)
- Создание большого количества страниц с низким PageRank: Страницы с низким PageRank рискуют не преодолеть Keep Threshold и будут удалены из индекса, чтобы освободить место для более авторитетного контента.
- «Стагнация» авторитетных страниц: Если страница имеет высокий PageRank, но никогда не обновляется, ее Content Change Frequency будет низкой. Это снизит ее Daily Score и Crawl Score, что приведет к менее частому сканированию.
- Искусственное завышение частоты изменений (Fake Freshness): Попытки обмануть систему путем изменения незначительных элементов (например, даты в футере) для изменения Content Checksum. Это неэффективное использование краулингового бюджета и не дает стратегического преимущества, если контент не обновляется по существу.
Стратегическое значение
Этот патент является краеугольным камнем технического SEO и оптимизации краулингового бюджета. Он математически подтверждает, что авторитетность (PageRank) является необходимым условием для попадания в индекс и основным множителем для определения частоты сканирования. Стратегия SEO должна быть направлена на создание авторитетного ресурса с четкой структурой распределения веса и управлением свежестью контента. Понимание взаимодействия между PageRank, Change Frequency и Crawling Capacity позволяет принимать обоснованные решения по управлению индексацией крупных сайтов.
Практические примеры
Сценарий 1: Управление краулинговым бюджетом на крупном E-commerce сайте
Задача: Обеспечить быструю индексацию новых товаров и актуальность информации о наличии на старых товарах.
Применение механизмов патента:
- Повышение Keep Score для товаров: Обеспечить, чтобы карточки товаров получали достаточный внутренний PageRank через категории и перелинковку. Это гарантирует, что они преодолеют Keep Threshold и останутся в индексе.
- Повышение Daily Score для категорий: Страницы категорий обычно имеют более высокий PageRank. Необходимо обеспечить их частое обновление (добавление новых товаров, изменение сортировки). Высокий PR^2 и высокая Change Frequency переместят категории в Daily Crawl Layer.
- Управление Crawl Score для старых товаров: Старые товары могут иметь низкую Change Frequency. Чтобы система их проверяла, нужно поддерживать их PageRank. Если PageRank достаточен, то по мере увеличения времени с последнего сканирования (Age), их Crawl Score будет расти, пока не превысит Crawl Threshold для повторного сканирования.
Ожидаемый результат: Краулер часто посещает категории, быстро находит новые товары. Старые товары проверяются реже, экономя бюджет, но остаются в индексе и периодически обновляются.
Сценарий 2: Ведение новостного портала
Задача: Мгновенная индексация свежих новостей.
Применение механизмов патента:
- Максимизация PageRank: Поддержание высокого общего авторитета сайта через качественный контент и сильный ссылочный профиль.
- Максимизация Change Frequency: Поддержание высокой частоты публикаций и обновлений существующих статей (развитие сюжета).
Ожидаемый результат: Комбинация высокого PR и высокой частоты изменений дает максимальный Daily Score, помещая сайт в Daily Crawl Layer или Real-Time Layer (упомянутый в патенте), обеспечивая почти мгновенную индексацию.
Вопросы и ответы
Что важнее для частоты сканирования: PageRank или частота обновления контента?
PageRank значительно важнее. В патенте приводится пример формулы для Daily Score (определяющей частоту сканирования): (PageRank)^2 * URL change frequency. Квадрат PageRank означает, что его влияние может быть экспоненциальным. Высокая частота обновлений не поможет странице с низким PageRank сканироваться часто, но высокий PageRank может обеспечить частое сканирование даже при умеренной частоте обновлений.
Как Google определяет, что контент изменился?
Патент описывает технический метод, основанный на контрольных суммах. При каждом сканировании вычисляются Content Checksum (для содержимого) и Link Checksum (для исходящих ссылок). Если эти значения отличаются от сохраненных в History Log при предыдущем сканировании, система фиксирует изменение. Это фиксация факта изменения данных, а не семантический анализ.
Что такое Keep Score и почему это важно для SEO?
Keep Score определяет, следует ли вообще хранить URL в индексе Google. Если оценка ниже порога Keep Threshold (который зависит от общей емкости индекса), URL будет удален, чтобы освободить место. В патенте указано, что Keep Score часто равен PageRank. Это подчеркивает риск полного исключения из индекса для страниц с низким авторитетом.
В чем разница между Crawl Score и Daily Score?
Daily Score определяет общую частоту сканирования, перемещая URL между слоями (Base Layer или Daily Crawl Layer). Он сильнее зависит от PageRank (в квадрате) и Change Frequency. Crawl Score определяет немедленное действие в текущем цикле: загружать ли страницу из интернета (Crawl) или использовать копию из репозитория (Reuse). Crawl Score дополнительно учитывает время с момента последнего сканирования (Age).
Что означает флаг «Reuse» (Повторное использование) в контексте планировщика?
Если Crawl Score страницы ниже порога Crawl Threshold, планировщик может решить не тратить ресурсы на ее загрузку из интернета в текущем цикле. Вместо этого он пометит ее флагом Reuse, и система индексирования использует последнюю сохраненную версию документа из своего репозитория (кэша). Это экономит краулинговый бюджет.
Как рассчитываются пороговые значения (Thresholds)?
Пороги рассчитываются динамически на основе ограничений системы. Система анализирует случайную выборку URL, рассчитывает для них оценки (Scores) и сортирует их. Затем, исходя из целевых размеров (Target Size) или пропускной способности (Crawling Capacity) — например, сколько URL мы можем скачать за день — определяются точки отсечения в отсортированном списке.
Влияет ли скорость загрузки сайта на планирование сканирования?
Да, косвенно. Патент упоминает сохранение Download Time (времени загрузки) в History Log. Хотя это явно не указано в приведенных формулах оценок, медленная загрузка потребляет больше ресурсов краулера. Это может повлиять на общую пропускную способность (Crawling Capacity) и общую эффективность сканирования сайта.
Может ли этот механизм привести к полному выпадению сайта из индекса?
Да. Если большинство страниц сайта имеют Keep Score (который часто равен PageRank) ниже текущего динамического порога Keep Threshold, они будут постепенно удаляться из индекса по мере того, как Google находит новый, более авторитетный контент для заполнения своей емкости хранения.
Как этот патент связан с файлом sitemap.xml и атрибутом lastmod?
Патент не упоминает sitemap.xml или lastmod. Описанная система полагается на собственный анализ истории сканирования и расчет Content Change Frequency через контрольные суммы, а не на данные, заявленные вебмастером. Sitemap помогает обнаружить URL, но частота их сканирования определяется механизмами этого патента.
Что произойдет, если я значительно изменю структуру исходящих ссылок на странице?
Это изменит Link Checksum страницы. Система зафиксирует это изменение при следующем сканировании и учтет его при расчете Content Change Frequency. Это может привести к увеличению приоритета сканирования этой страницы и помочь системе быстрее обнаружить новые или измененные ссылки.