Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).

Описание

Какую задачу решает

Патент решает проблему оптимизации ресурсов сканирования (Crawl Budget). Существует противоречие: слишком частое сканирование (re-crawling) создает избыточную нагрузку на сеть и серверы веб-сайтов, а слишком редкое приводит к тому, что удаленные страницы (например, истекшие объявления, проданные товары) остаются в поисковом индексе. Изобретение направлено на поиск оптимального баланса между актуальностью индекса и стоимостью сканирования.

Что запатентовано

Запатентована система для определения оптимального расписания повторного сканирования. Система анализирует историю сканирования (crawl history data), чтобы рассчитать вероятность удаления страницы (Deletion Probability) в будущем, в том числе для отдельных категорий контента. Затем используется функция «штрафа» (Crawl Penalty/Crawl Score), чтобы найти расписание, минимизирующее общие издержки — стоимость самого сканирования и штраф за показ удаленной страницы пользователю.

Как это работает

Система работает в два основных этапа:

Расчет вероятности удаления: Анализируется история сканирования за определенные периоды. Система подсчитывает, сколько страниц (особенно posting pages) в каждой категории было удалено. На основе этого рассчитывается Deletion Probability.
Оптимизация расписания: Система перебирает различные варианты расписания сканирования. Для каждого варианта вычисляется Crawl Penalty по специальной формуле. Эта формула взвешивает затраты на выполнение сканирования (P1) и потенциальный ущерб от показа устаревших результатов (P2). Выбирается расписание с минимальным общим штрафом.

Актуальность для SEO

Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и обеспечение свежести индекса остаются критически важными задачами для Google. Описанные в патенте методы интеллектуального планирования сканирования (Crawl Scheduling) на основе прогнозирования изменений являются фундаментальными для эффективной работы поисковых систем.

Важность для SEO

Патент имеет высокое инфраструктурное значение для SEO (7/10), особенно для крупных и динамичных сайтов (e-commerce, доски объявлений, агрегаторы). Он не описывает факторы ранжирования, но раскрывает механизмы, определяющие, как часто Google будет возвращаться к контенту. Понимание этих механизмов позволяет оптимизировать управление краулинговым бюджетом и гарантировать своевременную индексацию и деиндексацию страниц.

Детальный разбор

Термины и определения

Crawl History Data (Данные истории сканирования): Информация, сохраняемая в Web Site Crawling History DB. Включает снапшоты просканированных страниц, коды ответов HTTP, статус страницы (NEW, DELETED, MODIFIED, MOVED) и временные метки.
Crawl Penalty / Crawl Score (Штраф / Оценка за сканирование): Метрика для оценки эффективности расписания. Является комбинацией штрафа за выполнение сканирования (затраты ресурсов) и штрафа за показ удаленной страницы пользователю (устаревший индекс).
Deletion Probability (Вероятность удаления): Рассчитанная вероятность того, что страница на сайте (или в категории) будет удалена в течение определенного периода времени.
Listing Page (Страница листинга): Страница категории или списка (например, страница категории товаров).
Posting Page (Страница публикации/Элемента): Отдельная страница с детальной информацией об одном элементе (например, одно объявление, один товар). Основной тип контента, вероятность удаления которого прогнозируется.
Re-Crawl Analyzer (Анализатор повторного сканирования): Компонент системы, который анализирует Crawl History Data для расчета Deletion Probability и определения оптимального расписания.
Re-Crawl Schedule (Расписание повторного сканирования): Набор временных интервалов, определяющий, когда веб-сайт или его часть должны быть повторно просканированы.

Ключевые утверждения (Анализ Claims)

Патент содержит две основные группы утверждений: первая фокусируется на расчете вероятности удаления с учетом категорий, вторая — на использовании этой вероятности для оптимизации расписания сканирования.

Claim 1 (Независимый пункт, Система) и Claim 10 (Метод): Описывают расчет вероятности удаления с учетом категорий.

Система получает историю сканирования сайта, страницы которого ассоциированы с категориями.
Определяется статус страниц (например, DELETED).
Для каждой категории подсчитывается общее количество удаленных страниц.
Для каждой категории рассчитывается вероятность того, что другая страница в этой категории будет удалена.
Рассчитанная вероятность сохраняется в ассоциации с категорией и сайтом.

Claim 5 (Независимый пункт, Система) и Claim 14 (Метод): Описывают определение расписания сканирования.

Система получает историю сканирования за несколько предыдущих временных периодов.
Рассчитываются вероятности удаления для каждого периода.
Для множества потенциальных расписаний рассчитывается оценка сканирования (Crawl Score/Crawl Penalty). Оценка является комбинацией первой оценки (стоимость сканирования сайта) и второй оценки (стоимость показа удаленной страницы).
Определяется расписание повторного сканирования на основе этих оценок (выбирается расписание с минимальным штрафом).

Claim 8 и Claim 17 (Зависимые): Детализируют формулу расчета Crawl Score (Penalty Function) для категории ‘c’ и набора периодов ‘T’.

Оценка является суммой первой и второй величины.

Первая величина (Штраф за сканирование) определяется как $p_{1} *$

Выводы

Прогнозирование для оптимизации: Google не просто реагирует на изменения, но активно прогнозирует вероятность удаления контента (Deletion Probability) для оптимизации расписания сканирования.
Баланс через функцию штрафа: Ключевым механизмом является Penalty Function. Она математически формализует компромисс между стоимостью сканирования (дорого) и показом устаревших результатов (плохо для пользователя). Google минимизирует этот общий штраф.
Гранулярность на уровне категорий: Система анализирует частоту удаления контента отдельно для разных разделов сайта. Это позволяет Google сканировать разные части одного сайта с разной частотой, адаптируясь к скорости изменений в них.
Важность корректной идентификации удаления: Система полагается на точное определение статуса DELETED. Это может быть основано как на явных сигналах (HTTP 404/410), так и на анализе контента страницы (распознавание soft 404s).
Фокус на контенте с высоким Churn Rate: Механизм в первую очередь направлен на сайты, где контент часто удаляется (E-commerce, Classifieds). Для них правильная техническая реализация удаления страниц критична.

Практика

Best practices (это мы делаем)

Использование корректных кодов ответа: Всегда отдавайте HTTP 410 (Gone) или HTTP 404 (Not Found) для удаленного контента. Это самый чистый сигнал для Re-Crawl Analyzer, позволяющий точно рассчитать Deletion Probability и оптимизировать расписание для быстрого удаления страниц из индекса.
Обеспечение четкой структуры категорий: Для крупных сайтов важно иметь логичную и последовательную структуру URL. Поскольку Google рассчитывает Deletion Probability на уровне категорий, четкая структура поможет ему эффективнее распределить краулинговый бюджет между разделами с разной частотой обновления.
Консистентные страницы ошибок (Борьба с Soft 404s): Если вы вынуждены отдавать HTTP 200 на страницах удаленных товаров (soft 404), убедитесь, что эти страницы имеют стандартизированный шаблон. Это поможет Google распознать их как удаленные через анализ контента (DOM comparison), как описано в патенте. Однако лучше избегать Soft 404.
Управление жизненным циклом контента: Для контента с ограниченным сроком жизни (акции, события) обеспечьте технически корректный процесс деактивации (своевременная отдача кодов 4xx), чтобы Google мог адаптировать частоту сканирования.

Worst practices (это делать не надо)

Редирект удаленных страниц на главную или в категорию: Массовые редиректы (301/302) удаленных Posting Pages на нерелевантные страницы запутывают систему. Google не получит сигнал DELETED, что негативно повлияет на расчет Deletion Probability и приведет к неэффективному сканированию.
Блокировка доступа к удаленным страницам через Robots.txt: Если страница удалена, Google должен иметь возможность ее просканировать, чтобы увидеть код 404/410. Блокировка не позволит обновить статус страницы в Crawl History DB.
Нестабильная доступность контента (Flaky Content): Если страницы периодически отдают ошибки (например, 5xx), это может быть ошибочно интерпретировано как удаление, что приведет к неверному расчету вероятности и непредсказуемому графику сканирования.

Стратегическое значение

Патент подтверждает, что Google рассматривает сканирование как задачу оптимизации ресурсов. Стратегия SEO должна помогать Google сканировать сайт максимально эффективно. Это особенно важно для сайтов с миллионами страниц. Понимание того, что Google адаптирует частоту сканирования на основе наблюдаемой скорости удалений (а не только на основе PageRank или Sitemaps), подчеркивает важность технического SEO и правильного управления жизненным циклом контента.

Практические примеры

Сценарий: Оптимизация сканирования сайта недвижимости

На сайте есть два раздела: /аренда/ (высокая оборачиваемость, объекты сдаются быстро) и /продажа/ (низкая оборачиваемость, объекты продаются долго).

Наблюдение Google: Краулер фиксирует, что в разделе /аренда/ страницы часто начинают отдавать 410 уже через несколько дней. В разделе /продажа/ страницы актуальны месяцами.
Расчет вероятности: Re-Crawl Analyzer рассчитывает высокую Deletion Probability для категории /аренда/ и низкую для /продажа/.
Расчет Penalty и Оптимизация:
- Для /аренда/: Система определяет, что редкое сканирование приведет к высокому штрафу p2 (пользователи увидят неактуальные объявления). Оптимальное расписание — частое (например, ежедневно).
- Для /продажа/: Система определяет, что частое сканирование приведет к высокому штрафу p1 (затраты ресурсов) при низком риске p2. Оптимальное расписание — редкое.
Действия SEO: Гарантировать, что все сданные объекты в разделе /аренда/ немедленно отдают код 410. Это поддерживает эффективный график сканирования именно этого раздела.

Вопросы и ответы

Что такое «Crawl Penalty» и почему это важно?

Crawl Penalty (Штраф за сканирование) — это ключевая метрика оптимизации. Она суммирует два вида затрат: стоимость ресурсов, потраченных на само сканирование, и «ущерб» от показа пользователю устаревшей (удаленной) страницы. Google стремится выбрать такое расписание сканирования, при котором этот общий штраф будет минимальным.

Как Google определяет, что страница удалена?

Патент упоминает два основных способа. Первый — по коду ответа HTTP (например, 404 Not Found или 410 Gone). Второй — путем анализа содержимого страницы (HTML content) и сравнения ее структуры (например, DOM) с известными шаблонами страниц ошибок или редиректов. Это позволяет обнаруживать soft 404.

Означает ли это, что Google сканирует разные разделы сайта с разной частотой?

Да, абсолютно. Патент явно описывает расчет вероятности удаления (Deletion Probability) отдельно для разных категорий (разделов) сайта. Если один раздел (например, Блог) обновляется редко, а другой (например, Вакансии) — ежедневно, Google рассчитает для них разные оптимальные расписания сканирования.

Как влияют веса p1 и p2 в формуле штрафа?

p1 — это вес стоимости сканирования, p2 — вес стоимости устаревания. Если Google установит высокий p1, система будет предпочитать более редкое сканирование для экономии ресурсов. Если установлен высокий p2, система будет сканировать чаще, чтобы обеспечить максимальную свежесть индекса. Эти веса позволяют Google настраивать баланс.

Как этот патент влияет на управление краулинговым бюджетом?

Он напрямую связан с краулинговым бюджетом. Если вы помогаете Google точно определять удаленный контент (используя коды 410/404), вы позволяете системе более эффективно рассчитать Deletion Probability и оптимизировать расписание. Это гарантирует, что бюджет тратится на проверку актуального контента, а не на избыточное сканирование статичных разделов.

Что произойдет, если я буду использовать 301 редирект для всех удаленных товаров?

Это плохая практика в контексте этого патента. Система не получит четкий сигнал DELETED. Это может исказить расчет Deletion Probability. Google может продолжать сканировать эти URL, не понимая, что контент исчез, или может классифицировать целевую страницу редиректа (например, главную) как soft 404, что приводит к неэффективному использованию ресурсов.

Что такое «Posting Page» и «Listing Page»?

Listing Page — это страница категории или списка (например, «Квартиры в аренду»). Posting Page — это страница конкретного элемента (например, «Объявление об аренде квартиры на ул. Ленина»). Патент фокусируется на прогнозировании удаления именно Posting Pages, так как они чаще имеют ограниченный срок жизни.

Влияет ли этот механизм на скорость индексации нового контента?

Прямо — нет, так как патент описывает повторное сканирование (re-crawling) уже известных URL для проверки их статуса. Однако косвенно, за счет оптимизации и экономии ресурсов при повторном сканировании, у Google освобождается больше краулингового бюджета для обнаружения и индексации новых страниц.

Применяется ли этот алгоритм ко всем сайтам?

Теоретически, механизм применим ко всем сайтам. Однако наибольшую выгоду он приносит при сканировании крупных и динамичных сайтов, где контент часто удаляется (высокий churn rate), таких как доски объявлений или e-commerce. Для небольших статичных сайтов этот механизм оптимизации менее критичен.

Нужно ли мне как-то сигнализировать Google о том, как часто мой контент удаляется?

Нет, система работает автоматически, анализируя вашу историю сканирования. Вам не нужно отправлять сигналы напрямую. Ваша задача — обеспечить техническую корректность вашего сайта, чтобы Google получал точные данные во время сканирования (правильные коды ответа HTTP и четкую структуру контента).