
Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).
Патент решает проблему оптимизации ресурсов сканирования (Crawl Budget). Существует противоречие: слишком частое сканирование (re-crawling) создает избыточную нагрузку на сеть и серверы веб-сайтов, а слишком редкое приводит к тому, что удаленные страницы (например, истекшие объявления, проданные товары) остаются в поисковом индексе. Изобретение направлено на поиск оптимального баланса между актуальностью индекса и стоимостью сканирования.
Запатентована система для определения оптимального расписания повторного сканирования. Система анализирует историю сканирования (crawl history data), чтобы рассчитать вероятность удаления страницы (Deletion Probability) в будущем, в том числе для отдельных категорий контента. Затем используется функция «штрафа» (Crawl Penalty/Crawl Score), чтобы найти расписание, минимизирующее общие издержки — стоимость самого сканирования и штраф за показ удаленной страницы пользователю.
Система работает в два основных этапа:
posting pages) в каждой категории было удалено. На основе этого рассчитывается Deletion Probability.Crawl Penalty по специальной формуле. Эта формула взвешивает затраты на выполнение сканирования (P1) и потенциальный ущерб от показа устаревших результатов (P2). Выбирается расписание с минимальным общим штрафом.Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и обеспечение свежести индекса остаются критически важными задачами для Google. Описанные в патенте методы интеллектуального планирования сканирования (Crawl Scheduling) на основе прогнозирования изменений являются фундаментальными для эффективной работы поисковых систем.
Патент имеет высокое инфраструктурное значение для SEO (7/10), особенно для крупных и динамичных сайтов (e-commerce, доски объявлений, агрегаторы). Он не описывает факторы ранжирования, но раскрывает механизмы, определяющие, как часто Google будет возвращаться к контенту. Понимание этих механизмов позволяет оптимизировать управление краулинговым бюджетом и гарантировать своевременную индексацию и деиндексацию страниц.
Web Site Crawling History DB. Включает снапшоты просканированных страниц, коды ответов HTTP, статус страницы (NEW, DELETED, MODIFIED, MOVED) и временные метки.Crawl History Data для расчета Deletion Probability и определения оптимального расписания.Патент содержит две основные группы утверждений: первая фокусируется на расчете вероятности удаления с учетом категорий, вторая — на использовании этой вероятности для оптимизации расписания сканирования.
Claim 1 (Независимый пункт, Система) и Claim 10 (Метод): Описывают расчет вероятности удаления с учетом категорий.
Claim 5 (Независимый пункт, Система) и Claim 14 (Метод): Описывают определение расписания сканирования.
Crawl Score/Crawl Penalty). Оценка является комбинацией первой оценки (стоимость сканирования сайта) и второй оценки (стоимость показа удаленной страницы).Claim 8 и Claim 17 (Зависимые): Детализируют формулу расчета Crawl Score (Penalty Function) для категории 'c' и набора периодов 'T'.
Оценка является суммой первой и второй величины.
Deletion Probability) для оптимизации расписания сканирования.Penalty Function. Она математически формализует компромисс между стоимостью сканирования (дорого) и показом устаревших результатов (плохо для пользователя). Google минимизирует этот общий штраф.Re-Crawl Analyzer, позволяющий точно рассчитать Deletion Probability и оптимизировать расписание для быстрого удаления страниц из индекса.Deletion Probability на уровне категорий, четкая структура поможет ему эффективнее распределить краулинговый бюджет между разделами с разной частотой обновления.Posting Pages на нерелевантные страницы запутывают систему. Google не получит сигнал DELETED, что негативно повлияет на расчет Deletion Probability и приведет к неэффективному сканированию.Crawl History DB.Патент подтверждает, что Google рассматривает сканирование как задачу оптимизации ресурсов. Стратегия SEO должна помогать Google сканировать сайт максимально эффективно. Это особенно важно для сайтов с миллионами страниц. Понимание того, что Google адаптирует частоту сканирования на основе наблюдаемой скорости удалений (а не только на основе PageRank или Sitemaps), подчеркивает важность технического SEO и правильного управления жизненным циклом контента.
Сценарий: Оптимизация сканирования сайта недвижимости
На сайте есть два раздела: /аренда/ (высокая оборачиваемость, объекты сдаются быстро) и /продажа/ (низкая оборачиваемость, объекты продаются долго).
Re-Crawl Analyzer рассчитывает высокую Deletion Probability для категории /аренда/ и низкую для /продажа/.Что такое «Crawl Penalty» и почему это важно?
Crawl Penalty (Штраф за сканирование) — это ключевая метрика оптимизации. Она суммирует два вида затрат: стоимость ресурсов, потраченных на само сканирование, и «ущерб» от показа пользователю устаревшей (удаленной) страницы. Google стремится выбрать такое расписание сканирования, при котором этот общий штраф будет минимальным.
Как Google определяет, что страница удалена?
Патент упоминает два основных способа. Первый — по коду ответа HTTP (например, 404 Not Found или 410 Gone). Второй — путем анализа содержимого страницы (HTML content) и сравнения её структуры (например, DOM) с известными шаблонами страниц ошибок или редиректов. Это позволяет обнаруживать soft 404.
Означает ли это, что Google сканирует разные разделы сайта с разной частотой?
Да, абсолютно. Патент явно описывает расчет вероятности удаления (Deletion Probability) отдельно для разных категорий (разделов) сайта. Если один раздел (например, Блог) обновляется редко, а другой (например, Вакансии) — ежедневно, Google рассчитает для них разные оптимальные расписания сканирования.
Как влияют веса p1 и p2 в формуле штрафа?
p1 — это вес стоимости сканирования, p2 — вес стоимости устаревания. Если Google установит высокий p1, система будет предпочитать более редкое сканирование для экономии ресурсов. Если установлен высокий p2, система будет сканировать чаще, чтобы обеспечить максимальную свежесть индекса. Эти веса позволяют Google настраивать баланс.
Как этот патент влияет на управление краулинговым бюджетом?
Он напрямую связан с краулинговым бюджетом. Если вы помогаете Google точно определять удаленный контент (используя коды 410/404), вы позволяете системе более эффективно рассчитать Deletion Probability и оптимизировать расписание. Это гарантирует, что бюджет тратится на проверку актуального контента, а не на избыточное сканирование статичных разделов.
Что произойдет, если я буду использовать 301 редирект для всех удаленных товаров?
Это плохая практика в контексте этого патента. Система не получит четкий сигнал DELETED. Это может исказить расчет Deletion Probability. Google может продолжать сканировать эти URL, не понимая, что контент исчез, или может классифицировать целевую страницу редиректа (например, главную) как soft 404, что приводит к неэффективному использованию ресурсов.
Что такое «Posting Page» и «Listing Page»?
Listing Page — это страница категории или списка (например, «Квартиры в аренду»). Posting Page — это страница конкретного элемента (например, «Объявление об аренде квартиры на ул. Ленина»). Патент фокусируется на прогнозировании удаления именно Posting Pages, так как они чаще имеют ограниченный срок жизни.
Влияет ли этот механизм на скорость индексации нового контента?
Прямо — нет, так как патент описывает повторное сканирование (re-crawling) уже известных URL для проверки их статуса. Однако косвенно, за счет оптимизации и экономии ресурсов при повторном сканировании, у Google освобождается больше краулингового бюджета для обнаружения и индексации новых страниц.
Применяется ли этот алгоритм ко всем сайтам?
Теоретически, механизм применим ко всем сайтам. Однако наибольшую выгоду он приносит при сканировании крупных и динамичных сайтов, где контент часто удаляется (высокий churn rate), таких как доски объявлений или e-commerce. Для небольших статичных сайтов этот механизм оптимизации менее критичен.
Нужно ли мне как-то сигнализировать Google о том, как часто мой контент удаляется?
Нет, система работает автоматически, анализируя вашу историю сканирования. Вам не нужно отправлять сигналы напрямую. Ваша задача — обеспечить техническую корректность вашего сайта, чтобы Google получал точные данные во время сканирования (правильные коды ответа HTTP и четкую структуру контента).

Краулинг
Свежесть контента
Техническое SEO

Краулинг
Свежесть контента
Индексация

Краулинг
Техническое SEO
Индексация

Краулинг
Индексация
Свежесть контента

Краулинг
Индексация
Свежесть контента

Ссылки
Мультиязычность
Семантика и интент

Поведенческие сигналы
Персонализация
EEAT и качество

Персонализация
Поведенческие сигналы
Local SEO

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Антиспам

Техническое SEO
Ссылки

Семантика и интент
SERP
Персонализация

Антиспам
Ссылки
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа
