Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

METHOD AND TECHNIQUES FOR DETERMINING CRAWLING SCHEDULE (Метод и техники для определения расписания сканирования)

US8862569B2
Google LLC
2012-01-11
2014-10-14

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).

Какую проблему решает

Патент решает проблему оптимизации ресурсов сканирования (Crawl Budget). Существует противоречие: слишком частое сканирование (re-crawling) создает избыточную нагрузку на сеть и серверы веб-сайтов, а слишком редкое приводит к тому, что удаленные страницы (например, истекшие объявления, проданные товары) остаются в поисковом индексе. Изобретение направлено на поиск оптимального баланса между актуальностью индекса и стоимостью сканирования.

Что запатентовано

Запатентована система для определения оптимального расписания повторного сканирования. Система анализирует историю сканирования (crawl history data), чтобы рассчитать вероятность удаления страницы (Deletion Probability) в будущем, в том числе для отдельных категорий контента. Затем используется функция «штрафа» (Crawl Penalty/Crawl Score), чтобы найти расписание, минимизирующее общие издержки — стоимость самого сканирования и штраф за показ удаленной страницы пользователю.

Как это работает

Система работает в два основных этапа:

Расчет вероятности удаления: Анализируется история сканирования за определенные периоды. Система подсчитывает, сколько страниц (особенно posting pages) в каждой категории было удалено. На основе этого рассчитывается Deletion Probability.
Оптимизация расписания: Система перебирает различные варианты расписания сканирования. Для каждого варианта вычисляется Crawl Penalty по специальной формуле. Эта формула взвешивает затраты на выполнение сканирования (P1) и потенциальный ущерб от показа устаревших результатов (P2). Выбирается расписание с минимальным общим штрафом.

Актуальность для SEO

Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и обеспечение свежести индекса остаются критически важными задачами для Google. Описанные в патенте методы интеллектуального планирования сканирования (Crawl Scheduling) на основе прогнозирования изменений являются фундаментальными для эффективной работы поисковых систем.

Важность для SEO

Патент имеет высокое инфраструктурное значение для SEO (7/10), особенно для крупных и динамичных сайтов (e-commerce, доски объявлений, агрегаторы). Он не описывает факторы ранжирования, но раскрывает механизмы, определяющие, как часто Google будет возвращаться к контенту. Понимание этих механизмов позволяет оптимизировать управление краулинговым бюджетом и гарантировать своевременную индексацию и деиндексацию страниц.

Термины и определения

Crawl History Data (Данные истории сканирования): Информация, сохраняемая в Web Site Crawling History DB. Включает снапшоты просканированных страниц, коды ответов HTTP, статус страницы (NEW, DELETED, MODIFIED, MOVED) и временные метки.
Crawl Penalty / Crawl Score (Штраф / Оценка за сканирование): Метрика для оценки эффективности расписания. Является комбинацией штрафа за выполнение сканирования (затраты ресурсов) и штрафа за показ удаленной страницы пользователю (устаревший индекс).
Deletion Probability (Вероятность удаления): Рассчитанная вероятность того, что страница на сайте (или в категории) будет удалена в течение определенного периода времени.
Listing Page (Страница листинга): Страница категории или списка (например, страница категории товаров).
Posting Page (Страница публикации/Элемента): Отдельная страница с детальной информацией об одном элементе (например, одно объявление, один товар). Основной тип контента, вероятность удаления которого прогнозируется.
Re-Crawl Analyzer (Анализатор повторного сканирования): Компонент системы, который анализирует Crawl History Data для расчета Deletion Probability и определения оптимального расписания.
Re-Crawl Schedule (Расписание повторного сканирования): Набор временных интервалов, определяющий, когда веб-сайт или его часть должны быть повторно просканированы.

Ключевые утверждения (Анализ Claims)

Патент содержит две основные группы утверждений: первая фокусируется на расчете вероятности удаления с учетом категорий, вторая — на использовании этой вероятности для оптимизации расписания сканирования.

Claim 1 (Независимый пункт, Система) и Claim 10 (Метод): Описывают расчет вероятности удаления с учетом категорий.

Система получает историю сканирования сайта, страницы которого ассоциированы с категориями.
Определяется статус страниц (например, DELETED).
Для каждой категории подсчитывается общее количество удаленных страниц.
Для каждой категории рассчитывается вероятность того, что другая страница в этой категории будет удалена.
Рассчитанная вероятность сохраняется в ассоциации с категорией и сайтом.

Claim 5 (Независимый пункт, Система) и Claim 14 (Метод): Описывают определение расписания сканирования.

Система получает историю сканирования за несколько предыдущих временных периодов.
Рассчитываются вероятности удаления для каждого периода.
Для множества потенциальных расписаний рассчитывается оценка сканирования (Crawl Score/Crawl Penalty). Оценка является комбинацией первой оценки (стоимость сканирования сайта) и второй оценки (стоимость показа удаленной страницы).
Определяется расписание повторного сканирования на основе этих оценок (выбирается расписание с минимальным штрафом).

Claim 8 и Claim 17 (Зависимые): Детализируют формулу расчета Crawl Score (Penalty Function) для категории 'c' и набора периодов 'T'.

Оценка является суммой первой и второй величины.

Первая величина (Штраф за сканирование) определяется как
p1∗

Выводы

Прогнозирование для оптимизации: Google не просто реагирует на изменения, но активно прогнозирует вероятность удаления контента (Deletion Probability) для оптимизации расписания сканирования.

Баланс через функцию штрафа: Ключевым механизмом является Penalty Function. Она математически формализует компромисс между стоимостью сканирования (дорого) и показом устаревших результатов (плохо для пользователя). Google минимизирует этот общий штраф.

Гранулярность на уровне категорий: Система анализирует частоту удаления контента отдельно для разных разделов сайта. Это позволяет Google сканировать разные части одного сайта с разной частотой, адаптируясь к скорости изменений в них.

Важность корректной идентификации удаления: Система полагается на точное определение статуса DELETED. Это может быть основано как на явных сигналах (HTTP 404/410), так и на анализе контента страницы (распознавание soft 404s).

Фокус на контенте с высоким Churn Rate: Механизм в первую очередь направлен на сайты, где контент часто удаляется (E-commerce, Classifieds). Для них правильная техническая реализация удаления страниц критична.

Практика

Best practices (это мы делаем)

Использование корректных кодов ответа: Всегда отдавайте HTTP 410 (Gone) или HTTP 404 (Not Found) для удаленного контента. Это самый чистый сигнал для Re-Crawl Analyzer, позволяющий точно рассчитать Deletion Probability и оптимизировать расписание для быстрого удаления страниц из индекса.

Обеспечение четкой структуры категорий: Для крупных сайтов важно иметь логичную и последовательную структуру URL. Поскольку Google рассчитывает Deletion Probability на уровне категорий, четкая структура поможет ему эффективнее распределить краулинговый бюджет между разделами с разной частотой обновления.

Консистентные страницы ошибок (Борьба с Soft 404s): Если вы вынуждены отдавать HTTP 200 на страницах удаленных товаров (soft 404), убедитесь, что эти страницы имеют стандартизированный шаблон. Это поможет Google распознать их как удаленные через анализ контента (DOM comparison), как описано в патенте. Однако лучше избегать Soft 404.

Управление жизненным циклом контента: Для контента с ограниченным сроком жизни (акции, события) обеспечьте технически корректный процесс деактивации (своевременная отдача кодов 4xx), чтобы Google мог адаптировать частоту сканирования.

Worst practices (это делать не надо)

Редирект удаленных страниц на главную или в категорию: Массовые редиректы (301/302) удаленных Posting Pages на нерелевантные страницы запутывают систему. Google не получит сигнал DELETED, что негативно повлияет на расчет Deletion Probability и приведет к неэффективному сканированию.

Блокировка доступа к удаленным страницам через Robots.txt: Если страница удалена, Google должен иметь возможность её просканировать, чтобы увидеть код 404/410. Блокировка не позволит обновить статус страницы в Crawl History DB.

Нестабильная доступность контента (Flaky Content): Если страницы периодически отдают ошибки (например, 5xx), это может быть ошибочно интерпретировано как удаление, что приведет к неверному расчету вероятности и непредсказуемому графику сканирования.

Стратегическое значение

Патент подтверждает, что Google рассматривает сканирование как задачу оптимизации ресурсов. Стратегия SEO должна помогать Google сканировать сайт максимально эффективно. Это особенно важно для сайтов с миллионами страниц. Понимание того, что Google адаптирует частоту сканирования на основе наблюдаемой скорости удалений (а не только на основе PageRank или Sitemaps), подчеркивает важность технического SEO и правильного управления жизненным циклом контента.

Практические примеры

Сценарий: Оптимизация сканирования сайта недвижимости

На сайте есть два раздела: /аренда/ (высокая оборачиваемость, объекты сдаются быстро) и /продажа/ (низкая оборачиваемость, объекты продаются долго).

Наблюдение Google: Краулер фиксирует, что в разделе /аренда/ страницы часто начинают отдавать 410 уже через несколько дней. В разделе /продажа/ страницы актуальны месяцами.

Расчет вероятности: Re-Crawl Analyzer рассчитывает высокую Deletion Probability для категории /аренда/ и низкую для /продажа/.

Расчет Penalty и Оптимизация:

Для /аренда/: Система определяет, что редкое сканирование приведет к высокому штрафу p2 (пользователи увидят неактуальные объявления). Оптимальное расписание — частое (например, ежедневно).

Для /продажа/: Система определяет, что частое сканирование приведет к высокому штрафу p1 (затраты ресурсов) при низком риске p2. Оптимальное расписание — редкое.

Действия SEO: Гарантировать, что все сданные объекты в разделе /аренда/ немедленно отдают код 410. Это поддерживает эффективный график сканирования именно этого раздела.

Вопросы и ответы

Что такое «Crawl Penalty» и почему это важно?

Crawl Penalty (Штраф за сканирование) — это ключевая метрика оптимизации. Она суммирует два вида затрат: стоимость ресурсов, потраченных на само сканирование, и «ущерб» от показа пользователю устаревшей (удаленной) страницы. Google стремится выбрать такое расписание сканирования, при котором этот общий штраф будет минимальным.

Как Google определяет, что страница удалена?

Патент упоминает два основных способа. Первый — по коду ответа HTTP (например, 404 Not Found или 410 Gone). Второй — путем анализа содержимого страницы (HTML content) и сравнения её структуры (например, DOM) с известными шаблонами страниц ошибок или редиректов. Это позволяет обнаруживать soft 404.

Означает ли это, что Google сканирует разные разделы сайта с разной частотой?

Да, абсолютно. Патент явно описывает расчет вероятности удаления (Deletion Probability) отдельно для разных категорий (разделов) сайта. Если один раздел (например, Блог) обновляется редко, а другой (например, Вакансии) — ежедневно, Google рассчитает для них разные оптимальные расписания сканирования.

Как влияют веса p1 и p2 в формуле штрафа?

p1 — это вес стоимости сканирования, p2 — вес стоимости устаревания. Если Google установит высокий p1, система будет предпочитать более редкое сканирование для экономии ресурсов. Если установлен высокий p2, система будет сканировать чаще, чтобы обеспечить максимальную свежесть индекса. Эти веса позволяют Google настраивать баланс.

Как этот патент влияет на управление краулинговым бюджетом?

Он напрямую связан с краулинговым бюджетом. Если вы помогаете Google точно определять удаленный контент (используя коды 410/404), вы позволяете системе более эффективно рассчитать Deletion Probability и оптимизировать расписание. Это гарантирует, что бюджет тратится на проверку актуального контента, а не на избыточное сканирование статичных разделов.

Что произойдет, если я буду использовать 301 редирект для всех удаленных товаров?

Это плохая практика в контексте этого патента. Система не получит четкий сигнал DELETED. Это может исказить расчет Deletion Probability. Google может продолжать сканировать эти URL, не понимая, что контент исчез, или может классифицировать целевую страницу редиректа (например, главную) как soft 404, что приводит к неэффективному использованию ресурсов.

Что такое «Posting Page» и «Listing Page»?

Listing Page — это страница категории или списка (например, «Квартиры в аренду»). Posting Page — это страница конкретного элемента (например, «Объявление об аренде квартиры на ул. Ленина»). Патент фокусируется на прогнозировании удаления именно Posting Pages, так как они чаще имеют ограниченный срок жизни.

Влияет ли этот механизм на скорость индексации нового контента?

Прямо — нет, так как патент описывает повторное сканирование (re-crawling) уже известных URL для проверки их статуса. Однако косвенно, за счет оптимизации и экономии ресурсов при повторном сканировании, у Google освобождается больше краулингового бюджета для обнаружения и индексации новых страниц.

Применяется ли этот алгоритм ко всем сайтам?

Теоретически, механизм применим ко всем сайтам. Однако наибольшую выгоду он приносит при сканировании крупных и динамичных сайтов, где контент часто удаляется (высокий churn rate), таких как доски объявлений или e-commerce. Для небольших статичных сайтов этот механизм оптимизации менее критичен.

Нужно ли мне как-то сигнализировать Google о том, как часто мой контент удаляется?

Нет, система работает автоматически, анализируя вашу историю сканирования. Вам не нужно отправлять сигналы напрямую. Ваша задача — обеспечить техническую корректность вашего сайта, чтобы Google получал точные данные во время сканирования (правильные коды ответа HTTP и четкую структуру контента).

Похожие патенты

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента
Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

US8386459B1
2013-02-26

Краулинг

Свежесть контента

Техническое SEO

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент
Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг

Свежесть контента

Индексация

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера
Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг

Техническое SEO

Индексация

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита
Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

US7725452B1
2010-05-25

Краулинг

Индексация

Свежесть контента

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг

Индексация

Свежесть контента

Популярные патенты

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок
Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки

Мультиязычность

Семантика и интент

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы

Персонализация

EEAT и качество

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация

Поведенческие сигналы

Local SEO

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация

Семантика и интент

Поведенческие сигналы

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.

US10248698B2
2019-04-02

Персонализация

Поведенческие сигналы

SERP

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео
Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы

SERP

Антиспам

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO

Ссылки

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).

US7584177B2
2009-09-01

Семантика и интент

SERP

Персонализация

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).

US8060405B1
2011-11-15

Антиспам

Ссылки

SERP

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений
Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы

Семантика и интент

Мультимедиа

seohardcore

Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты