
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.
Патент решает проблему эффективного планирования сканирования (crawling) для поддержания свежести поискового индекса. Постоянное сканирование всех документов требует огромных ресурсов. Системе необходимо прогнозировать, когда документ изменится, чтобы запланировать его повторное сканирование максимально близко к моменту изменения. Эта задача особенно сложна для недавно обнаруженных документов или документов с короткой историей сканирования, по которым еще не накоплена статистика изменений.
Запатентован метод оценки скорости изменения (Change Rate) документа, основанный на исторических данных об изменениях других, похожих документов. Система определяет сходство на основе метаданных, в первую очередь шаблонов URL (URL Patterns). Для нового документа система находит похожие документы и использует распределение их скоростей изменения (Prior Distribution) для статистического прогнозирования скорости изменения нового документа.
Ключевой механизм основан на предположении, что документы в пределах одного домена, сайта или директории имеют схожие скорости изменения.
Prior Distribution).MAP estimate), система вычисляет наиболее вероятную скорость изменения для нового документа.Высокая. Оптимизация краулингового бюджета и поддержание свежести индекса являются постоянными приоритетами для Google. Описанные методы, использующие шаблоны URL и статистическое прогнозирование для планирования сканирования, остаются фундаментальными для эффективной работы поисковых систем в масштабах интернета.
Патент имеет значительное влияние на SEO, особенно для крупных сайтов и ресурсов с часто обновляемым контентом. Он напрямую влияет на скорость индексации нового контента и скорость отражения обновлений в поиске. Понимание этого механизма критически важно для управления краулинговым бюджетом, так как он показывает, что структура URL и согласованность частоты обновлений внутри разделов сайта напрямую влияют на эффективность сканирования.
Prior Distribution путем сравнения моментов распределения (среднее, дисперсия и т.д.).Change Rate документа на основе Prior Distribution и наблюдаемых данных (если они есть).Claim 1 (Независимый пункт): Описывает основной метод оценки скорости изменения.
existing change rates) для вторых документов, выбранных на основе этих метаданных (т.е. похожих документов).estimated change rate) для первого документа на основе скоростей изменения вторых документов.Claim 2 (Зависимый от 1): Уточняет метод вычисления.
Вычисление предполагаемой скорости изменения включает расчет Maximum A-Posteriori (MAP) estimate с учетом априорного распределения (Prior Distribution), основанного на существующих скоростях изменения, и выбор наиболее вероятной скорости.
Claims 3 и 4 (Зависимые от 1): Описывают применение оценки.
Предполагаемая скорость изменения используется для планирования сканирования (scheduling a crawl) первого документа. После выполнения сканирования по расписанию, предполагаемая скорость изменения корректируется на основе результатов сканирования (т.е. было ли изменение).
Claims 5 и 6 (Зависимые от 1): Уточняют роль URL.
Метаданные включают URL документа. Получение существующих скоростей изменения включает идентификацию документов, имеющих шаблон URL (URL pattern), схожий с URL первого документа.
Claim 7 (Зависимый от 6): Уточняет метод обработки распределения.
Система измеряет распределение существующих скоростей изменения и подбирает параметры распределения, используя Method-of-Moments.
Claim 9 (Независимый пункт): Описывает альтернативный вариант метода, использующий более широкий набор данных.
change signals) для вторых документов (а не только их change rates).Claim 11 (Зависимый от 9): Уточняет типы сигналов.
Change signals включают данные, полученные от вебмастера, связанного со вторыми документами (например, логи или фиды обновлений).
Изобретение напрямую связано с управлением процессом сканирования и поддержанием свежести данных.
CRAWLING – Сканирование и Сбор данных
Это основная фаза применения патента. Модуль Change Rate Estimator взаимодействует с планировщиком сканирования (Crawl Scheduling).
estimated change rate, чтобы определить, когда следует повторно посетить документ. Это напрямую влияет на управление краулинговым бюджетом (Crawl Budget Management).INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает историю сканирования и вычисляет фактические скорости изменения для документов с достаточной историей.
Change Rates. Эти данные затем агрегируются по шаблонам URL для формирования Prior Distributions, которые используются на этапе CRAWLING.Входные данные:
Change Rates для корпуса документов, агрегированная по метаданным (например, по URL Patterns).Change Signals (например, данные от вебмастеров, уровень ошибок на домене).Выходные данные:
Estimated Change Rate для документа.Prior Distribution.Процесс оценки скорости изменения нового документа:
Change Rates) для группы похожих документов. Этот набор данных формирует Prior Distribution. В некоторых реализациях параметры этого распределения могут быть предварительно рассчитаны для шаблона URL с использованием Method-of-Moments.Change Signals, такие как данные от вебмастера или уровень ошибок на домене, для корректировки модели.MAP estimate на основе Prior Distribution. Система выбирает наиболее вероятную скорость изменения для нового документа. В патенте упоминается формула для априорного распределения: P(λ∣t,n)∝(e−λt)n(1−e−λt)n, где переменная 'n' регулирует силу априорного распределения.Estimated Change Rate пересчитывается с учетом новых данных. Процесс повторяется, позволяя оценке постепенно приближаться к фактической скорости изменения документа.Патент фокусируется на использовании метаданных и исторических данных для планирования сканирования.
URL Patterns и поиска похожих документов на уровне домена, поддомена или директории.Change Rate. Рассчитывается с использованием вероятности Пуассоновского процесса (Poisson process likelihood) в дополнение к Prior Distribution.Method-of-Moments используется для определения формы базового распределения скоростей изменения для группы похожих документов.URL Pattern действительно обновляются с одинаковой частотой, система быстрее определит оптимальный график сканирования. Несогласованность затрудняет прогнозирование.Change Rate на основе фактических наблюдений. Однако для накопления достаточной истории требуется время (упоминается до 6 сканирований). Сила априорного распределения (параметр 'n') контролируется, чтобы не мешать системе сходиться к правильной скорости изменения.Change Signals, включая данные от вебмастеров и анализ ошибок на сайте, для более точной оценки частоты изменений.URL Patterns и применять правильные Prior Distributions.lastmod в XML Sitemaps и поддерживайте его актуальность. Это может выступать в роли Change Signal, помогая системе быстрее определить фактическую скорость изменения.URL Pattern. Это создает "шум" в Prior Distribution и может привести к слишком частому сканированию статики или слишком редкому сканированию динамики.Change Rate, и может привести к снижению частоты сканирования.Этот патент подчеркивает важность технического SEO и архитектуры сайта для эффективного взаимодействия с поисковыми системами. Он демонстрирует, что Google не рассматривает страницы изолированно, а активно ищет закономерности на уровне всего сайта для оптимизации своих ресурсов. Для Senior SEO-специалистов это подтверждает необходимость стратегического подхода к структуре сайта, управлению контентом и краулинговым бюджетом, особенно при запуске новых сайтов или разделов.
Сценарий: Запуск нового раздела блога на E-commerce сайте
Change Rate новых статей на основе истории похожих страниц./blog/new-post-slug/.Prior Distribution для шаблона /blog/ с высокой скоростью изменения.lastmod./blog/ часто обновляется, и будет присваивать новым статьям высокую Estimated Change Rate, обеспечивая их быстрое сканирование и индексацию.Сценарий: Управление архивным контентом
/archive/2020/post-slug/./archive/, увидит, что контент не меняется, и сформирует Prior Distribution с очень низкой скоростью изменения. Частота сканирования этого раздела значительно снизится, экономя краулинговый бюджет.Как структура URL влияет на частоту сканирования новых страниц?
Структура URL имеет решающее значение. Google предполагает, что страницы с похожими шаблонами URL (например, находящиеся в одной директории) обновляются с одинаковой частотой. Когда обнаруживается новая страница, система смотрит на историческую частоту обновления страниц с таким же шаблоном URL и использует эти данные для определения того, как часто сканировать новую страницу.
Что произойдет, если я размещу часто обновляемый контент рядом со статическим?
Это неоптимальная стратегия. Если статический и динамический контент смешаны в рамках одного шаблона URL, это создает противоречивые сигналы для Change Rate Estimator. В результате система может либо слишком часто сканировать статический контент (тратя краулинговый бюджет), либо слишком редко сканировать динамический контент (снижая свежесть индекса).
Как быстро Google узнает реальную частоту обновления страницы?
Патент предполагает, что начальная оценка основана на похожих страницах, но система итеративно уточняет ее с каждым сканированием. Упоминается, что этот метод используется для документов с короткой историей (например, 1-4 сканирования). Можно предположить, что после 6 или более сканирований система начинает больше полагаться на фактическую историю изменений самой страницы.
Использует ли Google данные из Sitemap (например, lastmod или changefreq) в этом механизме?
Да, патент упоминает возможность использования Change Signals, помимо истории сканирования. К ним относятся данные от вебмастеров. Хотя Sitemap напрямую не упоминается, актуальные данные в lastmod являются явным сигналом изменения, который система может использовать для более точной оценки Change Rate или для корректировки Prior Distribution.
Как этот патент влияет на управление краулинговым бюджетом?
Он лежит в основе управления краулинговым бюджетом. Система использует этот механизм для распределения ресурсов сканирования, отдавая приоритет контенту с высокой прогнозируемой скоростью изменения. Понимая, как формируется эта оценка, SEO-специалисты могут влиять на нее через архитектуру сайта и стратегию публикации контента.
Что такое "Method-of-Moments" и как он используется?
Это статистический метод, который Google использует для анализа исторических данных об изменениях группы похожих страниц. Он помогает определить общую форму распределения скоростей изменения (Prior Distribution) для определенного шаблона URL. Это позволяет системе делать более точные предположения о поведении новых страниц в этом шаблоне.
Влияет ли скорость загрузки страницы на этот алгоритм?
Патент напрямую не упоминает скорость загрузки как фактор для расчета Change Rate. Однако, если страница загружается медленно или недоступна, краулер не сможет выполнить сканирование по расписанию. Это нарушает сбор данных, необходимых для точной оценки скорости изменения, и может привести к общему снижению частоты сканирования сайта.
Что делать, если новый раздел сайта сканируется слишком редко?
Если новый раздел сканируется редко, это может означать, что он унаследовал низкую Estimated Change Rate от родительского шаблона URL, или система не нашла достаточно данных для формирования прогноза. Необходимо предоставить явные сигналы: регулярно обновлять контент в этом разделе, убедиться, что он доступен через Sitemap с актуальным lastmod, и, возможно, использовать инструменты Google Search Console для запроса индексации.
Могут ли ошибки 404 повлиять на частоту сканирования других страниц?
Да. В патенте упоминается, что система может использовать уровень ошибок на домене как один из Change Signals. Если система обнаруживает, что многие документы на домене недоступны (возвращают 404), это может быть интерпретировано как индикатор изменения доступности других страниц на этом домене, что может повлиять на планирование сканирования.
Применяется ли этот механизм к файлам PDF так же, как к HTML-страницам?
Да. Патент указывает, что тип документа (например, PDF) может использоваться как часть метаданных для поиска похожих документов. Если система видит, что PDF-файлы на определенном домене редко меняются, новый PDF на этом домене унаследует низкую предполагаемую скорость изменения и будет сканироваться реже.

Краулинг
Техническое SEO
Индексация

Краулинг
Свежесть контента
Техническое SEO

Краулинг
Индексация
Свежесть контента

Краулинг
Свежесть контента
Индексация

Краулинг
Техническое SEO
Свежесть контента

EEAT и качество
Антиспам
SERP

Индексация
SERP
Персонализация

Поведенческие сигналы
SERP
Семантика и интент

Knowledge Graph
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
SERP

Ссылки
Антиспам
SERP

Персонализация
Поведенческие сигналы
Local SEO

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
Персонализация
Local SEO

EEAT и качество
Поведенческие сигналы
SERP
