SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

SCHEDULING RESOURCE CRAWLS (Планирование сканирования ресурсов)
  • US8868541B2
  • Google LLC
  • 2011-01-21
  • 2014-10-21
  • Краулинг
  • Техническое SEO
  • Индексация
  • Свежесть контента
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

Описание

Какую проблему решает

Патент решает проблему неэффективного распределения ограниченных ресурсов сканирования (краулингового бюджета). В условиях постоянно растущего интернета система стремится избежать траты ресурсов на сканирование страниц, контент которых не изменился, или страниц, которые недоступны из-за технических проблем. Одновременно система стремится минимизировать устаревание контента в индексе (stale content) и пропуск важных обновлений (miss penalties) на популярных и часто изменяющихся ресурсах.

Что запатентовано

Запатентована система и метод для динамического планирования сканирования ресурсов (Crawl Scheduling). Суть изобретения заключается в расчете оптимального интервала сканирования (Crawl Interval) для каждого отдельного документа на основе трех ключевых параметров: (1) «Здоровье» документа (Health/Доступность), (2) Популярность документа (Popularity), и (3) Частота «интересных» или существенных изменений контента (Frequency of Interesting Changes).

Как это работает

Планировщик сканирования (Crawl Scheduler) динамически корректирует интервалы:

  • Мониторинг здоровья: Система отслеживает ошибки сканирования. При ошибках интервал увеличивается (механизм back-off). При накоплении ошибок (Error Count) ресурс может быть классифицирован как «Временно мертвый» (Temporarily Dead) (при проблемах с сервером) или «Мертвый» (Dead) (при проблемах с контентом).
  • Оценка популярности: Ресурсы группируются в «корзины» (Buckets) на основе популярности (например, количества подписчиков). Более популярные ресурсы получают более короткие интервалы.
  • Оценка частоты изменений: Система анализирует частоту «интересных» изменений, фокусируясь на обновлениях в визуально значимых (Prominent) секциях страницы, определенных после рендеринга. Для адаптации к темпу обновлений используется скользящее среднее (Rolling Average).
  • Балансировка: Интервал сканирования корректируется для баланса популярности и частоты изменений, оптимизируя использование ресурсов.

Актуальность для SEO

Высокая. Оптимизация краулингового бюджета является фундаментальной задачей для поисковых систем. Механизмы, описанные в патенте, — адаптивное сканирование на основе важности и частоты обновлений, а также стратегии обработки ошибок (back-off) — являются стандартом в современных системах сканирования и критически важны для технического SEO.

Важность для SEO

Влияние на SEO высокое (8/10). Этот патент напрямую описывает логику, по которой поисковая система определяет частоту посещения страниц. Понимание этих механизмов критично для управления краулинговым бюджетом, обеспечения быстрой индексации обновлений и диагностики технических проблем. Стабильность сервера и характер обновлений контента напрямую влияют на эффективность сканирования.

Детальный разбор

Термины и определения

Buckets (Корзины/Сегменты)
Группы ресурсов, объединенные по схожим характеристикам (популярности или частоте изменений). Каждой корзине назначается диапазон интервалов сканирования.
Change Frequency (Частота изменений)
Метрика, показывающая, как часто в ресурсе происходят «интересные» (существенные) изменения контента. Рассчитывается как скользящее среднее интервалов между такими изменениями.
Crawl Interval / estimated Crawl Interval (eCI) (Интервал сканирования)
Расчетный период времени между последовательными попытками сканирования ресурса.
Crawl Scheduler (Планировщик сканирования)
Компонент системы, который определяет, когда следует сканировать ресурс, основываясь на его здоровье, популярности и частоте изменений.
Crawl Status / Health (Статус сканирования / Здоровье)
Состояние доступности ресурса. Возможные статусы: Healthy (Здоров), Temporarily Dead (Временно мертв), Dead (Мертв).
Error Count (n) (Счетчик ошибок)
Количество последовательных неудачных попыток сканирования с момента последнего успешного сканирования.
External Server Issues (Проблемы внешнего сервера)
Ошибки сканирования, связанные с инфраструктурой: проблемы DNS, тайм-ауты, ограничения пропускной способности сервера.
Interesting Content Changes (Интересные/Существенные изменения контента)
Изменения контента, которые система считает значимыми. Определяются по расположению в «значимой секции» (Prominent Section) страницы.
Popularity (Популярность)
Мера важности ресурса. В патенте определяется через Subscription Count (количество подписчиков веб-фида), но может включать и другие сигналы (например, просмотры страниц).
Prominent Section (Значимая/Заметная секция)
Область страницы, идентифицированная как важная на основе анализа визуального макета (рендеринга). Учитываются размеры секции относительно размеров страницы (например, >50% ширины и высоты).
Rolling Average (Скользящее среднее)
Метод расчета Change Frequency, позволяющий адаптировать оценку к недавней активности ресурса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод планирования сканирования, сочетающий анализ значимости контента и специфическую обработку ошибок.

  1. Система многократно сканирует ресурсы.
  2. Для каждого ресурса определяется «значимая секция» (Prominent Section) на основе визуальных размеров рендеринга этой секции.
  3. Определяется частота изменений (Change Frequency), основанная на обнаруженных изменениях именно в этой «значимой секции».
  4. На основе этой частоты определяется интервал сканирования (Crawl Interval).
  5. Для конкретного ресурса (когда интервал истек) выполняется проверка: счетчик ошибок (Error Count) с момента последнего успеха НЕ превышает максимум.
  6. Если условие (5) выполнено (т.е. есть ошибки, но порог не достигнут), система УВЕЛИЧИВАЕТ интервал сканирования (создавая модифицированный интервал) на основе количества времени, прошедшего с момента последнего УСПЕШНОГО сканирования.

Ядром изобретения является метод определения частоты изменений через анализ визуально значимых блоков (рендеринг) И специфический механизм замедления (back-off) при наличии ошибок, который зависит от времени простоя ресурса (времени с последнего успеха).

Claim 2 (Зависимый от 1): Уточняет расчет Change Frequency.

Частота изменений рассчитывается как скользящее среднее (Rolling Average) разниц во времени между последовательными обнаруженными изменениями.

Claim 13 (Зависимый от 1): Уточняет формулу увеличения интервала сканирования (back-off).

Новый интервал сканирования устанавливается равным произведению времени, прошедшего с момента последнего успешного сканирования, и некоего коэффициента (фактора).

Claim 17 (Зависимый от 1): Описывает действия при превышении порога ошибок.

Если Error Count ПРЕВЫШАЕТ максимум, система определяет, следует ли продолжать попытки сканирования ресурса (т.е. принимает решение о статусе Dead или Temporarily Dead).

Где и как применяется

Изобретение полностью относится к этапу CRAWLING – Сканирование и Сбор данных.

Система является реализацией Crawl Scheduler, который управляет работой краулера (например, Googlebot).

Взаимодействие компонентов:

  • Crawl Scheduler анализирует данные из Data Storage (история сканирования, популярность, частота изменений) и определяет приоритеты.
  • Crawler выполняет запросы по заданию планировщика и возвращает контент или коды ошибок.
  • Система анализа контента/Рендеринга (в патенте упоминается Web Feed Generation System) анализирует контент, определяет визуальный макет (Visual Layout), выделяет Prominent Sections и фиксирует Interesting Changes. Эта информация используется планировщиком для расчета Change Frequency.

Входные данные:

  • Исторические данные сканирования (таймстампы, коды ответов, ошибки DNS/таймауты, Error Count).
  • Метрики популярности (Subscription Count, просмотры).
  • Метрики частоты изменений (Change Frequency).
  • Данные о визуальном макете и значимых секциях.

Выходные данные:

  • Приоритезированный список URL для сканирования.
  • Обновленные статусы сканирования (Healthy, Temp. Dead, Dead).
  • Обновленные расчетные интервалы сканирования (eCI).

На что влияет

  • Конкретные ниши или тематики: Наибольшее влияние оказывается на крупные сайты (eCommerce, новостные порталы, агрегаторы), где оптимизация краулингового бюджета критична для актуальности индекса.
  • Техническое состояние сайтов: Сайты с нестабильным хостингом, частыми ошибками 5xx или проблемами DNS будут подвергаться механизму замедления сканирования (back-off).
  • Структура контента: Влияет на сайты, часто обновляющие второстепенные блоки. Система может снизить частоту сканирования таких сайтов, так как фокусируется на Prominent Sections.

Когда применяется

Алгоритм применяется непрерывно. Конкретные механизмы активируются при следующих условиях:

  • Триггер переоценки: Когда расчетный интервал сканирования (eCI) для ресурса истек.
  • Триггер обработки ошибок: Когда попытка сканирования завершилась неудачей (активируется back-off).
  • Пороговые значения:
    • Max failures threshold (max): Порог для счетчика ошибок (n), после которого меняется статус ресурса.
    • Пороги визуальных размеров (например, 50% ширины/высоты) для определения Prominent Section.

Пошаговый алгоритм

Процесс А: Обработка ресурса планировщиком (Управление очередью)

  1. Проверка статуса: Определить текущий статус ресурса. Если «Dead», пропустить ресурс.
  2. Проверка интервала: Сравнить время с последней попытки сканирования (t) с расчетным интервалом (eCI). Если t < eCI, пропустить ресурс.
  3. Анализ последней попытки: Проверить, была ли последняя попытка успешной.
  4. Сценарий успеха:
    • Установить статус «Healthy».
    • Обнулить счетчик ошибок (n).
    • Оценить следующий интервал (используя Процесс Б).
    • Выдать запрос на сканирование.
  5. Сценарий неудачи:
    • Увеличить счетчик ошибок (n).
    • Сравнить n с порогом (max).
  6. Обработка умеренных ошибок (n <= max) (Back-off):
    • Увеличить следующий интервал сканирования (например, используя формулу, основанную на времени с последнего успеха).
    • Выдать запрос на сканирование.
  7. Обработка критических ошибок (n > max):
    • Проверить, установлен ли уже статус «Temporarily Dead». Если да, установить статус «Dead» и прекратить обработку.
    • Если нет, определить причину предыдущих сбоев (анализ кодов ошибок).
  8. Классификация сбоев:
    • Если сбои вызваны External Server Issues (DNS, таймауты, перегрузка): Установить статус «Temporarily Dead». Установить значительно увеличенный интервал. Уменьшить счетчик ошибок (например, n=max/2), чтобы дать шанс на восстановление.
    • Если сбои вызваны другими причинами (например, 404): Установить статус «Dead» и прекратить обработку.

Процесс Б: Оценка интервала сканирования (Crawl Interval Estimation)

  1. Определение Популярности и Частоты Изменений: Получить метрики Popularity и Change Frequency (скользящее среднее интервалов между «интересными» изменениями).
  2. Сегментация (Bucketing): Назначить ресурс в «корзину» (Bucket) на основе его характеристик. Каждая корзина имеет диапазон допустимых интервалов.
  3. Приоритезация внутри корзины: Распределить интервалы. Ресурсам с более высокой популярностью и частотой изменений назначаются более короткие интервалы.
  4. Корректировка и Балансировка: Если частота изменений значительно отличается от интервала, назначенного по популярности (например, очень популярный, но редко обновляемый ресурс), интервал корректируется (увеличивается) для экономии ресурсов, или ресурс перемещается в другую корзину.
  5. Сохранение результата: Сохранить рассчитанный интервал (eCI).

Какие данные и как использует

Данные на входе

Система использует комбинацию технических, контентных (визуальных) и поведенческих факторов.

  • Технические факторы:
    • Коды ответа сервера (HTTP Status Codes: 403, 404, 5xx).
    • Информация об ошибках: проблемы DNS, таймауты соединения, достижение лимитов пропускной способности сервера (capacity limits).
    • Блокировки в robots.txt.
    • Время ответа сервера (длительность выполнения запроса).
  • Структурные и Визуальные факторы (для определения Interesting Changes):
    • Данные визуального рендеринга страницы (visual layout information).
    • Размеры страницы и секций контента (ширина/высота) для определения Prominent Section.
    • Соотношение обычного текста и анкорного текста (используется для отличия портальных страниц от контентных).
  • Временные факторы: Метки времени последней попытки, последнего успеха, последнего существенного изменения.
  • Поведенческие/Пользовательские факторы (для определения Popularity):
    • Количество подписчиков веб-фида (Subscription Count) – основной пример.
    • Процент подписчиков, которые просматривают фид.
    • Количество просмотров страницы (Page Views).

Какие метрики используются и как они считаются

  • Error Count (n): Счетчик последовательных неудач. Сбрасывается при успехе.
  • Max Allowed Failures (max): Пороговое значение для Error Count.
  • Change Frequency: Рассчитывается как скользящее среднее (Rolling Average) времени между «интересными» изменениями. В патенте отмечается, что больший вес может придаваться недавним изменениям для быстрой адаптации.
  • Prominence Score (Оценка значимости секции): Рассчитывается на основе визуального макета. Например, секция значима, если ее ширина > 50% ширины страницы И высота > 50% высоты страницы.
  • estimated Crawl Interval (eCI): Рассчитывается путем балансировки Popularity и Change Frequency через систему Buckets.
  • Back-off Interval (Интервал замедления): При ошибках eCI увеличивается. Одна из ключевых формул (Claim 13):

Выводы

  1. Динамическая приоритизация сканирования: Crawl Budget распределяется динамически на основе трех измерений: Популярность (важность), Частота существенных изменений и Здоровье (доступность) ресурса.
  2. Значимость «Интересных Изменений» определяется через Рендеринг: Критически важный вывод. Система использует анализ визуального рендеринга для определения значимых секций (Prominent Sections). Изменения вне этих секций (например, в футере) могут не повлиять на частоту сканирования.
  3. Продвинутая обработка ошибок (Crawl Health): Система имеет сложный механизм обработки ошибок, который отличает временные проблемы доступности (ошибки сервера, DNS, таймауты – статус Temporarily Dead) от перманентных проблем (например, 404 – статус Dead).
  4. Механизм замедления (Back-off): При возникновении ошибок Google увеличивает интервал сканирования. Степень замедления может зависеть от времени, прошедшего с последнего успешного сканирования (Claim 13), что является формой экспоненциального отката.
  5. Адаптивное обучение частоте изменений: Использование скользящего среднего (Rolling Average) с весами для последних данных позволяет системе адаптироваться к изменениям в поведении сайта (например, если активность увеличилась или уменьшилась).

Практика

Best practices (это мы делаем)

  • Обеспечение максимальной стабильности сервера: Это критически важно. Минимизируйте ошибки 5xx, проблемы с DNS и таймауты. Эти ошибки активируют механизм замедления (back-off) и могут привести к статусу Temporarily Dead, значительно снижая частоту сканирования.
  • Размещение важного контента в значимых секциях: Убедитесь, что основной контент (статья, карточка товара) находится в визуально доминирующих областях (Prominent Sections). Поскольку Google оценивает частоту сканирования по изменениям именно в этих блоках, обновления в основном контенте должны быть приоритетом.
  • Оптимизация визуальной структуры и рендеринга: Убедитесь, что Googlebot может корректно и быстро отрендерить страницу, чтобы правильно идентифицировать Prominent Sections. Сложный или медленный рендеринг может негативно повлиять на оценку значимости контента.
  • Регулярное обновление важного контента: Для поддержания высокой частоты сканирования необходимо регулярно вносить существенные обновления. Это повышает метрику Change Frequency.
  • Повышение «Популярности» страниц: Работайте над сигналами важности страниц (внутренние ссылки, качественные внешние ссылки, трафик), чтобы повысить приоритет сканирования (попасть в более приоритетный Bucket).

Worst practices (это делать не надо)

  • Игнорирование ошибок сервера и медленный хостинг: Допускать частые ответы 5xx или постоянно медленную загрузку ресурсов. Это приведет к агрессивному увеличению интервалов сканирования и потере актуальности индекса.
  • Имитация обновлений (Незначительные изменения): Внесение изменений в незначительные блоки (футер, дата, счетчики) в надежде увеличить частоту сканирования. Система фокусируется на Interesting Changes в Prominent Sections и игнорирует шум.
  • Размещение KPI-контента в визуально незначимых блоках: Скрытие важной информации в областях с низким визуальным приоритетом снизит вероятность того, что её обновление повлияет на частоту сканирования.

Стратегическое значение

Патент подтверждает фундаментальные принципы управления краулинговым бюджетом и подчеркивает стратегическую важность анализа рендеринга (Visual Layout) в SEO. Техническая стабильность сайта (Health) является базовым требованием. Для Senior SEO-специалистов это означает, что оптимизация сканирования требует комплексного подхода, включающего мониторинг инфраструктуры, оптимизацию UX/UI (в части визуальной иерархии контента) и контент-стратегию.

Практические примеры

Сценарий 1: Обработка ошибок на сайте eCommerce во время пиковой нагрузки

  1. Ситуация: Интернет-магазин испытывает проблемы с производительностью, и сервер часто отдает ошибку 503 (Service Unavailable) или истекает по таймауту.
  2. Действие системы: Планировщик Google фиксирует неудачи. Error Count (n) растет.
  3. Применение Back-off: Система увеличивает интервал сканирования (eCI). Согласно Claim 13, новый интервал может быть рассчитан на основе времени с последнего успеха, что быстро увеличивает паузу.
  4. Критическая точка: Если n превышает порог (max), система классифицирует это как External Server Issues.
  5. Результат: Страницы получают статус Temporarily Dead. Интервал сканирования увеличивается радикально (например, до нескольких дней). Индексация обновлений цен и наличия замедляется.

Сценарий 2: Оценка обновления контента на блоге

  1. Ситуация: Владелец блога обновил старую статью, добавив новый абзац в основной текст. Также автоматически обновилась дата в футере и блок «Похожие статьи» в сайдбаре.
  2. Анализ Рендеринга: Система рендерит страницу и определяет, что основной текст находится в Prominent Section, а футер и сайдбар — нет.
  3. Определение Изменений: Система фиксирует изменения во всех трех блоках.
  4. Классификация: Изменение в основном тексте классифицируется как Interesting Change. Изменения в футере и сайдбаре игнорируются.
  5. Результат: Система фиксирует обновление и использует его для пересчета Change Frequency (скользящего среднего), что поддерживает или улучшает частоту сканирования этой страницы.

Вопросы и ответы

Как Google определяет, какие изменения контента являются «интересными» (Interesting Changes)?

Патент указывает, что «интересные изменения» определяются по их расположению в «значимых секциях» (Prominent Sections) страницы. Эти секции идентифицируются на основе анализа визуального макета (рендеринга), учитывая их размер и расположение (например, занимают более 50% ширины и высоты). Изменения вне этих областей (футер, боковые панели) имеют меньший вес.

Что происходит, когда мой сайт часто выдает ошибки 5xx или таймауты?

Каждая ошибка увеличивает счетчик (Error Count). Сначала Google активирует механизм замедления (back-off), увеличивая интервал сканирования. Если ошибки продолжаются и счетчик превышает порог, система классифицирует это как временные проблемы сервера (External Server Issues). Ресурс получит статус Temporarily Dead, и интервал сканирования будет значительно увеличен, чтобы дать время на восстановление.

Как рассчитывается частота изменений (Change Frequency)?

Она рассчитывается как скользящее среднее (Rolling Average) интервалов времени между обнаруженными «интересными» изменениями. Это позволяет системе адаптироваться к темпу обновлений сайта. В патенте упоминается, что больший вес может придаваться недавним данным, чтобы быстро реагировать на всплески активности после периода затишья.

Что важнее для частоты сканирования: популярность страницы или частота её обновления?

Система балансирует оба фактора, используя «корзины» (Buckets). Высокая популярность повышает приоритет, но если контент редко обновляется, система увеличит интервал сканирования для экономии ресурсов. Если же контент обновляется очень часто, он может получить более высокий приоритет, даже если его популярность не максимальна.

Что такое механизм замедления (Back-off) и как он работает согласно Claim 13?

Это защитный механизм, который активируется при ошибках сканирования для экономии ресурсов. Claim 13 предлагает конкретную формулу для расчета нового интервала: он может быть произведением времени, прошедшего с последнего УСПЕШНОГО сканирования, и некоего коэффициента. Это означает, что чем дольше сайт недоступен, тем реже Google будет пытаться его сканировать.

Влияет ли использование JavaScript и CSS на определение «значимых секций»?

Да, напрямую. Патент подчеркивает, что определение Prominent Sections основано на анализе визуального макета (рендеринга). Это означает, что Google должен отрендерить страницу, применив CSS и, вероятно, выполнив JavaScript, чтобы понять, какие блоки являются визуально доминирующими и где находится основной контент.

Чем отличается статус «Temporarily Dead» от «Dead»?

Статус Dead присваивается, когда система считает проблему постоянной (например, последовательные ошибки 404 Not Found). Сканирование таких ресурсов прекращается. Статус Temporarily Dead присваивается при ошибках, которые могут быть устранены (DNS, таймауты, 5xx). Сканирование приостанавливается на длительный период, но не прекращается навсегда.

Как я могу использовать принципы этого патента для оптимизации краулингового бюджета?

Ключевые действия: Обеспечить максимальную техническую стабильность сервера (Health), чтобы избежать замедления. Регулярно обновлять основной контент (Change Frequency), чтобы поддерживать интерес краулера. Убедиться, что основной контент является визуально заметным (Prominent) в рендеринге страницы.

Если я изменю дизайн сайта, повлияет ли это на частоту сканирования?

Да, это возможно. Если новый дизайн изменит визуальное расположение и размеры блоков, система может переоценить, какие секции являются Prominent. Если ключевой контент станет менее заметным визуально при рендеринге, система может решить, что «интересные» изменения происходят реже, и снизить частоту сканирования.

Использует ли Google соотношение текста к ссылкам при планировании сканирования?

Да, патент упоминает использование соотношения между размером обычного текста и анкорного текста. Это помогает отличить портальные страницы (много ссылок) от контентных страниц (много текста/изображений). Это может влиять на то, как система оценивает «интересные изменения» и рассчитывает оптимальную частоту сканирования.

Похожие патенты

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.
  • US20130212100A1
  • 2013-08-15
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента
Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.
  • US8386459B1
  • 2013-02-26
  • Краулинг

  • Свежесть контента

  • Техническое SEO

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита
Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.
  • US7725452B1
  • 2010-05-25
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент
Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.
  • US8042112B1
  • 2011-10-18
  • Краулинг

  • Свежесть контента

  • Индексация

Как Google динамически управляет очередью сканирования и отклоняет низкоприоритетные URL при ограниченной пропускной способности сервера
Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early Rejection), не дожидаясь таймаута, чтобы обеспечить быстрое сканирование важного контента.
  • US8676783B1
  • 2014-03-18
  • Краулинг

Популярные патенты

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента
Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.
  • US9098511B1
  • 2015-08-04
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)
Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.
  • US9558233B1
  • 2017-01-31
  • Ссылки

  • Поведенческие сигналы

  • Антиспам

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)
Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.
  • US10146829B2
  • 2018-12-04
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»
Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).
  • US9996624B2
  • 2018-06-12
  • EEAT и качество

  • Индексация

  • Семантика и интент

Как Google использует данные о поведении пользователей для генерации и ранжирования Sitelinks (Дополнительных ссылок сайта)
Патент описывает механизм генерации Sitelinks (дополнительных ссылок под основным результатом поиска). Google анализирует логи доступа пользователей (частоту кликов, время на странице) и другие факторы качества, чтобы определить наиболее важные внутренние страницы сайта. Эти страницы затем отображаются в виде ранжированного списка для ускорения навигации пользователя.
  • US7996391B2
  • 2011-08-09
  • Ссылки

  • Поведенческие сигналы

  • SERP

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

seohardcore