SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google адаптивно управляет краулинговым бюджетом и скоростью сканирования на основе производительности сервера

DISTRIBUTED CRAWLING OF HYPERLINKED DOCUMENTS (Распределенное сканирование документов с гиперссылками)
  • US7305610B1
  • Google LLC
  • 2000-08-14
  • 2007-12-04
  • Краулинг
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует распределенную систему управления сканированием, которая группирует URL по хостам и определяет оптимальное время следующего обращения к серверу («Stall Time»). Эта система адаптивно регулирует частоту запросов на основе фактической скорости ответа сервера («Retrieval Time»), чтобы эффективно сканировать интернет, не перегружая отдельные сайты.

Описание

Какую проблему решает

Патент решает фундаментальную проблему масштабного сканирования интернета: как эффективно сканировать наиболее важные страницы (определяемые по приоритету, например, PageRank), не создавая при этом чрезмерной нагрузки на отдельные хосты (соблюдение "вежливости" или Rate Limiting). Если система фокусируется только на приоритете ссылок, она может попытаться одновременно загрузить множество страниц с одного сервера, что приведет к его перегрузке.

Что запатентовано

Запатентована система и метод управления распределенной очередью сканирования. Ядром изобретения является механизм адаптивного ограничения скорости запросов с использованием Stall Time (время ожидания) для каждого хоста. Это время определяет минимальную паузу перед повторным обращением к хосту и динамически рассчитывается на основе желаемой нагрузки (Load Factor) и фактического времени ответа сервера (Retrieval Time).

Как это работает

Система работает следующим образом:

  • Сбор ссылок: Центральный URL Server запрашивает и получает списки высокоприоритетных ссылок от нескольких распределенных Link Managers.
  • Организация очереди: URL Server группирует ссылки по хостам, а хосты — в "корзины" (Buckets) в зависимости от количества URL, ожидающих сканирования. Внутри корзин хосты сортируются по Stall Time.
  • Планирование сканирования: Система ищет следующий хост для сканирования, начиная с самой полной корзины. Выбирается первый хост, чей Stall Time (время, до которого нужно ждать) уже прошел.
  • Адаптация: После сканирования страницы система измеряет фактическое время загрузки (Retrieval Time). На основе этого времени и Load Factor рассчитывается новый Stall Time. Если сервер отвечает медленно, Stall Time увеличивается.

Актуальность для SEO

Высокая. Несмотря на дату подачи (2000 год), описанные в патенте принципы управления нагрузкой на сервер, адаптации к скорости ответа и оптимизации краулингового бюджета остаются фундаментальными для работы Googlebot. Это ключевая инфраструктурная разработка, описывающая механизмы Crawl Budget, авторами которой являются ведущие инженеры Google (Jeffrey Dean, Sanjay Ghemawat).

Важность для SEO

Патент имеет высокое значение (8.5/10) для технического SEO. Он критически важен для понимания того, как Google управляет краулинговым бюджетом (Crawl Budget Management). Патент напрямую демонстрирует механизм, с помощью которого скорость ответа сервера, его стабильность и пропускная способность динамически влияют на частоту, скорость и полноту сканирования сайта.

Детальный разбор

Термины и определения

Buckets (Корзины)
Структура данных, используемая URL Server для группировки хостов. Хосты группируются по количеству URL, оставшихся для сканирования на этом хосте (например, Корзина 10 содержит все хосты, на которых осталось 10 URL).
Crawlers (Краулеры)
Компоненты системы, которые выполняют фактическую загрузку документов с веб-серверов.
Link Managers / URL Managers (Менеджеры ссылок)
Распределенные компоненты, которые хранят информацию о состоянии ссылок и их приоритетах (например, PageRank). Они предоставляют списки высокоприоритетных ссылок для URL Server.
Load Factor (Коэффициент нагрузки)
Параметр конфигурации для хоста, определяющий желаемую интенсивность нагрузки. Например, 0.1 означает, что система стремится занимать ресурсы сервера не более 10% времени.
Retrieval Time (Время извлечения / Время ответа сервера)
Фактическое время, затраченное краулером на загрузку документа с хоста. Используется для динамической корректировки Stall Time.
Stall Time (Время ожидания)
Временная метка, присваиваемая хосту. Указывает самое раннее время, когда можно отправить следующий запрос на сканирование этого хоста. Ключевой механизм для предотвращения перегрузки сервера (Rate Limiting).
URL Server (Сервер URL-адресов)
Центральный компонент системы планирования. Он управляет глобальной очередью сканирования, организует URL по хостам и Buckets, управляет Stall Time и выдает URL краулерам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод управления очередью сканирования и адаптации к производительности сервера.

  1. Получение списка ссылок, выбранных Link Manager на основе приоритета.
  2. Группировка ссылок по хостам.
  3. Группировка хостов в Buckets в зависимости от количества документов, которые нужно просканировать на каждом хосте.
  4. Сортировка хостов внутри каждого Bucket на основе их Stall Time.
  5. Выбор следующего хоста для сканирования из одного из Buckets в соответствии с его Stall Time.
  6. Сканирование документа с выбранного хоста.
  7. Определение времени извлечения (Retrieval Time) для этого документа.
  8. Корректировка последующего Stall Time для выбранного хоста на основе измеренного Retrieval Time.

Ядром изобретения является использование комбинации Buckets (приоритизация по объему работы) и сортировки по Stall Time (контроль нагрузки) для планирования, а также динамическая адаптация Stall Time к фактической скорости ответа сервера.

Claim 4 (Зависимый от 1): Уточняет логику выбора хоста для эффективности.

Система проверяет Buckets в порядке убывания количества документов (начиная с самой полной корзины) до тех пор, пока не будет найден хост, чей Stall Time раньше текущего времени. Это гарантирует, что система предпочитает хосты с большим объемом несканированного контента, но только если они технически готовы.

Claim 22 (Независимый пункт): Описывает распределенную архитектуру сбора ссылок и планирования.

  1. Хранение пула ссылок для сканирования (в URL Server).
  2. Определение потребности в дополнительных ссылках (когда пул истощается).
  3. Отправка запросов нескольким распределенным Link Managers.
  4. Получение дополнительных ссылок.
  5. Выбор хоста для сканирования на основе Stall Time.
  6. Сканирование, определение Retrieval Time и корректировка Stall Time.

Этот пункт защищает масштабируемую архитектуру, где глобальное планирование и контроль нагрузки (URL Server) отделены от хранения и приоритизации ссылок (Link Managers).

Где и как применяется

Изобретение применяется исключительно на этапе CRAWLING – Сканирование и Сбор данных.

Это ядро системы планирования сканирования (Crawl Scheduling) и управления краулинговым бюджетом (Crawl Budget Management).

Взаимодействие компонентов:

  1. Link Managers хранят ссылки и их приоритеты.
  2. URL Server запрашивает у них высокоприоритетные ссылки.
  3. URL Server организует очередь, используя Buckets и Stall Time.
  4. Crawlers запрашивают у URL Server следующий URL для сканирования.
  5. Crawlers выполняют загрузку и сообщают о результатах (включая Retrieval Time).

Входные данные:

  • Списки приоритетных URL от Link Managers.
  • Текущее время.
  • Конфигурация Load Factor для хостов.
  • Измеренные Retrieval Time от краулеров.

Выходные данные:

  • URL, выданный краулеру для немедленного сканирования.
  • Обновленный Stall Time для хоста, с которого был загружен документ.

На что влияет

  • Все типы контента и сайты: Механизм применяется ко всем ресурсам, которые сканирует Google.
  • Крупные сайты: Особенно критично для крупных проектов (e-commerce, порталы, новостные сайты), где эффективное управление краулинговым бюджетом и скоростью индексации имеет решающее значение.
  • Сайты с нестабильной производительностью: Система адаптивно реагирует на изменения в скорости ответа сервера. Медленные сайты будут сканироваться реже.

Когда применяется

Алгоритм применяется непрерывно в процессе сканирования интернета.

  • Условия работы: Наличие URL в очереди сканирования.
  • Триггеры активации: Для конкретного хоста триггером является истечение его Stall Time (Текущее время > Stall Time). Корректировка Stall Time происходит после каждого акта сканирования.

Пошаговый алгоритм

Процесс А: Управление очередью в URL Server (Планирование)

  1. Организация (Асинхронно): Хосты организованы в Buckets по количеству ожидающих URL (N). Хосты внутри Buckets отсортированы по Stall Time.
  2. Выбор хоста (Основной цикл): Система итерирует по Buckets, начиная с самой полной (максимальное N).
  3. Проверка готовности: Внутри Bucket проверяется первый хост.
    • Если его Stall Time меньше текущего времени, этот хост выбирается.
    • Если нет, то весь Bucket пропускается (так как остальные хосты в нем имеют еще больший Stall Time) и система переходит к следующему Bucket (N-1).
  4. Выдача URL и Перемещение: URL с выбранного хоста выдается краулеру. Хост перемещается в Bucket с меньшим количеством оставшихся URL.

Процесс Б: Сканирование и Адаптация (Обратная связь)

  1. Сканирование и Измерение: Краулер выполняет запрос и фиксирует фактическое время извлечения (Retrieval Time).
  2. Расчет нового Stall Time: Система рассчитывает новый Stall Time для хоста. Расчет основан на Retrieval Time и Load Factor. Например, если Load Factor = 0.1 (10%) и Retrieval Time = 3 секунды, интервал до следующего запроса составит 3 / 0.1 = 30 секунд. Новый Stall Time = Текущее время + 30 секунд.
  3. Обновление очереди: Хост вставляется в свою новую Bucket (из Процесса А) в соответствии с новым Stall Time для поддержания сортировки.

Процесс В: Пополнение пула (Фоновый процесс)

  1. Триггер: Если количество ссылок в пуле URL Server падает ниже порога.
  2. Запрос: Отправить запросы к Link Managers для получения новых высокоприоритетных ссылок.
  3. Интеграция: Полученные ссылки интегрируются в структуру Buckets.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре сканирования и использует следующие данные:

  • Технические факторы (Производительность):
    • Retrieval Time (Время ответа сервера): Измеренное время, необходимое для загрузки ресурса. Критически важный входной сигнал для адаптивного сканирования.
    • URL и Хост/IP: Используются для группировки и идентификации серверов.
  • Системные данные:
    • Link Priority (Приоритет ссылки): Например, PageRank. Используется Link Managers для выбора ссылок, отправляемых в URL Server.
    • Load Factor (Коэффициент нагрузки): Заранее сконфигурированный параметр, определяющий желаемую интенсивность нагрузки на хост. Может варьироваться для разных хостов.
    • Link State (Состояние ссылки): (Не просканировано, в процессе, просканировано и т.д.).

Какие метрики используются и как они считаются

  • Stall Time (Время ожидания): Ключевая метрика для планирования. Рассчитывается адаптивно.
  • Retrieval Time: Измерение производительности сервера при загрузке конкретного URL.
  • Количество URL на хосте: Метрика, используемая для определения, в какой Bucket поместить хост (Bucket Categorization).
  • Формулы расчета: Интервал сканирования (время между запросами) рассчитывается как функция от Retrieval Time и Load Factor. В патенте приводится пример, который интерпретируется как:
    Расчет интервала ожидания (Delay): Интервал=Retrieval TimeLoad Factor\text{Интервал} = \frac{\text{Retrieval Time}}{\text{Load Factor}}Интервал=Load FactorRetrieval Time​.
    Новый Stall Time: Новый Stall Time=Текущее время+Интервал\text{Новый Stall Time} = \text{Текущее время} + \text{Интервал}Новый Stall Time=Текущее время+Интервал.

Выводы

  1. Адаптивное сканирование — ключевой механизм Crawl Budget: Частота сканирования напрямую и динамически зависит от производительности сервера. Если время ответа сервера (Retrieval Time) увеличивается, Google автоматически замедляет сканирование этого хоста, увеличивая Stall Time.
  2. Скорость сервера критична для эффективности сканирования: Более быстрое Retrieval Time приводит к более коротким Stall Time, что позволяет Google сканировать больше страниц за тот же период времени (увеличение Crawl Rate).
  3. Баланс между приоритетом и доступностью: Приоритет сканирования определяется не только важностью ссылки (Crawl Demand), но и технической способностью хоста отдавать контент (Crawl Rate Limit). Важная страница на медленном сервере может быть просканирована позже.
  4. Stall Time как механизм Rate Limiting: Stall Time является основным механизмом для предотвращения перегрузки серверов (Crawl Politeness). Он определяет максимальную частоту запросов к хосту.
  5. Приоритизация по объему и готовности: Система Buckets показывает, что Google стремится в первую очередь сканировать хосты с большим количеством известных, но еще не просканированных URL, но только при условии их технической готовности (истекший Stall Time).

Практика

Best practices (это мы делаем)

  • Максимизация скорости ответа сервера (TTFB и общее время загрузки): Это критически важно. Быстрый Retrieval Time напрямую уменьшает интервал между запросами (сокращает Stall Time). Это позволяет Googlebot сканировать больше страниц за единицу времени, увеличивая эффективность использования краулингового бюджета.
  • Обеспечение стабильности и высокой пропускной способности хостинга: Сервер должен выдерживать нагрузку Googlebot без деградации производительности. Ошибки (5xx), таймауты и замедление ответа увеличивают Retrieval Time и, как следствие, Stall Time, замедляя индексацию.
  • Мониторинг логов сервера и Google Search Console: Анализируйте среднее время ответа в отчете "Статистика сканирования" GSC. Эти данные напрямую коррелируют с Retrieval Time и показывают, как система оценивает производительность вашего сервера и какой интервал (Stall Time) она применяет.
  • Обеспечение доступности всех важных URL: Система Buckets отдает приоритет хостам с большим количеством ожидающих URL. Убедитесь, что у Google есть большой бэклог для сканирования (через эффективную перелинковку и Sitemap), чтобы сайт попадал в более приоритетные Buckets.

Worst practices (это делать не надо)

  • Использование медленного или нестабильного хостинга: Это фундаментальная ошибка. Медленный Retrieval Time напрямую ведет к увеличению Stall Time и неэффективному расходованию краулингового бюджета.
  • Искусственное ограничение скорости ответа для Googlebot (Throttling): Если сервер способен отвечать быстрее, но искусственно замедляется для Googlebot, система воспримет это как медленный ответ и увеличит Stall Time, замедляя сканирование и индексацию (если только это не временная мера при реальной аварийной перегрузке).
  • Игнорирование проблем производительности во время пиковых нагрузок: Если сайт замедляется во время высокого трафика и Googlebot попадает в эти окна, система скорректирует Stall Time в сторону увеличения, предполагая, что сервер перегружен.

Стратегическое значение

Патент подтверждает, что техническая оптимизация и производительность сервера являются фундаментом SEO. Краулинговый бюджет (Crawl Budget) — это не фиксированная величина, а динамический параметр, который является функцией как важности контента (Crawl Demand), так и способности сервера этот контент отдавать (Crawl Rate Limit). Стратегия SEO должна включать постоянную работу над улучшением инфраструктуры, так как невозможно добиться хорошей видимости, если сайт невозможно быстро просканировать.

Практические примеры

Сценарий: Ускорение индексации за счет оптимизации производительности сервера

  1. Ситуация: Крупный E-commerce сайт запускает новый раздел, но страницы индексируются медленно. В GSC среднее время ответа сервера высокое (например, 1200 мс или 1.2 сек).
  2. Анализ по патенту: Высокий Retrieval Time (1.2 сек) приводит к большому Stall Time. Если условный Load Factor = 0.1 (10%), то интервал между запросами составляет 1.2 сек / 0.1 = 12 секунд. Googlebot сканирует медленно.
  3. Действия: Проводится оптимизация бэкенда, запросов к базе данных и настраивается эффективное кэширование. Сайт переносится на более производительный хостинг.
  4. Результат: Среднее время ответа сервера снижается до 200 мс (0.2 сек). Googlebot обнаруживает это изменение (Retrieval Time уменьшился).
  5. Адаптация Googlebot: Система динамически пересчитывает Stall Time. Новый интервал: 0.2 сек / 0.1 = 2 секунды.
  6. Итог: Частота сканирования увеличивается в 6 раз. Новый раздел сканируется и индексируется значительно быстрее.

Вопросы и ответы

Что такое "Stall Time" и почему это важно для SEO?

Stall Time (Время ожидания) — это метка времени, указывающая, когда Googlebot может в следующий раз обратиться к вашему серверу. Это механизм защиты от перегрузки (Rate Limiting). Для SEO это критически важно, так как определяет максимальную частоту сканирования вашего сайта (Crawl Rate). Чем короче Stall Time, тем быстрее Google сможет обнаружить и проиндексировать ваш контент.

Как я могу уменьшить "Stall Time" моего сайта?

Основной способ — уменьшить Retrieval Time (время ответа сервера). Stall Time рассчитывается на основе того, как быстро ваш сервер отдает контент. Оптимизация производительности сервера (TTFB и общее время загрузки), использование быстрого хостинга и CDN напрямую ведут к сокращению Stall Time и увеличению частоты сканирования.

Что такое "Buckets" (Корзины) и как они влияют на сканирование?

Buckets используются для группировки хостов по количеству оставшихся для сканирования URL. Google предпочитает сканировать хосты из более полных корзин (где много несканированного контента), чтобы повысить эффективность обхода. Однако он сделает это только тогда, когда Stall Time этого хоста истечет, то есть когда сервер будет готов.

Что важнее для скорости сканирования: PageRank или скорость сервера?

Оба фактора критичны. PageRank (или аналоги авторитетности) определяет приоритет ссылок и то, насколько сильно Google *хочет* их просканировать (Crawl Demand). Скорость сервера (влияющая на Stall Time) определяет, насколько быстро Google *может* их просканировать (Crawl Rate Limit). Высокий авторитет без быстрого сервера приведет к неэффективному расходованию краулингового бюджета.

Что произойдет, если мой сервер начнет отвечать медленнее?

Система адаптивна. Googlebot измерит увеличение Retrieval Time. Система автоматически пересчитает и увеличит Stall Time для вашего хоста, чтобы снизить нагрузку. Это приведет к тому, что интервалы между запросами Googlebot станут больше, и общая скорость сканирования сайта замедлится.

Что такое "Load Factor" и могу ли я на него повлиять?

Load Factor — это коэффициент допустимой нагрузки на сервер, который определяет Google (например, использовать не более 10% ресурсов). Напрямую повлиять на него сложно, но Google может устанавливать более высокий Load Factor (допускать более интенсивное сканирование) для высокопроизводительных хостов, которые доказали свою способность выдерживать нагрузку.

Объясняет ли этот патент работу краулингового бюджета?

Да, этот патент описывает ключевые механизмы управления краулинговым бюджетом. В частности, он описывает компонент Crawl Rate Limit — ограничение частоты сканирования, основанное на производительности сервера (Stall Time, Retrieval Time) и желании Google не перегружать хост (Load Factor).

Влияет ли PageRank на этот процесс?

Да, но косвенно. PageRank используется на этапе предварительного отбора Link Managers, чтобы решить, какие ссылки отправить в центральную очередь (URL Server). Однако, когда ссылки уже в очереди, URL Server решает, *когда* их сканировать, основываясь на Stall Time и Buckets, а не на PageRank.

Где я могу увидеть признаки работы этого алгоритма?

Прямые признаки можно увидеть в отчете "Статистика сканирования" в Google Search Console. Если вы видите корреляцию между увеличением "Среднего времени ответа" и уменьшением "Общего числа запросов на сканирование", это и есть работа механизма адаптации Stall Time к производительности вашего сервера.

Насколько актуален этот патент, учитывая, что он подан в 2000 году?

Несмотря на возраст, патент крайне актуален. Он описывает базовые инженерные решения для масштабируемого и вежливого сканирования интернета, разработанные ключевыми инженерами Google. Эти принципы управления нагрузкой и адаптации к скорости сервера остаются фундаментальными для работы Googlebot и сегодня.

Похожие патенты

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент
Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.
  • US8042112B1
  • 2011-10-18
  • Краулинг

  • Свежесть контента

  • Индексация

Как Google динамически управляет очередью сканирования и отклоняет низкоприоритетные URL при ограниченной пропускной способности сервера
Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early Rejection), не дожидаясь таймаута, чтобы обеспечить быстрое сканирование важного контента.
  • US8676783B1
  • 2014-03-18
  • Краулинг

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера
Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.
  • US8868541B2
  • 2014-10-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google оптимизирует скорость генерации поисковой выдачи с помощью адаптивного планирования внутренних задач
Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических данных и контекста (например, времени суток). Это позволяет оптимально распределить нагрузку на процессоры и минимизировать общее время генерации SERP.
  • US8555281B1
  • 2013-10-08
  • SERP

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика
Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.
  • US8666964B1
  • 2014-03-04
  • Краулинг

  • Свежесть контента

  • Индексация

Популярные патенты

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом
Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).
  • US10402457B1
  • 2019-09-03
  • Ссылки

  • Антиспам

  • Краулинг

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика
Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.
  • US9031929B1
  • 2015-05-12
  • Поведенческие сигналы

  • EEAT и качество

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам
Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).
  • US9135317B2
  • 2015-09-15
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя
Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.
  • US9235626B2
  • 2016-01-12
  • Персонализация

  • SERP

  • Семантика и интент

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore