SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует историю обновлений для статистического прогнозирования свежести контента и оптимизации кэширования

SYSTEMS AND METHODS FOR CACHE OPTIMIZATION (Системы и методы оптимизации кэша)
  • US8065275B2
  • Google LLC
  • 2007-02-15
  • 2011-11-22
  • Свежесть контента
  • Краулинг
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для определения «фактической свежести» (de facto fresh) кэшированного документа, анализируя историю его обновлений, а не полагаясь только на заголовки истечения срока действия. Если статистический анализ показывает, что контент, вероятно, не изменился, система отдает кэшированную версию, а затем проверяет обновление в фоновом режиме. Это оптимизирует ресурсы сканирования и ускоряет доставку.

Описание

Какую проблему решает

Патент решает проблему неэффективности, возникающую при использовании исключительно временных меток истечения срока действия (например, HTTP-заголовок Expires), установленных веб-серверами. Эти метки часто неточны; контент может оставаться неизменным долгое время после истечения указанного срока. Это приводит к ненужной повторной загрузке идентичного контента, что тратит ресурсы (например, краулинговый бюджет) и увеличивает задержку (latency) для пользователя.

Что запатентовано

Запатентована система для определения «фактической свежести» (de facto fresh) кэшированного документа. Вместо того чтобы слепо следовать временным меткам истечения актуальности, система анализирует историю обновлений документа (Cache Update History). Если статистический анализ показывает высокую вероятность того, что контент не изменился, система использует кэшированную версию.

Как это работает

Система работает на сервере (например, инфраструктура кэширования или сканирования Google) и выполняет следующие шаги:

  • Сбор истории: Сохраняются данные о прошлых обновлениях (Cache Update History), включая временные метки и параметры запросов.
  • Анализ инвариантности к запросу (Request-Invariant): Проверяется, меняется ли контент в зависимости от пользователя, cookies или заголовков.
  • Анализ инвариантности ко времени (Time-Invariant): Строится статистическая модель (Cumulative Histogram) частоты обновлений контента.
  • Оценка уверенности: На основе возраста кэша и статистической модели оценивается уверенность в свежести (Freshness Confidence).
  • Оптимизация (Latent Request): Если уверенность высока, система немедленно отдает кэшированную копию. Одновременно она отправляет «латентный запрос» (Latent Request) к веб-хосту для фоновой валидации и обновления истории.

Актуальность для SEO

Высокая (для инфраструктуры). Эффективность сканирования (Crawl Efficiency) и управление краулинговым бюджетом являются критически важными задачами для Google. Принципы статистического прогнозирования изменений контента на основе исторических данных остаются фундаментальными для оптимизации ресурсов поисковой системы.

Важность для SEO

Влияние на SEO низкое и косвенное (2/10). Патент описывает внутренние инфраструктурные процессы оптимизации кэширования и сканирования, а не алгоритмы ранжирования. Он не дает прямых рекомендаций для SEO-стратегий, но важен для понимания того, как Google оптимизирует свой краулинговый бюджет. Попытки манипулировать частотой сканирования через заголовки Expires могут быть неэффективны, если контент фактически не обновляется.

Детальный разбор

Термины и определения

Cache Update History (История обновлений кэша)
Структура данных, хранящая информацию о прошлых обновлениях кэшированного объекта. Включает временные метки (Update Timestamp), отпечатки контента (Content Fingerprint), User ID, Cookies и HTTP-заголовки для каждой версии.
Cumulative Histogram (Кумулятивная гистограмма)
Статистическая модель, представляющая распределение возраста (времени жизни) различных версий кэшированного объекта. Используется для оценки Freshness Confidence.
De Facto Fresh (Фактически свежий)
Состояние кэшированного документа, который технически устарел согласно его временным меткам (например, HTTP Expires), но статистически вероятно не изменился на исходном веб-хосте.
Freshness Confidence (Уверенность в свежести)
Статистическая оценка вероятности того, что кэшированный объект все еще актуален.
Latent Request (Латентный запрос)
Фоновый запрос к веб-хосту для получения актуальной версии документа, отправляемый после того, как кэшированная версия уже была использована. Нужен для валидации прогноза и обновления истории.
Request-Invariant (Инвариантный к запросу)
Свойство документа, контент которого не меняется в зависимости от параметров запроса (User ID, Cookies, HTTP-заголовки).
Time-Invariant (Инвариантный ко времени)
Свойство документа, контент которого редко меняется с течением времени (имеет высокую статистическую свежесть).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод оптимизации кэша.

  1. Система (серверный компьютер) получает запрос на документ от клиента.
  2. Идентифицируется кэшированная версия документа и связанная с ней Cache Update History.
  3. Из истории обновлений извлекаются предыдущие запросы, параметры и значения заголовков.
  4. Происходит проверка двух ключевых условий:
    1. Контент документа исторически оставался неизменным независимо от значений заголовков, присвоенных параметрам запроса (Request-Invariant).
    2. Кэшированная версия считается свежей согласно истории обновлений (Time-Invariant / De Facto Fresh).
  5. Если оба условия выполнены:
    1. Кэшированная версия отправляется клиенту.
    2. Инициируется загрузка новой версии документа с хоста (Latent Request).
    3. Cache Update History обновляется с использованием загруженной новой версии.

Claim 2 (Зависимый от 1): Уточняет критерий свежести (Time-Invariant).

Кэшированная версия считается свежей, если ее предполагаемый возраст ниже, чем возраст предопределенной части прошлых обновлений контента, записанных в истории. Это указывает на использование статистического анализа (например, процентилей в гистограмме возрастов).

Claim 3 и 4 (Зависимые от 1): Описывают механизм коррекции ошибок.

Если загруженная через Latent Request новая версия отличается от отправленной кэшированной версии (т.е. прогноз был неверным), система может отправить новую версию клиенту для замены старой (Claim 3) или уведомить клиента о наличии новой версии (Claim 4).

Где и как применяется

Патент описывает инфраструктурный механизм, который применяется на этапах сканирования и сбора данных для оптимизации использования ресурсов.

CRAWLING – Сканирование и Сбор данных
Основное применение. Система сканирования (например, Googlebot) использует этот механизм для принятия решения о необходимости повторного скачивания документа. Если документ статистически вряд ли изменился (De Facto Fresh), система может пропустить его скачивание или использовать Latent Request для фоновой проверки. Это позволяет значительно экономить краулинговый бюджет и ресурсы веб-хостов.

INDEXING – Индексирование и извлечение признаков
На этом этапе используется Cache Update History для поддержания актуальности индекса и сбора данных для статистического анализа частоты обновлений.

Входные данные:

  • Запрос на документ (URL).
  • Кэшированная версия документа и ее заголовки.
  • Cache Update History: исторические данные о прошлых скачиваниях (временные метки, HTTP-заголовки, User ID, Cookies).

Выходные данные:

  • Документ (кэшированный или свежезагруженный).
  • Решение об обслуживании из кэша или необходимости синхронного скачивания.
  • Обновленная Cache Update History.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на контент, который обновляется редко или предсказуемо (CSS, JavaScript, изображения, PDF, архивные статьи). В патенте отмечается, что обобщенная информация о свежести может использоваться для схожих типов контента. Динамический HTML реже будет классифицироваться как De Facto Fresh.
  • Языковые и географические ограничения: Механизм должен корректно обрабатывать контент, зависящий от локации или языка, классифицируя его как вариантный к запросу (Request-Variant), чтобы избежать некорректной отдачи кэша.

Когда применяется

  • Условия работы алгоритма: Алгоритм активируется, когда запрашиваемый документ находится в кэше, но его срок актуальности, указанный в HTTP-заголовках (например, Expires), истек.
  • Триггеры активации: Необходимость проверить свежесть документа при наличии достаточного объема данных в Cache Update History для статистического анализа.
  • Пороговые значения: Система использует порог уверенности (Freshness Confidence), часто определяемый процентилем в Cumulative Histogram (например, 25%). Если вероятность свежести выше порога, он считается De Facto Fresh.

Пошаговый алгоритм

Процесс оценки свежести и обслуживания документа

  1. Получение запроса и проверка кэша: Система получает запрос и проверяет наличие объекта в кэше.
  2. Оценка свежести по заголовкам: Проверяются стандартные параметры свежести (например, Expires).
    • Если свежий (по заголовкам): Обслужить из кэша.
    • Если устарел (по заголовкам): Перейти к шагу 3.
  3. Анализ истории обновлений (Cache Update History): Извлекаются данные о прошлых версиях объекта.
  4. Проверка инвариантности к запросам (Request-Invariant): Определяется, зависит ли контент от User ID, Cookies или других заголовков запроса.
    • Если зависит (Request-Variant): Запросить новую копию с веб-хоста.
    • Если не зависит (Request-Invariant): Перейти к шагу 5.
  5. Статистический анализ свежести (Time-Invariant):
    1. Определяется текущий возраст кэшированной копии.
    2. Возраст сравнивается со статистической моделью (Cumulative Histogram возрастов прошлых версий).
    3. Рассчитывается Freshness Confidence.
  6. Принятие решения: Сравнение Freshness Confidence с пороговым значением.
    • Если уверенность недостаточна: Запросить новую копию с веб-хоста.
    • Если уверенность достаточна (De Facto Fresh): Перейти к шагу 7.
  7. Обслуживание и Латентный запрос:
    1. Кэшированная копия немедленно используется/отправляется.
    2. Одновременно инициируется Latent Request к веб-хосту.
  8. Фоновая валидация и обновление:
    1. Полученная актуальная версия сравнивается с кэшированной.
    2. Cache Update History и метрики уверенности обновляются.
    3. (Опционально) Если версии отличаются, актуальная версия может быть отправлена клиенту для коррекции.

Какие данные и как использует

Данные на входе

Система фокусируется на метаданных, связанных с запросами и ответами.

  • Технические факторы:
    • HTTP Request/Response Headers (Заголовки запроса/ответа), включая Expires, Cache-Control, Date, Last-Modified, ETag.
    • Request Cookies.
    • URL (для генерации URL Fingerprint).
  • Временные факторы:
    • Update Timestamp (Временные метки обновления/кэширования прошлых версий).
  • Пользовательские факторы (в контексте прокси):
    • User ID (для анализа инвариантности).
  • Контентные факторы:
    • Content Fingerprint (контрольная сумма контента для обнаружения изменений).

Какие метрики используются и как они считаются

  • Age (Возраст объекта, ΔT): Разница во времени между двумя последовательными обновлениями контента (

Выводы

  1. Приоритет статистических данных над HTTP-заголовками: Патент демонстрирует механизм, позволяющий системе игнорировать явные инструкции кэширования (например, Expires), если статистический анализ истории обновлений (Cache Update History) предполагает, что контент не изменился.
  2. Оптимизация ресурсов через прогнозирование: Основная цель — экономия ресурсов (пропускной способности, вычислительных мощностей, краулингового бюджета) и снижение задержек за счет избегания ненужных повторных загрузок.
  3. Использование исторических паттернов обновления: Система полагается на анализ того, как часто (Time-Invariant) и при каких условиях (Request-Invariant) контент менялся в прошлом, чтобы предсказать будущее поведение.
  4. Механизм фоновой валидации (Latent Requests): Использование латентных запросов позволяет системе действовать агрессивно (обслуживать из кэша), не жертвуя точностью. Прогнозы постоянно проверяются в фоновом режиме.
  5. Инфраструктурное значение: Этот патент описывает инфраструктуру для повышения эффективности кэширования и сканирования, а не алгоритм ранжирования.

Практика

Best practices (это мы делаем)

Хотя патент инфраструктурный, он дает понимание процессов сканирования, что позволяет оптимизировать взаимодействие с Googlebot (Technical SEO).

  • Обеспечение корректных HTTP-заголовков валидации (ETag и Last-Modified): Точные заголовки Last-Modified и ETag критически важны. Они помогают системе быстро валидировать контент (в том числе через Latent Requests) и поддерживать точную Cache Update History. Это позволяет Googlebot экономить ресурсы при проверке свежести.
  • Обеспечение согласованной доставки контента (Request-Invariant): Убедитесь, что публичный контент по определенному URL является согласованным и не меняется в зависимости от несущественных cookies или заголовков запроса. Если вариативность необходима (например, для языка), используйте заголовок Vary.
  • Фокус на реальном обновлении контента: Чтобы гарантировать пересканирование, вносите реальные изменения в контент. Манипуляции с заголовками Expires для принудительного сканирования неэффективны, так как система статистически обнаруживает, что контент не меняется.
  • Поддержание предсказуемых паттернов для статических ресурсов: Для CSS, JS, изображений используйте длительные сроки действия и версионирование (fingerprinting) при обновлении.

Worst practices (это делать не надо)

  • Манипуляция временными метками и ETag: Предоставление неточных дат Last-Modified или постоянное изменение ETags, когда контент фактически не изменился. Это загрязняет Cache Update History и вынуждает Google чаще повторно загружать контент, тратя краулинговый бюджет.
  • Некорректное использование Cache-Control "Private": Маркировка публичного контента как "private". Это снижает эффективность кэширования, так как система не сможет использовать оптимизации для Shared Cache.
  • Подмена контента (Cloaking) на основе заголовков запроса: Система активно анализирует инвариантность контента. Попытки манипулировать выдачей будут зафиксированы в Cache Update History и могут привести к проблемам.

Стратегическое значение

Патент подтверждает, что Google использует сложные вероятностные модели для управления сканированием и оптимизации краулингового бюджета. Для SEO это означает, что управление сканированием должно основываться на реальной частоте обновления контента и технической чистоте сайта. Система стремится к максимальной эффективности, и сайты, которые предоставляют четкие и последовательные сигналы об изменениях контента, будут индексироваться более оптимально.

Практические примеры

Сценарий: Оптимизация сканирования большого каталога товаров

Интернет-магазин имеет 500 000 страниц товаров. HTTP-заголовки настроены так, что срок актуальности истекает через 24 часа.

  1. Анализ Google (применение патента): Система анализирует Cache Update History и обнаруживает, что 95% товаров фактически не меняют свой контент в течение недели.
  2. Действие Google: Система классифицирует эти 95% страниц как De Facto Fresh, несмотря на короткий срок истечения. Она пропускает их ежедневное сканирование, используя Latent Requests для периодической фоновой проверки.
  3. Результат: Краулинговый бюджет экономится.
  4. Действие SEO-специалиста: Необходимо гарантировать, что при реальном изменении контента (которое нарушает статистический паттерн) страница корректно отдает Last-Modified и/или обновляется в XML Sitemaps, чтобы сигнализировать о необходимости приоритетного сканирования, а не полагаться на заголовок Expires.

Вопросы и ответы

Означает ли этот патент, что HTTP-заголовки кэширования (Expires, Cache-Control) бесполезны?

Нет, они не бесполезны, но этот патент показывает, что Google может игнорировать их, если они противоречат статистическим данным. Если Cache Update History показывает, что контент меняется редко, система может посчитать его свежим (De Facto Fresh), даже если заголовок Expires говорит об обратном. Корректные заголовки по-прежнему важны для общей гигиены сайта и помогают системе работать эффективнее.

Как этот патент влияет на краулинговый бюджет (Crawl Budget)?

Он напрямую направлен на его оптимизацию. Позволяя Googlebot статистически предсказывать изменения и избегать повторного скачивания неизмененного контента, система экономит огромные ресурсы. Это позволяет Google сканировать интернет более эффективно, быстрее обнаруживая новый и действительно обновленный контент.

Что такое «Латентный запрос» (Latent Request) и зачем он нужен?

Latent Request — это фоновый запрос, который система отправляет веб-хосту для проверки актуальности контента уже после того, как решила использовать кэшированную версию. Это механизм валидации. Он позволяет системе действовать быстро на основе прогноза, но при этом гарантирует, что прогноз будет проверен, а Cache Update History будет актуализирована без увеличения задержки для пользователя.

Как система строит статистическую модель частоты обновлений?

Используется Cache Update History, которая хранит временные метки прошлых обновлений. Система вычисляет «возраст» (время жизни, ΔT) каждой прошлой версии и строит кумулятивную гистограмму (Cumulative Histogram). Эта гистограмма показывает распределение времени жизни контента и позволяет оценить вероятность того, что текущая версия все еще актуальна.

Что произойдет, если система ошибется и посчитает устаревший контент свежим?

Патент предусматривает механизм коррекции. Когда Latent Request вернет актуальную версию и система обнаружит разницу, она обновит кэш и скорректирует статистические метрики. В контексте прокси-сервера она может даже принудительно отправить обновленный контент пользователю (Claim 3) или уведомить его (Claim 4).

Что такое проверка инвариантности к запросу (Request-Invariant)?

Это проверка того, меняется ли контент страницы в зависимости от параметров запроса. Система анализирует, получали ли разные пользователи (User ID), с разными Cookies или HTTP-заголовками один и тот же контент в прошлом. Если контент меняется в зависимости от этих параметров, система будет более консервативна в использовании кэша.

Влияет ли этот механизм на ранжирование?

Нет, в патенте нет информации о влиянии этого механизма на ранжирование. Это чисто инфраструктурный патент, касающийся эффективности сканирования и кэширования (CRAWLING).

Какова роль ETag и Last-Modified в этой системе?

Они критически важны. Эти заголовки используются как часть Cache Update History и помогают системе быстро валидировать контент. Предоставление точных и согласованных ETag и Last-Modified позволяет системе Google более точно прогнозировать свежесть и избегать ненужных повторных загрузок контента.

Как я могу использовать знание об этом патенте для улучшения SEO?

Основное применение — это оптимизация взаимодействия с краулером (Technical SEO). Не пытайтесь обмануть Googlebot, устанавливая короткие сроки Expires без реальных обновлений контента. Вместо этого сосредоточьтесь на предоставлении точных сигналов валидации (Last-Modified, ETag) и обеспечении согласованности контента.

Применяется ли это только к HTML-страницам?

Нет, механизм применяется к любым кэшируемым объектам. Он особенно эффективен для ресурсов, которые меняются редко, таких как CSS, JavaScript, изображения и PDF. Для этих типов файлов статистическая вероятность того, что они остались неизменными, обычно выше, чем для динамического HTML.

Похожие патенты

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.
  • US20130212100A1
  • 2013-08-15
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита
Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.
  • US7725452B1
  • 2010-05-25
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности
Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.
  • US7702618B1
  • 2010-04-20
  • Индексация

  • Техническое SEO

  • Свежесть контента

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Популярные патенты

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)
Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.
  • US9165040B1
  • 2015-10-20
  • Ссылки

  • EEAT и качество

  • Антиспам

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика
Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.
  • US9031929B1
  • 2015-05-12
  • Поведенческие сигналы

  • EEAT и качество

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.
  • US8645390B1
  • 2014-02-04
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete
Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.
  • US20140108445A1
  • 2014-04-17
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

seohardcore