Как Google индексирует разные версии документа и использует временные диапазоны для ранжирования контента

Google может хранить несколько версий (instances) документа в индексе, каждая из которых привязана к определенному диапазону дат (date range). Система использует эту информацию для корректировки ранжирования, рассчитывая взвешенную оценку релевантности в зависимости от близости диапазона дат версии документа к дате, указанной в запросе пользователя.

Описание

Какую задачу решает

Патент решает проблему ограничений традиционных поисковых систем, которые обычно индексируют и хранят данные о релевантности только для текущей версии веб-страницы. Это не позволяет пользователям эффективно искать предыдущие версии контента или выполнять поиск в определенных исторических интервалах. Изобретение направлено на создание системы, способной архивировать различные версии документов и использовать информацию о дате и версии при оценке релевантности.

Что запатентовано

Запатентована система поиска информации, которая индексирует и архивирует множественные версии (instances) одного документа. Каждая версия ассоциируется с диапазоном дат (date range), в течение которого она была актуальна, и соответствующими данными о релевантности (relevance data). Система позволяет корректировать ранжирование, рассчитывая взвешенную оценку релевантности (weighted relevance score) на основе разницы между датой в запросе и диапазоном дат версии документа.

Как это работает

Система функционирует на этапах индексирования и ранжирования:

Индексирование и Версионирование: Во время сканирования система определяет, изменился ли документ. Если да, текущий диапазон дат для предыдущей версии закрывается, и создается новая версия с новым диапазоном дат и актуальными данными о релевантности.
Обнаружение изменений: Изменения могут определяться путем сравнения основных тем (Topics) или фраз между версиями. Если изменение превышает порог (например, 5%), создается новая версия.
Ранжирование с учетом времени: При получении запроса (особенно содержащего дату), система может корректировать базовую оценку релевантности версии документа (повышать или понижать) пропорционально близости ее date range к дате запроса.

Актуальность для SEO

Высокая. Принципы временной релевантности (freshness), обработки обновленного контента и понимания исторического контекста остаются фундаментальными для современных поисковых систем. Хотя конкретные методы взвешивания могли эволюционировать, базовая инфраструктура для версионирования и учета времени, описанная в патенте, актуальна для понимания того, как Google обрабатывает эволюцию контента.

Важность для SEO

Патент имеет существенное значение для SEO (8/10). Он описывает инфраструктуру, позволяющую Google учитывать временной контекст контента. Это напрямую влияет на стратегии, связанные со свежестью контента, управлением обновлениями и оптимизацией под темпоральные запросы. Понимание того, что релевантность привязана к конкретным временным версиям и что существенные обновления необходимы для переоценки, критично для долгосрочной контент-стратегии.

Детальный разбор

Термины и определения

Date Range (Диапазон дат): Период времени, в течение которого конкретная версия (instance) документа считается действительной. Определяется датой открытия (open date) и датой закрытия (closed date). Для текущей версии может быть статус «open».
Document Instance / Version (Экземпляр / Версия документа): Конкретное состояние документа, зафиксированное в индексе в определенный момент времени. Новая версия создается при обнаружении существенных изменений.
First Date (Первая дата): Дата, указанная пользователем в поисковом запросе (используется в Claims 1 и 10).
Relevance Data (Данные о релевантности): Информация, извлеченная из документа (например, фразы, ссылки, статистика), используемая для ранжирования и привязанная к конкретному date range.
Topics (Темы): Основные темы документа, извлеченные, например, на основе фраз. Используются в описанном механизме для определения того, изменился ли документ между сканированиями.
Weighted Relevance Score (Взвешенная оценка релевантности): Оценка релевантности документа, скорректированная на основе временных факторов, в частности, разницы между First Date в запросе и Date Range документа.

Ключевые утверждения (Анализ Claims)

Патент US9817886B2 фокусируется на методах ранжирования с использованием дат в запросе.

Claim 1 (Независимый пункт): Описывает метод ответа на поисковый запрос, включающий фразу и дату (First Date).

Система выбирает документы, релевантные запросу.
Определяется Date Range (период, в течение которого не было обнаружено изменений) для документа.
Вычисляется Weighted Relevance Score. Эта оценка является базовой оценкой релевантности, скорректированной на величину разницы между First Date в запросе и Date Range документа.
Документы ранжируются с использованием этих Weighted Relevance Scores.

Claim 10 (Независимый пункт): Описывает метод, фокусирующийся на понижении (down-weighting) релевантности при работе с индексом, содержащим несколько версий (instances).

Доступ к индексу, где версии сохраняются при обнаружении изменений, и каждая имеет свой Date Range.
Выбор документов, релевантных фразе.
Для каждого экземпляра документа: Определение разницы между First Date и Date Range.
Понижение (down-weighting) оценки релевантности пропорционально этой разнице.
Ранжирование экземпляров.

Зависимые пункты (Claims 3, 4, 12): Уточняют, что взвешивание может быть как повышающим (Claim 3), так и понижающим (Claim 4), и что система может выбрать только одну, наиболее релевантную версию документа для финального ранжирования (Claim 12).

Где и как применяется

Изобретение затрагивает ключевые этапы поисковой архитектуры.

CRAWLING – Сканирование и Сбор данных
На этом этапе система должна инициировать проверку наличия изменений в документе.

INDEXING – Индексирование и извлечение признаков
Здесь происходит основная работа по архивированию.

Обнаружение изменений: Система сравнивает текущий контент с предыдущей версией. В патенте предлагается сравнивать основные Topics документа. Если изменение превышает порог (M%, например 5%), документ считается измененным.
Управление версиями: Если обнаружено изменение, система закрывает старый Date Range и открывает новый для нового Document Instance.
Извлечение признаков: Relevance Data извлекаются и сохраняются в ассоциации с конкретным Date Range.

QUNDERSTANDING – Понимание Запросов
Система должна распознавать временные ограничения в запросе (First Date).

RANKING / RERANKING – Ранжирование / Переранжирование
Применяется логика временного взвешивания. Система рассчитывает Weighted Relevance Score, корректируя базовую оценку на основе разницы между датой в запросе и Date Range версии документа. Система может выбирать лучшую версию документа для выдачи.

На что влияет

Конкретные типы контента: Контент, который часто обновляется или имеет историческую значимость (новости, архивы, страницы продуктов, блоги).
Специфические запросы: Запросы с явным указанием даты (темпоральные запросы) и запросы, где свежесть критична (QDF).
Конкретные ниши или тематики: СМИ, финансы (YMYL), история, любая ниша, где актуальность информации меняется со временем.

Когда применяется

Во время индексации: Механизм активируется, когда система обнаруживает существенное изменение контента (превышение порога M% изменения тем).
Во время ранжирования: Логика взвешивания применяется, когда запрос содержит дату (согласно Claims 1 и 10). Также может применяться для общего повышения свежего контента или исторически значимого контента (упомянуто в описании патента).

Пошаговый алгоритм

Процесс А: Индексирование и Архивирование Версий

Сканирование документа: Система получает доступ к документу.
Обнаружение изменений: Определить, изменился ли документ с предыдущей индексации. (Например, сравнить Топ-N тем; если процент изменений > M%, то документ изменился).
Проверка условия:
- Если НЕТ изменений: Завершить обработку.
- Если ДА изменения: Перейти к шагу 4.
Закрытие предыдущего диапазона: Установить дату закрытия (closed date) для предыдущей версии документа.
Индексирование новой версии: Проиндексировать текущую версию для получения актуальных Relevance Data.
Сохранение новой версии: Сохранить новые Relevance Data в ассоциации с новым текущим диапазоном дат (Current Interval).
Поддержание истории: Сохранить предыдущие данные, связанные с закрытым диапазоном дат.

Процесс Б: Ранжирование с учетом времени (На основе Claims)

Получение запроса: Система получает запрос, включающий фразу и дату (First Date).
Выбор релевантных экземпляров: Идентифицируются экземпляры документов, релевантные фразе.
Расчет временной разницы: Для каждого экземпляра вычисляется разница между First Date и Date Range экземпляра.
Расчет взвешенной оценки: Базовая оценка релевантности корректируется (например, понижается пропорционально разнице). Рассчитывается Weighted Relevance Score.
Выбор лучшей версии (Опционально): Если у одного URL несколько версий, выбирается версия с наивысшей взвешенной оценкой.
Ранжирование: Экземпляры документов ранжируются по Weighted Relevance Score.

Какие данные и как использует

Данные на входе

Временные факторы: Дата индексации (для установки Date Ranges). Дата в запросе (First Date).
Контентные факторы: Содержимое документа используется для извлечения Relevance Data. Также используется для определения факта изменения документа путем анализа тем (Topics) или фраз.

Какие метрики используются и как они считаются

Date Range (Диапазон дат): Период валидности версии документа.
Порог изменения (M%): Процент изменения основных Topics, необходимый для создания новой версии документа.
Temporal Difference (Временная разница): Разница между датой в запросе и Date Range документа.
Weighted Relevance Score (Взвешенная оценка релевантности): Базовая оценка релевантности, скорректированная на основе Temporal Difference (повышение за близость или понижение за отдаленность).
Update Frequency (Частота обновлений): (Упомянуто в описании). Количество версий (instances) документа за период времени, может использоваться для повышения веса часто обновляемых документов.

Выводы

Индекс Google поддерживает версионность контента: Система хранит несколько версий (instances) одного URL, каждая из которых имеет свой диапазон дат актуальности (date range) и собственные сигналы релевантности (relevance data).
Существенные изменения как триггер новой версии: Новая версия создается не при любой правке, а при существенном изменении контента. Патент предлагает метод обнаружения изменений через сравнение основных тем (Topics) документа (порог M%).
Ранжирование зависит от временного контекста: Патент описывает механизм корректировки ранжирования (weighted relevance score) на основе близости между датой в запросе и периодом актуальности версии документа.
Гибкость временного взвешивания: Система может как повышать (up-weight), так и понижать (down-weight) оценку релевантности в зависимости от временной разницы.
Историческая релевантность сохраняется: Старые версии документов могут ранжироваться выше текущих, если они лучше соответствуют временному интенту запроса (например, при поиске информации о прошлых событиях).

Практика

Best practices (это мы делаем)

Фокус на существенных обновлениях контента: Чтобы Google зафиксировал новую версию (instance) и переоценил релевантность контента как свежего, обновления должны быть значительными и влиять на основные темы страницы (превышать порог M%). Незначительные правки могут быть недостаточны.
Поддержание актуальности «вечнозеленого» контента: Регулярно и существенно обновляйте важные страницы. Это генерирует новые instances с актуальными relevance data и поддерживает сигнал свежести (freshness), который может повышать weighted relevance score.
Сохранение URL при обновлении: Обновляйте контент на том же URL. Это позволяет Google накапливать историю версий и применять логику исторической релевантности, вместо того чтобы рассматривать обновленный контент как совершенно новый документ.
Стратегическое архивирование: Не удаляйте старый контент, имеющий историческую ценность или авторитет. Он может ранжироваться по историческим или темпоральным запросам благодаря механизму архивации версий.

Worst practices (это делать не надо)

Имитация свежести (Date Spinning/Spoofing): Изменение даты публикации в CMS или метаданных без существенного изменения контента. Если система не обнаружит изменений в основных темах, новый instance не будет создан, и сигнал свежести не будет активирован.
Резкие тематические сдвиги на авторитетных URL: Полное перепрофилирование старого URL под новую, не связанную тему. Это создает фрагментированные исторические экземпляры. Историческая релевантность старой темы будет привязана к архивному экземпляру и может не перейти к новому экземпляру с новой темой.
Частые незначительные изменения: Внесение мелких правок в надежде повысить частоту обновления. Если изменения не влияют на основные темы, они могут не привести к созданию новых версий, но могут тратить краулинговый бюджет.

Стратегическое значение

Патент подтверждает, что Google рассматривает документы как эволюционирующие сущности, а релевантность привязана ко времени. Стратегия SEO должна учитывать жизненный цикл контента. Свежесть достигается через существенные обновления, а не через технические трюки. Это подчеркивает важность долгосрочного планирования контента, балансируя между созданием нового материала и обновлением существующего, а также понимания того, как система оценивает эти обновления на тематическом уровне.

Практические примеры

Сценарий: Обновление статьи «Лучшие смартфоны» с 2024 на 2025 год

Действие (Плохое): Поменять заголовок на «2025 год» и изменить дату публикации, оставив текст о моделях 2024 года.

Результат по патенту: Система сравнивает темы. Темы (модели 2024 года) не изменились. Порог M% не превышен. Новый instance не создается. Сигнал свежести минимален.

Действие (Хорошее): Переписать статью, добавив модели 2025 года, удалив устаревшие, обновив анализ.

Результат по патенту: Система сравнивает темы. Темы существенно изменились. Порог M% превышен. Система закрывает date range для версии 2024 года и создает новый instance для версии 2025 года с новыми relevance data. Документ получает сигнал свежести и актуальную релевантность. Если пользователь ищет «лучшие смартфоны 2024» (с датой), старая версия может ранжироваться выше благодаря weighted relevance score.

Вопросы и ответы

Как именно система определяет, что документ изменился достаточно для создания новой версии (instance)?

Патент предлагает конкретный механизм, описанный в спецификации: система сравнивает основные темы (Topics) текущей версии с темами предыдущего экземпляра. Если изменение превышает определенный порог (например, 5% тем изменилось), документ считается существенно измененным. Это фокусируется на тематических сдвигах, а не на мелких правках.

Что происходит, когда создается новая версия документа?

Система закрывает временной интервал (date range) для старой версии, устанавливая дату закрытия. Затем она индексирует новую версию, рассчитывает для нее актуальные relevance data (сигналы релевантности) и открывает для нее новый date range, начиная с текущей даты.

Влияет ли этот патент на то, как Google оценивает свежесть контента (Freshness)?

Да, напрямую. Патент описывает инфраструктуру для этого. Создание нового instance после существенного обновления является сильным сигналом свежести. Система может использовать weighted relevance score для повышения ранжирования более новых версий для запросов, требующих актуальной информации.

Может ли старая версия документа ранжироваться выше новой?

Да. Если пользователь вводит запрос с указанием прошлой даты, система рассчитает weighted relevance score. Он будет выше для той версии документа, чей date range ближе к дате в запросе. Таким образом, для исторических запросов старая версия может быть предпочтительнее.

Стоит ли менять дату публикации статьи, не меняя контент, чтобы она выглядела свежей?

Это неэффективно согласно логике патента. Если система не обнаружит существенных изменений в темах документа (порог M%), она может не создать новый instance. В этом случае документ не получит преимуществ от сигналов свежести, так как система будет опираться на данные старой версии.

Как частота обновления страницы влияет на ранжирование согласно этому патенту?

В описании патента упоминается, что система может определять количество instances (версий) за интервал времени. Эта частота обновления может использоваться для повышения веса (upweight) документов, которые обновляются чаще, что полезно для ранжирования новостного контента.

Теряет ли старый контент свою ценность, если он был обновлен?

Нет. Старые версии сохраняются в индексе со своими date ranges и relevance data, сохраняя историческую релевантность. Это важно для авторитетного контента, который может продолжать привлекать трафик по архивным запросам.

Что такое Relevance Data в контексте версионирования?

Это вся информация, используемая для ранжирования версии документа в течение ее date range. Сюда входят контентные факторы (фразы, темы) и, предположительно, внешние факторы, такие как входящие ссылки (inlinks), которые были актуальны в тот период.

Применяется ли этот механизм взвешивания по дате ко всем запросам?

Claims 1 и 10 патента специфично описывают активацию механизма, когда поисковый запрос включает дату (First Date). Однако в описании патента также обсуждается возможность использования этой информации и без явной даты в запросе, например, для повышения более свежих или часто обновляемых документов.

Откуда система берет дату для сравнения – из начала или конца диапазона дат документа?

Патент защищает оба варианта. В нем указано (Claims 7 и 9), что разница может измеряться как от даты закрытия (closed date), так и от даты открытия (open date) диапазона. Выбор конкретного метода зависит от реализации системы.