
Google использует инфраструктурный механизм «Эпох» для обновления поискового индекса в реальном времени. Система отслеживает активные поисковые запросы и гарантирует, что устаревшие данные (например, старые версии документов) удаляются только тогда, когда ни один активный запрос их больше не использует. Это позволяет поддерживать максимальную свежесть индекса без прерывания обслуживания пользователей.
Патент решает фундаментальную проблему инфраструктуры поисковых систем: как обеспечить высокую скорость обновления репозитория документов (максимальную свежесть индекса) при одновременной обработке огромного количества поисковых запросов без взаимных блокировок и деградации производительности. Он устраняет необходимость в сложных и длительных механизмах синхронизации между потоками записи (обновление индекса) и потоками чтения (обработка запросов), которые традиционно создают узкие места и увеличивают задержки при обновлении данных.
Запатентован метод управления параллельным доступом к репозиторию документов, который позволяет эффективно удалять устаревшие данные (сборка мусора stale data), не прерывая текущие запросы. Ядром изобретения является концепция «Эпох» (Epochs). Система отслеживает, какие запросы (потоки) активны в рамках каждой эпохи. Данные, помеченные для удаления в определенную эпоху, физически удаляются только тогда, когда все запросы, которые могли к ним обращаться, завершены. Это гарантирует, что любой активный запрос имеет доступ к консистентному снимку данных.
Система работает путем разделения времени на последовательные, непересекающиеся Epochs.
ThreadCount) этой эпохи. Запрос получает доступ к данным в пределах текущего «Доступного диапазона» (Accessible Range) репозитория. По завершении запроса счетчик уменьшается.invalidated) и добавляется в список на удаление (DeleteItems) для текущей эпохи.ThreadCount. Только когда счетчик достигает нуля (т.е. все запросы, которые могли видеть старые данные, завершены), система безопасно удаляет данные из списка DeleteItems этой эпохи.Также описана структура хранения FIFOArray и механизм Treadmilling для дефрагментации и освобождения места.
Высокая. Изобретатели (включая Джеффа Дина) являются ключевыми архитекторами инфраструктуры Google. Описанные принципы низкозатратной синхронизации и эффективного управления памятью критически важны для работы крупномасштабных, распределенных систем реального времени, таких как Google Search. Хотя конкретная реализация (например, Tokenspace Repository) могла эволюционировать, базовая концепция управления параллелизмом для обеспечения свежести остается фундаментальной.
Патент имеет низкое прямое влияние на SEO-стратегии (2/10). Это глубоко инфраструктурный патент, который не описывает факторы ранжирования, анализ контента или ссылок. Он не дает рекомендаций о том, как оптимизировать сайт. Однако он имеет важное контекстное значение: он описывает механизмы, которые позволяют Google индексировать и обновлять контент практически в реальном времени. Это техническая основа, которая делает возможным работу алгоритмов, чувствительных к свежести (например, QDF), но сам патент не является таким алгоритмом.
Stale Data) из репозитория и восстановления занимаемого ими места.GTokenIDs).FIFOArray. Поскольку удаление возможно только из начала массива, действительные данные из начала периодически копируются в конец, а их исходные копии в начале инвалидируются. Это позволяет освободить место, занимаемое устаревшими данными.Патент описывает внутренние процессы управления данными Google без прямых рекомендаций для SEO. Он фокусируется на методологии сборки мусора при параллельной обработке запросов.
Claim 1 (Независимый пункт): Описывает основной метод обновления данных с использованием двух последовательных эпох.
Delete List A) добавляются идентификаторы частей репозитория, подлежащих удалению (например, устаревшие документы).Count A) потоков, которые потенциально ссылаются на данные в Delete List A.Delete List B) добавляются новые идентификаторы для удаления.Count A (он уменьшается по мере завершения запросов первой эпохи).Count B) для Delete List B.Count A достигает предопределенного значения (обычно 0), все части репозитория, указанные в Delete List A, удаляются.Ключевая идея: данные, устаревшие в Эпоху 1, не удаляются до тех пор, пока все запросы, начатые в Эпоху 1 (и, следовательно, видевшие эти данные), не завершатся, что может произойти уже во время Эпохи 2 или позже.
Claim 4 (Независимый пункт): Обобщает Claim 1 на последовательность непересекающихся эпох.
Изобретение является частью базовой инфраструктуры хранения и обработки данных, связывая этапы индексирования и ранжирования.
CRAWLING & INDEXING – Сканирование, Сбор данных и Индексирование
На этих этапах работают процессоры записи (Write Processors/Threads). Они получают новые или обновленные документы, токенизируют их и добавляют в Tokenspace Repository. При обновлении существующего документа старая версия инвалидируется и добавляется в Garbage Collection List текущей эпохи. Механизм Treadmilling также управляется этими процессами для реорганизации хранилища.
RANKING – Ранжирование
На этом этапе работают процессоры запросов (Query Processors/Threads). Они читают данные из Tokenspace Repository и Индекса. Описанный механизм синхронизации гарантирует, что эти потоки могут выполнять чтение без прерываний и блокировок со стороны процессов записи. Каждый поток запроса взаимодействует с менеджером эпох в начале и в конце запроса для обновления ThreadCount.
Входные данные:
Accessible Range репозитория, статус эпох и ThreadCounts.Выходные данные:
ThreadCount для определенной эпохи достигает предопределенного значения (0), при условии, что счетчики всех предыдущих эпох также достигли этого значения.Epoch ending condition). В патенте упоминаются условия, такие как истечение заданного времени или достижение определенного количества инвалидированных документов.Процесс А: Обработка поискового запроса (Query Thread)
Lock).Accessible Range репозитория.ThreadCount для текущей эпохи.Accessible Range. Во время выполнения репозиторий может обновляться другими потоками, но этот запрос видит консистентный снимок данных.ThreadCount той эпохи, в которой он был зарегистрирован (даже если текущая эпоха уже сменилась).Процесс Б: Обновление документа и управление эпохами (Write Thread)
Tokenspace Repository (изначально может быть за пределами доступного диапазона). Индекс обновляется.Accessible Range расширяется, чтобы включить V2.Delete List текущей эпохи.ThreadCount и пустым Delete List). Освобождает блокировку.Процесс В: Сборка мусора (Garbage Collector)
ThreadCounts завершенных эпох.ThreadCount достиг предопределенного значения (0), и счетчики всех предыдущих эпох также равны 0.Delete List этой эпохи (N), физически удаляются из репозитория.Патент является инфраструктурным и фокусируется на управлении доступом к данным, а не на анализе их содержимого для ранжирования.
GTokenIDs).TokenPos), глобальные и локальные идентификаторы документов (GDocID, LDocID), указатели и смещения в структурах данных FIFOArray.Garbage Collection List).ThreadCount (обычно 0), при достижении которого возможна безопасная сборка мусора.BeginRepositoryPos и EndRepositoryPos, определяющие границы видимой части репозитория.low latency updates).Accessible Range.ThreadCount = 0).FIFOArray для основного репозитория вводит необходимость в механизме Treadmilling для восстановления пространства. Это компромисс для достижения эффективности записи и чтения, требующий дополнительных фоновых операций по копированию данных.Хотя патент инфраструктурный, он дает понимание возможностей Google, что влияет на SEO-практики.
Этот патент подтверждает, что Google проектировал свою инфраструктуру с прицелом на максимальную свежесть и производительность. Для SEO-специалистов это означает, что конкуренция в реальном времени (Real-Time SEO), особенно в новостных и трендовых нишах, технически возможна и поддерживается базовой архитектурой поиска. Стратегия должна учитывать, что скорость реакции и публикации контента является важным элементом успеха.
Патент описывает инфраструктуру, поэтому прямых SEO-примеров по оптимизации нет. Можно привести пример работы системы.
Сценарий: Обновление главной новости во время крупного события
ThreadCount Эпохи 1 высокий.Accessible Range обновляется, чтобы включить Б.Delete List Эпохи 2.ThreadCount Эпохи 1 падает до 0.Результат: Переход от версии А к версии Б произошел быстро, без даунтайма и без показа пользователям некорректных или смешанных результатов.
Что такое «Эпоха» (Epoch) в контексте этого патента?
Эпоха — это период времени, используемый для синхронизации процессов чтения и записи. Для каждой эпохи система отслеживает, какие поисковые запросы активны и какие данные были обновлены. Это позволяет системе понять, когда безопасно удалять старые данные: только когда все запросы, начатые в эпоху, когда эти данные были актуальны, завершены.
Означает ли этот патент, что Google индексирует контент мгновенно?
Патент не описывает скорость краулинга или обработки контента, но он описывает инфраструктуру, которая позволяет применять обновления к основному индексу с очень низкой задержкой (near real-time), не замедляя при этом обработку поисковых запросов. Это устраняет технический барьер для быстрой индексации на финальном этапе.
Что такое «Treadmilling» и зачем он нужен?
Treadmilling («беговая дорожка») — это процесс управления памятью, необходимый из-за использования структуры данных FIFOArray, где удаление возможно только из начала. Чтобы освободить место, занятое устаревшими данными в начале массива, действительные данные из начала копируются в конец, а их оригиналы удаляются. Это позволяет дефрагментировать хранилище.
Влияет ли этот механизм на ранжирование сайтов?
Нет, напрямую не влияет. Патент не описывает сигналы ранжирования. Он описывает, как система хранения данных управляет обновлениями и запросами. Это инфраструктурный механизм, обеспечивающий эффективность и консистентность данных, которые затем используются алгоритмами ранжирования.
Что происходит, когда я обновляю страницу на своем сайте?
Когда Google индексирует новую версию (V2), она добавляется в репозиторий. Система обновляет «Доступный диапазон», делая V2 видимой для новых запросов. Старая версия (V1) помечается как недействительная (инвалидируется) и планируется к удалению. V1 физически удаляется позже, когда система убедится, что ни один активный поисковый запрос ее больше не использует.
Может ли пользователь увидеть смешанные результаты из старой и новой версии индекса?
Нет. Механизм эпох и фиксация «Доступного диапазона» (Accessible Range) в начале запроса гарантируют, что каждый запрос работает с консистентным снимком индекса. Запрос видит данные такими, какими они были на момент его начала, даже если индекс обновляется во время выполнения запроса.
Что определяет длительность «Эпохи»?
Патент предлагает несколько условий для завершения эпохи. Это может быть фиксированный интервал времени или динамическое условие, основанное на активности обновлений (например, после того как было обновлено N документов). Это позволяет системе балансировать между свежестью данных и накладными расходами на управление эпохами.
Какое практическое значение этот патент имеет для SEO-специалиста?
Основное значение — это понимание возможностей инфраструктуры Google. Система способна поддерживать очень высокую свежесть индекса. Поэтому SEO-стратегии, ориентированные на своевременный контент (News SEO, Real-Time SEO), являются жизнеспособными, и скорость доставки контента краулеру имеет решающее значение.
Что такое Tokenspace Repository?
Это способ хранения документов, описанный в патенте. Вместо хранения сырого текста документы преобразуются в непрерывную последовательность идентификаторов токенов (слов, тегов). Это позволяет эффективно хранить и быстро получать доступ к данным, так как токены могут иметь фиксированный размер.
Использует ли Google эту систему сейчас?
Хотя конкретные реализации, такие как Tokenspace Repository или FIFOArray, могли эволюционировать (например, в системе Caffeine и далее), базовые принципы управления параллелизмом с низкими издержками, описанные Джеффом Дином и Майклом Берроузом, лежат в основе современных распределенных систем Google. Концепция обеспечения консистентности при высокой частоте обновлений остается крайне актуальной.

Индексация
Свежесть контента

Свежесть контента
Индексация
Техническое SEO

Индексация
Свежесть контента
Мультимедиа

Индексация

Ссылки
Индексация
Техническое SEO

Индексация
Ссылки
Техническое SEO

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Мультимедиа

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент

EEAT и качество
Антиспам
Ссылки

Ссылки
Антиспам
EEAT и качество

Поведенческие сигналы
Семантика и интент
Мультимедиа

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
