
Патент Google, описывающий инфраструктурный механизм обновления индекса (репозитория документов). Система позволяет добавлять новые версии документов и удалять старые, не блокируя доступ к данным для параллельно выполняющихся поисковых запросов. Это достигается за счет управления «доступным диапазоном» данных и отложенного удаления старых версий.
Патент решает фундаментальную инфраструктурную проблему: как обновлять поисковый индекс (репозиторий документов) с высокой частотой и низкой задержкой (обеспечивая свежесть данных), не прерывая и не замедляя параллельную обработку входящих поисковых запросов. Он устраняет необходимость блокировки системы или сложных процессов слияния индексов, позволяя поддерживать высокую доступность поиска при частых обновлениях контента.
Запатентована система управления репозиторием (Tokenspace Repository) и метод управления данными, который минимизирует необходимость синхронизации между потоками обновления (Write Threads) и потоками запросов (Query Threads). Это достигается за счет механизма управления версиями данных («Доступный диапазон» или Accessible Range) и системы отложенного удаления старых данных («Сборка мусора» или Garbage Collection) на основе «Эпох» (Epochs).
Система работает по принципу, схожему с мультиверсионным контролем параллелизма (MVCC). Когда поступает новая версия документа (V2), она добавляется в конец репозитория, изначально за пределами текущего Accessible Range. Затем диапазон атомарно обновляется, чтобы включить V2. Старая версия (V1) помечается как недействительная (invalidated). Новые запросы видят V2. Запросы, которые уже выполнялись, продолжают использовать V1, так как они работают со снимком Accessible Range на момент их запуска. V1 физически удаляется только тогда, когда система гарантирует (через механизм Epochs), что ни один активный запрос ее больше не использует.
Высокая (с точки зрения инфраструктуры). Обеспечение непрерывной доступности и максимальной свежести индекса — критически важные задачи для современных поисковых систем. Принципы, описанные в этом патенте ключевыми инженерами Google (Джеффри Дин и Майкл Берроуз), лежат в основе эффективной работы распределенных систем хранения и индексирования Google.
Минимальное влияние (1/10). Это чисто инфраструктурный патент. Он не описывает алгоритмы ранжирования, факторы качества или методы анализа контента. Он объясняет техническую реализацию того, как Google обеспечивает возможность частых обновлений индекса без остановки системы. Для SEO-специалиста этот патент не предоставляет прямых рекомендаций по оптимизации, но дает понимание потенциальной скорости, с которой изменения могут быть учтены в поиске.
BeginRepositoryPos) и конечной (EndRepositoryPos) позициями. Обеспечивает консистентный снимок данных для запроса.Epoch. Каждая запись включает счетчик активных потоков (ThreadCount) и список элементов для удаления (DeleteItems).Accessible Range) во время их кратковременного обновления.FIFOArray.FIFOArray. Действительные данные копируются из начала массива в его конец, после чего исходные данные в начале удаляются, освобождая память.Патент описывает инфраструктурный механизм управления данными.
Claim 1 (Независимый пункт): Описывает основной метод обновления документа без прерывания запросов.
Accessible Range репозитория.Accessible Range.Accessible Range изменяется так, чтобы включить V2. Теперь и V1, и V2 доступны потокам.invalidating), но не удаляется.Claim 2 (Зависимый от 1): Уточняет синхронизацию индекса.
Одновременно с изменением Accessible Range репозитория для включения V2, изменяется и доступный диапазон соответствующих индексных записей (index records), чтобы включить записи, соответствующие как V1, так и V2.
Claim 3 (Зависимый от 1): Определяет модель консистентности для запросов.
Каждый поток выполняет запрос, используя тот диапазон репозитория (Accessible Range), который был доступен в момент начала выполнения запроса. Изменения в Accessible Range, происходящие во время выполнения запроса, игнорируются этим запросом.
Этот патент описывает фундаментальный механизм управления данными, находящийся на стыке процессов индексирования и обслуживания запросов.
INDEXING – Индексирование и извлечение признаков
На этом этапе Write Processors обрабатывают новый или обновленный контент и записывают его в Tokenspace Repository и Tokenspace Inverted Index. Описанный механизм управляет тем, как именно эти данные записываются, когда они становятся видимыми и как удаляются старые версии.
RANKING / RERANKING – Ранжирование и Переранжирование
На этих этапах Query Processors постоянно обращаются к репозиторию и индексу для получения данных. Механизм патента гарантирует, что эти запросы могут выполняться непрерывно и получать согласованное представление данных (Accessible Range), не конфликтуя с процессами индексирования.
Входные данные:
Write Processors).Query Processors).Accessible Range, Epoch, ThreadCount).Выходные данные:
Tokenspace Repository и Inverted Index.Это инфраструктурный механизм. Он влияет на все типы контента, все типы запросов, все тематики и все языки одинаково. Его основное влияние заключается в повышении общей свежести (freshness) индекса и скорости его обновления, а не в изменении ранжирования.
Алгоритмы применяются непрерывно:
Write Processor добавляет новый документ или обновляет существующий.Query Processor начинает обработку нового запроса (для определения Accessible Range и обновления счетчиков Epoch).Garbage Collection) и дефрагментации хранилища (Treadmilling).Система состоит из трех основных параллельных процессов.
Процесс А: Обновление документа (Write Thread)
Tokenspace Repository (в FIFOArray), за пределами текущего Accessible Range. Обновить индекс.Synchronization Lock.EndRepositoryPos) Accessible Range так, чтобы включить V2.Synchronization Lock. (Шаги 4-5 выполняются очень быстро).DeleteItems) для текущей Epoch.Процесс Б: Выполнение запроса (Query Thread)
Synchronization Lock.Accessible Range для использования этим запросом.ThreadCount) для текущей Epoch в Garbage Collection List.Synchronization Lock.Accessible Range. Изменения в репозитории игнорируются.Synchronization Lock.ThreadCount для соответствующей Epoch.Synchronization Lock.Процесс В: Сборка мусора (Garbage Collection)
ThreadCount для всех активных Epochs.ThreadCount достиг нуля (при условии, что все предыдущие Эпохи также завершены).DeleteItems), которые были инвалидированы в этих завершенных Эпохах, и освободить память.Патент фокусируется исключительно на механизмах хранения и управления доступом, а не на анализе контента или ранжировании.
GTokenIDs). Содержание токенов не имеет значения для этого алгоритма.Accessible Range (Начальная и конечная позиции).Synchronization Lock (Состояние блокировки).Epoch (Текущий идентификатор эпохи).ThreadCount (Счетчики активных потоков).GDocID, LDocID).Никакие SEO-специфичные факторы (ссылочные, поведенческие, технические, временные и т.д.) в данном патенте не упоминаются и не используются.
BeginRepositoryPos и EndRepositoryPos. Изменяется потоком записи для включения новых данных и сборщиком мусора для исключения удаленных данных.ThreadCount достигает предопределенного значения (обычно 0), и все предыдущие Эпохи также завершены.Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO.
Accessible Range гарантирует, что любой запрос видит согласованный снимок индекса на момент своего запуска, даже если индекс обновляется параллельно.Epochs и счетчиками потоков (ThreadCount). Это гарантирует, что данные не будут удалены физически, пока они используются хотя бы одним активным запросом.Treadmilling используется для борьбы с фрагментацией хранилища (FIFOArray) и эффективного освобождения памяти.ВАЖНО: Патент является инфраструктурным и не дает прямых практических выводов или рекомендаций для SEO-специалистов по оптимизации контента или сайтов.
Crawl Budget), чтобы обновления оперативно попадали в индекс.Стратегическое значение патента заключается в понимании возможностей инфраструктуры Google. Он подтверждает, что Google ставит в приоритет скорость, доступность и свежесть данных. Это означает, что задержки в обновлении поисковой выдачи чаще связаны с приоритетами сканирования (Crawling) и временем на переоценку сигналов ранжирования (Ranking), а не с техническими ограничениями на скорость записи данных в индекс (Indexing).
Практических примеров для SEO нет, так как патент описывает внутреннюю инфраструктуру управления репозиторием и параллельными запросами.
Описывает ли этот патент какие-либо факторы ранжирования?
Нет. Патент полностью посвящен инфраструктуре хранения данных, управлению параллельным доступом и обновлению индекса. В нем не упоминаются никакие сигналы, которые могли бы использоваться для оценки релевантности или качества документов.
Означает ли этот патент, что Google индексирует контент в реальном времени?
Патент описывает инфраструктуру, которая делает индексацию в почти реальном времени возможной. Он устраняет технический барьер, связанный с блокировкой базы данных во время обновлений. Благодаря этому механизму, как только контент обработан, он может быть добавлен в основной репозиторий с минимальной задержкой и сразу стать доступным для поиска.
Что такое «Accessible Range» (Доступный диапазон)?
Это часть репозитория, видимая для поисковых запросов. Когда запрос стартует, он фиксирует текущий Accessible Range и использует его на протяжении всего времени выполнения. Это гарантирует, что запрос видит согласованный снимок индекса, даже если он обновляется параллельно.
Что такое «Эпоха» (Epoch) в контексте этого патента?
Эпоха — это механизм для безопасной сборки мусора. Это период времени, в течение которого система отслеживает, какие запросы активны. Устаревшие данные нельзя удалять, пока не завершатся все запросы той эпохи, в которой эти данные были актуальны или были помечены для удаления.
Исчезает ли старая версия страницы мгновенно, когда индексируется новая?
Нет. Согласно патенту, обе версии кратковременно сосуществуют. Старая версия помечается как недействительная, но остается доступной для тех запросов, которые уже начали выполняться. Она удаляется только после того, как все эти запросы завершатся.
Что такое «Treadmilling» («Беговая дорожка»)?
Это метод для освобождения места в хранилище типа FIFO (FIFOArray). Поскольку данные могут удаляться только с начала массива, система периодически копирует актуальные данные с начала в конец. Это позволяет «сдвигать» массив и освободить непрерывные блоки памяти в начале, занятые устаревшими данными.
Связан ли этот патент с обновлением Google Caffeine?
Да, концептуально он тесно связан. Обновление Caffeine (около 2010 года) было направлено на переход от пакетной обработки к непрерывному обновлению индекса. Механизмы, описанные в этом патенте (поданном в 2006), предоставляют техническую основу для реализации такой непрерывной и быстрой индексации.
Как эта система минимизирует использование блокировок (locking)?
Вместо блокировки всего индекса во время обновления или запроса, блокировки используются только на очень короткое время для атомарного обновления метаданных (указателя Accessible Range и счетчиков ThreadCount). Сами процессы записи данных и выполнения долгих поисковых запросов происходят без удержания глобальной блокировки.
Какова практическая польза этого патента для SEO-специалиста?
Прямой пользы для тактического SEO нет. Патент полезен для общего понимания того, как работает инфраструктура Google. Он подчеркивает, что Google инвестирует значительные ресурсы в обеспечение свежести данных и скорости работы, что косвенно подтверждает важность актуального контента и хорошей технической оптимизации для быстрой индексации.
Авторы патента — Джеффри Дин и Майкл Берроуз. О чем это говорит?
Это говорит о высокой значимости изобретения для инфраструктуры Google. Это ключевые инженеры Google, ответственные за разработку фундаментальных технологий хранения и обработки данных (например, BigTable, MapReduce). Их участие указывает на то, что описанные механизмы лежат в основе критически важных систем компании.

Индексация
Свежесть контента

Свежесть контента
Индексация
Техническое SEO

Индексация
Свежесть контента
Мультимедиа

Индексация
Техническое SEO
Свежесть контента

Индексация
Безопасный поиск
Свежесть контента

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
Антиспам

Персонализация
Ссылки

Семантика и интент
Персонализация
SERP

Local SEO
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
SERP
Ссылки

Поведенческие сигналы
Семантика и интент
Мультимедиа
