
Патент описывает инфраструктурные оптимизации для поисковых систем, в частности, для поиска по исходному коду. Он включает два основных механизма: 1) Кэширование результатов для дорогих повторяющихся запросов с обновлением кэша в реальном времени во время индексации. 2) Высокоэффективное префильтрование запросов с регулярными выражениями (regex) с помощью суффиксных массивов и обратного обхода автоматов.
Патент решает проблему высокой задержки (latency) и значительных вычислительных затрат при обработке сложных запросов в больших корпусах данных (например, в репозиториях исходного кода). Конкретные проблемы включают:
regular expressions), особенно с операторами повторения. Патент критикует существующие методы (например, prefilter trees) как неэффективные.recurring queries).Запатентована система оптимизации обработки запросов, сочетающая два независимых механизма. Первый — это система динамического кэширования для дорогих повторяющихся запросов (High-Cost Recurring Queries), при которой кэш (Prepared Results) обновляется в процессе индексации, а не при выполнении запроса. Второй — это новый метод префильтрации для запросов с регулярными выражениями, использующий Suffix Array и обратный обход (backward traversal) автомата или дерева операторов для быстрого сокращения числа документов-кандидатов.
Система работает по двум направлениям:
Оптимизация дорогих запросов:
Prepared Results).Offline Query Processor), и кэш обновляется в реальном времени.Оптимизация регулярных выражений:
Automaton) или дерево операторов (Operator Tree).prepend для вычисления диапазонов в Suffix Array, соответствующих возможным совпадениям.Средняя. Описанные методы (кэширование, суффиксные массивы) являются стандартными подходами в информатике для оптимизации поиска и сопоставления с образцом. Хотя патент сфокусирован на поиске исходного кода, эти инфраструктурные оптимизации, вероятно, используются во внутренних инструментах Google или специализированных сервисах, где требуется обработка сложных паттернов. Однако актуальность для стандартного веб-поиска ограничена, так как он не поддерживает полнотекстовый поиск по регулярным выражениям для пользователей.
Влияние на SEO минимальное (1/10). Это инфраструктурный патент, направленный на повышение эффективности и скорости работы поисковой системы, а не на изменение принципов ранжирования, оценки качества или понимания контента. Он описывает, как Google решает внутренние инженерные задачи по снижению нагрузки и ускорению обработки специфических типов сложных запросов (регулярных выражений), которые не используются в стандартном веб-поиске.
Prepared Results во время индексации новых или измененных документов.High-Cost Recurring Query. В патенте подчеркивается, что эти результаты обновляются во время индексации.Патент содержит три основных независимых направления изобретения, связанных с оптимизацией регулярных выражений и обработкой дорогих запросов.
Claim 1 (Независимый пункт): Описывает метод префильтрации документов для запроса с регулярным выражением с использованием автомата.
automaton representation).traversing... from the termination nodes to the starting node) для определения диапазона суффиксного массива (suffix array range) для начального узла.Ядром является обратный обход автомата для вычисления диапазона в суффиксном массиве.
Claim 2 и 3 (Зависимые): Уточняют, что обратный обход использует операцию prepend для перемещения между узлами.
Claim 6 и 7 (Зависимые): Описывают обработку операторов повторения, которые создают циклы. Применяется «развертывание цикла» (unrolling the loop), что приводит к созданию нескольких конечных узлов. Развертывание может происходить динамически.
Claim 9 (Независимый пункт, Системный): Описывает систему, объединяющую оба направления.
prepared results для генерации выдачи.Claim 18 (Зависимый от 9): Ключевой аспект обновления кэша. При индексации документа система проверяет, соответствует ли он сохраненным дорогим запросам, и добавляет его в prepared results. Это происходит независимо от выполнения самого запроса (independently from execution of the particular query).
Claim 24 (Независимый пункт): Описывает альтернативный метод для регулярных выражений с использованием operator tree вместо автомата. Метод включает обход дочерних узлов в обратном порядке (traversing the child nodes in reverse order) для определения диапазона суффиксного массива корневого узла.
Изобретение затрагивает инфраструктурные компоненты поисковой системы, отвечающие за индексацию и обработку запросов.
INDEXING – Индексирование и извлечение признаков
Suffix Array для корпуса документов.Offline Query Processor взаимодействует с индексатором. Когда появляется новый или обновленный документ, этот процессор проверяет его на соответствие сохраненным High-Cost Queries и обновляет соответствующие Prepared Results (кэш).(Офлайн-процессы / Анализ данных)
Log Analyzer периодически анализирует Log Files для идентификации новых дорогих повторяющихся запросов и обновления списка High-Cost Queries на основе метрик выполнения.RANKING – Ранжирование (Этап Retrieval/Отбор Кандидатов)
Automaton Module.Suffix Array.RERANKING / METASEARCH – Переранжирование и Смешивание
Query Processor проверяет, соответствует ли входящий запрос одному из High-Cost Queries.Prepared Results.Blend the prepared results with the executed results).Source Code Searching). Также упоминаются другие большие корпусы, где поддерживаются регулярные выражения, например, репозитории ДНК или библиотечные коллекции. Влияние на стандартный веб-контент (статьи, товары) отсутствует, так как веб-поиск обычно не поддерживает полный поиск по Regex для пользователей.High-Cost Recurring Queries.Алгоритмы применяются при выполнении следующих условий:
High-Cost Queries.Процесс А: Обработка запроса в реальном времени
Prepared Results из хранилища.unrolling loops) для устранения обратных ребер (оптимизация).prepend для вычисления диапазонов в Suffix Array.Suffix Array для начального узла (префильтрация).Prepared Results смешиваются с результатами выполнения в реальном времени.Процесс Б: Управление кэшем (Офлайн и Индексация)
Log Analyzer анализирует логи, идентифицирует новые High-Cost Recurring Queries по порогам частоты и стоимости, и удаляет неактуальные. Инициализирует Prepared Results для новых запросов.Offline Query Processor проверяет его на соответствие всем сохраненным High-Cost Queries. При наличии совпадений соответствующие Prepared Results обновляются.Log Files: Журналы выполнения запросов. Используются для идентификации дорогих повторяющихся запросов. Содержат данные о времени выполнения, количестве обработанных документов, запросах на показ всех результатов.Document Corpus: Исходные данные для индексации.Suffix Array: Предварительно рассчитанная структура данных корпуса, используемая для оптимизации Regex.High Cost Queries: База данных параметров дорогих запросов.Prepared Results: Кэш результатов.Патент фокусируется на метриках производительности и эффективности:
prepend.Suffix Array между итерациями развертывания. Если уменьшение диапазона незначительно (например, менее 10% за несколько итераций), процесс останавливается для экономии ресурсов.Suffix Array состоит из слишком большого числа маленьких интервалов, система может объединять соседние интервалы, включая промежутки между ними (merging neighboring intervals), чтобы сократить общее число интервалов и ускорить обработку.prefilter trees) по эффективности и точности префильтрации.Prepared Results) непосредственно в процесс индексации является ключевой оптимизацией. Это позволяет поддерживать актуальность результатов для дорогих повторяющихся запросов без необходимости их повторного выполнения.Патент описывает внутренние процессы Google, связанные с инфраструктурой и обработкой специфических типов запросов (регулярных выражений), которые не поддерживаются в стандартном веб-поиске. Прямых рекомендаций для SEO-специалистов, работающих над продвижением веб-сайтов, данный патент не дает.
Патент не описывает механизмов борьбы с SEO-манипуляциями или оценки качества контента. Следовательно, он не выделяет каких-либо SEO-тактик как неэффективных или опасных.
Стратегическое значение патента для SEO минимально. Однако он дает представление о высоком уровне инженерных компетенций Google в области создания эффективной поисковой инфраструктуры, способной обрабатывать экстремальные нагрузки и сложные типы запросов (сопоставление с образцом в больших масштабах). Это подтверждает, что Google уделяет значительное внимание снижению задержек (latency) и оптимизации вычислительных ресурсов.
Практических примеров применения данного патента в работе SEO-специалиста нет, так как стандартные задачи SEO не связаны с оптимизацией под запросы, использующие регулярные выражения, или с механизмами внутреннего кэширования Google.
Означает ли этот патент, что Google поддерживает поиск по регулярным выражениям в веб-поиске?
Нет. Патент явно указывает, что он предназначен для «более эффективного поиска по исходному коду» (Source Code Searching) и других специализированных корпусов. В патенте отмечается, что большинство веб-поисковиков не поддерживают полный поиск по регулярным выражениям из-за его высокой вычислительной стоимости.
Что такое суффиксный массив (Suffix Array) и почему он важен?
Suffix Array — это структура данных, которая хранит все возможные суффиксы (окончания) текста в отсортированном порядке. Это позволяет системе очень быстро находить все вхождения определенной подстроки или паттерна в огромном корпусе документов. В контексте патента он используется для радикального ускорения поиска по регулярным выражениям.
Что такое «дорогой повторяющийся запрос» (High-Cost Recurring Query)?
Это запрос, который пользователи задают часто и который требует от поисковой системы значительных ресурсов для ответа. Критериями дороговизны могут быть долгое время выполнения, необходимость анализа большого процента документов в индексе или ситуация, когда пользователь запрашивает абсолютно все результаты, а не только Топ-10.
Как Google поддерживает актуальность кэшированных результатов согласно патенту?
Патент описывает механизм «живого» кэширования. Вместо того чтобы пересчитывать кэш по расписанию или при запросе, система обновляет его непосредственно во время индексации. Когда новый документ добавляется в индекс, Offline Query Processor сразу проверяет, соответствует ли он какому-либо из сохраненных дорогих запросов, и обновляет кэш (Prepared Results).
Влияет ли этот патент на ранжирование моего сайта?
Нет. Этот патент не описывает сигналы ранжирования, алгоритмы оценки качества или методы понимания контента. Он посвящен исключительно инфраструктурной эффективности — как быстрее обрабатывать сложные запросы и снижать нагрузку на серверы.
Где Google может использовать эту технологию поиска по регулярным выражениям?
Хотя патент сфокусирован на поиске исходного кода, подобные технологии эффективного сопоставления с образцом могут использоваться во внутренних инструментах Google, в аналитических сервисах (например, BigQuery) или специализированных базах данных. Патент также упоминает репозитории ДНК и библиотечные коллекции как возможные области применения.
В чем основная инновация патента по обработке Regex?
Основная инновация заключается в использовании обратного обхода (Backward Traversal) автомата или дерева операторов. Вместо того чтобы двигаться от начала паттерна к концу, система движется от конца к началу, используя операцию prepend для эффективного вычисления диапазонов в Suffix Array. Это значительно ускоряет префильтрацию.
Что означает «развертывание цикла» (unrolling the loop) в автомате?
Регулярные выражения часто содержат операторы повторения (например, * или +), которые создают циклы в автомате. Поскольку обратный обход плохо работает с циклами, система «развертывает» их, заменяя цикл несколькими последовательными состояниями. Это позволяет точнее рассчитать диапазон в суффиксном массиве.
Связан ли этот патент со скоростью сайта как фактором ранжирования?
Нет. Этот патент связан со скоростью внутреннего процессинга запросов самим Google (снижение задержки ответа поисковой системы), а не со скоростью загрузки внешних веб-сайтов.
Что патент говорит о Prefilter Trees?
Патент позиционирует Prefilter Trees как существующий, но неэффективный метод обработки Regex. Утверждается, что они могут терять информацию о порядке операторов, игнорировать некоторые операторы (типа ? и *) и могут разрастаться экспоненциально, создавая узкие места в производительности. Предложенный метод с Suffix Array призван решить эти проблемы.

Индексация

Поведенческие сигналы
Семантика и интент
EEAT и качество

Семантика и интент

Свежесть контента
Индексация
Техническое SEO

SERP

Поведенческие сигналы
SERP

SERP
EEAT и качество
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
EEAT и качество
Поведенческие сигналы

Ссылки
Семантика и интент
Техническое SEO

Local SEO
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Local SEO
Поведенческие сигналы

Мультиязычность
Поведенческие сигналы
Персонализация

Local SEO
Поведенческие сигналы
Семантика и интент
