
Google использует специализированную структуру индекса для быстрого поиска по частям слов (подстрокам) и запросам с подстановочными знаками (*, ?). Индекс хранит не только слова, но и их подстроки, связанные с включающими их строками (Inclusive Strings). Это позволяет системе быстро находить все релевантные совпадения без полного сканирования базы данных, оптимизируя вычислительные ресурсы.
Патент решает проблему вычислительной сложности и низкой эффективности при обработке поисковых запросов, требующих поиска по подстрокам (substring searching) или содержащих подстановочные знаки (wildcard characters, например, '*' и '?'). Традиционные системы вынуждены сравнивать такой запрос со всеми записями в базе данных, что крайне ресурсоемко в масштабах веба. Изобретение направлено на ускорение поиска частичных совпадений без полного сканирования индекса.
Запатентована специализированная структура данных (индекс) и метод её использования для ускорения поиска. Индекс хранит не только полные слова, но и их подстроки (substrings). Ключевой особенностью является хранение связей между подстроками и строками, которые их включают (Inclusive Strings). Это позволяет быстро извлекать потенциальные совпадения, минуя необходимость полного перебора всех записей.
Система работает в двух режимах:
K для контроля размера индекса). Для каждой подстроки сохраняются указатели на Inclusive Strings.sub-patterns, например, "ab" и "cd"). Система выбирает наиболее селективный sub-pattern (тот, который встречается в наименьшем количестве Inclusive Strings). Затем извлекаются только эти кандидаты, и проверяется их соответствие полному шаблону запроса, что значительно сокращает объем вычислений.Средняя. Базовые принципы эффективного извлечения данных (Information Retrieval) всегда актуальны. Однако этот патент (подача 2008 г.) описывает классический алгоритмический подход к структуре индекса. В современном веб-поиске доминируют семантические и векторные методы. Тем не менее, описанные принципы могут оставаться частью базовой инфраструктуры для задач, требующих точного сопоставления шаблонов (например, операторы поиска или специализированные вертикали).
Минимальное (1/10). Патент является чисто инфраструктурным и описывает внутренние процессы Google, направленные на повышение эффективности и скорости извлечения данных (Retrieval), а не ранжирования (Ranking). Он не вводит новых факторов ранжирования, сигналов качества или методов оценки релевантности. Для SEO-специалистов он не несет прямой практической ценности и не требует изменений в стратегии продвижения.
Inclusive Strings и Word Objects.Inclusive Strings в индексе (наиболее селективный).Патент фокусируется на структуре индекса и методе его использования для эффективного поиска.
Claim 1 (Независимый пункт): Определяет метод поиска с использованием специфического индекса. Ключевые требования к индексу:
substrings) слова.inclusive strings), соответствующих подстрокам (подстрока + минимум 1 символ).word objects), идентифицирующих контент (например, локацию веб-страницы), где встречается подстрока.Ядром изобретения является структура индекса, связывающая подстроки с включающими строками для эффективного поиска.
Claim 3 (Зависимый от 1): Вводит механизм оптимизации размера индекса.
Система использует числовую переменную K. Индекс генерируется так, что индексируемые подстроки не превышают по длине значение K. Это позволяет контролировать объем хранимых данных.
Claim 6 (Зависимый от 5, который зависит от 1): Описывает обработку запросов с подстановочными знаками.
Если поисковый терм содержит wildcard character, он разделяется на два или более под-паттерна (sub-patterns).
Claim 17 (Зависимый от 16, в другом независимом дереве Claim 10): Определяет ключевой механизм оптимизации поиска.
Из набора под-паттернов система идентифицирует тот, который идентичен подстроке в индексе, имеющей наименьшее количество ассоциированных включающих строк (least number of associated inclusive strings). Это позволяет начать поиск с наиболее селективной части запроса, минимизируя количество кандидатов для проверки.
Изобретение является инфраструктурным и затрагивает базовые этапы работы поисковой системы.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Компонент Indexer обрабатывает собранные слова (из Word List Files) и строит специализированную структуру данных (Index Table или Indexed Tree). Это включает генерацию подстрок (с учетом переменной K), определение Inclusive Strings и сохранение Word Objects.
RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Механизм используется на самом первом этапе ранжирования — быстром отборе кандидатов. Компоненты Search Server (Pattern Divider, Sub-pattern Selector, Word List Generator, Pattern Verifier) используют индекс для эффективного поиска совпадений по подстрокам и wildcards.
Входные данные (Индексирование):
Выходные данные (Индексирование):
Indexed Tables/Indexed Tree) с подстроками и включающими строками.Входные данные (Поиск):
Выходные данные (Поиск):
Word Objects (локаций), удовлетворяющих запросу.sub-patterns) применяется, когда запрос содержит подстановочные знаки или когда выполняется поиск по подстроке.Процесс А: Индексирование (Выполняется Indexer)
Word Object, например, URL).Word Object.Inclusive Strings.Inclusive Strings и Word Objects.Процесс Б: Обработка поискового запроса (Выполняется Search Server)
Pattern Divider разделяет его на sub-patterns и генерирует массив.Sub-pattern Selector идентифицирует sub-pattern, который соответствует подстроке в индексе с наименьшим количеством Inclusive Strings (наиболее селективный).Word List Generator сравнивает выбранный sub-pattern с индексными таблицами.Inclusive Strings, соответствующие выбранному sub-pattern.Pattern Verifier сравнивает слова из списка с полным исходным поисковым термином (включая wildcards), чтобы определить, удовлетворяют ли они ему.Word Objects для всех терминов. Финальный список предоставляется пользователю.Патент фокусируется на инфраструктуре и не использует стандартные SEO-факторы (ссылочные, поведенческие и т.д.).
substrings.Word Objects).Sub-pattern Selector для выбора наиболее эффективного (с наименьшим значением метрики) sub-pattern при обработке запроса.Патент описывает внутренние процессы Google без прямых рекомендаций для SEO.
Inclusive Strings).sub-pattern с наименьшим количеством Inclusive Strings) для начала обработки.K позволяет балансировать между размером индекса и возможностями поиска по коротким подстрокам.Патент является инфраструктурным и не дает практических выводов для SEO. Нет конкретных действий, которые SEO-специалист мог бы предпринять на основе этого патента для улучшения позиций сайта.
Единственный косвенный вывод: патент подтверждает, что Google детально индексирует текстовый контент. Обеспечение корректного написания терминов, артикулов и технических названий важно для их базовой находимости (retrievability), особенно при точном поиске.
Патент не описывает механизмов борьбы с манипуляциями или спамом. Нет практик, которые этот патент делал бы неэффективными или опасными.
Стратегическое значение для SEO минимально. Патент интересен с точки зрения понимания инфраструктуры поиска и того, как Google решает инженерные задачи по оптимизации скорости и нагрузки (L1 Retrieval). Он не влияет на долгосрочную SEO-стратегию, которая должна фокусироваться на качестве контента и E-E-A-T.
Практических примеров применения в SEO нет, так как патент описывает внутреннюю оптимизацию поисковой системы. Однако можно привести пример работы механизма, как описано в патенте (FIG. 5):
Сценарий: Эффективный поиск с Wildcard
Inclusive Strings, а для подстроки «mar» — только одна («umar»).Sub-pattern Selector определяет, что у «mar» меньше Inclusive Strings в индексе, чем у «k».Inclusive Strings («umar») и слово-кандидат («mukeshkumar»).Pattern Verifier проверяет, удовлетворяет ли «mukeshkumar» исходному запросу «k?mar».Влияет ли описанный в патенте механизм на ранжирование сайтов?
Нет, этот патент не влияет на ранжирование. Он описывает исключительно инфраструктурное решение для повышения скорости и эффективности извлечения данных из индекса (Retrieval), особенно при поиске по частям слов или с использованием wildcards. Он не вводит никаких сигналов качества или релевантности.
Что такое «Inclusive String» (Включающая строка) в контексте этого патента?
Inclusive String — это строка, которая содержит определенную подстроку плюс как минимум один дополнительный символ. Например, если в индексе есть слово "bicycle", то для подстроки "cycle" включающей строкой будет "bicycle". Хранение этих связей позволяет системе быстро находить полные слова по их частям, не сканируя весь индекс.
Что такое переменная 'K' и как она влияет на поиск?
Переменная 'K' — это параметр, который ограничивает максимальную длину подстрок, сохраняемых в индексе. Если K=4, то будут индексироваться только подстроки длиной 4 символа или меньше. Это позволяет контролировать размер индекса. Если пользователь ищет подстроку длиннее K, системе может потребоваться разбить запрос на более мелкие части для поиска.
Как система выбирает лучший «sub-pattern» при обработке запроса с wildcards?
Система выбирает sub-pattern (часть запроса), который соответствует подстроке в индексе с наименьшим количеством Inclusive Strings. Это означает, что выбирается наиболее редкая или специфичная часть запроса. Обработка начинается с неё, чтобы максимально сократить количество потенциальных результатов, требующих дальнейшей проверки.
Поможет ли этот патент моему сайту лучше ранжироваться по низкочастотным запросам?
Нет. Этот патент помогает Google быстрее находить страницы, где встречаются определенные последовательности символов. Он не помогает оценить, насколько хорошо страница отвечает на запрос. Ранжирование зависит от релевантности контента и алгоритмов оценки качества, а не от скорости извлечения текста из индекса.
Означает ли этот патент, что Google лучше понимает морфологию языка?
Нет. Этот патент описывает чисто механистический подход к обработке строк и подстрок. Он не связан с лингвистическим анализом, пониманием семантики, синонимов или морфологии языка. Это алгоритм для быстрого сопоставления символов.
Что такое «Word Object» в контексте этого патента?
Word Object — это идентификатор местоположения контента, где встречается слово или подстрока. В контексте веб-поиска это чаще всего URL документа. Когда система находит совпадение с запросом, она возвращает соответствующие Word Objects в качестве результатов поиска.
Актуален ли этот метод индексации в эпоху нейронных сетей и векторного поиска?
В современных поисковых системах доминируют семантические и векторные методы поиска. Однако классические методы индексирования, как описанный, всё ещё могут использоваться для задач, требующих точного совпадения текста (например, операторы поиска), или как часть гибридной системы извлечения данных (hybrid retrieval) для обеспечения полноты выдачи.
В чем основное преимущество этого метода для Google?
Основное преимущество — значительное ускорение поиска и снижение вычислительной нагрузки при обработке сложных запросов (с wildcards или по подстрокам). Это достигается за счет избегания полного сканирования индекса и сужения пространства поиска на раннем этапе.
Есть ли какие-либо рекомендации по написанию или структуре текста, основанные на этом патенте?
Нет. Поскольку патент касается низкоуровневой механики индексирования и извлечения текста, он не дает никаких инсайтов относительно того, какой контент является предпочтительным. SEO-специалистам следует руководствоваться стандартными рекомендациями по качеству и релевантности контента.

Индексация

Семантика и интент

Индексация
Мультиязычность

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
EEAT и качество

Семантика и интент
SERP
Поведенческие сигналы

Антиспам
Ссылки
Семантика и интент

SERP
Поведенческие сигналы
Семантика и интент

Индексация
SERP
Персонализация

Семантика и интент
Персонализация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Ссылки
Семантика и интент
SERP

Ссылки
Поведенческие сигналы
Антиспам

Поведенческие сигналы
Семантика и интент
Антиспам

Ссылки
Поведенческие сигналы
SERP
