Как Google оптимизирует индекс для эффективного поиска по подстрокам и запросам с подстановочными знаками (wildcards)

IDENTIFYING RESULTS THROUGH SUBSTRING SEARCHING (Идентификация результатов посредством поиска по подстрокам)

US8296279B1
Google LLC
2008-06-03
2012-10-23

Индексация

Google использует специализированную структуру индекса для быстрого поиска по частям слов (подстрокам) и запросам с подстановочными знаками (*, ?). Индекс хранит не только слова, но и их подстроки, связанные с включающими их строками (Inclusive Strings). Это позволяет системе быстро находить все релевантные совпадения без полного сканирования базы данных, оптимизируя вычислительные ресурсы.

Какую проблему решает

Патент решает проблему вычислительной сложности и низкой эффективности при обработке поисковых запросов, требующих поиска по подстрокам (substring searching) или содержащих подстановочные знаки (wildcard characters, например, '*' и '?'). Традиционные системы вынуждены сравнивать такой запрос со всеми записями в базе данных, что крайне ресурсоемко в масштабах веба. Изобретение направлено на ускорение поиска частичных совпадений без полного сканирования индекса.

Что запатентовано

Запатентована специализированная структура данных (индекс) и метод её использования для ускорения поиска. Индекс хранит не только полные слова, но и их подстроки (substrings). Ключевой особенностью является хранение связей между подстроками и строками, которые их включают (Inclusive Strings). Это позволяет быстро извлекать потенциальные совпадения, минуя необходимость полного перебора всех записей.

Как это работает

Система работает в двух режимах:

Индексирование: Слова разбиваются на подстроки (длина которых может ограничиваться переменной K для контроля размера индекса). Для каждой подстроки сохраняются указатели на Inclusive Strings.
Поиск: Запрос с wildcards (например, "ab?cd") разбивается на части (sub-patterns, например, "ab" и "cd"). Система выбирает наиболее селективный sub-pattern (тот, который встречается в наименьшем количестве Inclusive Strings). Затем извлекаются только эти кандидаты, и проверяется их соответствие полному шаблону запроса, что значительно сокращает объем вычислений.

Актуальность для SEO

Средняя. Базовые принципы эффективного извлечения данных (Information Retrieval) всегда актуальны. Однако этот патент (подача 2008 г.) описывает классический алгоритмический подход к структуре индекса. В современном веб-поиске доминируют семантические и векторные методы. Тем не менее, описанные принципы могут оставаться частью базовой инфраструктуры для задач, требующих точного сопоставления шаблонов (например, операторы поиска или специализированные вертикали).

Важность для SEO

Минимальное (1/10). Патент является чисто инфраструктурным и описывает внутренние процессы Google, направленные на повышение эффективности и скорости извлечения данных (Retrieval), а не ранжирования (Ranking). Он не вводит новых факторов ранжирования, сигналов качества или методов оценки релевантности. Для SEO-специалистов он не несет прямой практической ценности и не требует изменений в стратегии продвижения.

Термины и определения

Inclusive String (Включающая строка): Строка в индексе, которая содержит определенную подстроку плюс как минимум один дополнительный символ. Например, для подстроки 'y' включающими строками могут быть 'xy' и 'yz'. Это механизм навигации в индексе от коротких строк к более длинным.
Index Table / Indexed Tree (Индексная таблица / Индексированное дерево): Специализированная структура данных, используемая для хранения слов, их подстрок, соответствующих им Inclusive Strings и Word Objects.
K Variable (Переменная K): Настраиваемый параметр, ограничивающий максимальную длину подстрок, сохраняемых в индексе. Используется для управления размером индекса.
Pattern Divider (Разделитель шаблонов): Компонент поискового сервера, который разбивает поисковый термин с подстановочными знаками на под-паттерны, используя подстановочные знаки как разделители.
Sub-pattern (Под-паттерн): Часть поискового термина, полученная после разделения. Например, в запросе 'ab*cd' под-паттернами будут 'ab' и 'cd'.
Sub-pattern Selector (Селектор под-паттернов): Компонент, который выбирает оптимальный под-паттерн для поиска. Выбирается тот, который имеет наименьшее количество связанных с ним Inclusive Strings в индексе (наиболее селективный).
Substring (Подстрока): Часть слова, хранящаяся в индексе. Например, 'xy' является подстрокой 'xyz'.
Wildcard Character (Подстановочный знак): Специальные символы в запросе, такие как '*' (любое количество символов) и '?' (один любой символ).
Word Object (Объект слова): Данные, связанные со строкой в индексе. Обычно идентифицируют местоположение контента (например, URL веб-страницы или адрес памяти), где встречается данная строка.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на структуре индекса и методе его использования для эффективного поиска.

Claim 1 (Независимый пункт): Определяет метод поиска с использованием специфического индекса. Ключевые требования к индексу:

Наличие одной или нескольких подстрок (substrings) слова.
Наличие одной или нескольких включающих строк (inclusive strings), соответствующих подстрокам (подстрока + минимум 1 символ).
Наличие двух или более объектов слова (word objects), идентифицирующих контент (например, локацию веб-страницы), где встречается подстрока.

Ядром изобретения является структура индекса, связывающая подстроки с включающими строками для эффективного поиска.

Claim 3 (Зависимый от 1): Вводит механизм оптимизации размера индекса.

Система использует числовую переменную K. Индекс генерируется так, что индексируемые подстроки не превышают по длине значение K. Это позволяет контролировать объем хранимых данных.

Claim 6 (Зависимый от 5, который зависит от 1): Описывает обработку запросов с подстановочными знаками.

Если поисковый терм содержит wildcard character, он разделяется на два или более под-паттерна (sub-patterns).

Claim 17 (Зависимый от 16, в другом независимом дереве Claim 10): Определяет ключевой механизм оптимизации поиска.

Из набора под-паттернов система идентифицирует тот, который идентичен подстроке в индексе, имеющей наименьшее количество ассоциированных включающих строк (least number of associated inclusive strings). Это позволяет начать поиск с наиболее селективной части запроса, минимизируя количество кандидатов для проверки.

Где и как применяется

Изобретение является инфраструктурным и затрагивает базовые этапы работы поисковой системы.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Компонент Indexer обрабатывает собранные слова (из Word List Files) и строит специализированную структуру данных (Index Table или Indexed Tree). Это включает генерацию подстрок (с учетом переменной K), определение Inclusive Strings и сохранение Word Objects.

RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Механизм используется на самом первом этапе ранжирования — быстром отборе кандидатов. Компоненты Search Server (Pattern Divider, Sub-pattern Selector, Word List Generator, Pattern Verifier) используют индекс для эффективного поиска совпадений по подстрокам и wildcards.

Входные данные (Индексирование):

Списки слов и их локации (URL).
Переменная K.

Выходные данные (Индексирование):

Индекс (Indexed Tables/Indexed Tree) с подстроками и включающими строками.

Входные данные (Поиск):

Поисковый запрос (возможно, с wildcards).
Индекс.

Выходные данные (Поиск):

Список Word Objects (локаций), удовлетворяющих запросу.

На что влияет

Типы запросов: Влияет на производительность обработки запросов, где требуется поиск по части слова (substring matching) или используются операторы подстановки (*, ?).
Эффективность системы: Основное влияние — снижение вычислительной нагрузки на поисковую систему при обработке сложных запросов за счет сокращения пространства поиска.
Контент и Ниши: Не имеет специфики по типам контента или тематикам. Это базовый механизм индексирования текста.

Когда применяется

Триггеры активации (Индексирование): При обработке нового или обновленного контента.
Триггеры активации (Поиск): Алгоритм поиска активируется при получении запроса. Специфическая логика (разделение на sub-patterns) применяется, когда запрос содержит подстановочные знаки или когда выполняется поиск по подстроке.

Пошаговый алгоритм

Процесс А: Индексирование (Выполняется Indexer)

Идентификация слова и локации: Система получает слово и его локацию (Word Object, например, URL).
Проверка/Обновление индекса: Проверяется, существует ли индексная таблица для слова. Если нет, она создается. Если да, обновляется Word Object.
Идентификация переменной K: Определяется максимальная длина индексируемых подстрок.
Генерация подстрок: Идентифицируются подстроки слова. Если длина слова больше K, идентифицируются только подстроки длиной K или меньше.
Определение включающих строк: Для каждой подстроки определяются её Inclusive Strings.
Популяция индекса: Индексная таблица заполняется подстроками, соответствующими им Inclusive Strings и Word Objects.

Процесс Б: Обработка поискового запроса (Выполняется Search Server)

Получение запроса: Система получает запрос с одним или несколькими терминами.
Разделение на под-паттерны: Если термин содержит wildcards, Pattern Divider разделяет его на sub-patterns и генерирует массив.
Выбор оптимального под-паттерна: Sub-pattern Selector идентифицирует sub-pattern, который соответствует подстроке в индексе с наименьшим количеством Inclusive Strings (наиболее селективный).
Сравнение с индексом: Word List Generator сравнивает выбранный sub-pattern с индексными таблицами.
Извлечение включающих строк: Идентифицируются и добавляются в список слов все Inclusive Strings, соответствующие выбранному sub-pattern.
Верификация паттерна: Pattern Verifier сравнивает слова из списка с полным исходным поисковым термином (включая wildcards), чтобы определить, удовлетворяют ли они ему.
Генерация результатов: Если поисковых терминов несколько, определяется пересечение (intersection) или объединение (union) Word Objects для всех терминов. Финальный список предоставляется пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре и не использует стандартные SEO-факторы (ссылочные, поведенческие и т.д.).

Контентные факторы: Используются сами слова (строки символов), извлеченные из контента, которые разбиваются на substrings.
Технические факторы: Используются локации (например, URL или идентификаторы в базе данных), где эти слова встречаются (Word Objects).

Какие метрики используются и как они считаются

Переменная K: Пороговое значение, определяющее максимальную длину индексируемой подстроки. Устанавливается администратором для контроля размера индекса.
Количество включающих строк (Number of Inclusive Strings): Метрика, рассчитываемая для каждой подстроки в индексе. Используется компонентом Sub-pattern Selector для выбора наиболее эффективного (с наименьшим значением метрики) sub-pattern при обработке запроса.

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO.

Патент чисто инфраструктурный: Он описывает техническое решение для оптимизации скорости и снижения вычислительной нагрузки при обработке специфических типов запросов (подстроки, wildcards).
Цель — эффективность Retrieval: Ключевая задача — избежать полного сканирования индекса. Это достигается за счет хранения подстрок и их связей с включающими строками (Inclusive Strings).
Оптимизация обработки Wildcards: Система оптимизирует поиск, выбирая наиболее селективный (редкий) фрагмент запроса (sub-pattern с наименьшим количеством Inclusive Strings) для начала обработки.
Управление размером индекса: Переменная K позволяет балансировать между размером индекса и возможностями поиска по коротким подстрокам.
Отсутствие связи с ранжированием: Патент не содержит информации о расчете релевантности, качестве контента или формировании итогового рейтинга документа. Он решает только задачу быстрого нахождения совпадений.

Best practices (это мы делаем)

Патент является инфраструктурным и не дает практических выводов для SEO. Нет конкретных действий, которые SEO-специалист мог бы предпринять на основе этого патента для улучшения позиций сайта.

Единственный косвенный вывод: патент подтверждает, что Google детально индексирует текстовый контент. Обеспечение корректного написания терминов, артикулов и технических названий важно для их базовой находимости (retrievability), особенно при точном поиске.

Worst practices (это делать не надо)

Патент не описывает механизмов борьбы с манипуляциями или спамом. Нет практик, которые этот патент делал бы неэффективными или опасными.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент интересен с точки зрения понимания инфраструктуры поиска и того, как Google решает инженерные задачи по оптимизации скорости и нагрузки (L1 Retrieval). Он не влияет на долгосрочную SEO-стратегию, которая должна фокусироваться на качестве контента и E-E-A-T.

Практические примеры

Практических примеров применения в SEO нет, так как патент описывает внутреннюю оптимизацию поисковой системы. Однако можно привести пример работы механизма, как описано в патенте (FIG. 5):

Сценарий: Эффективный поиск с Wildcard

Индексация: Система проиндексировала слово «mukeshkumar». В индексе для подстроки «k» есть много Inclusive Strings, а для подстроки «mar» — только одна («umar»).
Запрос: Пользователь вводит запрос «k?mar».
Обработка: Система делит запрос на под-паттерны «k» и «mar».
Оптимизация: Sub-pattern Selector определяет, что у «mar» меньше Inclusive Strings в индексе, чем у «k».
Извлечение: Система начинает поиск с «mar», быстро находит его Inclusive Strings («umar») и слово-кандидат («mukeshkumar»).
Верификация: Pattern Verifier проверяет, удовлетворяет ли «mukeshkumar» исходному запросу «k?mar».
Результат: Совпадение найдено эффективно, без необходимости перебора всех слов, содержащих «k».

Влияет ли описанный в патенте механизм на ранжирование сайтов?

Нет, этот патент не влияет на ранжирование. Он описывает исключительно инфраструктурное решение для повышения скорости и эффективности извлечения данных из индекса (Retrieval), особенно при поиске по частям слов или с использованием wildcards. Он не вводит никаких сигналов качества или релевантности.

Что такое «Inclusive String» (Включающая строка) в контексте этого патента?

Inclusive String — это строка, которая содержит определенную подстроку плюс как минимум один дополнительный символ. Например, если в индексе есть слово "bicycle", то для подстроки "cycle" включающей строкой будет "bicycle". Хранение этих связей позволяет системе быстро находить полные слова по их частям, не сканируя весь индекс.

Что такое переменная 'K' и как она влияет на поиск?

Переменная 'K' — это параметр, который ограничивает максимальную длину подстрок, сохраняемых в индексе. Если K=4, то будут индексироваться только подстроки длиной 4 символа или меньше. Это позволяет контролировать размер индекса. Если пользователь ищет подстроку длиннее K, системе может потребоваться разбить запрос на более мелкие части для поиска.

Как система выбирает лучший «sub-pattern» при обработке запроса с wildcards?

Система выбирает sub-pattern (часть запроса), который соответствует подстроке в индексе с наименьшим количеством Inclusive Strings. Это означает, что выбирается наиболее редкая или специфичная часть запроса. Обработка начинается с неё, чтобы максимально сократить количество потенциальных результатов, требующих дальнейшей проверки.

Поможет ли этот патент моему сайту лучше ранжироваться по низкочастотным запросам?

Нет. Этот патент помогает Google быстрее находить страницы, где встречаются определенные последовательности символов. Он не помогает оценить, насколько хорошо страница отвечает на запрос. Ранжирование зависит от релевантности контента и алгоритмов оценки качества, а не от скорости извлечения текста из индекса.

Означает ли этот патент, что Google лучше понимает морфологию языка?

Нет. Этот патент описывает чисто механистический подход к обработке строк и подстрок. Он не связан с лингвистическим анализом, пониманием семантики, синонимов или морфологии языка. Это алгоритм для быстрого сопоставления символов.

Что такое «Word Object» в контексте этого патента?

Word Object — это идентификатор местоположения контента, где встречается слово или подстрока. В контексте веб-поиска это чаще всего URL документа. Когда система находит совпадение с запросом, она возвращает соответствующие Word Objects в качестве результатов поиска.

Актуален ли этот метод индексации в эпоху нейронных сетей и векторного поиска?

В современных поисковых системах доминируют семантические и векторные методы поиска. Однако классические методы индексирования, как описанный, всё ещё могут использоваться для задач, требующих точного совпадения текста (например, операторы поиска), или как часть гибридной системы извлечения данных (hybrid retrieval) для обеспечения полноты выдачи.

В чем основное преимущество этого метода для Google?

Основное преимущество — значительное ускорение поиска и снижение вычислительной нагрузки при обработке сложных запросов (с wildcards или по подстрокам). Это достигается за счет избегания полного сканирования индекса и сужения пространства поиска на раннем этапе.

Есть ли какие-либо рекомендации по написанию или структуре текста, основанные на этом патенте?

Нет. Поскольку патент касается низкоуровневой механики индексирования и извлечения текста, он не дает никаких инсайтов относительно того, какой контент является предпочтительным. SEO-специалистам следует руководствоваться стандартными рекомендациями по качеству и релевантности контента.

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз

Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.

US8856138B1
2014-10-07

Индексация

Как Google находит и предлагает более эффективные формулировки запросов через каноникализацию и оценку полезности

Google использует механизм для улучшения поисковых подсказок (Autocomplete). Система определяет запросы, которые имеют идентичную каноническую форму (тот же базовый интент после нормализации), но структурно отличаются от вводимого текста. Среди этих альтернатив выбираются те, которые исторически приводили к более высокой удовлетворенности пользователей (Query Utility Score), и предлагаются для повышения качества поиска.

US8868591B1
2014-10-21

Семантика и интент

Как Google оптимизирует сортировку данных в базах данных для поддержки множества языков

Патент Google, описывающий инфраструктурный метод повышения эффективности баз данных при сортировке одного и того же набора данных по правилам разных языков. Система создает вспомогательный индекс сортировки, генерируя ключи сортировки для всех поддерживаемых языков и устраняя дубликаты. Это позволяет ускорить запросы на сортировку (например, алфавитный порядок) в многоязычных приложениях.

US8682644B1
2014-03-25

Индексация
Мультиязычность

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса

Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.

US9454621B2
2016-09-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами

Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.

US20250209127A1
2025-06-26

SERP
Поведенческие сигналы
Семантика и интент

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)

Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.

US8510285B1
2013-08-13

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов

Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.

US8005716B1
2011-08-23

Поведенческие сигналы
Семантика и интент
Антиспам

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика

Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.

US7716225B1
2010-05-11

Ссылки
Поведенческие сигналы
SERP