
Патент Google описывает фундаментальные методы улучшения поиска путем учета лингвистических вариаций. Система автоматически расширяет запросы или индекс, добавляя словоформы (склонения, спряжения), альтернативные написания (орфографические варианты) и различные формы составных слов (слитно, раздельно, через дефис). Это гарантирует, что релевантные документы будут найдены независимо от конкретной формы слова, использованной в запросе или тексте.
Патент решает фундаментальную проблему систем информационного поиска: пропуск релевантных документов, которые не содержат точных терминов, указанных в запросе, но содержат их лингвистические варианты. Стандартные системы могут игнорировать документы с другими словоформами (например, множественное число вместо единственного), альтернативными написаниями или разными формами составных слов (например, с дефисом или без). Изобретение улучшает полноту поиска (Recall), автоматически учитывая эти вариации.
Запатентована система улучшения качества поиска путем автоматического учета лингвистических вариаций: compound words (составные слова), inflectional forms (словоформы) и orthographic variations (орфографические варианты). Система может применять эти данные двумя основными способами: путем расширения запроса пользователя (Query Expansion) перед поиском или путем расширения индекса (Index Expansion) во время индексации документов.
Система использует три ключевых лингвистических метода:
Данные о вариациях собираются заранее путем анализа корпуса документов или использования внешних ресурсов (словарей, лингвистических анализаторов). При выполнении поиска система либо модифицирует запрос, добавляя все варианты через логическое OR (Query Expansion), либо ищет исходный запрос по индексу, в который уже включены все варианты (Index Expansion). При расширении запроса исходным терминам может присваиваться больший вес.
Высокая. Патент описывает фундаментальные процессы обработки естественного языка (NLP) в поиске, такие как нормализация и лемматизация. Хотя конкретные методы реализации, описанные в патенте (основанные на правилах и словарях), сегодня дополнены или заменены более сложными нейросетевыми подходами (например, векторными представлениями), сама задача учета лингвистических вариаций остается центральной для этапов INDEXING и QUNDERSTANDING.
Влияние на понимание базовых принципов поиска – критическое (8.5/10). Патент объясняет механизм, благодаря которому Google способен понимать разные формы слов как эквивалентные. Для SEO это означает снижение необходимости оптимизации контента под каждую конкретную словоформу или вариант написания. Это подчеркивает важность семантического соответствия интенту, а не механического точного вхождения ключевых слов.
Claim 1 (Независимый пункт): Описывает основной метод расширения запроса (Query Expansion).
Claim 11 (Независимый пункт): Описывает альтернативный метод расширения индекса (Index Expansion).
Claim 14 (Независимый пункт): Описывает офлайн-метод генерации списка составных слов.
Claim 18 (Зависимый от 14): Описывает применение списка составных слов для дефисации (удаления переносов) при индексировании.
de-hyphenating).Изобретение является фундаментальной частью лингвистической обработки и затрагивает два ключевых этапа поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходят как офлайн, так и онлайн процессы:
Corpus документов или использует внешние ресурсы (словари, Word form analyzer) для генерации баз данных составных слов, словоформ и орфографических вариантов.Index Expansion, то при индексации документа система не только извлекает имеющиеся термины, но и генерирует все их лингвистические варианты и добавляет их в индекс, ассоциируя с данным документом. Также на этом этапе применяется механизм дефисации (Claim 18) для улучшения точности индексации, особенно для форматов PDF/PS.QUNDERSTANDING – Понимание Запросов
Query Expansion, система получает запрос пользователя, идентифицирует термины и использует предварительно сгенерированные базы данных для расширения запроса. Исходный термин заменяется дизъюнкцией (логическим OR) всех его вариантов. В патенте упоминается возможность присвоения разных весов: исходным терминам — выше, а добавленным вариантам — ниже. Расширенный запрос передается на этап RANKING.RANKING – Ранжирование
На этом этапе система выполняет поиск, используя либо расширенный запрос (из QUNDERSTANDING), либо стандартный запрос, но по расширенному индексу (из INDEXING).
Алгоритм применяется постоянно. Это не специализированный алгоритм для особых случаев, а базовая функциональность обработки естественного языка, применяемая к большинству документов во время индексации и/или к большинству запросов во время их обработки.
Алгоритм состоит из офлайн-подготовки и онлайн-обработки (которая может быть реализована через Query Expansion или Index Expansion).
Процесс А: Предварительная подготовка (Офлайн)
Пример для составных слов:
hyphenated words.non-hyphenated версий этих же слов.Пример для словоформ:
Word form analyzer для получения соответствий «словоформа -> корень».Процесс Б: Обработка запроса (Query Expansion)
Процесс В: Обработка индекса (Index Expansion)
Word form analyzer (лингвистического анализатора).predefined frequency).Query Expansion. Исходным терминам запроса может присваиваться более высокий вес, а добавленным вариантам — более низкий, для поддержания точности поиска.Word form analyzer для морфологического анализа и получения соответствий между инфлективными формами и корнями слов (word-root mappings).Query Expansion и Index Expansion. Это позволяет системе выбирать наиболее эффективный метод для конкретного языка или типа данных.E-E-A-T).Этот патент подтверждает давний и последовательный приоритет Google на понимание естественного языка, а не простое сопоставление текста. Описанные методы являются фундаментом для перехода от лексического поиска к семантическому. Для долгосрочной SEO-стратегии это означает, что инвестиции должны направляться на создание качественного контента, отвечающего на интент пользователя, а не на манипуляции с плотностью и формой ключевых слов.
Сценарий: Оптимизация статьи о покупке автомобиля
Inflectional forms expansion. Слово «автомобиль» расширяется до (автомобиль OR автомобиля OR автомобилю...). Слово «купить» расширяется до (купить OR покупка...).Нужно ли мне использовать все склонения и спряжения ключевого слова в тексте для лучшего ранжирования?
Нет, это не требуется и может быть расценено как переоптимизация (Keyword Stuffing). Благодаря механизмам обработки Inflectional forms, описанным в патенте, Google автоматически понимает различные грамматические формы одного и того же слова. Сосредоточьтесь на естественности языка и семантическом раскрытии темы.
Влияет ли использование дефиса в составных словах (например, «интернет-магазин» против «интернет магазин») на ранжирование?
Патент описывает механизм обработки Compound words, который специально предназначен для учета различных вариантов написания (слитно, раздельно, через дефис). Система стремится интерпретировать эти варианты как эквивалентные. Рекомендуется использовать написание, соответствующее современным правилам языка, но различия в дефисации не должны критически влиять на ранжирование.
Что такое «расширение индекса» (Index Expansion) и как оно отличается от «расширения запроса» (Query Expansion)?
При Query Expansion система модифицирует запрос пользователя на лету, добавляя варианты слов, и ищет по стандартному индексу. При Index Expansion система заранее, во время индексации документа, добавляет все варианты слов в сам индекс. В этом случае запрос пользователя не меняется, но поиск ведется по обогащенному индексу. Оба метода достигают одной цели, но на разных этапах.
Как Google генерирует список словоформ и вариантов написания?
Патент предлагает несколько методов. Для словоформ используется Word form analyzer (лингвистический анализатор) или словари. Для составных слов анализируется большой корпус документов (Corpus) для выявления часто встречающихся пар (например, с дефисом и без). Для орфографических вариантов используются внешние данные (например, правила орфографических реформ) или словари.
Заменили ли современные нейронные сети (BERT, MUM) этот механизм?
Современные нейронные сети не столько заменили, сколько усовершенствовали этот механизм. Модели типа BERT и MUM понимают контекст и семантическую близость слов на гораздо более глубоком уровне, чем методы, основанные на словарях и правилах. Однако базовая лингвистическая обработка (нормализация, лемматизация) по-прежнему является важной частью NLP-конвейера.
Как этот патент влияет на сбор семантического ядра?
Он упрощает сбор ядра, позволяя группировать запросы, отличающиеся только словоформами или написанием, в единый кластер. Не нужно собирать все возможные морфологические варианты ключа. Важнее сосредоточиться на сборе LSI-терминов и синонимов, которые раскрывают тему шире.
Что такое дефисация при индексировании, упомянутая в патенте (Claim 18)?
Это процесс удаления дефисов, которые возникли из-за переноса строки в исходном документе (особенно часто в PDF-файлах). Система проверяет, является ли слово с дефисом известным составным словом. Если нет, она предполагает, что это перенос, удаляет дефис и индексирует слово слитно, что повышает точность индекса.
Может ли расширение запроса привести к снижению точности поиска?
Да, это потенциальный риск. Механическое добавление вариантов может привести к включению нерелевантных результатов (например, если словоформа является омонимом). Патент упоминает решение этой проблемы: присвоение разных весов (weightings). Исходным терминам запроса дается больший вес, чем добавленным вариантам, что помогает сохранить точность.
Применяются ли эти методы к русскому языку?
Да, безусловно. Русский язык обладает богатой морфологией (большое количество Inflectional forms) и особенностями в образовании составных слов. Для эффективного поиска на русском языке применение подобных лингвистических механизмов является критически важным.
Упоминается ли в патенте обработка синонимов?
Патент фокусируется строго на словоформах, составных словах и орфографических вариантах. Хотя в тексте упоминается, что эти техники могут применяться в комбинации с другими, такими как "расширение синонимами" (synonym expansion), сам механизм работы с синонимами в данном патенте не описывается и не является предметом изобретения.

Индексация

Мультиязычность
Семантика и интент

SERP
Поведенческие сигналы
EEAT и качество

Мультиязычность
Семантика и интент
Индексация

Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Антиспам
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Мультиязычность
Персонализация

Персонализация
EEAT и качество
Поведенческие сигналы

Ссылки
Индексация
Техническое SEO

EEAT и качество
SERP
Knowledge Graph

Поведенческие сигналы
SERP
