Как Google нормализует словоформы при индексировании, используя стемминг и «Репрезентативные Токены»

Google оптимизирует поиск, обрабатывая морфологические варианты слов на этапе индексирования. Система определяет основу слова (стемму) и находит ее наиболее частотную форму в интернете («Репрезентативный Токен»). Этот токен добавляется в индекс вместе с исходным словом. Это позволяет находить релевантные документы независимо от словоформы, но при ранжировании отдается явное предпочтение точным совпадениям.

Описание

Какую задачу решает

Патент решает проблему эффективной обработки морфологических вариантов слов (например, «car» vs «cars»). Традиционный подход расширения запроса (Query Expansion) синонимами и словоформами в реальном времени является вычислительно сложным и медленным. Изобретение направлено на повышение полноты поиска (Recall) и ускорение обработки запросов путем переноса генерации вариантов с этапа выполнения запроса на этап индексирования.

Что запатентовано

Запатентована система расширения индекса (index-side expansion) на основе стемминга. Суть в том, чтобы для каждого токена в документе определить его основу (стемму), найти канонический «Репрезентативный Токен» (Representative Token или Variant) — наиболее частотную словоформу этой основы в корпусе документов — и сохранить в индексе как исходный токен, так и этот вариант.

Как это работает

Система работает в двух фазах:

Индексирование: При обработке документа система применяет правила стемминга к токену (например, «voting» → стемма «vot»). Затем она определяет Representative Token для этой стеммы (например, «voting», если он самый частотный). В индекс записывается и исходное слово, и вариант, часто со специальной меткой (префиксом).
Обработка запроса: Когда поступает запрос, система определяет вариант для термина запроса и расширяет запрос (augments), включая оба. При ранжировании применяется дифференцированное взвешивание: точное совпадение с запросом получает больший вес, чем совпадение с вариантом.

Актуальность для SEO

Высокая. Хотя эта публикация является продолжением (continuation) заявок, датируемых 2010 годом, и современные нейросети (BERT, MUM) используют более сложные методы понимания языка, описанные концепции нормализации и стемминга остаются фундаментальными. Они критически важны для обеспечения скорости и полноты (Recall) на первом этапе отбора кандидатов (L1 Retrieval) в гибридных поисковых системах.

Важность для SEO

Умеренное влияние (6.5/10). Патент описывает инфраструктурный механизм обработки морфологии, а не сигналы качества. Он важен для понимания, почему нет необходимости оптимизировать текст под каждую словоформу (число, падеж). Однако он также подчеркивает критически важный момент (Claim 3): система использует дифференцированное взвешивание, отдавая явное предпочтение точным совпадениям запроса при ранжировании.

Детальный разбор

Термины и определения

Index Augmentation Module (Модуль дополнения индекса): Компонент системы индексирования, отвечающий за генерацию стемм и их вариантов для дополнения поискового индекса.
Prefix (Префикс): Специальный маркер (в примерах патента используется *sv*), добавляемый к варианту в индексе или запросе, чтобы идентифицировать его как stem-based variant. Используется для дифференциации от исходных токенов.
Query Modification Engine (Механизм модификации запросов): Компонент, который дополняет входящий запрос вариантами для сопоставления с дополненным индексом.
Representative Token (Репрезентативный токен): Конкретная словоформа, выбранная для представления группы слов с одинаковой стеммой. Согласно Claim 2, это наиболее часто встречающийся токен в этой группе в пределах корпуса документов. Синоним термина Variant.
Stemmed Form / Stem (Стемма, основа слова): Базовая форма токена, полученная путем применения правил стемминга. Стемма может не являться существующим словом (например, «vot» для «voting»).
Stemming Rules (Правила стемминга): Набор правил для приведения слова к его основе. Правила специфичны для языка.
Token (Токен): Строка символов, извлеченная из ресурса или запроса (обычно слово).
Variant / Stem-based Variant (Вариант): См. Representative Token.

Ключевые утверждения (Анализ Claims)

Данная публикация (US20240370443A1) является патентом-продолжением, и его Claims (1-20) сосредоточены на аспекте обработки запросов и ранжирования, которые возможны благодаря описанному механизму индексирования.

Claim 1 (Независимый пункт): Описывает процесс обработки поискового запроса.

Система получает запрос с токенами.
Генерируется стемма (stemmed form) для первого токена запроса с использованием stemming rules.
Получается Representative Token (вариант) для этой стеммы.
Запрос расширяется этим вариантом (Augmented Query).
Назначаются веса: первому (исходному) токену и варианту присваиваются РАЗНЫЕ веса (different weights).
Идентифицируются релевантные ресурсы с помощью индекса.
Ранжирование: на основе назначенных весов ресурсы, соответствующие точному первому токену, ранжируются ИНАЧЕ, чем ресурсы, соответствующие только варианту.

Claim 2 (Зависимый от 1): Уточняет, как выбирается Representative Token.

Он определяется как токен, который появляется наиболее часто (appears most frequently) в группе ресурсов среди всех токенов, имеющих ту же стемму.

Claim 3 (Зависимый от 1): Критическое уточнение ранжирования.

Ресурсы, соответствующие точному первому токену, ранжируются ВЫШЕ (ranked higher), чем ресурсы, соответствующие только варианту.

Claims 4 и 5 (Зависимые от 1): Указывают, что разница в весе между точным токеном и вариантом может зависеть от факторов запроса, например, от его длины.

Claim 8 и 9 (Зависимые): Детализируют механизм расширения запроса с использованием префикса (метки), идентифицирующего вариант.
Claim 8: Если токен и вариант различаются, запрос расширяется, включая и чистый вариант, и вариант с префиксом.
Claim 9: Если токен и вариант совпадают, запрос расширяется только вариантом с префиксом.

Где и как применяется

Изобретение затрагивает три ключевых этапа поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
Это основной этап для генерации вариантов. Indexing Engine и Index Augmentation Module обрабатывают контент.

Процесс: Извлечение токенов, применение Stemming Rules, идентификация Representative Token на основе статистики частотности слов в корпусе.
Выход: Запись в Index Database ассоциации документа как с исходным токеном, так и с его вариантом (часто с префиксом, например, *sv*variant).

QUNDERSTANDING – Понимание Запросов
На этом этапе Query Modification Engine модифицирует запрос.

Процесс: Запрос пользователя анализируется, определяются варианты его токенов. Запрос расширяется (Augmentation) с учетом логики префиксов (Claims 8 и 9).
Выход: Расширенный запрос (Augmented Query).

RANKING – Ранжирование
На этом этапе применяются веса.

Процесс: Разным компонентам расширенного запроса присваиваются разные веса (дифференцированное взвешивание). Ranking Engine использует эти веса при расчете Ranking Scores, предпочитая документы с точным совпадением.

На что влияет

Конкретные типы контента и запросы: Влияет на все типы текстового контента и большинство запросов (информационные, транзакционные), где присутствует морфологическая вариативность.
Языковые ограничения: Механизм зависит от качества Stemming Rules для конкретного языка. Он особенно важен для языков с богатой морфологией (например, русский, немецкий).

Когда применяется

При каких условиях работает алгоритм: Применяется постоянно в процессе индексирования для всех текстовых ресурсов.
Триггеры активации (во время поиска): Активируется при обработке большинства запросов. Однако в патенте упоминаются исключения, когда расширение запроса может не применяться:
- Если запрос состоит только из одного слова.
- Если ожидается достаточное количество результатов для исходного запроса (превышен порог).
- Если токен идентифицирован как имя сущности (Entity Name).
- Если токен слишком короткий (например, 1 символ).

Пошаговый алгоритм

Процесс А: Индексирование (Index-Side Generation)

Получение токенов: Система получает последовательность токенов для документа.
Стемминг: К токену (например, «puppies») применяются Stemming Rules для генерации стеммы (например, «puppi»).
Определение Варианта: Система получает Variant (Representative Token) для этой стеммы. Это наиболее частотная словоформа в корпусе (например, «puppy»).
Сравнение: Система проверяет, отличается ли исходный токен от варианта.
Сохранение в индексе:
- Документ ассоциируется с исходным токеном («puppies»).
- Если вариант отличается, документ также ассоциируется с вариантом. Вариант сохраняется со специальным префиксом (например, «*sv*puppy»). Если вариант совпадает, система может оптимизировать хранение, чтобы избежать дублирования.

Процесс Б: Обработка Запроса (Query-Side Processing)

Получение запроса: Система получает поисковый запрос.
Проверка условий (Опционально): Система проверяет, следует ли дополнять запрос (длина, количество результатов и т.д.).
Стемминг и Определение Варианта: Для токена в запросе определяется соответствующий вариант.
Расширение запроса (Query Augmentation): Система модифицирует запрос согласно Claims 8 и 9. Примеры из патента (предполагая, что «voting» это вариант для «vote»):
- Случай 1 (Токен отличается от Варианта): Запрос=»election vote». Расширение: election (vote OR voting OR *sv*voting).
- Случай 2 (Токен совпадает с Вариантом): Запрос=»election voting». Расширение: election (voting OR *sv*voting).
Назначение весов: Система присваивает веса. Исходным токенам запроса присваивается больший вес, чем добавленным вариантам.
Поиск и Ранжирование: Система ищет ресурсы по расширенному запросу и ранжирует их, используя назначенные веса.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст ресурса и метаданные. Из них извлекаются токены (Token Sequence). Язык документа.
Системные данные:
- Stemming Rules: Наборы правил для определения основы слова, специфичные для языка.
- Статистика корпуса: Данные о частотности всех токенов в известном корпусе документов. Это критически важно для определения Representative Token.

Какие метрики используются и как они считаются

Частотность токенов (Token Frequency): Используется для выбора Representative Token. Выбирается токен с максимальной частотностью среди всех токенов, имеющих одинаковую стемму (Claim 2).
Весовые коэффициенты (Weights): Применяются на этапе ранжирования. Патент утверждает (Claim 3), что токену из исходного запроса присваивается больший вес, чем его варианту (дифференцированное взвешивание).
Факторы корректировки веса: Разница в весах может корректироваться в зависимости от длины запроса (Claims 4, 5) или от меры семантической близости (measure of similarity of meaning) между оригинальным токеном и вариантом.

Выводы

Оптимизация производительности за счет переноса вычислений: Ключевая идея — перенести сложный процесс обработки морфологических вариантов с этапа выполнения запроса (real-time) на этап индексирования (offline). Это ускоряет поиск.
Использование «Репрезентативного Токена» вместо абстрактной стеммы: Вместо хранения только стеммы (которая может не быть словом), система выбирает канонический вариант (Representative Token) — наиболее частотную словоформу. Это позволяет системе оперировать реальными словами.
Критичность статистики частотности слов: Выбор варианта напрямую зависит от частоты использования слов в общем корпусе документов. Самая популярная форма становится эталоном нормализации.
Механизм предпочтения точного совпадения (Exact Match Preference): Это важнейший вывод для SEO. Патент (Claim 3) явно описывает дифференцированное взвешивание. Точное совпадение слова в запросе ранжируется выше, чем совпадение по варианту.
Внутренняя маркировка и логика префиксов: Использование префиксов (*sv*) и сложная логика расширения запроса (Claims 8 и 9) позволяют системе точно управлять сопоставлением и взвешиванием, отличая исходные токены от сгенерированных вариантов.
Условное применение: Система не всегда применяет расширение. Оно может быть отключено для имен сущностей, очень коротких запросов или если исходный запрос уже дает достаточно результатов.

Практика

Best practices (это мы делаем)

Использование основных форм ключевых слов: Поскольку точное совпадение имеет больший вес (Claim 3), важно использовать наиболее частотные и ожидаемые пользователями формулировки ключевых слов в ключевых элементах страницы (Title, H1, текст). С высокой вероятностью они будут совпадать с Representative Token.
Естественный язык и вариативность: Пишите естественно, используя разные морфологические формы, когда это уместно по контексту. Система спроектирована для их обработки и связывания с каноническим вариантом. Фокусируйтесь на интенте, а не на механическом переборе словоформ.
Правильное определение языка контента: Убедитесь, что язык страниц определяется корректно (например, с помощью атрибута lang), так как Stemming Rules зависят от языка.

Worst practices (это делать не надо)

Keyword Stuffing словоформами: Перенасыщение текста всеми морфологическими вариациями (например, «оптимизация, оптимизации, оптимизацию») неэффективно. Система нормализует эти формы автоматически. Это ухудшает читаемость.
Игнорирование точного соответствия: Полагаться только на то, что Google поймет все словоформы. Помните, что совпадение по варианту получает меньший вес при ранжировании, чем точное совпадение с запросом пользователя.
Создание отдельных страниц для сингуляров и плюралов: Создание разных страниц для единственного и множественного числа (например, «синий виджет» и «синие виджеты»), если интент совпадает, нецелесообразно, так как система нормализует их к единому репрезентативному токену.

Стратегическое значение

Патент подтверждает, что обработка морфологии является базовой технологией в Google. Он демонстрирует стремление к балансу между полнотой (Recall) и точностью (Precision). Стратегически это означает, что SEO-специалистам следует меньше беспокоиться о технических аспектах учета морфологии и больше фокусироваться на семантическом соответствии. Система берет на себя задачу связи разных словоформ, но сохраняет приоритет за точностью формулировок. Это также показывает, что классические методы Information Retrieval остаются важной частью архитектуры, даже в эпоху нейросетей.

Практические примеры

Сценарий: Индексирование и поиск контента о домашних животных

Анализ корпуса (Google): Google определяет, что слова «puppy» и «puppies» имеют общую стемму. Слово «puppy» встречается чаще, поэтому оно выбирается как Representative Token.
Индексирование (Ваш сайт): Вы публикуете статью с текстом «We love puppies». Google индексирует ее. В индекс записывается ассоциация вашей статьи с «puppies» (исходный токен) И с «*sv*puppy» (вариант с меткой).
Обработка запроса (Пользователь): Пользователь вводит запрос «how to train a puppy».
Расширение запроса (Google): Google модифицирует запрос. Поскольку токен «puppy» совпадает с вариантом, запрос расширяется (согласно Claim 9) до «how to train a (puppy OR *sv*puppy)».
Результат поиска: Система находит вашу статью, так как она содержит «*sv*puppy» в индексе. Также она находит статью конкурента, где используется точное слово «puppy».
Ранжирование: При прочих равных условиях, статья конкурента (точное совпадение «puppy») будет ранжироваться выше вашей статьи (совпадение по варианту «*sv*puppy»), так как точному совпадению присваивается больший вес (Claim 3).

Вопросы и ответы

Чем описанный механизм отличается от стандартного стемминга?

Стандартный стемминг приводит слова к единой основе (стемме), которая может не быть реальным словом, и хранит ее в индексе. Описанный механизм использует стемму для определения «Репрезентативного Токена» (Representative Token) — наиболее частотной реальной словоформы. В индексе хранятся и исходное слово, и этот репрезентативный токен, что позволяет применять дифференцированное взвешивание.

Как Google определяет, какой вариант слова является «главным» (Representative Token)?

Согласно патенту (Claim 2), Representative Token выбирается на основе статистики частотности использования слов в общем корпусе проиндексированных документов. Словоформа, которая встречается чаще всего среди группы слов с одинаковой стеммой, становится главным вариантом.

Означает ли это, что точное вхождение ключевых слов больше не важно?

Нет, наоборот. Патент явно указывает (Claim 3), что оригинальным терминам запроса присваивается более высокий вес, чем добавленным вариантам. Ресурсы с точным соответствием запросу будут ранжироваться выше, чем те, которые соответствуют только через механизм стемминга. Точное вхождение остается важным сигналом релевантности.

Нужно ли мне использовать разные словоформы ключевых слов на странице?

Используйте разные словоформы для естественности текста и читабельности. Однако не нужно заниматься перебором (keyword stuffing) всех морфологических вариантов, так как система обрабатывает их автоматически. Сосредоточьтесь на использовании релевантных формулировок, соответствующих интенту.

Как этот патент соотносится с современными алгоритмами типа BERT или MUM?

BERT и MUM используются для глубокого понимания контекста на более поздних этапах ранжирования (L3). Описанный механизм работает на более базовом уровне — индексирования и первичного отбора кандидатов (L1 Retrieval). Он обеспечивает высокую скорость и полноту (Recall), гарантируя, что морфологические варианты будут найдены, а нейронные сети затем анализируют эти результаты более точно.

Что такое префикс варианта (например, *sv*), упомянутый в патенте?

Это внутренняя метка (prefix), которую система добавляет к варианту при сохранении его в индексе. Она позволяет системе во время поиска точно знать, является ли найденное слово исходным токеном документа или добавленным вариантом. Это необходимо для корректного расширения запроса (Claims 8 и 9) и применения весовых коэффициентов.

Может ли система отключить этот механизм для определенных запросов?

Да, в патенте упоминается, что расширение запроса вариантами может быть отключено. Например, если запрос идентифицирован как имя сущности (Entity Name), очень короткий (1 слово) или если система предсказывает достаточное количество результатов для исходного запроса без расширения.

Если я использую редкую словоформу, найдет ли Google мой контент по более частотному запросу?

Да. Если вы используете редкую форму, система на этапе индексирования свяжет его с более частотным Representative Token и добавит этот токен в индекс для вашего документа. Когда пользователь будет искать по частотному запросу, ваш документ будет найден, хотя и с потенциально меньшим весом, чем при точном совпадении.

Влияет ли длина запроса на работу этого алгоритма?

Да, длина запроса может влиять на весовые коэффициенты (Claims 4 и 5). Патент предполагает, что разница в весе между точным совпадением и совпадением по варианту может корректироваться в зависимости от длины запроса. Также расширение может не применяться для однословных запросов.

Как этот патент влияет на работу в языках с богатой морфологией (например, русском)?

В таких языках роль этого механизма критически важна, так как одно слово может иметь множество форм. Эффективность напрямую зависит от качества разработанных Stemming Rules для этого языка. Правильная реализация позволяет значительно улучшить полноту поиска, связывая различные падежи, времена и спряжения.