Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

Описание

Какую задачу решает

Патент решает проблему ограничений существующих систем генерации синонимов. Системы на основе тезаурусов часто игнорируют контекст и не покрывают все вариации. Системы, основанные исключительно на статистическом анализе (поведение пользователей, общие результаты), могут пропускать очевидные лексические варианты (стемминг, аббревиатуры, разное написание), если для них недостаточно данных или если стандартные алгоритмы стемминга слишком консервативны. Изобретение улучшает полноту поиска (Recall), надежно распознавая эти лексические синонимы.

Что запатентовано

Запатентована система, которая специально идентифицирует лексические синонимы — слова, имеющие структурную или морфологическую связь. Ядром изобретения является механизм дифференцированного подхода к валидации: если между терминами обнаружена лексическая связь (например, общий корень, отношение акроним-расшифровка, разница в пунктуации), система снижает пороги статистической уверенности, необходимые для признания этих терминов синонимами. Это позволяет агрессивнее учитывать лексические варианты при обработке запроса.

Как это работает

Система работает в несколько этапов:

Анализ кандидатов (Офлайн): Система анализирует логи запросов для выявления потенциальных пар синонимов на основе поведения пользователей (Session Switching) и общих результатов поиска (Common Results).
Лексический анализ (Офлайн): Система проверяет структурные отношения между терминами, используя набор детекторов: Pseudostemming (агрессивный стемминг), проверка акронимов, анализ аббревиатур, нормализация пунктуации и диакритических знаков.
Корректировка порогов: Если обнаруживается лексическое отношение, система применяет скорректированный (пониженный) порог статистических доказательств для валидации.
Валидация и Скоринг: Вычисляется оценка уверенности (Evidence Score). Если она превышает выбранный порог, кандидат принимается как синоним.
Применение (Онлайн): При получении запроса система использует валидированные синонимы для генерации измененного запроса (altered query).

Актуальность для SEO

Высокая. Понимание синонимов, стемминга и лексических вариантов является фундаментальной задачей современных систем понимания запросов (Query Understanding) и NLP. Хотя конкретные алгоритмы могли эволюционировать (например, с интеграцией нейронных сетей), базовый принцип комбинирования лексических и статистических сигналов для нормализации языка остается критически важным.

Важность для SEO

Патент имеет высокое значение для SEO (85/100). Он детально описывает механизмы, с помощью которых Google нормализует различные варианты написания ключевых слов (формы слова, аббревиатуры, пунктуация). Это напрямую влияет на подход к сбору семантического ядра и оптимизации контента. Понимание этих механизмов позволяет SEO-специалистам сосредоточиться на интенте и качестве контента, а не на переборе всех возможных морфологических форм, так как система поиска спроектирована для их автоматического и агрессивного учета.

Детальный разбор

Термины и определения

Lexical Synonym (Лексический синоним): Термин, имеющий структурное или лексическое сходство с исходным термином. Примеры: стемминг, акронимы, аббревиатуры, различия в пунктуации, пробелах (Compounding/Decompounding) или диакритических знаках.
Altered Query (Измененный запрос): Новый запрос, сгенерированный путем замены термина в исходном запросе на синоним или добавления синонима к запросу.
Pseudostemming (Псевдостемминг): Агрессивная техника стемминга. Определяет связь, если слова отличаются на одну правку ИЛИ если соотношение длины общего префикса к максимальной длине слова превышает порог (например, 0.5), И при этом Edit-Distance оставшихся частей слова ниже другого порога (например, 0.4).
Edit-Distance (Расстояние редактирования): Метрика различия между двумя строками (минимальное количество операций вставки, удаления или замены символов).
Session Switching (Переключение в сессии): Поведенческий сигнал, когда пользователь заменяет один термин другим в рамках одной поисковой сессии. Используется для статистической валидации синонимов.
Common Results (Общие результаты): Метрика, определяющая, как часто исходный и измененный запросы возвращают общие результаты поиска. Используется для валидации синонима.
Pseudo-query (Псевдозапрос): Шаблон запроса, созданный путем замены фразы на токен. Используется для анализа контекста и поиска пар запросов, различающихся только этой фразой (например, [gm : car prices]).
Evidence Score (Оценка уверенности): Итоговая оценка, рассчитываемая на основе статистических тестов (например, soft_and), определяющая степень уверенности системы в синонимичности двух терминов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод дифференцированной обработки лексических синонимов.

Система получает запрос с первым термином.
Идентифицирует синонимы. Процесс включает:
1. Определение, удовлетворяют ли первый термин и второй термин (кандидат) критериям, связанным с определенным классом связанных терминов (т.е. являются ли они лексически связанными).
2. В ответ на это (ДА), система выбирает порог (threshold), который отличается от порога по умолчанию (используемого для терминов без лексической связи).
3. Генерация оценки (score) для пары терминов путем оценки их взаимосвязи (например, на основе Session Switching и Common Results).
4. Определение того, что второй термин является синонимом, на основе применения оценки к выбранному (отличному от стандартного) порогу.
Генерация измененного запроса (altered query) с использованием второго термина.
Обработка измененного запроса.

Ядро изобретения — система определяет, является ли пара слов лексически связанной. Если да, то для их валидации как синонимов используется измененный (подразумевается, более низкий) порог уверенности. Это означает, что системе требуется меньше статистических доказательств, чтобы принять лексический вариант как синоним.

Claim 2 (Зависимый от 1): Уточняет «определенный класс связанных терминов». Это: термины с общим корнем (common stem), различия в пунктуации или пробелах, акронимы, термины в пределах заданного edit-distance, различия в акцентах и аббревиатуры.

Claim 3 и 4 (Зависимые от 1): Уточняют критерии определения лексической связи. Расчет edit-distance (Claim 3) или идентификация общего префикса и сравнение его длины с длиной терминов (Claim 4 – механизм Pseudostemming).

Где и как применяется

Изобретение применяется преимущественно на этапе понимания запросов, используя данные, собранные из логов поиска.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Он включает два подпроцесса:

Офлайн-генерация базы синонимов: Система анализирует query logs, идентифицирует потенциальные синонимы (статистически и лексически), рассчитывает evidence scores и валидирует синонимы, используя дифференцированные пороги в зависимости от типа связи (лексическая или нет).
Онлайн-обработка запроса: Когда пользователь вводит запрос, система обращается к сгенерированной базе синонимов. Если найдены валидированные синонимы, система создает altered queries (путем расширения или замены).

RANKING – Ранжирование
На этом этапе система выполняет поиск по altered queries, чтобы найти документы, соответствующие расширенному пониманию интента.

INDEXING – Индексирование и извлечение признаков
Лексические методы (стемминг, нормализация пунктуации) также могут применяться при индексировании контента для нормализации терминов в индексе.

Входные данные:

Логи запросов (Query Logs), включающие User ID, временные метки, текст запроса и списки топовых результатов (для расчета Common Results).
Алгоритмы лексического анализа (стеммеры, расчет edit-distance и т.д.).

Выходные данные:

База данных валидированных синонимов с оценками уверенности.
Altered queries, используемые для поиска.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, содержащие аббревиатуры, акронимы, термины с вариативным написанием (например, с дефисом или без, слитное/раздельное написание).
Языковые особенности: Влияет на языки с богатой морфологией (через стемминг и Pseudostemming), языки с диакритическими знаками и языки с составными словами (например, германские языки через Compounding/Decompounding).

Когда применяется

Условия (Офлайн): Генерация синонимов активируется при обработке логов запросов. Применение пониженных порогов происходит только тогда, когда система идентифицирует специфическую лексическую связь между терминами.
Триггеры активации (Онлайн): Когда система обнаруживает в запросе термин, для которого в базе данных существует валидированный синоним (лексический или иной) с достаточной оценкой уверенности.

Пошаговый алгоритм

Процесс А: Офлайн-генерация и валидация синонимов

Сбор данных и подготовка: Сбор логов запросов. Сортировка по User ID и времени для идентификации сессий. Генерация pseudo-queries путем замены фраз на токены.
Идентификация кандидатов и сбор статистики: Группировка запросов по pseudo-query. Фразы, которыми они отличаются, становятся кандидатами. Для каждой пары рассчитывается статистика Session Switching и Common Results.
Лексический анализ (Детекция): Для каждой пары кандидатов (Термин А, Термин Б) проверяется наличие лексической связи с помощью набора детекторов:
1. Decompounding/Compounding: Равны ли термины после удаления пунктуации и пробелов?
2. Acronyms: Совпадает ли Термин А с первыми буквами фразы Термина Б (с учетом edit-distance порога, например, 0.25 от максимальной длины)?
3. Pseudostemming: Отличаются ли термины на 1 правку? ИЛИ есть ли общий префикс (порог 0.5) и малое edit-distance между остатками (порог 0.4)?
4. Abbreviations: Равны ли термины после удаления гласных (с учетом edit-distance порога, например, 0.25)?
5. Diacriticals/Standard Stemming: Являются ли термины вариантами после стандартного стемминга или удаления диакритических знаков?
Классификация и Выбор порога:
- Если на шаге 3 обнаружена лексическая связь: Выбираются пониженные пороги для статистических метрик. (Например, требование Common Results может быть снижено до нуля для акронимов; требование Session Switching может быть снижено в 3 раза для Compounding).
- Иначе: Используются стандартные (более высокие) пороги.
Расчет оценки и Валидация: Расчет итоговой оценки уверенности (Evidence Score) на основе статистики из шага 2. Сравнение оценки с выбранным порогом из шага 4. Если оценка выше порога, синоним валидируется.

Какие данные и как использует

Данные на входе

Система использует комбинацию структурных, поведенческих и системных данных.

Структурные факторы (Лексические данные): Анализируется структура самих терминов: наличие общих префиксов, расстояние редактирования (edit-distance), наличие пунктуации, пробелов, гласных, диакритических знаков.
Поведенческие факторы: Используются логи запросов (Query Logs). Ключевой сигнал — Session Switching (частота, с которой пользователи меняют один термин на другой в рамках одной сессии).
Системные данные: Используются списки топовых результатов для исходного и измененного запросов для расчета метрики Common Results.

Какие метрики используются и как они считаются

Лексические метрики (для определения класса связи):

Edit-distance ratio: Расстояние редактирования, деленное на максимальную длину строк. Пороги, упомянутые в патенте: 0.25 (для акронимов/аббревиатур), 0.4 (для остатков в Pseudostemming).
Common prefix ratio: Длина общего префикса, деленная на максимальную длину строк. Порог, упомянутый в патенте: 0.5 (для Pseudostemming).

Статистические метрики (для расчета Evidence Score):

Патент приводит примеры метрик, которые используются для расчета итоговой оценки:

frequently_alterable: Доля запросов, для которых измененный запрос также существует в логах.
frequently_much_in_common: Доля пар запросов, которые имеют достаточное количество общих результатов (например, 3).
frequently_altered: Частота Session Switching от исходного к измененному запросу.
high_altering_ratio: Отношение частоты переключения в прямом направлении к обратному.

Функции расчета итоговой оценки:

Функция масштабирования (Scale function): Используется для нормализации статистических метрик на основе базового (base) и высокого (high) значений.

Выводы

Приоритет лексической связи над статистической: Ключевой вывод — Google рассматривает лексическое сходство как сильный индикатор семантической связи. Обнаружение такой связи повышает доверие системы к синониму.
Дифференцированная валидация (Claim 1): Система использует адаптивные пороги валидации. Для лексических синонимов требуется значительно меньше статистических подтверждений (поведение пользователей, общие результаты), чем для контекстуальных синонимов.
Агрессивный стемминг (Pseudostemming): Google использует не только стандартные стеммеры, но и агрессивную технику Pseudostemming, основанную на длине общего префикса и edit-distance. Это позволяет связывать больше морфологических форм и даже исправлять опечатки (разница в 1 правку).
Специализированные детекторы: Система использует набор конкретных техник для разных классов: удаление гласных для аббревиатур, сопоставление первых букв для акронимов, игнорирование пунктуации/пробелов (Compounding/Decompounding) для составных слов.
Языковая адаптивность: Система учитывает специфику разных языков, включая обработку диакритических знаков и морфологии (например, составные слова в германских языках).

Практика

Best practices (это мы делаем)

Фокус на интенте, а не на форме слова: Сосредоточьтесь на создании контента, отвечающего на намерение пользователя, не беспокоясь о покрытии всех морфологических форм ключевых слов (единственное/множественное число, падежи). Механизмы стемминга и Pseudostemming позволяют Google автоматически учитывать эти варианты.
Естественное использование акронимов и аббревиатур: Используйте общепринятые акронимы и аббревиатуры в контенте. Система специально разработана для их идентификации (Acronym/Abbreviation Detection) и применяет к ним низкие пороги валидации. Рекомендуется при первом упоминании указывать полную форму.
Консистентность и стандартное написание: Используйте корректное и консистентное написание слов и брендов. Хотя система нормализует пунктуацию и пробелы (Compounding/Decompounding), лучше придерживаться общепринятых норм. Не нужно специально создавать варианты с разной пунктуацией.
Мультиязычное SEO: При работе с языками, использующими диакритические знаки, используйте их корректно. Система способна нормализовать их (сопоставить с вариантами без акцентов), но правильное написание улучшает UX и авторитетность контента.

Worst practices (это делать не надо)

Keyword Stuffing вариациями: Перенасыщение текста различными формами одного слова, аббревиатурами или вариантами написания. Это неэффективно, так как Google агрессивно нормализует их на этапе понимания запроса.
Создание отдельных страниц под лексические варианты: Создание разных страниц для ранжирования по запросам, отличающимся только формой слова или пунктуацией. Система консолидирует эти запросы, что может привести к каннибализации.
Использование нестандартных аббревиатур: Использование узкоспециализированных или нестандартных сокращений без их расшифровки может привести к тому, что система не сможет установить лексическую связь (если детекторы не сработают) и не найдет достаточно статистических данных для валидации.

Стратегическое значение

Этот патент подтверждает, что Google вкладывает значительные ресурсы в нормализацию языка на этапе Query Understanding. Для SEO это означает, что техническая работа по микро-оптимизации под конкретные словоформы уступает место стратегической работе по созданию качественного контента, охватывающего тему (Topical Authority). Система стремится понять смысл, а не просто сопоставить строки. Наличие механизмов повышенного доверия к лексическим связям гарантирует, что базовые языковые вариации будут обработаны корректно.

Практические примеры

Сценарий 1: Оптимизация страницы для медицинской услуги (Акронимы)

Задача: Оптимизировать страницу под запрос, связанный с МРТ.
Применение патента: Система Google применит Acronym Detection и определит лексическую связь между «МРТ» и «Магнитно-резонансная томография». Из-за этой связи пороги для статистического подтверждения будут снижены (патент указывает, что требование Common Results может быть снижено до нуля для акронимов).
Действия SEO: Использовать оба термина на странице естественно: «Услуги Магнитно-резонансной томографии (МРТ)». Не создавать отдельные страницы под [цена МРТ] и [цена магнитно-резонансная томография].
Ожидаемый результат: Страница будет эффективно ранжироваться по обоим вариантам запроса.

Сценарий 2: Обработка запроса с вариативным написанием (Compounding)

Задача: Ранжироваться по запросу [интернет магазин]. Пользователи также ищут [интернет-магазин].
Применение патента: Система применит механизм Compounding/Decompounding, удалит пунктуацию и пробелы и определит, что термины лексически идентичны. Требование Session Switching может быть снижено (например, до 1/3 от стандартного).
Действия SEO: Использовать наиболее грамматически правильный вариант написания в контенте. Не нужно пытаться использовать оба варианта.
Ожидаемый результат: Google нормализует запрос пользователя и найдет релевантную страницу независимо от наличия или отсутствия дефиса в запросе.

Вопросы и ответы

Что такое «лексические синонимы» в контексте этого патента и чем они отличаются от обычных?

Лексические синонимы имеют явную структурную или морфологическую связь с исходным словом: общий корень, акронимы, аббревиатуры, различия в пунктуации или акцентах. Ключевое отличие в обработке: Google больше «доверяет» лексическим синонимам и значительно снижает пороги статистического подтверждения (поведение пользователей, общие результаты), необходимые для их валидации, по сравнению с обычными (контекстуальными) синонимами.

Что такое Pseudostemming и чем он отличается от обычного стемминга?

Pseudostemming — это более агрессивная техника. В отличие от стандартных стеммеров, опирающихся на лингвистические правила, Pseudostemming использует метрики схожести строк. Два слова считаются псевдостемами, если они отличаются всего на 1 правку ИЛИ если у них достаточно длинный общий префикс и небольшое расстояние редактирования (edit-distance) между оставшимися частями слов. Это позволяет связать больше словоформ и даже исправлять опечатки.

Нужно ли мне использовать все возможные варианты написания ключевого слова на странице (например, с дефисом и без)?

Нет, это не требуется. Патент описывает механизм Compounding/Decompounding, который нормализует различия в пунктуации и пробелах. Система удаляет эти элементы и сравнивает базовые строки. Если они совпадают, термины считаются лексическими синонимами с высоким уровнем доверия и низкими требованиями к валидации. Используйте грамматически правильный вариант.

Как Google определяет, что аббревиатура или акроним соответствует полному названию?

Для акронимов система проверяет, совпадают ли буквы акронима с первыми буквами слов в полной фразе, допуская небольшое edit-distance (порог 0.25). Для аббревиатур система использует другой подход: удаляет все гласные из обоих терминов и сравнивает оставшиеся согласные, также используя порог edit-distance. Например, «hrs» и «hours» после удаления гласных становятся «hrs».

Стоит ли создавать отдельные страницы под единственное и множественное число ключевого слова?

В подавляющем большинстве случаев нет. Стемминг и Pseudostemming предназначены для идентификации таких связей как лексических синонимов с низким порогом валидации. Google объединит эти запросы и покажет наиболее релевантную страницу. Создавать отдельные страницы стоит только тогда, когда интент пользователя кардинально различается для единственного и множественного числа.

Если результаты поиска по двум лексическим вариантам сильно отличаются, примет ли Google их как синонимы?

Да, это возможно. Патент явно указывает, что для некоторых классов лексических синонимов (например, акронимов и составных слов) требование к наличию общих результатов (Common Results) может быть снижено до нуля. Если лексическая связь сильна, система может принять синоним, даже если результаты поиска разные.

Что такое «session switching» и «common results»?

Session switching — это поведенческий сигнал, когда пользователь в рамках одной сессии меняет один запрос на другой, отличающийся только одним термином (например, ввел [gm cars], а затем [general motors cars]). Common results — это метрика, показывающая, сколько общих документов находится в топе выдачи по этим двум запросам. Оба сигнала используются для статистической валидации синонимов.

Влияет ли этот патент на мультиязычный поиск?

Да, очень сильно. В патенте особо упоминается обработка диакритических знаков (акцентов) и языковых особенностей, таких как составные слова (Compounding) в германских языках. Также упоминается использование языкоспецифичных правил стемминга (род/число). Это критично для качественного поиска в языках с богатой морфологией.

На каком этапе поиска применяется этот механизм?

Генерация и валидация синонимов происходит преимущественно офлайн путем анализа логов. Применение этих синонимов (переписывание запроса) происходит онлайн на этапе Query Understanding (Понимание запросов), до того как запрос отправляется на этап основного ранжирования.

Каково стратегическое значение этого патента для SEO?

Стратегическое значение заключается в подтверждении перехода от оптимизации под точные вхождения ключевых слов к оптимизации под интенты и темы. Патент доказывает, что Google обладает мощными механизмами для игнорирования лексических и морфологических различий. Это позволяет SEO-специалистам сосредоточиться на качестве контента и развитии авторитетности в теме (Topical Authority), а не на микроменеджменте словоформ.