Как Google использует транзитивность («синонимы синонимов») и декомпозицию слов для расширения запросов

Google расширяет понимание запросов, используя транзитивные синонимы (если A=B и B=C, то A=C) и декомпозицию составных слов (например, разбивая «vlcmediaplayer» на «vlc media player»). Это позволяет системе находить релевантные документы, даже если они используют термины, семантически удаленные на несколько шагов от исходного запроса пользователя.

Описание

Какую задачу решает

Патент решает проблему «словарного несоответствия» (vocabulary mismatch) между запросом пользователя и релевантными документами. Стандартные методы часто упускают контекстуальные синонимы, неэффективно обрабатывают составные слова (compound words) и не учитывают синонимы, связанные с исходным термином не напрямую, а через промежуточный термин. Это снижает полноту (Recall) поисковой выдачи.

Что запатентовано

Запатентована система для расширенной генерации синонимов с использованием двух ключевых механизмов: Транзитивности (Transitivity) и Декомпозиции (Decompounding). Транзитивность позволяет идентифицировать «синонимы синонимов» (если A=B и B=C, то A=C). Декомпозиция позволяет динамически разбивать составные слова на подтермины в момент запроса (online decompounding). Цель – расширить исходный запрос для охвата более широкого спектра релевантных документов.

Как это работает

Система работает по нескольким направлениям:

Транзитивность: Система итеративно находит синонимы для терминов запроса, а затем синонимы для этих синонимов (до N-го уровня), добавляя их в расширенный список.
Декомпозиция (Online Decompounding): Для составных терминов система динамически определяет наилучшие способы разделения их на подтермины, используя заранее созданный словарь с оценками частотности слов. Наиболее вероятное разделение используется как синоним.
Лексические связи: Система идентифицирует высоконадежные синонимы на основе лексического сходства (стемминг, акронимы, аббревиатуры), снижая для них требования к другим сигналам подтверждения.
Комбинированный подход: Система может разбить составное слово (AB) на подтермины (A и B), найти синоним для одного из них (например, B’), а затем сгенерировать новый термин (AB’) как синоним исходного (AB).

Затем исходный запрос дополняется (augmented) этими новыми синонимами.

Актуальность для SEO

Высокая. Понимание естественного языка и расширение запросов являются центральными элементами современных поисковых систем. Описанные механизмы транзитивности и декомпозиции критически важны для глубокого понимания запросов, особенно в языках, активно использующих составные слова (например, немецкий), и в сложных тематиках. Хотя конкретные алгоритмы могли эволюционировать (BERT, MUM), эти принципы остаются фундаментальными.

Важность для SEO

Патент имеет высокое значение (85/100). Он описывает фундаментальные механизмы того, как Google расширяет запросы за пределы прямых синонимов. Это подчеркивает стратегическую важность семантического охвата и использования разнообразной лексики. Понимание транзитивности объясняет, почему страница может ранжироваться по запросам, которые семантически удалены от ее основного контента на несколько шагов.

Детальный разбор

Термины и определения

Altered Query (Измененный запрос): Запрос, полученный путем замены фразы в исходном запросе на синоним-кандидат.
Compound Term (Составной термин): Слово, состоящее из двух или более подслов (например, «vlcmediaplayer»). Closed-form compound term означает слитное написание.
Decompounding (Декомпозиция): Процесс разделения составного термина на составляющие его подтермины (Subterms).
Fugenmorphemes (Фугенморфемы / Соединительные элементы): Дополнительные буквы, которые добавляются между подсловами при создании составного слова в некоторых языках (например, ‘s’ в немецком «Hochzeitsreise»).
Lexical Relationships (Лексические отношения): Связи между словами, основанные на их написании или происхождении (стемминг, пунктуация, акронимы, аббревиатуры). Рассматриваются как highly-trusted synonyms.
Online Decompounding: Выполнение декомпозиции динамически во время обработки запроса. Позволяет обрабатывать ранее не встречавшиеся составные слова.
Pseudo-query (Псевдозапрос): Фрагмент запроса, сформированный путем замены фразы на токен. Используется офлайн для поиска запросов, которые различаются только этой фразой.
Related Contextual Usage (Связанное контекстное использование): Критерий для определения базовых синонимов, основанный на анализе логов запросов (например, session switching и common results).
Score (Оценка): Числовое значение, присваиваемое терминам в словаре для декомпозиции (часто на основе частоты в корпусе) или вариантам разбиения составного слова (Total Score).
Transitivity (Транзитивность): Свойство отношений синонимов: если фраза A является синонимом B, а B является синонимом C, то A является синонимом C.

Ключевые утверждения (Анализ Claims)

Примечание: Патент US20150006563A1 является заявкой (A1), и пункты 1-26 отмечены как (canceled). Анализ фокусируется на оставшихся независимых пунктах (27, 31, 33).

Claim 27 (Независимый пункт): Описывает применение транзитивности к частям составного слова (closed-form compound term).

Система получает запрос с составным термином, состоящим из подтермина A и второго подтермина.
Определяется, что термин B является синонимом для подтермина A.
Определяется, что термин C является синонимом для B, но не был напрямую идентифицирован как синоним для A (Транзитивность A->B->C).
Генерируется второй составной термин, используя C и второй подтермин.
Запрос дополняется (augmenting) этим вторым составным термином.

Система комбинирует декомпозицию (разбиение слова) и транзитивность (поиск синонима для части слова) для генерации нового варианта составного слова.

Claim 31 (Независимый пункт): Описывает процесс валидации транзитивного синонима на основе данных об использовании.

Выбирается термин запроса A.
Определяется, что B является синонимом A на основе связанного контекстуального использования (related contextual usage).
Определяется, что C является синонимом B, при этом C не является прямым синонимом A на основе контекстуального использования.
Сравниваются данные об использовании (usage data) термина C с данными об использовании термина B.
Принимается решение, изменять ли запрос, включив термин C, на основе результата этого сравнения.

Это указывает на то, что транзитивные синонимы не применяются слепо; система проверяет их релевантность, сравнивая, как используются термины B и C, чтобы избежать семантического дрейфа.

Claim 33 (Независимый пункт): Описывает базовый механизм транзитивной синонимизации для расширения запроса.

Получение запроса с термином A.
Определение, что B является синонимом A (из списка синонимов).
Определение, что C является синонимом B, но не был напрямую идентифицирован как синоним A.
Дополнение запроса путем замены термина A на термин C.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, преимущественно фокусируясь на понимании запросов.

INDEXING – Индексирование и извлечение признаков / Офлайн-анализ

Создание словаря для декомпозиции: Система анализирует корпус документов для подсчета частоты слов. Термины, прошедшие пороги по длине и частоте, добавляются в словарь с оценкой (Score), основанной на частотности (например, логарифм частоты).
Генерация базовых синонимов: Анализ логов запросов, сессий пользователей (session switching) и общих результатов поиска (common results) для идентификации прямых синонимов (A->B) и их контекстов. Идентификация лексических вариантов.

QUNDERSTANDING – Понимание Запросов
Основное применение патента происходит на этом этапе в реальном времени (online).

Online Decompounding: При получении запроса система динамически пытается разделить составные термины на подтермины из словаря, вычисляя наилучший вариант разделения на основе суммы оценок подтерминов (используя динамическое программирование).
Транзитивное расширение: Для терминов запроса (или подтерминов после декомпозиции) система извлекает базовые синонимы, а затем итеративно находит синонимы этих синонимов (до N уровней).
Валидация и Аугментация: Система может валидировать транзитивные синонимы (сравнивая usage data) и затем дополняет (augments) исходный запрос этими новыми терминами.

RANKING – Ранжирование
На этом этапе используется уже расширенный запрос для поиска (Retrieval) и ранжирования документов в индексе.

На что влияет

Языковые и географические ограничения: Механизм декомпозиции критически важен для языков, активно использующих словосложение (например, немецкий, голландский, финский). Патент упоминает обработку специфичных для языка правил, таких как фугенморфемы и диакритические знаки.
Конкретные ниши: Сильное влияние на технические ниши, медицину, e-commerce, где часто используются сложные составные термины, аббревиатуры и специфическая лексика.
Специфические запросы: Влияет на запросы, содержащие длинные или редкие составные термины, а также на запросы, где интент может быть выражен множеством семантически связанных способов.

Когда применяется

Триггеры активации (Декомпозиция): Активируется, когда в запросе присутствует термин, который потенциально может быть разделен на более частотные подтермины из словаря, особенно если исходный термин редок.
Триггеры активации (Транзитивность): Активируется для расширения запроса, когда доступны данные о цепочках синонимов.
Ограничения: Транзитивность может быть ограничена N уровнями или порогом уверенности. Также применяются ограничения для предотвращения изменения смысла запроса (semantic drift), например, путем сравнения usage data (Claim 31).

Пошаговый алгоритм

Процесс А: Онлайн Декомпозиция (на основе FIG. 5 и 6)

Предварительный этап (Офлайн): Создание словаря терминов из корпуса документов с оценками (Scores) на основе частотности.

Онлайн этап:

Получение запроса: Система получает запрос с одним или несколькими терминами.
Поиск подтерминов: Для термина длиной L система ищет в словаре оценки для всех возможных подтерминов длиной K < L.
Вычисление оценок разделения: Система вычисляет суммарные оценки для различных способов разделения термина на подтермины. (Используется динамическое программирование для эффективности).
Выбор лучшего разделения: Выбираются способы разделения (Топ-N) с наивысшими суммарными оценками.
Аугментация запроса: Подтермины из лучших вариантов разделения включаются как синонимы для исходного составного термина.

Процесс Б: Транзитивное создание синонимов (на основе FIG. 7)

Получение запроса: Система получает запрос с фразой.
Идентификация базовых синонимов: Для фразы извлекается первый набор синонимов (Уровень 1).
Итеративное расширение (Уровень 2): Для каждого синонима из первого набора система находит их синонимы (второй набор) и добавляет их в общий список.
Итеративное расширение (Уровень N): Процесс повторяется. Для синонимов из набора (N-1) находятся их синонимы (набор N). Процесс останавливается по достижении лимита или других критериев (например, валидация по Claim 31).
Аугментация запроса: Поиск выполняется с использованием исходного запроса, дополненного расширенным списком синонимов.

Процесс В: Комбинированный подход (Транзитивность + Декомпозиция) (на основе FIG. 8 и Claim 27)

Декомпозиция: Выполняется Процесс А для разделения составного термина на подтермины.
Транзитивное расширение подтерминов: Для каждого полученного подтермина выполняется Процесс Б для нахождения его транзитивных синонимов.
Генерация новых синонимов: Система генерирует новые синонимы для исходного составного термина, используя комбинации исходных подтерминов и их синонимов (например, заменяя часть слова транзитивным синонимом).
Аугментация запроса: Поиск выполняется с использованием финального расширенного набора.

Какие данные и как использует

Данные на входе

Контентные/Корпусные данные: Корпус документов (например, веб-страницы). Используется офлайн для создания словаря подтерминов и расчета частотности слов (Frequency).
Поведенческие факторы: Логи запросов (Query Logs), Данные сессий (User Sessions). Используются офлайн для идентификации базовых контекстуальных синонимов через анализ переформулировок (session switching) и общности результатов (common results).
Лингвистические данные: Правила стемминга (включая агрессивный pseudostemming), списки фугенморфем, правила обработки диакритических знаков, паттерны акронимов и аббревиатур. Используются для идентификации Lexical Variants.

Какие метрики используются и как они считаются

Decompounding Score (Оценка декомпозиции): Метрика для оценки качества разделения составного слова. Рассчитывается как сумма оценок подтерминов. Оценка подтермина часто основана на логарифме его частотности в корпусе.
Метрики контекстуальных синонимов: Патент детально описывает метрики для оценки базовых синонимов:
- frequently_alterable: Как часто измененный запрос существует в логах.
- frequently_much_in_common: Как часто запросы имеют общие результаты поиска.
- frequently_altered: Как часто происходит переключение между запросами в сессии.
- high_altering_ratio: Соотношение направления замен (A->B vs B->A).
Evidence / Confidence Score: Агрегированная оценка силы синонимической связи, основанная на вышеуказанных метриках.
Lexical Similarity Metrics: Метрики лексической схожести (например, Edit distance, Common prefix length). Используются для идентификации высоконадежных синонимов.
Usage Data (Данные об использовании): Используются для валидации транзитивных синонимов (Claim 31). Вероятно, включают частоту использования термина в запросах.

Выводы

Транзитивность значительно расширяет семантический охват: Google может идентифицировать связь между терминами, даже если они никогда не использовались вместе, при условии наличия промежуточного термина-связки (A->B->C). Это позволяет находить семантически связанные, но лексически далекие документы.
Валидация транзитивных связей: Система не применяет транзитивные синонимы слепо. Предусмотрены механизмы валидации, такие как сравнение данных об использовании (usage data) промежуточного и конечного синонимов (Claim 31), для контроля качества и предотвращения семантического дрейфа.
Декомпозиция происходит динамически (Online): Система способна разбирать составные слова на лету во время запроса, используя статистику частотности слов. Это позволяет адаптироваться к новым или редким составным терминам, которые не были обработаны офлайн.
Критичность для языков со словосложением: Для продвижения в регионах, как Германия, понимание механизмов декомпозиции (включая обработку фугенморфем) является обязательным. Система может ранжировать страницу как по составному слову, так и по его компонентам.
Комбинирование методов усиливает эффект: Наиболее мощный механизм – это сочетание декомпозиции и транзитивности (Claim 27). Система может разбить слово, найти транзитивный синоним для его части и использовать измененное слово для поиска.
Лексические варианты как высоконадежные синонимы: Лексически связанные слова (стемминг, аббревиатуры, акронимы) рассматриваются как highly-trusted synonyms и для них применяются более низкие пороги подтверждения другими сигналами.

Практика

Best practices (это мы делаем)

Развивайте лексическое разнообразие контента: Используйте широкий спектр синонимов, связанных терминов и словоформ в рамках одной темы. Это увеличивает вероятность того, что ваш контент будет соответствовать как прямым, так и транзитивным синонимам, используемым Google для расширения запроса.
Анализируйте семантическое поле шире: При сборе семантики исследуйте термины, которые являются «синонимами второго порядка». Понимание этих связей позволяет лучше прогнозировать, по каким запросам может ранжироваться контент, и строить более полное тематическое покрытие (Topical Authority).
Оптимизация для языков со словосложением (например, немецкий): Убедитесь, что контент содержит как полные составные термины, так и их значимые компоненты (подтермины), если это естественно для языка. Это поможет системе корректно интерпретировать контент через механизм декомпозиции.
Используйте общепринятые аббревиатуры и акронимы: Поскольку патент рассматривает их как highly-trusted synonyms (лексические варианты), их наличие в тексте (с расшифровкой) помогает системе установить надежные лексические связи.

Worst practices (это делать не надо)

Переоптимизация под узкий набор ключевых слов (Keyword Stuffing): Фокус только на точных вхождениях неэффективен. Система ищет семантическое соответствие через расширение запроса, поэтому контент с бедной лексикой проиграет.
Игнорирование вариантов написания составных слов: Использование только одного варианта написания (например, только слитно), если допустимы варианты, может ограничить охват. Хотя система декомпозиции может обработать это, лучше предоставить четкие и естественные сигналы.
Создание неестественных синонимов: Попытки манипулировать системой путем внедрения несвязанных терминов не сработают, так как базовая идентификация синонимов опирается на реальные данные (логи сессий, общие результаты), а транзитивные синонимы проходят валидацию (usage data comparison).

Стратегическое значение

Этот патент подтверждает стратегический курс Google на уход от точного лексического соответствия к глубокому семантическому пониманию. Транзитивность и декомпозиция являются инструментами для масштабирования этого понимания. Для SEO это означает, что стратегия должна фокусироваться на построении семантических сущностей и связей в контенте, а не на оптимизации под отдельные ключевые фразы. Долгосрочный успех зависит от способности создавать контент, который соответствует интенту пользователя и всем его возможным (включая транзитивные) формулировкам.

Практические примеры

Сценарий 1: Применение транзитивности

Запрос пользователя: «Настройка роутера Linksys» (A).
Шаг 1 (Прямой синоним/Стемминг): Система определяет, что «Настройка» (A) лексически связана с «Конфигурирование» (B).
Шаг 2 (Транзитивность): Система знает (из анализа логов), что «Конфигурирование» (B) контекстуально связано с «Setup» (C).
Результат: Благодаря транзитивности, система определяет, что «Настройка» (A) = «Setup» (C).
Действие: Запрос расширяется. Страницы, оптимизированные под «Setup Linksys router», получают шанс ранжироваться по исходному запросу.

Сценарий 2: Применение декомпозиции (Немецкий язык)

Запрос пользователя: «Laserdruckerpatrone» (Картридж для лазерного принтера).
Шаг 1 (Декомпозиция): Система анализирует варианты. «Laser» + «drucker» + «patrone» получают высокий Decompounding Score, так как эти компоненты частотны.
Действие: Запрос расширяется для поиска документов, содержащих эти три компонента по отдельности или в виде исходного слова.

Сценарий 3: Комбинация Декомпозиции и Транзитивности (Claim 27)

Запрос пользователя: «Laserdruckerpatrone».
Шаг 1 (Декомпозиция): Разбиение на Laser + Druckerpatrone.
Шаг 2 (Синонимия подтермина): Система определяет, что «Druckerpatrone» (подтермин A) является синонимом «Kartusche» (B).
Шаг 3 (Транзитивность подтермина): Система знает, что «Kartusche» (B) является синонимом «Toner» (C).
Шаг 4 (Генерация нового термина): Система генерирует новый составной термин, используя транзитивный синоним C: «Lasertoner».
Действие: Запрос расширяется до [«Laserdruckerpatrone» OR «Lasertoner»].

Вопросы и ответы

Что такое транзитивность синонимов и почему это важно для SEO?

Транзитивность означает, что если термин A является синонимом B, а B является синонимом C, то система считает A синонимом C, даже если A и C напрямую не связаны в логах запросов. Для SEO это критически важно, так как Google может ранжировать вашу страницу по запросу, который семантически удален от используемых вами ключевых слов на несколько шагов. Это подчеркивает необходимость использования разнообразной лексики и полного охвата темы.

Что такое «Online Decompounding» и чем он отличается от обычного?

Online Decompounding – это процесс разделения составных слов (например, «vlcmediaplayer») на компоненты («vlc media player») динамически, в момент получения запроса. Он отличается от офлайн-обработки тем, что позволяет системе справляться с новыми или ранее не встречавшимися составными словами. Система использует статистику частотности слов и динамическое программирование для определения наилучшего способа разделения на лету.

Как Google определяет, какие слова использовать для декомпозиции?

Система предварительно создает словарь на основе анализа большого корпуса документов. В словарь попадают слова, превышающие пороги по длине и частоте встречаемости. Каждому слову присваивается оценка (Score), обычно основанная на логарифме его частоты. При декомпозиции система выбирает тот вариант разделения составного слова, который дает максимальную сумму оценок его компонентов.

Применяет ли Google все найденные транзитивные синонимы?

Нет, не обязательно. Патент (в частности, Claim 31) описывает механизм валидации. Система может сравнивать данные об использовании (usage data) транзитивного синонима (C) с данными промежуточного синонима (B). Если они сильно различаются, транзитивный синоним может быть отклонен, чтобы избежать нерелевантного расширения запроса (semantic drift).

Как механизм декомпозиции влияет на SEO в немецком языке?

Влияние критическое, так как немецкий язык активно использует длинные составные слова. Система будет пытаться разбить эти слова на компоненты, учитывая даже соединительные элементы (Fugenmorphemes). SEO-специалистам необходимо следить за тем, чтобы в контенте присутствовали как полные составные термины, так и их значимые части, если это естественно для языка.

Что такое «лексически связанные синонимы» и как они обрабатываются?

Это слова, имеющие схожее написание или происхождение: стемминг (car/cars), разница в пунктуации (woodstock/wood stock), акронимы (NASA/National Aeronautic…), аббревиатуры (hrs/hours). Патент указывает, что они считаются highly-trusted synonyms. Для их подтверждения системе требуется меньше дополнительных сигналов (например, меньше общих результатов поиска или данных из сессий).

Как работает комбинированный механизм транзитивности и декомпозиции (Claim 27)?

Это мощный механизм, когда система сначала разбивает составное слово на части (например, AB на A и B). Затем она находит транзитивный синоним для одной из частей (например, B -> B’ -> B»). После этого она генерирует новый термин, используя исходную часть и новый синоним (AB»), и использует его для расширения запроса. Это позволяет изменять смысл части составного слова.

Стоит ли специально оптимизировать контент под транзитивные синонимы?

Специально оптимизировать под конкретные «синонимы второго порядка» сложно и не всегда нужно. Вместо этого следует сосредоточиться на создании качественного контента с богатой, естественной лексикой и полным раскрытием темы (Topical Authority). Это естественным образом увеличит количество семантических связей, которые система сможет использовать для транзитивного сопоставления.

Как система генерирует базовые синонимы (до применения транзитивности)?

Патент подробно описывает офлайн-анализ логов запросов. Система ищет пары запросов, различающиеся одним термином. Она оценивает, как часто пользователи меняют один термин на другой в рамках одной сессии (session switching) и насколько пересекаются результаты поиска (common results). Если показатели высоки, термины признаются контекстуальными синонимами.

Как этот патент соотносится с BERT или векторным поиском?

Этот патент описывает более ранние (подача 2010 г.) статистические и лингвистические методы расширения запросов. Современные модели, такие как BERT, улавливают семантическую близость и транзитивность неявно через векторные представления (embeddings). Однако описанные в патенте механизмы, вероятно, дополняют нейросетевые подходы, особенно в части явной обработки составных слов (Decompounding) и аббревиатур для повышения полноты поиска (Recall).