
Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса.
Патент решает проблему снижения полноты поиска (Recall), возникающую из-за использования пользователями составных (compound) терминов, которые могут отсутствовать в релевантных документах в слитной форме. Это особенно актуально для языков, склонных к словосложению (например, немецкий), а также для технических терминов и названий продуктов. Система позволяет находить документы, содержащие компоненты составного слова или их синонимы, даже если само составное слово в документе не встречается.
Запатентована система генерации синонимов, которая обрабатывает составные термины в запросе в режиме реального времени (online decompounding). Система использует предварительно созданный словарь с частотными оценками для определения наилучшего способа разбивки термина на подтермины (subterms). Ключевым элементом является расширение запроса не просто за счет самой разбивки, а за счет добавления синонимов к этим подтерминам, в том числе найденных транзитивно (transitivity).
Система функционирует в два этапа:
score), основанная на частоте его встречаемости. Также генерируются базовые синонимы с учетом лексического сходства.Высокая. Понимание запросов (Query Understanding) и семантическое расширение остаются критически важными компонентами поиска. Механизмы декомпозиции необходимы для обработки сложных терминов, неологизмов и многословных сущностей, особенно в мультиязычном поиске. Принципы лексического анализа и транзитивности являются фундаментальными для современных поисковых систем.
Патент имеет высокое значение для SEO (8/10). Он раскрывает конкретные механизмы того, как Google интерпретирует сложные термины, разбивая их на компоненты и учитывая семантику этих компонентов. Это напрямую влияет на стратегии подбора ключевых слов, особенно в технических нишах и на рынках с языками, использующими словосложение (например, немецкий). Понимание этого механизма позволяет оптимизировать контент как под составные термины, так и под их значимые компоненты и синонимы.
scores).Claim 1 (Независимый пункт): Описывает систему для расширения запроса синонимами, полученными через онлайн-декомпозицию.
compound term).splits) составного термина на подтермины (subterms). По крайней мере один подтермин должен присутствовать в словаре, где терминам присвоены оценки на основе частоты использования.overall score) для каждой разбивки на основе оценок ее подтерминов.Ядро изобретения: защищается не только сам факт декомпозиции, но и обязательное использование синонимов полученных подтерминов для расширения запроса.
Claim 3 (Зависимый от 1): Детализирует метод генерации разбивок.
Генерация разбивок включает инкрементальный анализ префиксов возрастающей длины составного термина для идентификации подтерминов в словаре. Это описание соответствует методу динамического программирования.
Claim 8 (Зависимый от 1): Уточняет расчет общей оценки.
Общая оценка для разбивки рассчитывается путем суммирования оценок подтерминов этой разбивки.
Claim 9 (Зависимый от 1): Включает механизм транзитивности.
Операции дополнительно включают расширение запроса еще одной синонимичной фразой, которая является синонимом для первой синонимичной фразы (т.е. синоним синонима подтермина).
Изобретение применяется на этапе понимания и переписывания запроса, используя данные, подготовленные на этапе индексирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная работа (офлайн): анализ корпуса документов для создания словаря терминов и расчета их частотных оценок (scores). Также происходит предварительная идентификация базовых синонимичных пар (включая лексический анализ).
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Процессы выполняются онлайн:
Online Decompounding запускается для разбора этих терминов с использованием динамического программирования и данных из словаря.Synonym Generation) для полученных подтерминов, включая применение транзитивности.RANKING – Ранжирование
Система ранжирования получает на вход уже расширенный запрос, содержащий исходные термины и добавленные синонимы подтерминов.
Входные данные:
Выходные данные:
Процесс А: Офлайн-создание словаря (FIG. 5)
Процесс Б: Онлайн-обработка запроса (FIG. 8)
Патент фокусируется на анализе текста запроса и использовании предварительно собранных статистических и лингвистических данных.
session switching requirement) и пересечение результатов поиска (common result requirement). Эти данные используются для наполнения базы синонимов, к которой система обращается после декомпозиции.Pseudostemming.Fugenmorphemes для разных языков.Overall Score).Fugenmorphemes) и диакритические знаки, что делает декомпозицию более точной в мультиязычном поиске.highly-trusted synonyms), что увеличивает вероятность их использования в поиске.Edit-distance) и может снижать пороги для их использования в качестве доверенных синонимов.Fugenmorphemes критично для этих рынков.Score), что может изменить смысл запроса.Патент подтверждает, что Google не воспринимает слова в запросе как неизменяемые строки символов. Система активно применяет лингвистический и статистический анализ для интерпретации и расширения запросов на этапе Query Understanding. Стратегически это означает, что SEO должно фокусироваться на семантике, концепциях и естественном языке, а не только на точном вхождении ключевых слов. Понимание того, как термины могут быть разобраны и какие синонимы могут быть применены к их частям, позволяет строить более устойчивые контент-стратегии.
Сценарий 1: Оптимизация страницы аксессуаров (E-commerce)
Overall Score, чем [go + pro + accessories].subterms. Для "accessories" синонимами могут быть "parts", "mounts", "attachments".Сценарий 2: Технический блог (IT)
Что такое "Online Decompounding" и почему это важно?
Online Decompounding – это процесс разбора составных слов (написанных слитно) на отдельные компоненты непосредственно в момент получения поискового запроса. Это критически важно, так как позволяет системе понять смысл новых или редких составных слов, которые не были заранее обработаны. Это обеспечивает гибкость поиска и позволяет находить релевантные документы, даже если они не содержат точного слитного написания.
Как Google решает, как именно разбить составное слово?
Система использует предварительно созданный словарь, где каждому слову присвоена оценка (score), основанная на его частоте в интернете. Генерируются все возможные варианты разбивки на слова из словаря, и для каждого варианта считается сумма оценок его компонентов. Выбирается тот вариант разбивки, который дает максимальную общую оценку (Overall Score).
Использует ли Google полученную разбивку как синоним?
В описании патента указано, что сама разбивка может использоваться как синоним. Однако основные Claims (формула изобретения) фокусируются на более сложном механизме: использовании синонимов *компонентов* разбивки для расширения запроса. Например, для "vlcmediaplayer" система может не просто искать [vlc media player], но найти синоним для "player" (например, "software") и искать [vlc media software].
Что такое транзитивность в контексте синонимов?
Транзитивность означает, что если Слово А – синоним Слова В, а Слово В – синоним Слова С, то Слово А считается синонимом Слова С. Google использует этот принцип для поиска "синонимов синонимов" (до N уровней) для компонентов составного слова, что значительно расширяет охват поиска.
Как этот патент влияет на подбор ключевых слов?
Он подчеркивает необходимость исследовать не только очевидные ключевые фразы, но и варианты написания сложных терминов (слитно/раздельно), а также синонимы для их компонентов. Недостаточно оптимизироваться только под слитный термин; важно учитывать семантику его частей и их взаимозаменяемость.
Особенно ли важен этот патент для мультиязычного SEO?
Да, он критически важен для языков, активно использующих словосложение, таких как немецкий, голландский или скандинавские языки. В этих языках одно слово может заменять целую фразу. Корректная декомпозиция, включая учет соединительных элементов (Fugenmorphemes), является ключом к пониманию запроса в этих регионах.
Учитывает ли система ошибки или лексические варианты при декомпозиции?
Да, в разделе "Extensions" патента описываются техники для определения лексического сходства (lexical similarity), включая стемминг, псевдостемминг, аббревиатуры, акронимы. Система рассматривает их как доверенные синонимы (highly-trusted synonyms) и может снижать пороги для их валидации, что помогает обрабатывать вариации написания.
Что такое "Псевдостемминг" (Pseudostemming), описанный в патенте?
Это более агрессивный метод стемминга, разработанный Google. Он определяет, являются ли два слова вариантами друг друга, анализируя длину их общего префикса и редакционное расстояние (edit distance) между их окончаниями. Он направлен на выявление большего числа лексических вариантов по сравнению со стандартными стеммерами.
Как система обрабатывает неологизмы или новые составные термины?
Благодаря механизму Online Decompounding, система может обработать новый составной термин, если его компоненты уже известны и присутствуют в частотном словаре. Это позволяет поиску адаптироваться к появлению новых терминов без необходимости предварительной ручной обработки или переиндексации.
Может ли система неправильно разбить слово и ухудшить результаты?
Да, это возможно. Если статистически более частотная, но семантически неверная для данного контекста разбивка получит более высокий Score, система может выбрать ее. Например, если "usedrugs" будет разобрано как [use + drugs] вместо [used + rugs] в контексте покупки ковров. Система пытается минимизировать это, выбирая наиболее вероятную интерпретацию на основе частотности.

Семантика и интент
SERP

Семантика и интент

Поведенческие сигналы
Семантика и интент
EEAT и качество

Мультиязычность
Семантика и интент

SERP

Поведенческие сигналы
Индексация
Семантика и интент

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Свежесть контента
Антиспам
Ссылки

Knowledge Graph
SERP
Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Персонализация
EEAT и качество

Семантика и интент
Персонализация
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Local SEO
SERP
Ссылки
