Как Google использует машинное обучение и статистику запросов для разделения составных слов (компаундов)

Google использует систему для анализа и разделения составных слов (компаундов), часто встречающихся в таких языках, как немецкий. Система генерирует различные варианты разделения слова, применяет морфологические изменения и оценивает их, используя статистику из логов поисковых запросов (частотность, совместная встречаемость), данные рекламодателей и анализ анкорных текстов. Модель машинного обучения выбирает наилучший вариант разделения, который затем используется в качестве ключевых слов.

Описание

Какую задачу решает

Патент решает проблему обработки составных слов (компаундов) в информационном поиске и системах онлайн-рекламы. Составные слова образуются путем слияния нескольких простых слов (например, немецкое «Blumenstraeusse» из Blumen и Straeusse). Если система поиска рассматривает компаунд только как единое целое, она может упустить релевантный контент или рекламу, которые используют раздельные компоненты этого слова. Изобретение улучшает понимание запросов и полноту поиска (Recall) путем эффективной декомпозиции компаундов на составляющие их части.

Что запатентовано

Запатентована система и метод для автоматической декомпозиции (разделения) слов. Система генерирует множество потенциальных вариантов разделения слова на подстроки (substrings), применяя морфологические правила (добавление или удаление морфем). Затем она оценивает эти варианты (splittings), используя модель машинного обучения (например, Support Vector Machine), обученную на статистических данных из логов поисковых запросов (query log), а также данных рекламодателей и анализе анкорных текстов.

Как это работает

Система работает по следующему алгоритму:

Генерация кандидатов: Слово разделяется на все возможные комбинации подстрок.
Морфологическая обработка: К подстрокам применяются морфемы (например, окончание ‘e’ или ‘s’ в немецком языке) — они добавляются или удаляются для создания лингвистически вероятных вариантов.
Валидация по логам: Проверяется, встречаются ли полученные подстроки в реальных поисковых запросах пользователей (query log).
Извлечение признаков: Для валидных вариантов разделения вычисляются статистические параметры: частота подстрок, частота совместной встречаемости (co-occurrence frequency), частота последовательной встречаемости и взаимная информация (mutual information).
Оценка (Scoring): Модель машинного обучения использует эти признаки для расчета оценки (score) для каждого варианта разделения.
Выбор: Вариант с наивысшей оценкой выбирается, и его компоненты используются как ключевые слова (keywords).

Актуальность для SEO

Высокая. Обработка сложной морфологии и понимание естественного языка (NLP) являются ключевыми направлениями развития поиска. Для языков с активным словосложением (немецкий, голландский, скандинавские языки, финский) механизмы декомпозиции критически важны для обеспечения релевантности выдачи. Описанный подход, основанный на статистике запросов и машинном обучении, остается фундаментальным, хотя конкретные модели (как SVM) могут быть заменены более современными нейросетевыми архитектурами.

Важность для SEO

Патент имеет высокое значение (7.5/10) для международного SEO, особенно в регионах, где распространены языки с составными словами. Он показывает, что Google не просто ищет точное совпадение компаунда, а активно пытается понять его составные части и их статистическую значимость. Это напрямую влияет на стратегии исследования ключевых слов, оптимизации контента и линкбилдинга (учитывая анализ анкорных текстов), требуя учета как составных, так и раздельных форм слов.

Детальный разбор

Термины и определения

Anchor Text (Анкорный текст): Текст гиперссылки. Используется как сигнал: если ссылки с компаундом и с его разделенной формой ведут на один и тот же документ, это подтверждает правильность декомпозиции.
Co-occurrence Frequency (Частота совместной встречаемости): Метрика, показывающая, как часто две подстроки встречаются вместе в одном запросе в Query Log. Также измеряется для последовательных позиций (consecutive positions).
Morpheme (Морфема): Наименьшая значимая единица языка (например, окончания ‘e’, ‘en’, ‘s’ в немецком). Используется для генерации лингвистически вероятных вариантов подстрок при разделении.
Mutual Information (MI) (Взаимная информация): Статистическая мера взаимной зависимости двух переменных (в данном контексте — двух подстрок). Высокий MI указывает на то, что две подстроки тесно связаны и часто встречаются вместе.
Query Log (Лог запросов): База данных ранее введенных пользователями поисковых запросов. Основной источник данных для валидации подстрок и расчета статистических параметров.
Scoring Engine (Механизм оценки): Компонент системы, который рассчитывает оценку (score) для каждого варианта разделения, используя модель машинного обучения.
Splitting (Вариант разделения): Конкретный способ разделения исходного слова на набор из двух или более подстрок (например, «kontrolle» + «funktion»).
Substring (Подстрока): Компонент варианта разделения. В патенте различаются first substrings (прямое разделение), second substrings (добавлена морфема) и third substrings (удалена морфема).
Support Vector Machine (SVM) (Метод опорных векторов): Алгоритм машинного обучения, упомянутый в патенте для обучения модели оценки вариантов разделения.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод декомпозиции, основанный на данных и машинном обучении.

Система разделяет слово на множество различных вариантов разделения (splittings).
Для каждой подстроки в каждом варианте определяются параметры. Эти параметры включают: частоту или вероятность встречаемости подстроки в query log, и/или оценку взаимной информации (mutual information score) с другими подстроками этого же варианта.
Для каждого варианта разделения вычисляется оценка (score). Оценка вычисляется с использованием модели, обученной на этих параметрах (trained model).
Подстроки из варианта разделения с наивысшей оценкой сохраняются как ключевые слова (keywords).

Claim 4 (Зависимый от 1): Детализирует процесс обучения модели.

Модель обучается с помощью алгоритма машинного обучения на основе набора обучающих слов (training words). Эти слова размечены как составные или нет, и для составных слов указан правильный вариант разделения. Это подтверждает использование Supervised Learning.

Claim 10 (Независимый пункт): Описывает альтернативный метод оценки, фокусирующийся на последовательности.

Слово разделяется и подстроки валидируются по query log.
Вычисляется оценка для варианта разделения. Ключевое отличие: оценка основана на количестве случаев, когда подстроки этого варианта встречаются *последовательно* (consecutively) в полученных поисковых запросах.
Подстроки выбираются как ключевые слова на основе этой оценки.

Claims 2, 3 (Зависимые от 1): Подчеркивают роль морфологии.

Идентификация вариантов разделения включает проверку того, встречается ли в query log либо сама подстрока, либо альтернативная подстрока, полученная путем удаления (Claim 2) или добавления (Claim 3) морфемы. Это означает, что система активно нормализует компоненты слова при валидации.

Где и как применяется

Изобретение применяется преимущественно на этапе понимания запроса для улучшения интерпретации терминов в языках с составными словами.

QUNDERSTANDING – Понимание Запросов (Основное применение)
Это основная область применения. Когда пользователь вводит запрос, содержащий составное слово, система декомпозиции активируется. Она анализирует слово, генерирует варианты разделения, оценивает их и выбирает наилучший. Это может привести к внутреннему переписыванию запроса (Query Rewriting), где компаунд заменяется на его компоненты, что позволяет находить документы, содержащие компоненты по отдельности.

INDEXING – Индексирование и извлечение признаков
На этом этапе собираются и обрабатываются данные, необходимые для работы системы. Например, анализ анкорных текстов (anchor texts) для определения совместной встречаемости составной и раздельной формы слова, указывающих на один и тот же документ.

CRAWLING – Сканирование и Сбор данных
Система полагается на сбор обширных данных: логи поисковых запросов (Query Logs) и данные о анкорных текстах в интернете.

Входные данные:

Исходное слово (потенциальный компаунд).
Query Log (статистика поисковых запросов).
Списки морфем для конкретного языка.
Обученная модель машинного обучения (trained model).
Данные рекламодателей (Advertiser Keywords) и анкорных текстов.
Словари и списки исключений (имена собственные, локации).

Выходные данные:

Наилучший вариант разделения (Splitting) слова, используемый как набор ключевых слов (Keywords).

На что влияет

Языковые и географические ограничения: Механизм критичен для языков с продуктивным словосложением: германские языки (немецкий, голландский, шведский, датский, норвежский и т.д.) и другие языки, такие как финский. Влияние на английский или русский язык минимально.
Специфические запросы: Наибольшее влияние на запросы, содержащие длинные составные слова, особенно в коммерческих (e-commerce) и информационных тематиках.
Конкретные ниши или тематики: Влияет на ниши, где терминология часто образует компаунды (техника, юриспруденция, медицина).

Когда применяется

Триггеры активации: Вероятно, активируется, когда в запросе обнаруживается слово, которое потенциально может быть компаундом (например, длинное слово или слово, чьи части часто встречаются в логах).
Исключения и особые случаи: Патент упоминает использование внешних источников (outside sources) для предотвращения разделения слов, которые не должны быть разделены. К ним относятся словари, списки локаций (gazetteers), имена собственные, организации, торговые марки. Например, немецкие слова, заканчивающиеся на «strasse» или «dorf», часто являются топонимами и исключаются из разделения.

Пошаговый алгоритм

Процесс декомпозиции слова:

Получение слова и Фильтрация: Система получает слово и проверяет его по внешним источникам (имена собственные, локации). Если слово найдено в списке исключений, процесс останавливается.
Генерация первых подстрок: Splitting Engine генерирует все возможные способы разделения слова на последовательные подстроки (first substrings). Может применяться ограничение на минимальную длину (например, 3 символа).
Морфологическая обработка:
- К первым подстрокам добавляются морфемы (first morpheme) для создания вторых подстрок (second substrings). Например, «kontroll» -> «kontrolle».
- Из первых подстрок удаляются морфемы (second morpheme) для создания третьих подстрок (third substrings).
Формирование вариантов разделения (Splittings): Подстроки (первые, вторые и третьи) комбинируются для формирования полных вариантов разделения, которые покрывают исходное слово.
Валидация по Query Log: Каждая подстрока в варианте разделения проверяется на наличие в query log.
Извлечение признаков (Feature Extraction): Для валидных вариантов вычисляются параметры (признаки) на основе query log и других источников:
- Частота и вероятность каждой подстроки.
- Частота совместной встречаемости (Co-occurrence frequency) пар подстрок.
- Частота последовательной совместной встречаемости.
- Взаимная информация (Mutual Information) между подстроками.
- Признаки из рекламных кампаний и анкорных текстов.
Оценка (Scoring): Scoring Engine применяет обученную модель машинного обучения (например, SVM) к извлеченным признакам для расчета финальной оценки для каждого варианта разделения.
Выбор и вывод: Выбирается вариант разделения с наивысшей оценкой. Его подстроки используются как keywords для дальнейшей обработки запроса.

Какие данные и как использует

Данные на входе

Патент фокусируется на статистических, поведенческих и лингвистических данных.

Поведенческие факторы (Query Logs): Критически важный источник данных. Логи поисковых запросов используются для валидации существования подстрок и расчета всех статистических метрик.
Лингвистические данные (Морфемы и Словари): Списки морфем для конкретных языков (например, ‘e’, ‘en’, ‘s’, ‘es’, ‘ns’ для немецкого). Словари и списки исключений используются для фильтрации.
Структурные/Контентные факторы (Anchor Text): Упоминается использование анкорных текстов гиперссылок. Анализируется совместная встречаемость компаунда и его разделенной формы в анкорах, ведущих на один и тот же документ.
Рекламные данные (Advertiser Keywords): Упоминается использование данных о том, на какие ключевые слова делают ставки рекламодатели (advertiser keyword), и как часто разные формы слова используются в одной рекламной кампании.

Какие метрики используются и как они считаются

Frequency (Частота): Количество раз, когда подстрока появляется как термин в query log.
Probability (Вероятность): Частота подстроки, деленная на общее количество терминов в query log.
Co-occurrence Frequency (Частота совместной встречаемости): Количество запросов, в которых две подстроки появляются вместе.
Consecutive Co-occurrence Frequency: Количество запросов, в которых две подстроки появляются вместе и последовательно (друг за другом).
Mutual Information (Взаимная информация): Измеряет статистическую зависимость между двумя подстроками. Рассчитывается по формуле, включающей вероятности отдельных подстрок p(x), p(y) и вероятность их совместного появления p(x,y). Формула, указанная в патенте: I(x,y) = p(x,y)log(p(x,y)/(p(x)p(y))).
Алгоритмы машинного обучения: Используется модель (упомянут SVM), которая обучается на всех вышеперечисленных метриках (признаках) для вычисления итоговой оценки Score для варианта разделения.

Выводы

Статистика использования языка приоритетнее словарей: Google полагается на реальные данные из query logs для понимания того, как пользователи используют составные слова и их компоненты. Частота, вероятность и совместная встречаемость являются ключевыми факторами при принятии решения о разделении.
Морфологическая гибкость: Система не просто разделяет слово, но активно применяет морфологические правила (добавление/удаление морфем), чтобы найти лингвистически корректные компоненты и нормализовать их различные грамматические формы.
Машинное обучение для выбора лучшего варианта: Выбор оптимального разделения — это результат работы модели машинного обучения (trained model), которая взвешивает множество факторов (признаков), а не простая эвристика. Модель обучается на размеченных данных (training words).
Важность последовательности: Особое внимание уделяется тому, встречаются ли компоненты не просто в одном запросе, но и последовательно друг за другом (consecutively). Это является сильным сигналом для валидации разделения (Claim 10).
Использование кросс-сигналов: Помимо логов запросов, система может использовать данные из анкорных текстов и рекламных кампаний для подтверждения связи между составной и раздельной формой слова.
Фильтрация исключений: Система предусматривает механизмы защиты от ошибочного разделения имен собственных, торговых марок и локаций, что критично для качества поиска.

Практика

Best practices (это мы делаем)

Эти рекомендации критически важны для сайтов на языках с активным словосложением (немецкий, голландский, скандинавские и т.д.).

Исследование ключевых слов с учетом декомпозиции: Необходимо анализировать поисковый спрос как для составного слова, так и для его компонентов по отдельности. Так как Google использует query logs для определения лучшего разделения, ориентируйтесь на формулировки, которые реально используются пользователями.
Естественное использование обеих форм в контенте: Если это уместно и естественно, используйте в тексте как составное слово, так и его раздельные компоненты. Это может улучшить релевантность контента для обеих интерпретаций запроса (составной и переписанной системой).
Оптимизация анкорных текстов (Anchor Text Strategy): Поощряйте использование как составных, так и раздельных форм в анкорных текстах внешних и внутренних ссылок. Патент указывает, что совместная встречаемость разных форм в анкорах, ведущих на один URL, является сигналом связи между ними.
Учет морфологических вариантов: Учитывайте различные грамматические формы компонентов составных слов (например, с добавлением соединительных элементов). Патент подтверждает, что Google генерирует и проверяет эти варианты (second/third substrings).
Защита брендов и имен собственных: Если ваш бренд может быть ошибочно интерпретирован как составное слово, работайте над тем, чтобы он был распознан как имя собственное (например, через последовательное использование и разметку), чтобы избежать нежелательной декомпозиции.

Worst practices (это делать не надо)

Игнорирование компонентов составных слов: Оптимизация страницы только под точное вхождение длинного составного слова. Если Google решит, что раздельная форма более релевантна или популярна, страница может потерять позиции.
Искусственное разделение слов: Не нужно искусственно разделять все компаунды в тексте, если это нарушает правила грамматики или ухудшает читаемость. Система Google стремится найти *наилучшее* разделение, основываясь на статистике, а не на правилах оптимизатора.
Keyword Stuffing вариантами: Не следует перенасыщать текст всеми возможными морфологическими вариантами и способами разделения. Это может быть расценено как спам.

Стратегическое значение

Патент подтверждает важность статистического анализа языка (Data-Driven Linguistics) в алгоритмах Google. Для международного SEO это означает, что стратегии должны адаптироваться к лингвистическим особенностям каждого рынка. В языках с компаундами недостаточно полагаться на словари; необходимо глубоко понимать, как носители языка фактически формируют запросы. Система декомпозиции позволяет Google лучше понимать нюансы запросов, преодолевая ограничения точного совпадения ключевых слов и улучшая Query Understanding.

Практические примеры

Сценарий: Оптимизация страницы товара в немецком интернет-магазине

Продукт: Собачий ошейник (Hundehalsband).

Исследование: SEO-специалист анализирует спрос для «Hundehalsband» (компаунд), а также для компонентов «Hund» (собака) и «Halsband» (ошейник). Учитывается морфология (например, форма множественного числа «Hunde»).
Анализ Google: Согласно патенту, Google анализирует частотность и Mutual Information для пары («Hunde», «Halsband»). Если они высоки, система может предпочесть декомпозицию.
Оптимизация контента:
Заголовок H1 использует основную форму: «Hundehalsband aus Leder».
В тексте естественно используются компоненты: «Finden Sie das perfekte Halsband für Ihren Hund…».
Линкбилдинг: Внешние ссылки используют анкоры как с компаундом («Hundehalsband kaufen»), так и с раздельной формой или компонентами («Halsbänder für Hunde»).
Ожидаемый результат: Страница хорошо ранжируется независимо от того, использует ли Google внутреннюю декомпозицию запроса или нет, так как она релевантна всем статистически значимым вариантам написания и компонентам.

Вопросы и ответы

Для каких языков этот патент наиболее актуален?

Патент наиболее актуален для языков с продуктивным словосложением, где новые слова часто образуются путем слияния существующих. В первую очередь это германские языки (немецкий, голландский, шведский, датский, норвежский), а также финский. В этих языках корректная обработка компаундов критична для понимания смысла запроса.

Как Google решает, какой вариант разделения составного слова лучше?

Google использует модель машинного обучения (в патенте упомянут SVM), обученную на статистических данных из логов поисковых запросов. Модель оценивает варианты, учитывая частоту компонентов, их совместную встречаемость (особенно последовательную) и взаимную информацию (Mutual Information). Вариант с наивысшей оценкой считается лучшим.

Учитывает ли Google грамматику при разделении слов?

Да, учитывает. Патент описывает механизм применения морфем (Morphemes) — добавление или удаление окончаний и соединительных элементов (например, ‘s’ или ‘e’ в немецком). Это позволяет системе генерировать и распознавать лингвистически корректные компоненты, даже если они отличаются от базовой формы слова при слиянии.

Что такое «Взаимная информация» (Mutual Information) в контексте этого патента?

Это статистическая мера, которая показывает, насколько сильно связаны два компонента составного слова. Если два слова часто встречаются вместе и редко по отдельности, их взаимная информация высока. Это сильный сигнал того, что они являются частью одного компаунда и что данный вариант разделения корректен.

Должен ли я использовать в тексте и составное слово, и его раздельные компоненты?

Если это естественно и не нарушает грамматику, использование обеих форм может быть полезным, так как повышает релевантность контента для разных интерпретаций запроса. Однако приоритет следует отдавать той форме, которая имеет наибольшую частотность в поисковых запросах, так как Google ориентируется на статистику использования.

Как этот патент влияет на стратегию построения ссылок (Link Building)?

Патент упоминает использование анкорных текстов (Anchor Texts). Если ссылки, ведущие на одну и ту же страницу, используют как составную, так и раздельную форму слова, это помогает Google установить связь между ними. При построении ссылочной массы полезно естественно варьировать анкоры, включая обе формы.

Может ли Google ошибочно разделить мой бренд или название продукта?

Да, такая вероятность существует, если название похоже на составное слово. Однако патент предусматривает использование внешних источников, таких как словари имен собственных, локаций и торговых марок, в качестве фильтров. Последовательное использование бренда и его регистрация помогают Google распознать его как единое целое и избежать разделения.

Использует ли Google словари для разделения компаундов?

Основной акцент в патенте сделан на использовании статистики из Query Logs и машинном обучении, а не на словарных методах. Словари упоминаются в основном как средство фильтрации исключений (имен собственных, локаций). Это подход, основанный на данных о реальном использовании языка.

Что важнее: чтобы компоненты встречались вместе в одном запросе или чтобы они шли последовательно?

Патент рассматривает оба фактора, но Claim 10 специально выделяет важность последовательной встречаемости (occurring consecutively) компонентов в поисковых запросах. Это является более сильным сигналом корректности разделения, чем просто нахождение в одном запросе.

Применяется ли этот патент только к рекламе или к органическому поиску тоже?

Хотя патент часто упоминает контекст рекламной системы (Advertisement System) и использует данные рекламодателей как один из сигналов, описанная технология декомпозиции является фундаментальной для понимания запросов. В патенте указано, что она может применяться в информационном поиске (information retrieval), поэтому эти механизмы используются и в органическом поиске.