Как Google итеративно определяет устойчивые фразы (коллокации) в тексте с помощью статистического анализа

Патент Google, описывающий итеративный алгоритм для определения того, какие последовательности слов являются значимыми фразами (коллокациями), а какие — случайным совпадением. Система анализирует текст, начиная с длинных фраз и двигаясь к коротким, используя статистические меры (отношение правдоподобия). Найденные фразы обрабатываются как единое целое, что повышает точность индексации и понимания запросов.

Описание

Какую задачу решает

Патент решает проблему точной идентификации compounds (составных выражений или коллокаций) в больших текстовых корпусах. Традиционные методы анализа N-грамм требуют больших ресурсов памяти и часто приводят к ошибкам:

Ложные подстроки (Spurious substrings): Например, определение «York City» как значимой фразы, хотя она значима только в контексте «New York City».
Ложные длинные фразы (Spurious long compounds): Например, определение «San Francisco has» как значимой фразы, хотя значимой является только «San Francisco».

Изобретение повышает точность распознавания естественного языка для улучшения результатов поиска, классификации текста и распознавания речи.

Что запатентовано

Запатентован итеративный метод для идентификации compounds в тексте. Суть изобретения заключается в использовании статистической меры ассоциации (measure of association), в частности, отношения правдоподобия (likelihood ratio), для оценки силы связи между словами в N-грамме. Система итеративно идентифицирует compounds определенной длины, перестраивает словарь (token vocabulary), заменяя найденные фразы на единые токены, и затем повторяет процесс, обычно двигаясь от длинных фраз к коротким.

Как это работает

Система работает итеративно, начиная с самых длинных потенциальных фраз и двигаясь к более коротким (например, от N=5 до N=2):

Токенизация: Текст разбивается на базовые слова (токены).
Итеративный анализ:

Система подсчитывает частоту встречаемости всех N-грамм заданной длины.
Для каждой N-граммы вычисляется likelihood ratio, сравнивая вероятность того, что слова связаны (гипотеза коллокации), с вероятностью их случайного соседства (гипотеза независимости).
N-граммы с наилучшими показателями признаются compounds.
Перестроение словаря (Vocabulary Reconstruction): Найденные compounds добавляются в словарь как новые единые токены (например, «New», «York», «City» заменяется на «New_York_City»).
Процесс повторяется для следующей длины (N-1) на основе обновленного словаря.

Этот подход предотвращает ошибки: после идентификации «New York City» как единого токена, система больше не рассматривает «York City» как отдельную фразу в этом контексте.

Актуальность для SEO

Высокая. Хотя патент старый (подача 2003 г.) и современные нейросетевые модели (BERT, MUM) используют более продвинутые методы понимания контекста, фундаментальная задача идентификации значимых фраз, коллокаций и сущностей остается критически важной для Information Retrieval. Описанные принципы итеративной токенизации и статистической валидации фраз лежат в основе обработки естественного языка.

Важность для SEO

Патент имеет высокое значение (75/100) для понимания основ SEO. Он не описывает факторы ранжирования, но раскрывает фундаментальный механизм того, как Google токенизирует и интерпретирует контент и запросы. Понимание того, как система распознает фразу как значимую коллокацию (compound), а не как случайный набор слов, напрямую влияет на стратегию создания контента и исследования ключевых слов.

Детальный разбор

Термины и определения

Compound / Collocation (Составное выражение / Коллокация): Последовательность слов, которые встречаются вместе чаще, чем можно было бы ожидать случайно. Примеры: «San Francisco», «hot dog». Цель идентификации в патенте.
Token (Токен): Единица текста для анализа. Изначально — отдельные слова. Идентифицированный compound становится единым токеном (Compound Token), например, «New_York_City».
Token Vocabulary (Словарь токенов): Набор всех уникальных токенов. Динамически обновляется в процессе работы алгоритма.
N-gram (N-грамма): Непрерывная последовательность из N токенов в тексте.
Measure of Association (Мера ассоциации): Статистическая метрика для определения силы связи между токенами в N-грамме.
Likelihood Ratio (Отношение правдоподобия, λ): Конкретная мера ассоциации, используемая в патенте. Сравнивает вероятность наблюдения данных при двух гипотезах.
Independence Hypothesis (Hi) (Гипотеза независимости): Предположение, что токены встречаются вместе случайно, их появление независимо друг от друга. P(t2|t1) = P(t2|¬t1).
Collocation Hypothesis (Hc) (Гипотеза коллокации): Предположение, что токены связаны. Вероятность появления второго токена выше, если присутствует первый. P(t2|t1) > P(t2|¬t1).
Vocabulary Reconstruction (Перестроение словаря): Ключевой этап, на котором идентифицированные compounds добавляются в словарь как новые токены, заменяя собой составляющие токены в корпусе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной итеративный метод идентификации compounds.

Извлечение словаря токенов из текста.
Итеративный процесс, начинающийся с N>2 и идущий вниз до N=2 (т.е., от длинных фраз к коротким). На каждой итерации выполняется:
- Идентификация уникальных N-грамм в тексте (на основе текущего словаря).
- Разделение каждой N-граммы на N-1 пару смежных сегментов (например, для 3-граммы ABC есть разделения A|BC и AB|C).
- Для каждой N-граммы: вычисление правдоподобия коллокации (likelihood of collocation) для каждой пары сегментов. Определение оценки (score) для N-граммы на основе НАИМЕНЬШЕГО (lowest) вычисленного правдоподобия среди всех пар. (Принцип «слабого звена»).
- Идентификация набора N-грамм с оценками выше порога.
- Добавление идентифицированных N-грамм как составных токенов (compound tokens) в словарь И удаление составляющих токенов (constituent tokens), которые встречаются в добавленных составных токенах, из словаря (Vocabulary Reconstruction).

Ядро изобретения — это сочетание итеративного подхода «сверху вниз», оценки по самому слабому звену и обязательного перестроения словаря. Это гарантирует идентификацию только сильных коллокаций и предотвращает ложные срабатывания на подстроках и суперстроках.

Claim 2 (Зависимый от 1): Уточняет метрику.

Используется отношение правдоподобия (likelihood ratio λ). Формула (согласно Claims): λ = L(Hi) / L(Hc). Поскольку система ищет статистически значимые связи (где Hc значительно сильнее Hi), она фокусируется на наименьших значениях λ.

Claim 4 (Зависимый от 2): Определяет статистические гипотезы Hi и Hc для пары токенов t1 и t2 (см. Термины и определения).

Где и как применяется

Изобретение относится к фундаментальным процессам обработки текста и формирования индекса.

INDEXING – Индексирование и извлечение признаков
Основная область применения. Механизм используется на этапе предварительной обработки и токенизации контента.

Токенизация: Система определяет, какие последовательности слов следует рассматривать как единые токены (compound tokens).
Извлечение признаков (Feature Extraction): Идентифицированные compounds становятся признаками документа, что позволяет индексу хранить информацию о значимых фразах.
Построение словаря: Алгоритм формирует Token Vocabulary, используемый для построения инвертированного индекса.

QUNDERSTANDING – Понимание Запросов
Результаты работы алгоритма (словарь compounds) используются при обработке запросов пользователя.

Токенизация запроса: Система определяет, следует ли интерпретировать запрос [new york city] как три слова или как одну единицу [New_York_City].
Семантический анализ: Распознавание compounds помогает точнее определять интент и распознавать сущности в запросе.

Входные данные:

Text Corpus (большой набор необработанных текстовых документов).
Начальный набор базовых токенов (слова).

Выходные данные:

Compounds List (Список идентифицированных составных выражений).
Финальный Token Vocabulary, включающий compound tokens.

На что влияет

Конкретные типы контента и запросы: Влияет на весь текстовый контент и все типы запросов. Особенно важен для контента, богатого терминологией, именами собственными (сущностями) и устоявшимися выражениями.
Языковые ограничения: Метод универсален и не зависит от языка, так как основан на статистике.

Когда применяется

Условия применения и частота: Алгоритм применяется в офлайн-режиме или в пакетном режиме для обработки больших объемов текста (например, значительной части интернета) с целью построения или обновления глобального словаря compounds и лингвистических моделей.
Применение результатов: Полученный словарь затем используется в реальном времени при индексировании новых документов и обработке запросов.

Пошаговый алгоритм

Подготовка корпуса: Сбор Text Corpus. Парсинг текста (удаление форматирования, пунктуации). Создание начального Token Vocabulary (отдельные слова).
Инициализация параметров: Определение максимальной длины compound (MAX) и опционального лимита на количество добавляемых фраз за итерацию (LIM).
Итеративный процесс (Цикл по длине N от MAX до 2):
- 3.1. Подсчет N-грамм: Идентификация всех уникальных N-грамм длины N в корпусе на основе *текущего* Token Vocabulary и подсчет их частот.
- 3.2. Статистическая оценка: Для каждой N-граммы:
  - Определить все N-1 способа разделения на два смежных сегмента.
  - Для каждого способа разделения вычислить Likelihood Ratio (λ).
  - Оценка (Score) N-граммы определяется как *наименьшее* значение λ среди всех способов разделения (принцип «слабого звена»).
- 3.3. Фильтрация и выбор: Выбор N-грамм с наилучшими оценками (например, Топ-LIM).
- 3.4. Перестроение словаря (Vocabulary Reconstruction):
  - Добавление выбранных N-грамм в Token Vocabulary как новых compound tokens.
  - Замена всех вхождений этих N-грамм в корпусе на соответствующие новые токены.
- 3.5. Уменьшение длины: Переход к следующей итерации с длиной N-1.
Завершение: Формирование финального Compounds List и Token Vocabulary.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на статистическом анализе текстовых данных.

Контентные факторы: Используется необработанный текст (Text Corpus). Система анализирует последовательность и частоту совместной встречаемости (co-occurrence) слов (токенов) в этом корпусе.

Другие факторы (ссылочные, поведенческие, технические и т.д.) в этом патенте не упоминаются.

Какие метрики используются и как они считаются

Частота N-грамм (N-gram Counts): Количество вхождений определенной последовательности токенов в корпусе. Пересчитывается на каждой итерации.
Вероятности (P): Оценка вероятности появления токена в определенном контексте (например, P(t2|t1)).
Отношение Правдоподобия (Likelihood Ratio, λ): Основная метрика для принятия решения. Сравнивает гипотезу коллокации (Hc) и гипотезу независимости (Hi).
Методы вычислений: Патент ссылается на метод Даннинга (Dunning, 1993) для вычисления отношения правдоподобия, предполагая биномиальное распределение данных.
Оценка N-граммы (Score): Для N>2, оценка определяется как минимальное значение Likelihood Ratio среди всех возможных разделений N-граммы на два сегмента.
Пороговые значения: Используется лимит (LIM) или порог для оценки λ, чтобы отобрать только самые сильные коллокации.

Выводы

Статистическая значимость важнее частоты: Google использует строгие статистические методы (Likelihood Ratio), чтобы определить, является ли совместное появление слов закономерным или случайным. Частота сама по себе недостаточна.
Итеративный подход «Сверху вниз»: Ключевой механизм — анализ от длинных фраз к коротким (N>2 до N=2). Это позволяет сначала идентифицировать наиболее полные устойчивые выражения.
Перестроение словаря (Vocabulary Reconstruction) критически важно: После идентификации фразы она становится единым токеном (compound token) и заменяет собой составляющие слова для следующих итераций. Это предотвращает ложную идентификацию подстрок (например, «York City» не будет найдено, если «New York City» уже идентифицировано).
Оценка по «Слабому звену»: Оценка многословной фразы определяется самой слабой связью между ее частями. Это предотвращает ложную идентификацию длинных фраз (например, «San Francisco has»).
Фундамент для понимания языка: Этот патент описывает базовый механизм, позволяющий поисковой системе перейти от анализа отдельных слов к пониманию фраз, концепций и сущностей.

Практика

Best practices (это мы делаем)

Использование естественных и устоявшихся формулировок: Применяйте общепринятые термины, названия сущностей и коллокации последовательно. Это повышает вероятность того, что система корректно распознает их как единый compound token на основе статистических данных глобального корпуса.
Обеспечение сильной коллокации в контенте: Убедитесь, что целевые ключевые фразы используются в контенте часто и естественно как единое целое в релевантных контекстах. Это укрепляет статистические сигналы.
Развитие Topical Authority и использование нишевой терминологии: Создавайте авторитетный контент, который соответствует языку вашей ниши. Чем чаще специфические термины встречаются в качественных корпусах текстов по теме, тем выше вероятность их распознавания как compounds в языковой модели Google.
Соблюдение целостности фраз: Старайтесь не разрывать устойчивые словосочетания в ключевых элементах страницы (заголовки, основной текст). Сохранение их целостности облегчает системе процесс токенизации.

Worst practices (это делать не надо)

Искусственное соединение слов (Keyword Stuffing): Попытки манипулировать частотой путем неестественного повторения слов рядом друг с другом неэффективны. Система использует likelihood ratio, который устойчив к простому завышению частоты и требует наличия реальной статистической связи.
Непоследовательная терминология: Использование разных вариантов написания для одной и той же концепции или сущности может размыть статистический сигнал и помешать системе идентифицировать ее как compound.
Игнорирование общепринятой терминологии: Использование редких или некорректных синонимов для устоявшихся терминов может привести к тому, что система не распознает их как значимые концепции.

Стратегическое значение

Этот патент подтверждает долгосрочную стратегию Google по переходу от буквального сопоставления ключевых слов к пониманию естественного языка и семантических единиц. Понимание того, как Google токенизирует контент и выделяет устойчивые фразы, критично для эффективной контент-стратегии. Стратегический приоритет должен отдаваться использованию естественного языка, устоявшейся терминологии и построению тематической авторитетности.

Практические примеры

Сценарий: Оптимизация страницы под многословный технический термин

Задача: Продвинуть страницу по запросу «Zero Trust Network Access» (ZTNA).

Анализ: Необходимо, чтобы Google распознал «Zero Trust Network Access» как compound (единую концепцию), а не как набор отдельных слов.
Действия (Контент-стратегия):
- Создать серию авторитетных статей, где эта фраза используется часто и последовательно как определение технологии.
- Использовать фразу в заголовках (H1, H2) и основном тексте.
- Стимулировать использование этой терминологии в индустрии (PR, внешние публикации), чтобы увеличить частоту фразы в глобальном корпусе Google.
Ожидаемый результат: Алгоритм Google, анализируя корпус, обнаружит высокую частоту этой 4-граммы. При вычислении Likelihood Ratio для всех разрывов (Zero|Trust Network Access, Zero Trust|Network Access и т.д.) система увидит сильную статистическую связь. Фраза будет идентифицирована как compound token [Zero_Trust_Network_Access]. Это улучшит точность ранжирования по этому конкретному запросу.

Вопросы и ответы

Что такое Compound (Коллокация) в контексте этого патента?

Это последовательность слов, которые статистически встречаются вместе значительно чаще, чем если бы они были независимы. Это могут быть имена собственные, термины или устоявшиеся выражения. Если Google идентифицирует фразу как compound, он обрабатывает ее как единый токен (например, [New_York_City]).

Почему используется итеративный подход и почему он начинается с длинных фраз (сверху вниз)?

Подход «сверху вниз» критичен для точности. Если сначала идентифицировать длинную фразу (например, «New York City») и заменить ее на единый токен, это предотвратит ошибочную идентификацию ее частей (например, «York City») как самостоятельных compounds на следующих итерациях (когда анализируются более короткие фразы). Это решает проблему ложных подстрок.

Что такое «Перестроение словаря» (Vocabulary Reconstruction) и почему это важно?

Это процесс обновления словаря токенов после каждой итерации. Найденные compounds добавляются как новые токены, а их вхождения в тексте заменяются этим единым токеном. Это изменяет статистику (частоты N-грамм) для следующей итерации и позволяет системе рассматривать уже найденные фразы как неделимые единицы.

Как система оценивает многословные фразы (N>2)?

Система проверяет все возможные точки разрыва во фразе. Например, для фразы ABC проверяются связи A-BC и AB-C. Окончательная оценка фразы определяется по самой слабой из этих связей (lowest calculated likelihood). Это гарантирует, что все части фразы сильно связаны друг с другом, и отсекает ложные длинные фразы вроде «San Francisco has».

Достаточно ли просто часто использовать фразу в тексте, чтобы Google признал ее как Compound?

Нет, частоты недостаточно. Система использует отношение правдоподобия (Likelihood Ratio), которое сравнивает вероятность совместного появления слов с вероятностью их независимого появления. Это статистическая мера, которая устойчива к простому завышению частоты (спаму) и требует наличия реальной сильной связи.

Как этот патент влияет на стратегию использования ключевых слов в SEO?

Он подтверждает необходимость фокусироваться на естественном и последовательном использовании целевых фраз как единого целого. Для SEO важно не просто наличие слов на странице, а то, чтобы эти слова формировали статистически значимую коллокацию в глазах Google. Это требует использования устоявшейся терминологии.

Влияет ли этот механизм на определение сущностей (Entities)?

Да, напрямую. Идентификация compounds часто является первым шагом к распознаванию именованных сущностей (Named Entity Recognition). Статистически значимые фразы (например, имена людей, названия компаний, локации) затем могут быть связаны с соответствующими сущностями в Knowledge Graph.

Применяется ли этот анализ только к моему сайту или ко всему интернету?

Этот анализ применяется к большому текстовому корпусу (Text Corpus), который представляет собой значительную часть интернета. Цель состоит в том, чтобы построить глобальный словарь compounds, основанный на общем использовании языка, а не на контенте одного сайта.

Могу ли я заставить Google признать новую фразу или термин как Compound?

Да, но это требует усилий по популяризации термина. Необходимо последовательно вводить новый термин в обиход, используя его часто и естественно в авторитетном контенте. Если термин станет общепринятым в индустрии и его использование распространится, система статистически идентифицирует его как compound.

На каком этапе поиска работает этот механизм?

В основном он работает на этапе Индексирования (INDEXING), во время токенизации и извлечения признаков из контента. Результаты его работы (построенный словарь compounds) затем используются на этапе Понимания Запросов (QUNDERSTANDING) для интерпретации пользовательского ввода.