Как Google отличает идиомы и сущности («hot dog») от описательных фраз («fast dog») с помощью контекстного анализа

Google использует автоматический метод для распознавания фраз (например, идиом), чей общий смысл отличается от смысла составляющих их слов. Система заменяет слова во фразе на семантически похожие и проверяет, насколько сильно изменился смысл и контекст всей конструкции. Это позволяет поисковой системе обрабатывать такие фразы как единое целое, улучшая понимание запросов и релевантность выдачи.

Описание

Какую задачу решает

Патент решает проблему корректной интерпретации многословных фраз в системах информационного поиска. Поисковым системам критически важно понимать, когда фразу следует интерпретировать буквально (композиционно), а когда — как единое целое с идиоматическим значением (некомпозиционно). Например, система должна различать «hot dog» (еда) от буквального значения слов «hot» и «dog». Ошибочная интерпретация приводит к нерелевантным результатам, так как система может искать документы, содержащие отдельные слова, а не фразу целиком.

Что запатентовано

Запатентована система для автоматической идентификации и классификации фраз как Non-Compositional Compounds (NCC) или Compositional Compounds (CC). Метод основан на тесте замещения (substitution test) и использует анализ контекстуальной близости (contextual similarity), рассчитываемый на основе принципов дистрибутивной семантики с помощью Context Vectors и Cosine Distance.

Как это работает

Механизм анализирует контексты употребления слов и фраз в большом корпусе текста.

Идентификация похожих слов: Система находит слова, вертикально похожие (Vertical Similarity) на компоненты фразы (например, «cat» похожа на «dog»), сравнивая контексты их употребления.
Тест замещения: Похожее слово подставляется во фразу (например, «hot dog» становится «hot cat»).
Сравнение фраз: Система сравнивает контекст, в котором встречается исходная фраза («hot dog»), с контекстом замещенной фразы («hot cat»).
Классификация: Если контексты сильно различаются (схожесть ниже порога), это означает, что замещение изменило смысл. Следовательно, исходная фраза является NCC. Если контексты похожи (например, «Toshiba laptop» и «Acer laptop»), фраза является CC.

Актуальность для SEO

Высокая. Понимание сложных лингвистических конструкций, идиом и границ семантических единиц является фундаментальной задачей NLP и Information Retrieval. В эпоху нейросетевых моделей (BERT, MUM), которые глубоко анализируют контекст, механизмы, описанные в этом патенте, остаются критически важными для правильной токенизации, распознавания сущностей и понимания интента запроса.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он объясняет механизм, с помощью которого Google определяет, следует ли рассматривать ключевую фразу как набор отдельных слов или как неделимую семантическую единицу. Это напрямую влияет на то, как контент индексируется и как обрабатываются запросы. SEO-специалисты должны понимать, что оптимизация под NCC требует использования фразы целиком и в правильном контексте.

Детальный разбор

Термины и определения

Non-Compositional Compound (NCC) (Некомпозиционное соединение): Фраза из двух или более слов, смысл которой не выводится из обычных значений составляющих ее слов (идиома, устойчивое выражение). Пример: «hot dog», «red herring».
Compositional Compound (CC) (Композиционное соединение): Фраза из двух или более слов, смысл которой складывается из обычных значений составляющих ее слов. Пример: «old lady».
Vertical Similarity (Category Similarity) (Вертикальная или Категориальная схожесть): Тип схожести, когда слова принадлежат к одной категории или являются синонимами (например, «BMW» и «Lexus»). Этот тип схожести используется в патенте для поиска слов-заменителей.
Horizontal Similarity (Circumstantial Similarity) (Горизонтальная или Обстоятельственная схожесть): Тип схожести, основанный на частом совместном употреблении слов (например, «BMW» и «dealership»).
Context (Контекст): Окружение слова или фразы в тексте. Делится на левый (left context) и правый (right context). Контекст состоит из признаков (Features).
Features (Признаки): Коллекция n-грамм с высокой частотностью, извлеченная из корпуса текста (например, топ 300,000). Используются для определения контекста.
Mutual Information (MI) Score (Оценка взаимной информации): Статистическая мера, определяющая силу связи между словом/фразой и контекстным признаком.
Context Vectors (Контекстные векторы): Векторное представление контекста слова или фразы. Состоит из MI Scores для различных признаков. Для каждого слова/фразы создается левый и правый вектор.
Cosine Distance (Косинусное расстояние): Метрика для измерения схожести между двумя Context Vectors. Используется для определения схожести слов и фраз.
Substitute Phrase (Фраза-подстановка): Новая фраза, сгенерированная путем замены одного из слов в исходной фразе на похожее слово.

Ключевые утверждения (Анализ Claims)

Claim 1 и Claim 7 (Независимые пункты): Описывают основной метод определения и аннотирования NCC.

Система получает коллекцию фраз из коллекции текста.
Для каждой фразы определяется, является ли она NCC.
Процесс определения включает:
- Идентификацию похожего слова (similar word) для одного из слов фразы.
- Подстановку этого похожего слова для генерации substitute phrase.
- Вычисление схожести (similarity) между исходной фразой и substitute phrase. Это вычисление основано на сравнении контекста (context) обеих фраз в коллекции текста.
- Идентификацию фразы как NCC на основе сравнения вычисленной схожести с пороговым значением (specified threshold).
(Claim 7) Аннотирование (маркировка) каждой фразы, идентифицированной как NCC.

Ядро изобретения — использование контекстного анализа (дистрибутивной семантики) для измерения схожести и применение теста подстановки для выявления некомпозиционности.

Claim 9 и 10 (Зависимые от 7): Детализируют методы расчета схожести.

Уточняется, что как идентификация похожих слов (Claim 9), так и вычисление схожести между фразами (Claim 10) выполняются путем измерения схожести, основанного на контекстах, в которых эти слова или фразы встречаются в коллекции текста.

Claim 4 и 5 (Зависимые от 1): Описывают применение изобретения в информационном поиске.

Если поисковый запрос содержит идентифицированный NCC, система модифицирует поиск. Модификация включает поиск NCC как единого целого, а не поиск составляющих его терминов по отдельности (Claim 5).

Где и как применяется

Изобретение применяется на этапах предварительной обработки данных и понимания запросов.

INDEXING – Индексирование и извлечение признаков (Офлайн-процесс)
Процесс идентификации NCC выполняется как офлайн-задача обработки большого корпуса текста (веб-документы, логи запросов). На этом этапе система вычисляет контекстные векторы, классифицирует фразы и сохраняет результаты (аннотации NCC). Это позволяет при индексировании контента распознавать NCC как единые семантические единицы.

QUNDERSTANDING – Понимание Запросов (Онлайн-процесс)
Ключевое применение в реальном времени. При получении запроса система использует предварительно вычисленные данные о NCC для понимания его структуры и интента. Если запрос содержит NCC (например, «hot dog»), он интерпретируется как единая концепция, а не как комбинация отдельных слов.

RANKING – Ранжирование
Алгоритм оказывает сильное косвенное влияние. Благодаря правильной идентификации NCC, система ранжирования получает более точные данные для сопоставления запроса и контента, что повышает качество расчета релевантности.

Входные данные:

Коллекция текста (корпус, например, веб-документы, логи запросов).
Коллекция фраз (n-граммы), извлеченных из корпуса.

Выходные данные:

Аннотированный список фраз с указанием, являются ли они NCC.
Данные о контекстном сходстве слов (Vertical Similarity).

На что влияет

Специфические запросы и Контент: Влияет на обработку любых многословных фраз. Особенно важно для запросов, содержащих идиомы, устоявшиеся выражения, названия продуктов или сущностей, смысл которых не очевиден из компонентов (например, «Black Friday», «cold shoulder»).
Языковые ограничения: Метод статистический и применим к различным языкам, особенно к языкам, основанным на латинице, при наличии достаточного корпуса текста.

Когда применяется

Временные рамки: Основные вычисления (анализ корпуса, расчет сходства, идентификация NCC) выполняются офлайн в процессе индексирования и обновления баз знаний.
Использование результатов: Использование аннотаций NCC происходит в реальном времени на этапе Query Understanding при обработке запросов.

Пошаговый алгоритм

Процесс состоит из трех основных фаз: подготовка данных, расчет схожести слов и идентификация NCC.

Фаза 1: Подготовка данных (Офлайн)

Сбор корпуса и Извлечение фраз: Формируется большая коллекция текстов, из которой извлекаются фразы-кандидаты (Candidate NCCs).
Извлечение признаков (Features): Идентифицируются высокочастотные n-граммы (например, топ 300,000) в корпусе. Стоп-слова фильтруются.

Фаза 2: Расчет схожести слов (Vertical Similarity) (Офлайн)

Идентификация контекстов: Для каждого слова определяются левый и правый контексты (ближайшие Features) в корпусе.
Расчет MI Score: Вычисляется оценка взаимной информации (Mutual Information Score) для каждой пары (слово, Feature), чтобы измерить силу их связи.
Генерация контекстных векторов: Для каждого слова создаются левый и правый Context Vectors, состоящие из оценок MI.
Расчет Cosine Distance: Вычисляется косинусное расстояние между векторами разных слов. Высокое значение указывает на высокую Vertical Similarity.

Фаза 3: Идентификация NCC (Офлайн)

Выбор кандидата: Берется фраза-кандидат (например, «hot dog»).
Идентификация похожих слов: Для слов во фразе находятся похожие слова (например, «cat» для «dog») с использованием данных Фазы 2.
Генерация замещающих фраз: Создаются Substitute Phrases путем замены (например, «hot cat»).
Расчет схожести фраз: Вычисляется контекстное сходство между исходной фразой и каждой Substitute Phrase. Этот процесс аналогичен Фазе 2 (идентификация контекстов фраз, расчет MI, генерация векторов фраз, расчет Cosine Distance).
Сравнение с порогом: Вычисленное сходство сравнивается с заданным порогом.
Классификация: Если сходство между исходной фразой и Substitute Phrases низкое (ниже порога), это означает, что замена компонента радикально изменила смысл. Фраза классифицируется как NCC. В противном случае — как CC.
Аннотирование: Идентифицированные NCC маркируются в системе.

Какие данные и как использует

Данные на входе

Алгоритм полагается исключительно на статистический анализ неструктурированного текста.

Контентные и Контекстуальные факторы:
- Коллекция текста (Corpus): Большой объем текста (веб-документы). Используются n-граммы, частота встречаемости слов и фраз, а также их позиционное расположение относительно друг друга (контексты).
- Данные о совместной встречаемости (Co-occurrence data): Статистика того, как часто слова и фразы встречаются вместе с определенными контекстными признаками.
- Стоп-слова: Список слов, игнорируемых при определении контекста.
Поведенческие факторы: Поисковые запросы упоминаются как возможный источник данных для корпуса.

Какие метрики используются и как они считаются

Features (Признаки): Определяются как N самых частотных n-грамм в корпусе (например, Топ 300,000).
Mutual Information (MI) Score: Измеряет силу ассоциации между элементом (словом/фразой) и контекстным признаком. Формула, приведенная в патенте для левого контекста: MI = log [ #(left context word) / ((#left context)(# word)) ]. Это расчет отношения вероятности совместного появления к вероятности независимого появления.
Context Vectors: Векторное представление, агрегирующее MI Scores для множества признаков (до 2000 признаков в векторе, согласно патенту).
Cosine Distance: Метрика для измерения схожести между двумя Context Vectors. В патенте приводится стандартная формула косинусного расстояния между векторами. Используется для расчета схожести слов и фраз.
Similarity Threshold: Эмпирически определяемое пороговое значение. Если схожесть между исходной фразой и фразой-подстановкой ниже этого порога, активируется классификация NCC.

Выводы

Приоритет концепций над ключевыми словами: Патент демонстрирует механизм, позволяющий Google определять, когда группа слов функционирует как единая семантическая единица (концепция или сущность). Это фундаментальный шаг в переходе от поиска по ключевым словам к семантическому поиску.
Смысл определяется контекстом (Distributional Semantics): Ключевая идея патента — смысл слова или фразы можно определить через анализ его окружения (контекста). Система использует статистический анализ распределения слов в корпусе для выявления семантических свойств без использования словарей.
Механизм замещения как тест на композиционность: Тест, включающий замену слова на похожее (Vertical Similarity) и измерение изменения смысла всей фразы, является эффективным методом для автоматического выявления идиом и устойчивых выражений.
Важность Vertical Similarity: Для корректной работы теста критически важно использовать именно вертикальную (категориальную) схожесть слов, а не горизонтальную (обстоятельственную).
Влияние на Information Retrieval: Идентификация NCC критически важна для точности поиска. Она позволяет избежать «разбиения» идиом на отдельные слова при обработке запросов (Query Understanding) и индексировании контента, тем самым предотвращая выдачу нерелевантных результатов.

Практика

Best practices (это мы делаем)

Анализ интерпретации ключевых фраз (NCC vs CC): При анализе семантического ядра необходимо определять, являются ли целевые многословные запросы NCC или CC. Если это NCC (например, устойчивый термин или название сущности), оптимизация должна фокусироваться на концепции в целом. Если это CC (например, описательный товарный запрос), оптимизация под отдельные компоненты также важна.
Обеспечение четкого и релевантного контекста: Поскольку смысл фраз определяется через Context Vectors, которые строятся на основе окружающего текста, критически важно использовать ключевые фразы в богатом, тематически релевантном и естественном контексте. Это помогает системе правильно интерпретировать смысл контента.
Оптимизация под семантические единицы: При работе с NCC следует рассматривать их как неделимые сущности. Упоминание фразы целиком (точное вхождение) важнее, чем наличие отдельных ее компонентов на странице.

Worst practices (это делать не надо)

Keyword Stuffing компонентами NCC: Пытаться ранжироваться по запросу NCC путем неестественного насыщения текста отдельными словами из этой фразы. Например, если запрос «hot dog» (еда), нет смысла повторять слова «hot» и «dog» по отдельности. Google ищет фразу целиком.
Использование фраз в неправильном контексте: Употребление терминов или идиом в контексте, сильно отличающемся от их общепринятого использования в корпусе, может привести к тому, что система неправильно определит тему контента, так как Context Vectors не будут соответствовать ожидаемым.
Игнорирование композиционности: Ошибочно предполагать, что все многословные запросы являются NCC. Для CC система более гибкая и может учитывать синонимы и близкие варианты компонентов.

Стратегическое значение

Патент подтверждает стратегический фокус Google на глубоком понимании языка (NLU) и переходе к семантическому поиску. Он демонстрирует конкретный механизм, позволяющий системе определять единицы смысла. Для SEO это означает, что анализ контекста и концептуальная оптимизация становятся важнее традиционной работы с плотностью ключевых слов. Стратегия должна строиться вокруг создания контента, который естественно использует язык ниши и предоставляет четкий семантический контекст.

Практические примеры

Сценарий 1: Оптимизация под NCC (Название технологии)

Целевая фраза: «Deep Learning» (Глубокое обучение).
Анализ: Эта фраза является NCC. Замена «Deep» на похожее слово (например, «Profound») дает «Profound Learning». Контекстуальная схожесть с «Deep Learning» будет низкой. Значение не складывается из «Deep» + «Learning».
Действия SEO: Оптимизировать страницу под точное вхождение фразы «Deep Learning». Обеспечить сильный контекст: использовать сопутствующие термины (нейронные сети, AI, machine learning), которые формируют правильные Context Vectors для этой фразы. Не пытаться оптимизировать отдельно под «Deep» и «Learning».

Сценарий 2: Оптимизация под CC (Товарный запрос)

Целевая фраза: «Waterproof hiking boots» (Водонепроницаемые ботинки для походов).
Анализ: Эта фраза является CC. Замена «hiking» на вертикально схожее слово «trekking» дает «Waterproof trekking boots». Схожесть между фразами будет высокой, так как контекст употребления почти идентичен.
Действия SEO: Убедиться, что страница релевантна всем компонентам запроса. Можно использовать синонимы для компонентов (например, «trekking» вместо «hiking»), так как система распознает высокую схожесть и композиционность фразы. Важно наличие характеристик (Waterproof) и типа товара (boots).

Вопросы и ответы

Что такое Non-Compositional Compound (NCC) простыми словами?

NCC — это фраза, значение которой нельзя понять, просто сложив значения составляющих ее слов. Это идиомы, устойчивые выражения или термины, которые функционируют как единое целое. Классические примеры: «hot dog» (это не горячая собака) или «red herring» (отвлекающий маневр, а не красная селедка).

Как именно Google определяет, похожи ли два слова друг на друга?

Google не использует словарь синонимов. Он анализирует контекст (окружающие слова) в огромном массиве текстов. Если два слова постоянно встречаются в одинаковом окружении (имеют схожие Context Vectors), система считает их похожими (Vertical Similarity). Это рассчитывается с помощью метрик Mutual Information и Cosine Distance.

Что такое «Вертикальная схожесть» (Vertical Similarity) и почему она важна?

Вертикальная схожесть означает принадлежность к одной категории (например, BMW и Mercedes). Горизонтальная схожесть означает частое появление рядом (например, BMW и dealership). Для идентификации NCC используется именно вертикальная схожесть, так как замена слова на слово из той же категории позволяет проверить, сохраняется ли смысл фразы (например, «Toshiba laptop» -> «Acer laptop»).

Как работает основной механизм патента — тест подстановки?

Система берет фразу и заменяет одно слово на вертикально похожее. Затем она сравнивает, насколько контекст употребления новой фразы похож на контекст исходной. Если контексты сильно отличаются (например, у «hot dog» и «hot cat»), значит, смысл фразы изменился радикально, и исходная фраза помечается как NCC.

Как идентификация NCC влияет на поисковую выдачу?

Патент указывает, что если в запросе обнаружен NCC, поисковая система модифицирует поиск. Она будет искать NCC как единое целое и может игнорировать или понижать результаты, которые содержат только отдельные слова из этой фразы. Это значительно повышает релевантность выдачи.

Означает ли это, что точное вхождение (exact match) стало важнее?

Для фраз, идентифицированных как NCC, да. Поскольку NCC обрабатывается как единая семантическая единица, точное вхождение фразы в контенте имеет решающее значение для установления релевантности. Для композиционных фраз (CC) система более гибкая и может учитывать синонимы компонентов.

Как SEO-специалисту понять, считает ли Google конкретную ключевую фразу NCC?

Можно провести тест, похожий на описанный в патенте. Замените одно слово на вертикально похожее (синоним или слово той же категории). Если смысл фразы радикально изменился, вероятно, это NCC. Также проанализируйте выдачу: если по запросу ранжируются только документы с точным вхождением фразы, это сильный индикатор NCC.

Связана ли идентификация NCC с распознаванием сущностей (Entity Recognition)?

Да, тесно связана. Многие NCC являются названиями сущностей (например, «New York» как город). Идентификация NCC является важным шагом в процессе извлечения и понимания сущностей из текста, помогая корректно определить границы сущности и связать ее с Knowledge Graph.

Происходит ли этот анализ в реальном времени при каждом запросе?

Нет. Сам процесс идентификации NCC (анализ контекстов, расчеты схожести) ресурсоемкий и выполняется офлайн во время индексации. В реальном времени, на этапе Query Understanding, система использует уже готовые аннотации NCC для корректной интерпретации запроса.

Влияет ли контекст на странице на то, как Google воспринимает фразу?

Да, абсолютно. Весь метод основан на анализе контекста (окружающих слов) для построения Context Vectors. Использование фразы в правильном семантическом окружении на вашей странице помогает системе корректно ее интерпретировать и подтверждает релевантность вашего контента.