Патент Google описывает язык-независимый метод автоматического определения «значимых фраз» (концепций или сущностей). Система анализирует левый и правый контекст n-грамм, вычисляет их семантическую близость, кластеризует похожие фразы и отфильтровывает контекстный шум. Это позволяет Google отличать осмысленные словосочетания от случайных наборов слов, что критически важно для понимания запросов и контента.
Описание
Какую задачу решает
Патент решает фундаментальную задачу обработки естественного языка (NLP): автоматическую идентификацию «хороших фраз» (good phrases) в больших массивах текста (веб-документы, логи запросов). «Фраза» определяется как последовательность слов (n-грамма), которая несет конкретное и полное значение и функционирует как единая синтаксическая единица. Проблема традиционных методов заключалась в их зависимости от грамматических правил конкретного языка. Изобретение предлагает язык-независимый (language independent) подход, основанный на статистическом анализе контекста.
Что запатентовано
Запатентован метод определения и уточнения семантической схожести между кандидатами во фразы. Суть изобретения заключается в использовании контекстных векторов (Context Vectors) для оценки схожести, с последующей кластеризацией кандидатов и ключевым шагом — фильтрацией «необщих признаков» (non-common features) внутри кластеров. Этот шаг фильтрации удаляет контекстный шум и позволяет более точно определить семантическую близость фраз, основываясь только на общих контекстах.
Как это работает
Система работает на основе принципов дистрибутивной семантики (фразы, встречающиеся в похожих контекстах, имеют похожее значение):
- Извлечение и Контекст: Из корпуса извлекаются n-граммы (кандидаты). Для каждого определяются левый и правый контексты — ближайшие значимые слова (Features).
- Векторизация: Создаются Context Vectors, содержащие оценки взаимной информации (Mutual Information Score), показывающие силу связи между кандидатом и его контекстом.
- Первичная Схожесть: Вычисляется схожесть между кандидатами путем сравнения их векторов (например, через Cosine Distance).
- Кластеризация и Фильтрация (Ключевой шаг): Похожие кандидаты кластеризуются. Внутри кластера система идентифицирует и удаляет non-common features (контекстный шум), которые искажают схожесть.
- Уточненная Схожесть: Схожесть пересчитывается на основе отфильтрованных векторов.
- Генерация Фраз: Используя небольшой набор эталонных фраз (Seed Good Phrases), система итеративно находит другие хорошие фразы на основе уточненной схожести.
Актуальность для SEO
Высокая. Автоматическое распознавание фраз, концепций и сущностей является фундаментом современных систем Понимания Естественного Языка (NLU), включая BERT и MUM. Описанные методы дистрибутивного анализа, векторизации контекста и кластеризации являются стандартными и критически важными инструментами для понимания запросов и индексирования контента в 2025 году.
Важность для SEO
Патент имеет важное инфраструктурное значение (7.5/10). Он не описывает алгоритм ранжирования, но раскрывает фундаментальный механизм того, как Google учится распознавать осмысленные фразы и определять их семантическую близость. Это напрямую влияет на то, как Google интерпретирует запросы (Query Understanding) и анализирует контент (Indexing), определяя релевантность за пределами простого совпадения ключевых слов.
Детальный разбор
Термины и определения
- Phrase (Фраза)
- Группа из одного или нескольких последовательных слов (n-грамма), которая несет конкретное и полное значение и может функционировать как единая синтаксическая единица в предложении.
- Phrase Candidate (Кандидат во фразу)
- N-грамма, извлеченная из корпуса, которая потенциально является фразой.
- Feature (Признак)
- N-грамма с высокой частотностью в корпусе (например, топ 300,000), используемая для определения контекста. Стоп-слова обычно исключаются.
- Context (Контекст)
- Признаки, окружающие кандидата во фразу. Left Context — ближайший уникальный признак слева, Right Context — ближайший уникальный признак справа.
- Mutual Information (MI) Score (Оценка взаимной информации)
- Метрика, измеряющая силу статистической связи между кандидатом во фразу и контекстным признаком.
- Context Vector (Вектор контекста)
- Векторное представление кандидата, содержащее MI-оценки для всех связанных с ним контекстных признаков (отдельно для левого и правого контекстов).
- Cosine Distance (Косинусное расстояние)
- Метрика для измерения схожести между двумя контекстными векторами. Используется для определения схожести между кандидатами во фразы.
- Common Features (Общие признаки)
- Контекстные признаки, которые разделяют несколько кандидатов во фразы внутри одного кластера.
- Non-common Features (Необщие признаки)
- Контекстные признаки, которые имеют сильную связь (высокий MI score) с одним кандидатом в кластере, но слабую или нулевую связь с другими членами кластера. Они рассматриваются как шум, ослабляющий меру схожести.
- Seed Good Phrases (Начальный набор хороших фраз)
- Небольшой набор фраз, предварительно идентифицированных (например, вручную) как качественные. Используется для бутстраппинга (bootstrapping) большого списка хороших фраз.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс уточнения (refinement) схожести фраз.
- Идентификация кандидатов во фразы из текстовых строк.
- Определение первичной схожести между парами кандидатов на основе их контекстов (признаков).
- Кластеризация кандидатов на основе этой схожести.
- Идентификация non-common features внутри кластеров. Это признаки, которые имеют такие отношения с конкретными кандидатами, что ослабляют (weaken) схожесть между парами кандидатов в кластере.
- Фильтрация (удаление) этих non-common features у соответствующих кандидатов для создания отфильтрованных кластеров.
- Определение новой (уточненной) схожести между парами кандидатов на основе контекстов в отфильтрованных кластерах.
Ядро изобретения — это шаги 4-6. Система признает, что первичная контекстная схожесть может быть зашумлена специфическими контекстами. Удаляя этот шум на основе данных кластеризации, система получает более точное представление о семантической близости фраз.
Claim 2 (Зависимый от 1): Описывает применение метода.
- Идентификация seed good phrases.
- Идентификация других кандидатов как good phrases на основе их новой (уточненной) схожести с seed good phrases.
Это показывает, как уточненная схожесть используется для автоматического расширения списка значимых фраз (бутстраппинг).
Claim 6 (Зависимый от 1): Уточняет природу контекстов.
Контексты делятся на left context (признаки слева от кандидата) и right context (признаки справа от кандидата).
Где и как применяется
Изобретение относится к этапам предварительной обработки данных и понимания языка, которые поддерживают индексирование и понимание запросов.
INDEXING – Индексирование и извлечение признаков
Процессы, описанные в патенте, выполняются офлайн или как часть конвейера индексирования для анализа большого корпуса текста (веб-документы, логи запросов). Цель — создать и поддерживать актуальный список good phrases и данные об их схожести. Эти данные используются для аннотирования документов в индексе (распознавание фраз и сущностей).
QUNDERSTANDING – Понимание Запросов
Список good phrases и таблица схожести напрямую используются при обработке запросов. Это помогает интерпретировать запрос как набор значимых концепций или сущностей, а не просто как набор ключевых слов, и используется для расширения или переписывания запросов.
Входные данные:
- Большой корпус текста (Source Corpus, Feature Corpus), включающий веб-документы и логи запросов.
- Небольшой набор Seed Good Phrases.
Выходные данные:
- Расширенный список идентифицированных good phrases.
- Таблица уточненной схожести (Refined Similarity Table) между фразами.
На что влияет
- Языковые ограничения: Ключевое преимущество метода — он заявлен как независимый от языка (language independent), так как опирается только на статистику контекстов, а не на грамматические правила.
- Типы контента и запросов: Влияет на все типы. Особенно сильно влияет на распознавание именованных сущностей (названия продуктов, организаций, локаций) и концептуальных фраз (например, «компьютерные науки»).
Когда применяется
- Временные рамки и частота: Основные вычисления (кластеризация, уточнение схожести) являются вычислительно затратными и выполняются периодически офлайн в пакетном режиме для обновления базы знаний о фразах.
- Условия работы: Требует большого объема текстовых данных для надежного вычисления статистики.
Пошаговый алгоритм
Этап 1: Подготовка и Первичный Анализ Схожести
- Определение Признаков (Features): Анализ Feature Corpus для идентификации высокочастотных n-грамм (например, топ 300,000), исключая стоп-слова.
- Извлечение Кандидатов: Извлечение n-грамм (Phrase Candidates) из Source Corpus. Фильтрация (удаление URL, символов и т.д.).
- Идентификация Контекста: Для каждого вхождения кандидата определяется левый и правый контекст (ближайший Feature слева и справа).
- Расчет MI Score: Вычисление Mutual Information Score для каждой пары (кандидат, контекстный признак) для измерения силы их связи.
- Генерация Контекстных Векторов: Создание левого и правого Context Vectors для каждого кандидата, содержащих MI-оценки его признаков.
- Расчет Первичной Схожести: Вычисление схожести между парами кандидатов путем расчета Cosine Distance между их соответствующими контекстными векторами.
Этап 2: Уточнение Схожести (Refinement)
- Кластеризация: Группировка похожих кандидатов в кластеры на основе первичной схожести (например, с помощью k-medoids).
- Идентификация Признаков в Кластере: Внутри каждого кластера определяются Common Features (общие для многих членов) и Non-common Features (сильно связанные только с отдельными членами).
- Фильтрация Шума: Удаление Non-common Features из контекстных векторов кандидатов. Это усиливает влияние Common Features.
- Расчет Уточненной Схожести: Повторное вычисление схожести (Cosine Distance) с использованием отфильтрованных векторов.
Этап 3: Генерация Списка Хороших Фраз (Bootstrapping)
- Инициализация: Использование набора Seed Good Phrases.
- Расширение: Идентификация кандидатов, которые имеют высокую уточненную схожесть (выше порога) с Seed Good Phrases, и добавление их в список Good Phrases.
- Итерация: Повторение процесса расширения, используя недавно добавленные фразы в качестве новых «семян».
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе неструктурированного текста и статистике использования слов.
- Контентные/Лингвистические данные:
- Текстовые строки: Большие корпусы текста (Source Corpus, Feature Corpus), включающие веб-документы и логи запросов.
- N-граммы: Последовательности слов, извлекаемые как кандидаты и как признаки.
- Стоп-слова: Списки слов, которые игнорируются при определении контекста.
- Системные/Размеченные данные:
- Seed Good Phrases: Небольшой список предварительно определенных качественных фраз.
Какие метрики используются и как они считаются
- Частотность N-грамм (#): Используется для определения Features и расчета MI.
- Mutual Information (MI) Score: Измеряет силу связи между фразой и контекстом. Рассчитывается как функция частоты совместного появления и частот их отдельного появления. Формула в патенте: MI = log ( #(left context phrase candidate) / ((#left context)(# phrase candidate)) ).
- Cosine Distance (Косинусное расстояние): Используется для измерения схожести между двумя Context Vectors. Рассчитывается на основе угла между векторами.
- Методы кластеризации: Упоминаются алгоритмы k-medoids и k-means для группировки кандидатов.
- Пороговые значения: Используются пороги частотности для отбора Features и пороги схожести для кластеризации и идентификации Good Phrases.
Выводы
- Контекст определяет значение (Дистрибутивная семантика): Патент реализует принцип, согласно которому значение фразы определяется окружающими ее словами. Это позволяет Google определять семантическую близость без использования грамматического анализа или внешних словарей.
- Язык-независимое понимание: Метод основан на статистике и контексте, а не на лингвистических правилах, что позволяет масштабировать его на любые языки.
- Критичность фильтрации контекстного шума (Refinement): Ключевым нововведением является шаг уточнения схожести через кластеризацию и удаление non-common features. Google активно борется с контекстным шумом, чтобы выявить истинные семантические связи. Например, удаление специфических контекстов позволяет системе лучше понять, что «New York» и «Chicago» семантически близки как города.
- Фразы как основа NLU: Генерация списка good phrases является необходимым шагом для улучшения Понимания Естественного Языка (NLU). Это позволяет поисковой системе обрабатывать запросы и контент на уровне концепций и сущностей, а не отдельных слов.
- Масштабирование через Bootstrapping: Система использует итеративный подход для автоматического расширения базы знаний о фразах, минимизируя ручной труд.
Практика
Best practices (это мы делаем)
- Используйте четкие и устоявшиеся фразы: Поскольку система учится распознавать фразы на основе частотности и последовательности использования в вебе, используйте естественные и общепринятые формулировки для обозначения концепций и сущностей. Это увеличивает вероятность того, что Google распознает ключевые термины в вашем контенте как good phrases.
- Создавайте сильный и последовательный контекст: Значение фразы определяется ее окружением (Left/Right Context). Убедитесь, что ключевые концепции на вашем сайте окружены релевантными и семантически связанными терминами (Features). Контекст должен соответствовать тому, как эта фраза используется в авторитетных источниках.
- Фокус на общих контекстах (Common Features): При оптимизации под определенную фразу (например, название продукта), используйте контексты, которые являются общими для всего класса этих продуктов. Если вы пишете о смартфоне, используйте контекстные слова, характерные для обзоров смартфонов («батарея», «экран», «камера»). Это поможет системе правильно кластеризировать вашу фразу.
- Следите за консистентностью терминологии: Используйте ключевые фразы последовательно в схожих контекстах на всем сайте. Это укрепляет связь между фразой и ее контекстными векторами в базе данных Google.
Worst practices (это делать не надо)
- Злоупотребление ключевыми словами (Keyword Stuffing): Вставка ключевых слов в неестественные контексты создает зашумленные Context Vectors. Система анализирует силу связи (MI score) между фразой и ее окружением, и неестественное окружение затрудняет классификацию фразы.
- Использование искусственных или неоднозначных формулировок: Попытки манипулировать выдачей с помощью неестественных словосочетаний неэффективны, так как система опирается на глобальную статистику использования языка для определения good phrases.
- Игнорирование семантического окружения: Недостаточно просто упомянуть фразу. Если она появляется без поддерживающего контекста, ее ценность для системы снижается, так как у нее не будет сильных и четких Context Vectors.
Стратегическое значение
Патент подчеркивает движение Google от анализа отдельных ключевых слов к пониманию фраз, концепций и сущностей на основе контекста. Это часть фундамента, на котором строятся семантический поиск и системы NLU (включая современные векторные методы). Стратегически это означает, что SEO-специалисты должны фокусироваться на семантической ясности и богатстве контекста. Создание контента, который использует язык естественным образом и соответствует языковым паттернам авторитетных источников, напрямую коррелирует с тем, как Google учится понимать мир согласно этому патенту.
Практические примеры
Сценарий: Оптимизация страницы о новой модели смартфона «Phone X»
- Анализ контекста: Изучите, какие слова (Features) часто окружают названия других популярных смартфонов (например, «iPhone», «Samsung Galaxy») в качественных обзорах. Это будут Common Features для кластера «Смартфоны»: «батарея», «экран», «камера», «производительность».
- Применение (Best Practice): Убедитесь, что фраза «Phone X» на вашей странице часто встречается в окружении этих слов. Например: «Батарея Phone X держит заряд…», «Тест камеры Phone X показал…».
- Механизм (Как это работает по патенту): Google видит, что «Phone X» встречается в тех же контекстах (Common Features), что и «iPhone» и «Samsung Galaxy». Система рассчитывает схожие Context Vectors и кластеризует их вместе.
- Результат: Google с большей вероятностью идентифицирует «Phone X» как Good Phrase, относящуюся к категории «Смартфоны», что улучшает понимание релевантности страницы запросам об этом продукте.
Вопросы и ответы
Что такое «Фраза» (Phrase) в контексте этого патента и чем она отличается от ключевого слова?
Фраза — это последовательность слов (n-грамма), которая имеет конкретное и полное значение и функционирует как единое целое (например, «Нью-Йорк» или «компьютерные науки»). В отличие от отдельных ключевых слов, фраза представляет собой законченную семантическую единицу. Система стремится автоматически идентифицировать такие значимые единицы в тексте.
Как Google определяет значение или схожесть фраз, если метод не зависит от языка?
Используется принцип дистрибутивной семантики: значение определяется контекстом. Система анализирует, какие слова (Features) находятся слева и справа от фразы в большом корпусе текстов. Если две разные фразы постоянно встречаются в одинаковом окружении, система считает их семантически близкими, не полагаясь на грамматику или словари.
Что такое «Необщие признаки» (Non-common features) и почему Google их удаляет?
Это контекстный шум, который мешает определить истинную схожесть. В патенте приводится пример: «Нью-Йорк» и «Чикаго» похожи (оба города). Но «Нью-Йорк» часто встречается рядом с «WABC» (радиостанция), а «Чикаго» — нет. Если оставить «WABC» в векторе, это уменьшит вычисленную схожесть между ними. Удаляя такие специфические контексты, Google фокусируется на общих признаках (например, «отель», «ресторан») и точнее определяет семантическую близость.
Что такое Context Vectors и Mutual Information Score?
Context Vector — это математическое представление значения фразы, основанное на ее окружении. Он строится с помощью Mutual Information (MI) Score — метрики, которая измеряет силу статистической связи между фразой и каждым словом в ее контексте. Сравнивая векторы двух фраз (используя Cosine Distance), Google определяет, насколько они похожи по смыслу.
Как этот патент влияет на мою контент-стратегию?
Он подчеркивает критическую важность создания богатого и релевантного семантического контекста вокруг ваших ключевых тем. Убедитесь, что вы используете устоявшиеся фразы и окружаете их терминами, которые естественно встречаются вместе с ними в авторитетных источниках. Это помогает Google правильно интерпретировать ваш контент.
Связан ли этот патент с распознаванием сущностей (Entity Recognition)?
Да, напрямую. Многие good phrases, идентифицированные системой, являются именованными сущностями (имена людей, названия мест, продуктов). Этот патент предоставляет механизм для обнаружения и кластеризации этих сущностей на основе контекста их употребления.
Как Google генерирует список хороших фраз? Это ручная работа?
Используется метод бутстраппинга (bootstrapping). Начинается с небольшого набора вручную размеченных фраз (Seed Good Phrases). Затем система автоматически и итеративно находит другие фразы, которые очень похожи на них по контексту. Это позволяет автоматически сгенерировать огромный список good phrases с минимальным ручным трудом.
Как избежать того, чтобы контекст моего контента рассматривался как шум (Non-common feature)?
Используйте контекст, который характерен для семантического класса вашей фразы. Если вы пишете о городе, используйте слова, связанные с городами («население», «карта», «отели»). Избегайте использования терминов в несвойственном им окружении, так как это может быть интерпретировано как шум и отфильтровано при расчете схожести.
На каком этапе поиска применяется этот алгоритм?
Сам алгоритм (расчет схожести, кластеризация, генерация фраз) выполняется офлайн, на этапе предобработки данных и Indexing. Результаты его работы (база данных фраз и их схожести) затем используются в реальном времени на этапе Query Understanding для интерпретации запросов пользователя.
Как этот патент связан с современными моделями типа BERT?
Патент описывает раннюю реализацию принципа дистрибутивной семантики, который является основой для современных моделей. Идея о том, что значение определяется контекстом и может быть представлено в виде вектора, напрямую ведет к Word Embeddings и BERT. BERT использует тот же принцип, но применяет более сложные нейросетевые методы для анализа контекста.