
Google использует статистический метод для автоматического определения «значимых» фраз в корпусе документов. Система анализирует частоту употребления, форматирование (например, анкорный текст) и совместную встречаемость фраз. Используя метрику Information Gain, система выявляет фразы, которые предсказывают появление других фраз, формируя семантические кластеры. Это позволяет поисковой системе понимать контент на уровне концепций, а не отдельных слов.
Патент решает фундаментальную проблему перехода от индексирования отдельных слов к индексированию концепций, которые часто выражаются многословными фразами. Он предлагает вычислительно эффективный метод для автоматической идентификации семантически значимых и статистически предсказательных фраз (Good Phrases) в огромном корпусе, избегая необходимости анализировать все возможные комбинации слов. Это улучшает понимание тематики документов и повышает релевантность поиска.
Запатентована система и метод для автоматической идентификации «хороших» фраз на основе статистических данных об их использовании и совместной встречаемости. Суть изобретения заключается в применении показателя Information Gain (прирост информации) для определения того, насколько одна фраза предсказывает появление другой. Фразы без достаточной предсказательной силы отсеиваются. Система также идентифицирует сильно связанные фразы (Related Phrases) и формирует из них тематические кластеры.
Система работает в несколько этапов:
co-occurrence). Особое внимание уделяется «интересным вхождениям» (Interesting/Distinguished Instances) – например, в анкорном тексте или выделенном форматированием.Information Gain (IG) — отношение фактической частоты совместной встречаемости двух фраз к ожидаемой.Incomplete Phrases), предсказывающие только свои расширения.Related Phrases) и объединяются в кластеры.Критически высокая. Этот патент описывает фундаментальные механизмы, позволившие Google перейти от лексического поиска к семантическому пониманию контента и тематическому моделированию. Хотя современные системы используют нейросетевые методы, концепции автоматического распознавания фраз (концепций) и построения связей на основе совместной встречаемости (фундаментом чего является Information Gain) остаются центральными для построения стратегий Topical Authority в 2025 году.
Патент имеет критическое значение (10/10) для SEO. Он демонстрирует, что Google оценивает контент не по плотности ключевых слов, а по наличию и сочетанию статистически значимых фраз, формирующих тематический кластер. Для успешного ранжирования необходимо использовать естественный язык и набор связанных фраз (Related Phrases), которые статистически часто встречаются вместе при обсуждении темы. Это основа для построения Тематического Авторитета.
Information Gain) по отношению к другим фразам.Information Gain превышает очень высокий порог (например, 100). Указывает на сильную семантическую связь.Related Phrases, в котором каждая фраза имеет высокий Information Gain по отношению хотя бы к одной другой фразе в наборе. Представляет собой тему или концепт.Phrase Extensions) и ничего более (например, «Президент Соединенных»).co-occurrence).Secondary Window.Claim 1 (Независимый пункт): Описывает основной метод идентификации фраз в коллекции документов.
good) или плохие (bad) на основе частоты встречаемости.Information Gain (IG) для пары хороших фраз (gⱼ, gₖ) как функции фактической и ожидаемой частоты совместной встречаемости.valid phrases) только тех хороших фраз, которые предсказывают появление хотя бы одной другой хорошей фразы (IG > первый порог).Related Phrases), если IG > второй (более высокий и строгий) порог.Ядро изобретения — это многоступенчатый статистический фильтр для автоматического выявления семантически значимых единиц (фраз) и их сильных взаимосвязей, где Information Gain является ключевой метрикой для определения как значимости, так и связанности.
Claim 6 и 7 (Зависимые от 1): Уточняют критерии классификации Good Phrase.
Фраза классифицируется как хорошая, если она соответствует порогам по общему количеству документов И общему количеству вхождений (Claim 6), ИЛИ если она имеет минимальное количество «выделенных вхождений» (distinguished instances) (Claim 7). Это показывает, что система использует как общую частотность, так и сигналы выделения (например, анкорный текст) для определения важности фразы.
Claim 9 (Зависимый от 1): Определяет формулу Information Gain.
IG (I(j,k)) рассчитывается как A(j,k)/E(j,k), где A(j,k) — фактическая частота совместной встречаемости, а E(j,k) — ожидаемая частота.
Claim 12 и 13 (Зависимые от 1): Описывают обработку неполных фраз.
Система удаляет Incomplete Phrases из списка хороших фраз. Неполная фраза определяется как та, которая предсказывает только свои собственные расширения (Phrase Extensions).
Claim 17 (Зависимый от 1): Описывает процесс идентификации кластеров.
Для фразы gₓ и набора ее связанных фраз R, кластер формируется из gₓ и тех фраз из R, которые имеют ненулевой (взаимный) Information Gain по отношению друг к другу внутри набора R. Это обеспечивает тематическую целостность кластера.
Изобретение является ключевым компонентом процесса индексирования и подготовки данных для ранжирования.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает сырой контент (текст и разметку), который будет использоваться для идентификации фраз.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Процесс можно разделить на две части:
Good Phrases, расчета Information Gain, идентификации Related Phrases и формирования Clusters. Этот процесс создает базу данных фраз (Phrase Data).QUNDERSTANDING – Понимание Запросов
Система использует базу идентифицированных фраз для распознавания концепций в запросе пользователя. Также используется список Incomplete Phrases для предложения пользователю полных вариантов запроса (Phrase Extensions) или автоматического расширения запроса.
RANKING – Ранжирование
На этапе ранжирования система использует данные, сгенерированные во время индексации. Наличие в документе как самой фразы из запроса, так и ее Related Phrases используется как сильный сигнал релевантности и тематического соответствия.
Related Phrases, будут считаться более авторитетными.Interesting Instances напрямую влияет на оценку значимости фраз в анкорном тексте и структурных элементах документа (заголовки, выделения).Interesting Instances).Information Gain (например, 1.1–1.7) для определения, обладает ли фраза предсказательной силой (используется для Pruning).Information Gain (например, 100) для определения сильной связи между фразами (Related Phrases).Процесс А: Идентификация фраз и сбор статистики (Во время сканирования корпуса)
Phrase Window (например, 5 слов) для извлечения всех возможных последовательностей слов (кандидатов во фразы).Possible Phrase) обновляются счетчики: P(p) – количество документов, S(p) – общее количество вхождений, M(p) – количество Interesting Instances.Secondary Window (например, +/- 30 слов) для обновления Co-occurrence Matrix. Подсчитывается, как часто пары фраз встречаются рядом.Процесс Б: Классификация и Очистка (После обработки партиции)
Good Phrases, если они превышают пороги частотности (P(p), S(p)) или M(p).Good Phrases (gⱼ, gₖ) вычисляется Information Gain (IG). IG=ActualCo−occurrenceRate/ExpectedCo−occurrenceRate.Good Phrases.Related Phrases.Phrase Extensions). Если да, она перемещается в список Incomplete Phrases.Clusters на основе их взаимного IG.Система фокусируется на статистическом анализе текста и структуры документа.
Interesting Instances. Учитываются HTML-теги (например, теги выделения bold, underline), грамматические маркеры (кавычки). Также теги разметки и знаки препинания могут использоваться для определения границ Phrase Window.Interesting Instances.Interesting Instances фразы.Secondary Window, с учетом их выделенности.Information Gain является центральной метрикой. Она используется для фильтрации незначимых фраз (низкий IG) и для количественной оценки силы связи между значимыми фразами (высокий IG).Interesting Instances), затем общая предсказательная сила (низкий порог IG), и, наконец, сильная связанность (высокий порог IG).Secondary Window).Related Phrases и Clusters позволяет системе строить тематические модели, понимая, какие концепции статистически вероятно обсуждаются вместе. Это является основой для оценки Тематического Авторитета.Incomplete Phrases позволяет отделить начала фраз от законченных концепций, улучшая точность индексации и понимание запросов.Related Phrases. Если основная тема «Australian Shepherd», необходимо также использовать фразы, имеющие высокий Information Gain с ней (например, «blue merle», «agility training», «herding dogs»). Это сигнализирует системе о глубине проработки темы.Interesting Instance. Используйте точные, релевантные фразы во внутренней перелинковке и при построении внешних ссылок.Interesting Instances (M(p)) и подчеркнуть важность концепции.Secondary Window, т.е. в одном абзаце или разделе), чтобы система могла эффективно зафиксировать их совместную встречаемость.Information Gain), а не просто высокую плотность терминов.Related Phrases. Если система не видит связанных фраз, которые она ожидает увидеть на основе высокого IG, релевантность документа будет оценена ниже.Этот патент является одним из foundational-патентов для современного SEO. Он знаменует переход от анализа отдельных ключевых слов к анализу фраз и их статистических взаимосвязей как основы для понимания контента. Стратегически, это подтверждает необходимость построения Тематического Авторитета путем глубокого и всестороннего освещения темы, используя весь спектр связанных концепций (Related Phrases). Работа над SEO должна вестись на уровне тем и кластеров, а не изолированных запросов.
Сценарий: Оптимизация статьи о породе собак «Австралийская овчарка» (Australian Shepherd)
Good Phrase. Она также определила Related Phrases с высоким Information Gain: «Aussie», «blue merle», «red merle», «tricolor», «agility training».Related Phrases. Использовать «blue merle Australian Shepherd» в подзаголовке (H2) и «agility training tips» в качестве анкорного текста для внутренней ссылки.Interesting Instances. Наличие связанных фраз подтверждает тематическую релевантность кластеру. Документ получает более высокие позиции.Что такое «Information Gain» в контексте этого патента и почему это важно для SEO?
Information Gain (IG) — это статистическая мера, которая показывает, насколько чаще две фразы встречаются вместе по сравнению со случайным ожиданием. Если IG=100, то наличие первой фразы увеличивает вероятность появления второй в 100 раз. Для SEO это критически важно, так как показывает, какие фразы Google считает семантически связанными. Использование этих связанных фраз в контенте необходимо для подтверждения тематической релевантности.
Чем «Good Phrase» отличается от обычного ключевого слова?
Good Phrase — это фраза, прошедшая многоступенчатую валидацию. Она должна быть достаточно частотной или часто использоваться в выделенных местах (Interesting Instances). Но главное — она должна обладать предсказательной силой: ее присутствие должно статистически увеличивать вероятность появления других конкретных фраз (умеренный IG). Обычное ключевое слово не обязательно обладает такой предсказательной силой.
Что такое «Related Phrases» и чем они отличаются от синонимов?
Related Phrases — это две Good Phrases, которые имеют экстремально высокий Information Gain (>100) друг относительно друга. Они не обязательно являются синонимами, но они тематически тесно связаны и почти всегда обсуждаются вместе. Например, «Эйфелева башня» и «Париж» — это связанные фразы, но не синонимы. Использование Related Phrases в контенте подтверждает тематику для системы.
Как этот патент связан с концепцией Тематического Авторитета (Topical Authority)?
Патент напрямую закладывает основу для Topical Authority. Он описывает механизм создания Clusters — групп сильно связанных фраз. Сайт или документ, который полно и качественно покрывает большинство фраз внутри определенного тематического кластера, будет рассматриваться как авторитетный источник по данной теме. Для достижения Topical Authority необходимо охватить весь кластер.
Что такое «Interesting Instances» (или Distinguished Instances) и как это влияет на оптимизацию страницы?
Это вхождение фразы, выделенное форматированием (жирный шрифт, курсив) или структурной ролью (анкорный текст). Патент указывает, что такие вхождения являются сильным сигналом для классификации фразы как Good Phrase. При оптимизации важно использовать целевые фразы в этих структурных элементах, чтобы подчеркнуть их значимость.
Что происходит с «Неполными фразами» (Incomplete Phrases)?
Incomplete Phrases — это фразы, которые предсказывают только свои расширения (например, «Президент Соединенных»). Они удаляются из основного списка Good Phrases, но сохраняются отдельно. Система может использовать их для автодополнения поисковых запросов или автоматического переписывания запроса пользователя на более полную формулировку.
Фильтрует ли эта система идиомы и общие разговорные выражения?
Да, механизм прунинга на основе Information Gain эффективно отфильтровывает идиомы. Хотя такие фразы могут быть частотными, они появляются в самых разных контекстах и не предсказывают появление других *конкретных* фраз с высоким IG. Следовательно, они удаляются из списка Good Phrases и не используются для индексации концепций.
Как использовать концепцию «Secondary Window» при создании контента?
Secondary Window (например, +/- 30 слов) — это контекстное окно, в котором система ищет совместную встречаемость фраз. Это означает, что связанные концепции должны появляться в непосредственной близости друг от друга (в одном или соседних предложениях). При создании контента следите за тем, чтобы семантически связанные идеи были логически сгруппированы в тексте.
Актуален ли этот патент, учитывая развитие нейронных сетей (BERT, MUM)?
Патент крайне актуален стратегически. Хотя современные модели (BERT, MUM) используют более сложные методы для понимания контекста, базовые принципы — идентификация значимых единиц (фраз/сущностей) и анализ их взаимосвязей и совместной встречаемости — остаются фундаментальными. Этот патент заложил статистическую основу для семантического поиска.
Влияет ли этот механизм на оценку ссылок?
Да, очень сильно. Анкорный текст считается Interesting Instance. Это повышает значимость анкорного текста для идентификации фраз и понимания тематики как ссылающейся, так и целевой страницы. Использование релевантных фраз в анкорах критически важно для передачи тематического веса.

Индексация
Семантика и интент
Ссылки

Индексация
SERP
Семантика и интент

Индексация
Семантика и интент

Семантика и интент

Knowledge Graph
Семантика и интент
EEAT и качество

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Семантика и интент
Мультимедиа

Ссылки
EEAT и качество
Антиспам

Мультиязычность
Поведенческие сигналы
Персонализация

Персонализация
Индексация
Поведенческие сигналы

Персонализация
Семантика и интент
SERP

Семантика и интент
SERP
Поведенческие сигналы

Мультимедиа
EEAT и качество
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Мультиязычность
Поведенческие сигналы
