
Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.
Патент решает фундаментальную проблему традиционных поисковых систем, которые индексируют по словам, а не по концепциям (выраженным фразами), и представляют результаты в виде длинного, неорганизованного списка. Это затрудняет навигацию и ограничивает разнообразие (Diversity) выдачи, так как пользователи редко просматривают результаты за пределами первых страниц. Изобретение направлено на автоматическую организацию SERP в тематические кластеры (таксономию), чтобы представить пользователю обзор различных аспектов темы.
Запатентована система информационного поиска, которая использует фразы для индексации, ранжирования и, в частности, для автоматического создания таксономии результатов поиска. Ядром является использование статистической меры Information Gain (Прирост информации) для определения силы связи между фразами. Система анализирует набор результатов поиска и использует наиболее часто встречающиеся связанные фразы (Related Phrases) в качестве заголовков динамических кластеров.
Система опирается на предварительно обработанные данные индекса:
Information Gain между ними, определяя Related Phrases. Документы индексируются с помощью Related Phrase Bit Vector (RPBV), указывающего, какие связанные фразы присутствуют в документе.Related Phrases встречаются чаще всего.Высокая. Изобретатель, Anna Patterson, сыграла ключевую роль в развитии семантического поиска Google. Принципы, изложенные в патенте (фразы как концепции, Information Gain как мера связи, кластеризация выдачи), являются фундаментальными. Хотя конкретные реализации могли эволюционировать (например, к нейросетевым эмбеддингам), базовая логика анализа связей между концепциями и организации SERP остается крайне актуальной.
Патент имеет критическое значение (9/10) для понимания основ современного SEO. Он демонстрирует механизмы, позволяющие Google понимать концепции и их взаимосвязи, а не просто совпадение ключевых слов. Стратегии построения тематического авторитета (Topical Authority) путем естественного использования кластеров связанных фраз напрямую вытекают из этого патента. Игнорирование семантического контекста и связанных концепций снижает релевантность контента.
Этот патент описывает комплексную систему фразового поиска и кластеризации. Для понимания механизма необходимо разобрать ключевые термины.
Interesting Instances), и которая предсказывает появление хотя бы одной другой фразы, не являющейся ее расширением.Information Gain по отношению к фразе Gj (например, порог > 100). Указывает на сильную семантическую связь.Related Phrase.Information Gain.Патент US7426507B1 фокусируется на генерации таксономии (кластеризации) результатов поиска.
Claim 1 (Независимый пункт): Описывает основной метод представления документов.
query phrase).Related Phrases). Связь определяется, если Information Gain (IG) превышает порог. IG рассчитывается как функция фактической (A(j,k)) и ожидаемой (E(j,k)) частоты совместного появления.Ядро изобретения — использование статистически значимых (на основе Information Gain) связанных фраз для автоматической кластеризации (создания таксономии) поисковой выдачи.
Claim 2 (Зависимый от 1): Уточняет порядок кластеров.
Кластеры упорядочиваются по убыванию количества документов в них. Наиболее крупные (популярные) тематические группы показываются первыми.
Claim 3 и 4 (Зависимые от 1): Уточняют способ выборки документов.
Это обеспечивает репрезентативную выборку результатов из разных тематических групп.
Claim 5 (Зависимый от 1): Уточняет техническую реализацию.
Определение связанных фраз включает изучение Related Phrase Bit Vector (RPBV). Это показывает, что система использует предварительно рассчитанные данные для быстрого определения состава кластеров.
Claim 14 (Зависимый): Детализирует механизм подсчета документов в кластере.
Подсчет осуществляется путем доступа к RPBV. Счетчик увеличивается, если и только если в векторе установлен бит в позиции, соответствующей связанной фразе кластера. Это подчеркивает эффективность реализации.
Claim 15 (Зависимый): Добавляет этап обработки запроса.
Система может идентифицировать неполную фразу (Incomplete Phrase) в запросе и заменить ее расширением (Phrase Extension) до начала поиска. Это интегрирует механизм переписывания запросов в общую систему.
Изобретение требует инфраструктуры, затрагивающей индексирование, но основной процесс генерации таксономии применяется на финальных этапах.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит вся предварительная работа:
Good Phrases.Information Gain и идентификация Related Phrases.Related Phrase Bit Vectors (RPBV) для каждой фразы в каждом документе.RANKING – Ранжирование
Система формирует первичный набор результатов, используя фразы и RPBV для расчета оценок релевантности.
RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения генерации таксономии (Presentation System).
Related Phrase (Qr) встречается во всем наборе результатов.Входные данные:
Related Phrase Bit Vectors (RPBV) для документов в результатах.Выходные данные:
Related Phrases и в результатах поиска наблюдается достаточное разнообразие этих фраз для формирования значимых кластеров.Процесс А: Офлайн-подготовка данных (Индексирование)
Good Phrases.Related Phrase Bit Vector (RPBV). Бит устанавливается, если соответствующая связанная фраза также присутствует в документе. Вектор сохраняется в индексе.Процесс Б: Генерация таксономии при запросе (Presentation)
Related Phrases (Qr) для Qp.Система генерации таксономии полагается на предварительно вычисленные данные.
Good Phrase List: Список значимых фраз.Co-occurrence Matrix данные и Information Gain значения: Статистика совместного появления и рассчитанные значения IG, определяющие связанные фразы.Related Phrase Bit Vectors (RPBV): Хранятся в постинг-листах. Критически важны для быстрого подсчета частоты кластеров.Interesting Instances – анкорный текст, заголовки, выделенный шрифт) используются для идентификации Good Phrases и сбора статистики.Good Phrase (например, > 1.5).Related Phrase (например, > 100).Good Phrases на этапе индексации.Good Phrases), которые представляют семантические концепции, а не изолированные слова.Information Gain). Это data-driven подход к семантике.Related Phrase Bit Vectors (RPBV) в индексе позволяет выполнять сложную кластеризацию в реальном времени, сводя анализ контента к быстрым битовым операциям.Related Phrases), которые имеют высокий Information Gain. Это сигнализирует о глубине проработки темы и помогает системе правильно классифицировать контент.Interesting Instances при идентификации Good Phrases, важно использовать ключевые и связанные фразы в заголовках, выделенном тексте и анкорном тексте ссылок.Related Phrases, а не только высокую плотность основного ключа.Information Gain).Этот патент подтверждает стратегический приоритет Google на понимание естественного языка и тематическое моделирование. Он предоставляет конкретную модель (основанную на Information Gain и фразах) того, как Google автоматически выявляет структуру знаний в нише. Долгосрочная SEO-стратегия должна быть направлена на построение Topical Authority путем полного охвата семантических кластеров, а не на оптимизацию под отдельные запросы.
Сценарий: Организация выдачи и оптимизация статьи по теме "Australian Shepherd" (Австралийская овчарка)
Related Phrases с высоким Information Gain: "Blue Merle" (голубой мерль), "Red Merle" (красный мерль), "Agility Training" (аджилити), "Herding Dogs" (пастушьи собаки).Что такое "Information Gain" в контексте этого патента и почему он важен для SEO?
Information Gain (Прирост информации) — это статистическая мера того, насколько сильнее связаны две фразы, чем ожидалось бы случайно. Если фраза А и фраза Б появляются вместе гораздо чаще, чем ожидалось, они имеют высокий Information Gain. Для SEO это критически важно, потому что Google использует этот показатель для определения тематической связи между концепциями и формирования кластеров. Использование фраз с высоким IG в контенте сигнализирует о глубоком раскрытии темы.
Как система определяет, какие фразы являются "хорошими" (Good Phrases)?
Система использует несколько критериев. Во-первых, это достаточная частота появления фразы в корпусе. Во-вторых, это количество "интересных контекстов" (Interesting Instances) — использование фразы в заголовках, анкорных текстах, выделенном шрифте. В-третьих, фраза должна обладать предсказательной силой (иметь достаточный Information Gain по отношению к другим фразам) и не быть "неполной".
Что такое "Related Phrase Bit Vector" (RPBV) и как он используется для кластеризации?
RPBV — это структура данных в индексе, которая для каждого документа быстро показывает, какие связанные фразы в нем присутствуют. При генерации таксономии система мгновенно сканирует эти векторы для всех найденных документов, чтобы подсчитать частоту связанных фраз. Это позволяет определить доминирующие темы (кластеры) в реальном времени без повторного анализа текста.
Как именно происходит генерация таксономии (кластеризация) выдачи?
После получения результатов поиска система определяет все связанные фразы (Qr) для фраз запроса. Затем она подсчитывает, как часто каждая Qr встречается в этих документах (используя RPBV). Наиболее частотные Qr становятся заголовками кластеров. Результаты группируются под этими заголовками, и кластеры сортируются по популярности (количеству документов).
Как этот патент связан с современными концепциями E-E-A-T и Topical Authority?
Патент предоставляет техническую основу для оценки Topical Authority. Авторитетный ресурс по теме естественным образом использует широкий спектр связанных фраз с высоким Information Gain. Система может количественно измерить этот охват. Чем полнее охват тематического кластера фраз, тем выше авторитетность документа по данной теме.
Как использовать концепцию Information Gain при разработке контент-стратегии?
Необходимо идентифицировать фразы, которые статистически часто появляются вместе с целевой темой. Вместо фокуса на синонимах, следует сосредоточиться на концепциях, которые дополняют или развивают тему (Related Phrases). Анализируйте совместную встречаемость в контенте ТОП-конкурентов. Включение этих концепций в ваш контент увеличивает его тематическую релевантность и полноту.
В чем основная цель этой автоматической генерации таксономии?
Основная цель — улучшить пользовательский опыт, обеспечив разнообразие (Diversity) в результатах поиска. Вместо показа 10 похожих результатов по доминирующей интерпретации запроса, система кластеризует выдачу, чтобы показать выборку результатов по разным подтемам, связанным с запросом.
Как система борется с манипуляцией ссылками (Link Bombing) согласно этому патенту (и связанным с ним патентам этой серии)?
Хотя этот конкретный патент фокусируется на таксономии, описанная им инфраструктура (в частности RPBV) используется для оценки ссылок. Система анализирует RPBV анкорной фразы в ссылающемся документе. Если ссылающийся документ тематически не связан с анкорным текстом (низкий RPBV), вес такой ссылки будет низким, что нейтрализует эффект Link Bombing.
Что такое "неполные фразы" (Incomplete Phrases) и как они используются?
Неполные фразы предсказывают только свои расширения (например, "Президент" -> "Президент США"). Они не используются для индексации как Good Phrases, но сохраняются. Как указано в Claim 15, система использует их для улучшения запросов: если пользователь вводит неполную фразу, система может автоматически использовать наиболее вероятное расширение для поиска.
Какова связь этого патента с современными алгоритмами, такими как BERT или MUM?
Этот патент заложил основу для понимания контекста через анализ совместной встречаемости и фраз. Современные модели (BERT, MUM) делают это гораздо сложнее, используя векторные представления (embeddings) для определения семантической близости. Однако конечная цель схожа: понять связи между концепциями (фразами/сущностями) и организовать информацию тематически.

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
Семантика и интент
Ссылки

Семантика и интент
Индексация

Индексация
Семантика и интент

Мультимедиа
SERP
Семантика и интент

EEAT и качество
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
SERP
Ссылки

Knowledge Graph
Семантика и интент
Персонализация

Ссылки
Антиспам
SERP

Ссылки
Мультиязычность
Семантика и интент

EEAT и качество
Техническое SEO
Ссылки

Поведенческие сигналы
Персонализация
SERP
