Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.
Описание
Какую задачу решает
Патент решает фундаментальную проблему традиционных поисковых систем, которые индексируют по словам, а не по концепциям (выраженным фразами), и представляют результаты в виде длинного, неорганизованного списка. Это затрудняет навигацию и ограничивает разнообразие (Diversity) выдачи, так как пользователи редко просматривают результаты за пределами первых страниц. Изобретение направлено на автоматическую организацию SERP в тематические кластеры (таксономию), чтобы представить пользователю обзор различных аспектов темы.
Что запатентовано
Запатентована система информационного поиска, которая использует фразы для индексации, ранжирования и, в частности, для автоматического создания таксономии результатов поиска. Ядром является использование статистической меры Information Gain (Прирост информации) для определения силы связи между фразами. Система анализирует набор результатов поиска и использует наиболее часто встречающиеся связанные фразы (Related Phrases) в качестве заголовков динамических кластеров.
Как это работает
Система опирается на предварительно обработанные данные индекса:
- Индексирование: Система идентифицирует «хорошие фразы» и вычисляет Information Gain между ними, определяя Related Phrases. Документы индексируются с помощью Related Phrase Bit Vector (RPBV), указывающего, какие связанные фразы присутствуют в документе.
- Обработка запроса: Система находит релевантные документы и ранжирует их.
- Генерация таксономии: Система анализирует RPBV найденных документов, чтобы подсчитать, какие Related Phrases встречаются чаще всего.
- Кластеризация: Наиболее частые связанные фразы становятся заголовками кластеров. Результаты группируются под ними для представления пользователю (фиксированным или пропорциональным количеством).
Актуальность для SEO
Высокая. Изобретатель, Anna Patterson, сыграла ключевую роль в развитии семантического поиска Google. Принципы, изложенные в патенте (фразы как концепции, Information Gain как мера связи, кластеризация выдачи), являются фундаментальными. Хотя конкретные реализации могли эволюционировать (например, к нейросетевым эмбеддингам), базовая логика анализа связей между концепциями и организации SERP остается крайне актуальной.
Важность для SEO
Патент имеет критическое значение (9/10) для понимания основ современного SEO. Он демонстрирует механизмы, позволяющие Google понимать концепции и их взаимосвязи, а не просто совпадение ключевых слов. Стратегии построения тематического авторитета (Topical Authority) путем естественного использования кластеров связанных фраз напрямую вытекают из этого патента. Игнорирование семантического контекста и связанных концепций снижает релевантность контента.
Детальный разбор
Термины и определения
Этот патент описывает комплексную систему фразового поиска и кластеризации. Для понимания механизма необходимо разобрать ключевые термины.
- Good Phrase (Хорошая фраза)
- Фраза (включая отдельные слова), которая встречается с достаточной частотой и/или в «интересных контекстах» (Interesting Instances), и которая предсказывает появление хотя бы одной другой фразы, не являющейся ее расширением.
- Information Gain (I(j,k)) (Прирост информации)
- Ключевая метрика. Мера того, насколько сильно присутствие фразы Gj предсказывает присутствие фразы Gk. Рассчитывается как отношение фактической частоты совместного появления (A) к ожидаемой частоте (E). .
- Related Phrase (Связанная фраза)
- Фраза Gk, которая имеет очень высокий Information Gain по отношению к фразе Gj (например, порог > 100). Указывает на сильную семантическую связь.
- Cluster (Кластер)
- Набор связанных фраз. В контексте выдачи — группа документов, объединенных общей Related Phrase.
- Interesting Instance (Интересный контекст)
- Появление фразы, выделенное маркерами форматирования (например, жирный шрифт, анкорный текст гиперссылки, заголовок).
- Related Phrase Bit Vector (RPBV, Битовый вектор связанных фраз)
- Структура данных в индексе для пары (Фраза, Документ). Указывает, какие из связанных фраз данной фразы также присутствуют в этом документе. Битовые позиции упорядочены по убыванию Information Gain.
- Incomplete Phrase (Неполная фраза) и Phrase Extension (Расширение фразы)
- Фраза, которая предсказывает только свои расширения (например, «Президент» -> «Президент США»). Используется для автодополнения запросов.
Ключевые утверждения (Анализ Claims)
Патент US7426507B1 фокусируется на генерации таксономии (кластеризации) результатов поиска.
Claim 1 (Независимый пункт): Описывает основной метод представления документов.
- Получение документов в ответ на запрос, содержащий фразу (query phrase).
- Определение связанных фраз (Related Phrases). Связь определяется, если Information Gain (IG) превышает порог. IG рассчитывается как функция фактической (A(j,k)) и ожидаемой (E(j,k)) частоты совместного появления.
- Определение множества кластеров. Каждый кластер ассоциирован с одной из связанных фраз и использует ее как название.
- Представление документов: для каждого кластера показывается некоторое количество документов, содержащих его связанную фразу, вместе с названием кластера.
Ядро изобретения — использование статистически значимых (на основе Information Gain) связанных фраз для автоматической кластеризации (создания таксономии) поисковой выдачи.
Claim 2 (Зависимый от 1): Уточняет порядок кластеров.
Кластеры упорядочиваются по убыванию количества документов в них. Наиболее крупные (популярные) тематические группы показываются первыми.
Claim 3 и 4 (Зависимые от 1): Уточняют способ выборки документов.
- Claim 3: Представление фиксированного количества документов из каждого кластера.
- Claim 4: Представление количества документов пропорционально размеру кластера.
Это обеспечивает репрезентативную выборку результатов из разных тематических групп.
Claim 5 (Зависимый от 1): Уточняет техническую реализацию.
Определение связанных фраз включает изучение Related Phrase Bit Vector (RPBV). Это показывает, что система использует предварительно рассчитанные данные для быстрого определения состава кластеров.
Claim 14 (Зависимый): Детализирует механизм подсчета документов в кластере.
Подсчет осуществляется путем доступа к RPBV. Счетчик увеличивается, если и только если в векторе установлен бит в позиции, соответствующей связанной фразе кластера. Это подчеркивает эффективность реализации.
Claim 15 (Зависимый): Добавляет этап обработки запроса.
Система может идентифицировать неполную фразу (Incomplete Phrase) в запросе и заменить ее расширением (Phrase Extension) до начала поиска. Это интегрирует механизм переписывания запросов в общую систему.
Где и как применяется
Изобретение требует инфраструктуры, затрагивающей индексирование, но основной процесс генерации таксономии применяется на финальных этапах.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит вся предварительная работа:
- Идентификация Good Phrases.
- Расчет Information Gain и идентификация Related Phrases.
- Создание и сохранение Related Phrase Bit Vectors (RPBV) для каждой фразы в каждом документе.
RANKING – Ранжирование
Система формирует первичный набор результатов, используя фразы и RPBV для расчета оценок релевантности.
RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения генерации таксономии (Presentation System).
- Анализ результатов: Система получает ранжированный список.
- Подсчет связанных фраз: Используя RPBV документов в выдаче, система быстро подсчитывает, как часто каждая Related Phrase (Qr) встречается во всем наборе результатов.
- Генерация Таксономии: Наиболее частые Qr выбираются в качестве заголовков кластеров.
- Организация выдачи: Результаты перегруппировываются под заголовками кластеров.
Входные данные:
- Ранжированный набор результатов поиска.
- Фразы запроса (Qp) и их связанные фразы (Qr).
- Related Phrase Bit Vectors (RPBV) для документов в результатах.
Выходные данные:
- Модифицированный набор результатов поиска, организованный в виде тематических кластеров.
На что влияет
- Специфические запросы: Наибольшее влияние на широкие или неоднозначные информационные запросы, где существует множество подтем или различных аспектов темы (например, «Ягуар» или «Австралийская овчарка»).
- Организация SERP: Влияет на структуру выдачи, обеспечивая разнообразие (Diversity) и тематическую навигацию.
Когда применяется
- Условия применения: Применяется после основного ранжирования, на этапе представления результатов.
- Триггеры активации: Активируется, если для фраз запроса существуют Related Phrases и в результатах поиска наблюдается достаточное разнообразие этих фраз для формирования значимых кластеров.
Пошаговый алгоритм
Процесс А: Офлайн-подготовка данных (Индексирование)
- Идентификация фраз: Сбор статистики по частоте и совместной встречаемости. Классификация фраз на Good Phrases.
- Расчет Information Gain: Для каждой пары хороших фраз вычисляется IG.
- Определение Related Phrases: Если IG превышает высокий порог (например, 100), фразы помечаются как связанные и сортируются по IG.
- Индексирование документов: Для каждой фразы в документе создается Related Phrase Bit Vector (RPBV). Бит устанавливается, если соответствующая связанная фраза также присутствует в документе. Вектор сохраняется в индексе.
Процесс Б: Генерация таксономии при запросе (Presentation)
- Получение данных: Система получает запрос (Qp) и список релевантных документов.
- Идентификация связанных фраз (Qr): Извлекается список Related Phrases (Qr) для Qp.
- Подсчет частотности Qr: Система итерирует по документам в результатах. Для каждой Qr подсчитывается количество документов, содержащих ее, путем анализа RPBV.
- Формирование кластеров: Qr сортируются по частоте встречаемости. Топ-N фраз становятся названиями кластеров.
- Сортировка кластеров: Кластеры упорядочиваются по популярности (количеству документов).
- Выборка документов: Из каждого кластера выбирается количество документов (фиксированное или пропорциональное) для представления.
- Отображение: Результаты представляются сгруппированными под названиями кластеров.
Какие данные и как использует
Данные на входе
Система генерации таксономии полагается на предварительно вычисленные данные.
- Системные данные (Индекс):
- Good Phrase List: Список значимых фраз.
- Co-occurrence Matrix данные и Information Gain значения: Статистика совместного появления и рассчитанные значения IG, определяющие связанные фразы.
- Related Phrase Bit Vectors (RPBV): Хранятся в постинг-листах. Критически важны для быстрого подсчета частоты кластеров.
- Контентные и Технические факторы (на этапе индексации): Текст документа и маркеры выделения (Interesting Instances – анкорный текст, заголовки, выделенный шрифт) используются для идентификации Good Phrases и сбора статистики.
Какие метрики используются и как они считаются
- Information Gain (I(j,k)): Основная метрика для определения связи. Формула: (A=фактическая, E=ожидаемая частота).
- Пороги Information Gain:
- Порог для определения Good Phrase (например, > 1.5).
- Высокий порог для определения Related Phrase (например, > 100).
- Метрики частоты фраз (P(p), S(p), M(p)): Используются для идентификации Good Phrases на этапе индексации.
- Частота кластера (Cluster Frequency): Количество документов в результатах поиска, содержащих определенную связанную фразу. Используется для выбора и ранжирования кластеров.
Выводы
- Переход от ключевых слов к концепциям (фразам): Патент закладывает фундамент для фразовой индексации. Google анализирует устойчивые фразы (Good Phrases), которые представляют семантические концепции, а не изолированные слова.
- Information Gain как мера семантической связи: Ключом к пониманию тематических связей является не просто совместное появление, а статистическая предсказательная сила одной фразы по отношению к другой (Information Gain). Это data-driven подход к семантике.
- Автоматическая таксономия для разнообразия (Diversity): Цель кластеризации выдачи — улучшить пользовательский опыт, показав различные аспекты темы. Таксономия генерируется динамически на основе наиболее статистически значимых связанных фраз в найденном контенте.
- Важность совместной встречаемости (Co-occurrence) для SEO: Документы, которые естественным образом содержат кластеры связанных фраз, считаются тематически полными. Это критически важно для демонстрации релевантности.
- Эффективность реализации через Bit Vectors: Использование Related Phrase Bit Vectors (RPBV) в индексе позволяет выполнять сложную кластеризацию в реальном времени, сводя анализ контента к быстрым битовым операциям.
Практика
Best practices (это мы делаем)
- Фокус на Topical Authority и семантическом охвате: Необходимо создавать контент, который покрывает не только основную фразу запроса, но и кластер связанных фраз (Related Phrases), которые имеют высокий Information Gain. Это сигнализирует о глубине проработки темы и помогает системе правильно классифицировать контент.
- Исследование кластеров фраз: Анализируйте совместную встречаемость терминов в контенте конкурентов из ТОПа и изучайте, как Google организует выдачу. Это позволит понять, какие фразы формируют тематический кластер и какие концепции Google считает наиболее связанными.
- Использование фраз в «Интересных контекстах»: Поскольку система учитывает Interesting Instances при идентификации Good Phrases, важно использовать ключевые и связанные фразы в заголовках, выделенном тексте и анкорном тексте ссылок.
- Оптимизация под конкретные подтемы (кластеры): При работе с широкими запросами создавайте контент, который четко выровнен под конкретную подтему (потенциальный кластер), чтобы гарантировать его представление в соответствующем тематическом блоке SERP.
Worst practices (это делать не надо)
- Keyword Stuffing и изолированная оптимизация: Повторение одной и той же фразы без использования связанных концепций неэффективно. Система ищет наличие разнообразных Related Phrases, а не только высокую плотность основного ключа.
- Создание тонкого контента (Thin Content): Страницы, которые поверхностно затрагивают тему и не содержат достаточного количества связанных фраз, будут проигрывать тематически полным документам.
- Игнорирование семантического контекста: Создание контента, который формально содержит ключевые слова, но не отражает реальных статистических связей между концепциями (игнорирует Information Gain).
Стратегическое значение
Этот патент подтверждает стратегический приоритет Google на понимание естественного языка и тематическое моделирование. Он предоставляет конкретную модель (основанную на Information Gain и фразах) того, как Google автоматически выявляет структуру знаний в нише. Долгосрочная SEO-стратегия должна быть направлена на построение Topical Authority путем полного охвата семантических кластеров, а не на оптимизацию под отдельные запросы.
Практические примеры
Сценарий: Организация выдачи и оптимизация статьи по теме «Australian Shepherd» (Австралийская овчарка)
- Запрос: «Australian Shepherd».
- Анализ (Предполагаемый): Система идентифицирует Related Phrases с высоким Information Gain: «Blue Merle» (голубой мерль), «Red Merle» (красный мерль), «Agility Training» (аджилити), «Herding Dogs» (пастушьи собаки).
- Генерация таксономии в SERP: Система анализирует ТОП-100 результатов и видит, что чаще всего встречаются «Blue Merle» и «Agility Training». Выдача может быть организована так:
- Кластер 1: Blue Merle (50 документов)
- Кластер 2: Agility Training (30 документов)
- Действия SEO (Оптимизация): Создается комплексное руководство. Специалист гарантирует, что статья включает не только основную фразу, но и естественно интегрирует все идентифицированные связанные фразы (окрасы, активность, сравнение пород).
- Ожидаемый результат: Статья демонстрирует высокую тематическую релевантность, так как содержит множество фраз из кластера. Это увеличивает ее шансы на высокое ранжирование и попадание в соответствующие тематические группы в SERP.
Вопросы и ответы
Что такое «Information Gain» в контексте этого патента и почему он важен для SEO?
Information Gain (Прирост информации) — это статистическая мера того, насколько сильнее связаны две фразы, чем ожидалось бы случайно. Если фраза А и фраза Б появляются вместе гораздо чаще, чем ожидалось, они имеют высокий Information Gain. Для SEO это критически важно, потому что Google использует этот показатель для определения тематической связи между концепциями и формирования кластеров. Использование фраз с высоким IG в контенте сигнализирует о глубоком раскрытии темы.
Как система определяет, какие фразы являются «хорошими» (Good Phrases)?
Система использует несколько критериев. Во-первых, это достаточная частота появления фразы в корпусе. Во-вторых, это количество «интересных контекстов» (Interesting Instances) — использование фразы в заголовках, анкорных текстах, выделенном шрифте. В-третьих, фраза должна обладать предсказательной силой (иметь достаточный Information Gain по отношению к другим фразам) и не быть «неполной».
Что такое «Related Phrase Bit Vector» (RPBV) и как он используется для кластеризации?
RPBV — это структура данных в индексе, которая для каждого документа быстро показывает, какие связанные фразы в нем присутствуют. При генерации таксономии система мгновенно сканирует эти векторы для всех найденных документов, чтобы подсчитать частоту связанных фраз. Это позволяет определить доминирующие темы (кластеры) в реальном времени без повторного анализа текста.
Как именно происходит генерация таксономии (кластеризация) выдачи?
После получения результатов поиска система определяет все связанные фразы (Qr) для фраз запроса. Затем она подсчитывает, как часто каждая Qr встречается в этих документах (используя RPBV). Наиболее частотные Qr становятся заголовками кластеров. Результаты группируются под этими заголовками, и кластеры сортируются по популярности (количеству документов).
Как этот патент связан с современными концепциями E-E-A-T и Topical Authority?
Патент предоставляет техническую основу для оценки Topical Authority. Авторитетный ресурс по теме естественным образом использует широкий спектр связанных фраз с высоким Information Gain. Система может количественно измерить этот охват. Чем полнее охват тематического кластера фраз, тем выше авторитетность документа по данной теме.
Как использовать концепцию Information Gain при разработке контент-стратегии?
Необходимо идентифицировать фразы, которые статистически часто появляются вместе с целевой темой. Вместо фокуса на синонимах, следует сосредоточиться на концепциях, которые дополняют или развивают тему (Related Phrases). Анализируйте совместную встречаемость в контенте ТОП-конкурентов. Включение этих концепций в ваш контент увеличивает его тематическую релевантность и полноту.
В чем основная цель этой автоматической генерации таксономии?
Основная цель — улучшить пользовательский опыт, обеспечив разнообразие (Diversity) в результатах поиска. Вместо показа 10 похожих результатов по доминирующей интерпретации запроса, система кластеризует выдачу, чтобы показать выборку результатов по разным подтемам, связанным с запросом.
Как система борется с манипуляцией ссылками (Link Bombing) согласно этому патенту (и связанным с ним патентам этой серии)?
Хотя этот конкретный патент фокусируется на таксономии, описанная им инфраструктура (в частности RPBV) используется для оценки ссылок. Система анализирует RPBV анкорной фразы в ссылающемся документе. Если ссылающийся документ тематически не связан с анкорным текстом (низкий RPBV), вес такой ссылки будет низким, что нейтрализует эффект Link Bombing.
Что такое «неполные фразы» (Incomplete Phrases) и как они используются?
Неполные фразы предсказывают только свои расширения (например, «Президент» -> «Президент США»). Они не используются для индексации как Good Phrases, но сохраняются. Как указано в Claim 15, система использует их для улучшения запросов: если пользователь вводит неполную фразу, система может автоматически использовать наиболее вероятное расширение для поиска.
Какова связь этого патента с современными алгоритмами, такими как BERT или MUM?
Этот патент заложил основу для понимания контекста через анализ совместной встречаемости и фраз. Современные модели (BERT, MUM) делают это гораздо сложнее, используя векторные представления (embeddings) для определения семантической близости. Однако конечная цель схожа: понять связи между концепциями (фразами/сущностями) и организовать информацию тематически.