
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
Патент решает две фундаментальные проблемы масштабирования поисковых систем:
Запатентована система поиска информации, которая использует фразы для индексации и поиска, а также специфическую архитектуру разделения индекса. Индекс разделен на Primary Index (для высокорелевантных документов, отсортированных по рангу) и Secondary Index (для остальных документов, отсортированных по идентификатору документа). Система также включает механизм для идентификации значимых («хороших») фраз и определения взаимосвязей между ними на основе статистического анализа совместной встречаемости (Information Gain).
Система работает в нескольких измерениях:
Information Gain (отношение фактической частоты совместной встречаемости к ожидаемой). Фразы кластеризуются.Related Phrase Bit Vector).PageRank). Топ-K документов хранятся в Primary Index в порядке ранжирования. Остальные хранятся в Secondary Index в порядке номеров документов.Primary Index для менее релевантных документов хранится меньше атрибутов, что экономит место.Высокая. Масштабирование индекса и переход от ключевых слов к концепциям (сущностям и фразам) являются фундаментальными для современного поиска. Описанные методы идентификации фраз и анализа совместной встречаемости (Information Gain) лежат в основе понимания тематического авторитета и семантических связей. Архитектура многоуровневого индекса остается критически важной для управления огромным объемом данных в интернете.
Патент имеет высокое стратегическое значение. Он описывает фундаментальные механизмы того, как Google идентифицирует значимые фразы, определяет тематические кластеры (используя Information Gain) и использует эту информацию в ранжировании (используя Related Phrase Bit Vector). Кроме того, архитектура индекса (Primary/Secondary) подчеркивает, что только ограниченное число документов считается высокорелевантными для любой конкретной фразы, что усиливает конкуренцию за попадание в Primary Index.
Posting Lists) для фраз. Содержит ограниченное количество (Топ-K) наиболее релевантных документов. Документы хранятся в порядке ранжирования по релевантности.Posting Lists, которые не вошли в Primary Index. Документы хранятся в порядке их идентификаторов (Document ID), а не по релевантности.Information Gain указывает на сильную связь.Information Gain выше определенного (высокого) порога. Используются для определения тематики документа.Information Gain по отношению хотя бы к одной другой фразе в наборе.Posting List для пары (фраза, документ). Указывает, какие из связанных фраз также присутствуют в этом документе. Используется для ранжирования.Primary Index, при котором для документов с более низким рангом хранится меньше атрибутов релевантности.Claim 1 (Независимый пункт): Описывает основной метод разделения индекса для фразы.
Posting List), содержащих первую фразу.relevance score).Primary Index. Документы хранятся в порядке их ранга (rank order).Secondary Index. Документы хранятся в числовом порядке их идентификаторов (numerical order of the respective document identifiers).Primary Index сохраняется ссылка на Secondary Index.Claim 2 (Зависимый от 1): Уточняет, что оценка релевантности может быть основана на PageRank (page rank based type score).
Claim 8 (Независимый пункт): Описывает метод многоуровневого хранения (Tiering) внутри Primary Index.
Primary Index.Это означает, что система хранит меньше информации о документах по мере снижения их релевантности, даже если они находятся в Primary Index.
Изобретение затрагивает фундаментальные аспекты архитектуры поиска, в первую очередь индексирование и ранжирование.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает документы для анализа. Также описан механизм обнаружения изменений в документах для управления версиями (архивирования).
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Включает несколько ключевых процессов:
Good Phrases.Information Gain для определения Related Phrases и кластеров.Posting Lists для фраз, включая расчет Related Phrase Bit Vector для каждого документа.PageRank) для документов в каждом Posting List, их сортировка и разделение между Primary Index и Secondary Index.Primary Index.RANKING – Ранжирование
Система использует фразовую информацию на этапе ранжирования. Документы оцениваются не только по наличию фраз из запроса, но и по наличию связанных фраз. Ранг может определяться значением Related Phrase Bit Vector (чем больше связанных фраз в документе, тем выше ранг). Также учитываются фразы в анкорах входящих ссылок.
Входные данные:
PageRank, инлинки, анкорный текст).Выходные данные:
Primary Index и Secondary Index.Good Phrases с данными о кластерах и Information Gain.Related Phrase Bit Vectors, ассоциированные с документами в индексе.Good Phrases (на основе частоты и количества Interesting Instances) и для определения Related Phrases (на основе порога Information Gain). Также используется порог K для разделения Posting List между Primary и Secondary индексами (в примере указано 32k).Процесс А: Идентификация и кластеризация фраз
Good Phrases и Bad Phrases на основе порогов частоты и количества «интересных» вхождений.Information Gain. I(j,k)=A(j,k)/E(j,k).Good Phrases тех фраз, которые не предсказывают никакие другие фразы или предсказывают только свои расширения (Incomplete Phrases).Related Phrases путем сравнения Information Gain с высоким порогом (например, 100).Related Phrases в кластеры на основе их взаимной предсказательной силы.Процесс Б: Индексация документов и разделение индекса
Good Phrases в документе.Posting Lists для каждой найденной фразы.Posting List сортируются по оценке релевантности (например, PageRank).Posting List разделяется. Топ-K документов сохраняются в Primary Index в порядке ранжирования.Primary Index для документов с более низким рангом сохраняется меньше атрибутов релевантности.Secondary Index в порядке идентификаторов документов.Interesting Instances). Упоминаются: жирный шрифт, подчеркивание, анкорный текст гиперссылки, кавычки, заголовки (titles), URL, основной текст (body), боковые панели (sidebar), футеры, реклама, капитализация.PageRank (упоминается как возможная оценка релевантности для сортировки Posting Lists).Good Phrases. P(p) – количество документов с фразой; S(p) – общее количество вхождений фразы; M(p) – количество «интересных» вхождений.Related Phrases и формирования кластеров.PageRank), используемая для сортировки Posting Lists перед разделением индекса.Information Gain. Фразы считаются связанными, если их совместная встречаемость значительно (в патенте предлагается порог в 100 раз) превышает ожидаемую. Это основа для построения тематических кластеров.Related Phrases) является сильным сигналом релевантности. Это кодируется в Related Phrase Bit Vector, и его значение используется для ранжирования.Primary Index для каждой фразы. Эти документы предварительно отсортированы по сильным сигналам релевантности (например, PageRank).Primary Index критически важно, так как он используется в первую очередь при поиске. Для этого документ должен обладать высокими показателями авторитетности и релевантности.Primary Index ресурсы распределяются неравномерно. Полный набор атрибутов релевантности хранится только для самых топовых документов.Information Gain с темой А. Это увеличит значение Related Phrase Bit Vector документа.Good Phrases, обращая внимание на «интересные» вхождения (заголовки, жирный шрифт, анкорный текст). Стратегически размещайте ключевые концепции в этих элементах для повышения вероятности их распознавания как значимых.Primary Index хранит документы в порядке их Relevance Score (например, PageRank), критически важно наращивать авторитет страницы. Без достаточного авторитета страница может оказаться в Secondary Index, даже если она тематически релевантна.Good Phrases и связаны с тематикой вашего документа. Система оценивает тематичность как ссылающегося документа, так и самого анкора.Related Phrases), его тематическая релевантность будет оценена низко, даже при высокой плотности основного запроса.Secondary Index и не будет конкурентоспособной в поиске.Этот патент является одним из фундаментальных документов, объясняющих переход Google от статистического анализа слов к семантическому анализу концепций. Он показывает, что тематический авторитет строится не просто на покрытии темы, а на использовании правильных комбинаций взаимосвязанных фраз, которые статистически предсказывают друг друга (Information Gain). Стратегически, SEO должно фокусироваться на понимании этих взаимосвязей в своей нише. Кроме того, он подчеркивает жесткую иерархию в индексе Google: есть явное разделение на высокоавторитетный контент (Primary Index) и «длинный хвост» (Secondary Index).
Сценарий: Оптимизация статьи про породу собак «Австралийская овчарка» (Australian Shepherd)
Information Gain с «Австралийская овчарка». В патенте (FIG. 3) упоминаются примеры из текста: «stock dogs» (пастушьи собаки), «Basque shepherds» (баскские пастухи), «Australian Shepherd Club of America» (ASCA).Related Phrase Bit Vector для этой страницы будет иметь высокое значение, что повысит ее тематическую релевантность.Relevance Score.Relevance Score, страница попадает в Primary Index по запросу «Австралийская овчарка» и связанные запросы, обеспечивая высокую видимость.Что такое Information Gain и почему это важно для SEO?
Information Gain — это статистическая мера, которая показывает, насколько чаще две фразы встречаются вместе, чем это ожидалось бы случайно. Если Information Gain высок (например, в 100 раз выше ожидаемого), фразы считаются сильно связанными. Для SEO это критически важно, потому что Google использует эти связи для определения тематики документа. Включение в контент фраз с высоким Information Gain по отношению к вашему целевому запросу увеличивает тематическую релевантность страницы.
В чем разница между Primary Index и Secondary Index?
Primary Index хранит только ограниченное количество (например, Топ-32k) наиболее релевантных и авторитетных документов для каждой фразы. Эти документы отсортированы по рангу (например, PageRank) и содержат полные данные для ранжирования. Secondary Index хранит все остальные документы, которые содержат фразу. Они отсортированы по ID документа (не по релевантности) и содержат минимальные данные. При поиске в первую очередь используется Primary Index.
Как этот патент влияет на построение Topical Authority?
Он предоставляет конкретный механизм. Topical Authority достигается, когда контент содержит не просто много информации по теме, а правильные кластеры связанных фраз (Related Phrases). Система измеряет это через Related Phrase Bit Vector: чем больше связанных фраз в документе, тем выше его тематическая релевантность и, соответственно, вклад в авторитет сайта по этой теме.
Что означает «Tiering» (многоуровневое хранение) в Primary Index?
Tiering — это метод оптимизации хранения. Даже внутри Primary Index не все документы равны. Для самых авторитетных документов (например, первый уровень) хранится полный набор атрибутов (PageRank, позиции фраз, данные об анкорах и т.д.). Для менее авторитетных документов (второй и третий уровни), даже если они попали в Primary Index, хранится сокращенный набор атрибутов. Это экономит ресурсы системы.
Моя страница очень релевантна запросу, но имеет низкий трафик. Может ли она быть в Secondary Index?
Да, это вполне вероятно. Попадание в Primary Index зависит от сортировки по Relevance Score, который часто коррелирует с авторитетностью страницы (например, PageRank). Если авторитет страницы недостаточен, она может оказаться за пределами Топ-K документов и попасть в Secondary Index, что значительно снижает ее шансы на высокое ранжирование в конкурентной выдаче.
Как система определяет, какие фразы являются «хорошими» (Good Phrases)?
Система анализирует частоту появления фразы в корпусе и количество «интересных» вхождений (Interesting Instances). Интересными считаются вхождения в выделенных элементах документа: заголовках, жирном шрифте, анкорном тексте ссылок и т.д. Кроме того, хорошая фраза должна обладать предсказательной силой — она должна статистически предсказывать появление других фраз (иметь достаточный Information Gain).
Как используется Related Phrase Bit Vector в ранжировании?
Этот вектор показывает, какие связанные фразы присутствуют в документе. Чем больше связанных фраз найдено, тем больше битов установлено в векторе, и тем выше его числовое значение. Патент предлагает ранжировать документы в соответствии с этим значением. Документы с наибольшим количеством связанных фраз будут ранжироваться выше, так как они считаются наиболее тематически релевантными.
Влияет ли этот патент на оптимизацию анкорного текста?
Да, значительно. Патент описывает ранжирование на основе фраз в анкорах (Anchor Hits). Система оценивает, насколько тематичен анкор по отношению как к ссылающемуся документу, так и к целевому документу. Получение ссылок с использованием связанных фраз в анкорном тексте с тематически релевантных страниц является сильным сигналом ранжирования.
Что произойдет, если я использую в тексте только одну ключевую фразу много раз?
Это неэффективная стратегия. Система ищет кластеры связанных фраз. Если документ содержит только одну фразу без ее тематического окружения (фраз с высоким Information Gain), его Related Phrase Bit Vector будет иметь низкое значение. Такой документ будет считаться менее релевантным, чем документ, содержащий разнообразный кластер связанных концепций.
Учитывает ли система расположение фраз на странице?
Да. При определении Good Phrases учитывается расположение и форматирование (заголовки, сайдбары, футеры, основной текст). Кроме того, в патенте указано, что для самых высокоранжированных документов в Primary Index (первый уровень Tiering) может храниться позиция каждого вхождения фразы и набор флагов, указывающих на ее форматирование.

Индексация
Семантика и интент
Ссылки

Индексация
SERP
Семантика и интент

Семантика и интент
Индексация

Индексация
Свежесть контента
Семантика и интент

Индексация
Семантика и интент

SERP
Поведенческие сигналы

Ссылки
Антиспам
EEAT и качество

Персонализация
Семантика и интент
SERP

Техническое SEO
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Local SEO

SERP
Поведенческие сигналы
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

SERP
EEAT и качество
Поведенческие сигналы

Мультимедиа
Поведенческие сигналы
SERP

Ссылки
Антиспам
SERP
