
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
Патент решает фундаментальную проблему традиционных поисковых систем, которые индексируют документы по отдельным словам, а не по концепциям, которые часто выражаются фразами (например, «Президент Соединенных Штатов»). Индексирование всех возможных последовательностей слов (n-грамм) вычислительно невозможно. Изобретение предлагает метод для автоматического выявления семантически значимых («хороших») фраз в большом корпусе и эффективного индексирования документов на их основе, улучшая понимание тематики контента.
Запатентована система и метод индексирования, основанный на фразах. Система автоматически идентифицирует «хорошие фразы», которые встречаются достаточно часто и обладают предсказательной силой (Information Gain) по отношению к другим фразам. Документы индексируются по этим фразам, при этом в индексе для каждой фразы и документа сохраняется информация о том, какие связанные фразы (Related Phrases) также присутствуют в этом документе. Это позволяет системе понимать тематическую глубину и контекст.
Система работает в несколько этапов:
Information Gain (IG) между фразами. Если фактическая частота совместной встречаемости значительно превышает ожидаемую, одна фраза считается предсказателем другой.Related Phrases).Related Phrase Bit Vector, указывающий, какие связанные и вторичные связанные фразы также присутствуют в документе.Inlink и Outlink оценки для анкорного текста, используя Related Phrase Bit Vector исходного и целевого документов для оценки контекста ссылки.Критически высокая. Хотя патент подан в 2004 году, он описывает фундаментальные принципы перехода от ключевых слов к концепциям и темам, что является основой современного семантического поиска Google (например, Knowledge Graph, BERT, MUM). Понимание того, как Google идентифицирует и связывает фразы (сущности/концепции), остается центральным элементом для разработки эффективных SEO-стратегий в 2025 году.
Патент имеет критическое значение (95/100). Он закладывает основу для понимания того, как Google оценивает тематический авторитет (Topical Authority) и релевантность. Он показывает, что для высокого ранжирования недостаточно наличия основной фразы; необходимо наличие связанных и вторичных связанных фраз для демонстрации глубины проработки темы. Кроме того, он описывает механизм контекстуальной оценки ссылок, подчеркивая важность релевантности как источника, так и цели ссылки анкорному тексту.
Information Gain по отношению хотя бы к одной другой фразе в наборе.Secondary Window.Information Gain), не являющуюся её расширением.Related Phrase Bit Vector фразы A в документе URL1.Related Phrase Bit Vector фразы A в документе URL0.Related Phrase Bit Vector).Information Gain превышает высокий порог (например, 100), что указывает на очень сильную тематическую связь.Posting List для пары (Фраза, Документ). Указывает, какие связанные фразы и вторичные связанные фразы присутствуют в данном документе. Используется для определения тем документа.Claim 1 (Независимый пункт): Описывает основной процесс индексирования на основе фраз и связанных фраз.
Information Gain (IG) между P1 и P2 превышает порог (IG рассчитывается как функция фактической и ожидаемой частоты совместной встречаемости).Posting List идентифицированной фразы (P1).Ядро изобретения — это индексирование документа не просто по фразе, которую он содержит, а по тому, какие связанные (на основе IG) фразы он также содержит, и сохранение этой информации непосредственно в индексе (Posting List).
Claim 5 (Зависимый от 1): Уточняет информацию, сохраняемую в индексе.
Сохранение индикатора связанной фразы (первичной) также включает сохранение индикатора присутствия Secondary Related Phrase (связанной фразы первичной связанной фразы) в документе.
Это механизм, позволяющий системе оценить глубину проработки темы (наличие не только связанных концепций, но и концепций второго порядка).
Claim 10 (Независимый пункт): Описывает процесс индексирования с использованием предварительно определенных «действительных» (Valid) фраз.
Information Gain).Posting List каждой идентифицированной фразы.Этот пункт защищает метод использования только семантически значимых (частотных и предсказательных) фраз для индексирования.
Claim 17 (Независимый пункт): Описывает процесс индексирования фраз в анкорном тексте.
Anchor Text гиперссылки, указывающей на целевой документ.Link Score (оценка ссылки) для этой фразы на основе связанных фраз идентифицированной фразы.Link Score сохраняется в Posting List фразы в ассоциации с документом.Этот пункт защищает метод оценки значимости ссылки (Link Score) на основе контекста (связанных фраз), а не только наличия самой ссылки или анкорного текста.
Изобретение является центральной частью процесса индексирования и подготовки данных для ранжирования.
CRAWLING – Сканирование и Сбор данных
Система собирает необработанный контент, который является входными данными для процесса идентификации фраз.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.
Information Gain, определение Related Phrases и формирование кластеров.Related Phrase Bit Vector для каждой фразы в документе. Определение основных и второстепенных тем.Inlink Score и Outlink Score для фраз в анкорном тексте на основе контекста связанных фраз.Posting Lists.RANKING – Ранжирование
Хотя этот патент фокусируется на индексировании, создаваемые им структуры данных (Related Phrase Bit Vectors, Link Scores) являются критически важными входными данными для алгоритмов ранжирования, позволяя оценивать документы по тематической глубине и качеству ссылок.
Входные данные:
Выходные данные:
Good Phrases).Information Gain.Posting Lists), где для каждой пары (Фраза, Документ) хранится Related Phrase Bit Vector и Link Scores (если фраза является анкорным текстом).Information Gain превышает высокий порог (например, 100). Они считаются предсказателями, если IG превышает более низкий порог (например, 1.5).Процесс А: Идентификация фраз и сбор статистики (Выполняется во время сканирования)
Phrase Window (например, 5 слов) для идентификации кандидатов во фразы.Secondary Window (например, 30 слов) для обновления Co-occurrence Matrix. Увеличиваются счетчики R (Raw), D (Disjunctive Interesting) и C (Conjunctive Interesting) для пар фраз.Процесс Б: Обработка и прунинг списка хороших фраз (Офлайн)
Phrase Extensions), она помечается как Incomplete Phrase и удаляется из списка хороших фраз.Related Phrases — те, для которых IG превышает высокий порог (например, 100).Cluster Bit Vectors.Процесс В: Индексирование документов (Выполняется во время индексации)
Posting List каждой найденной фразы P1.Outlink Score: Related Phrase Bit Vector фразы A в URL0.Inlink Score: Related Phrase Bit Vector фразы A в URL1 (или синтетический вектор, если A нет в теле URL1).Related Phrase Bit Vector и Link Scores сохраняются в Posting List фразы P1 для документа D.Interesting Instances), которые определяются по форматированию (жирный шрифт, подчеркивание) или структурной роли (заголовки, текст в кавычках).Anchor Text) рассматривается как важное «интересное вхождение» и используется для расчета Inlink и Outlink Scores. Анализируется наличие анкорного текста в теле целевого документа.Related Phrases.Related Phrase Bit Vector анкорной фразы в исходном или целевом документе.Information Gain (IG) является ключевой метрикой для определения того, насколько сильно одна концепция предсказывает другую. Система ищет статистически значимые отклонения от ожидаемой частоты совместной встречаемости.Related Phrase Bit Vector), присутствуют ли связанные и вторичные связанные фразы. Наличие вторичных связанных фраз указывает на «Primary Topic», что свидетельствует о глубокой проработке темы.Inlink и Outlink Scores, основанных на связанных фразах. Это означает, что ценность ссылки определяется не только анкорным текстом, но и тем, насколько исходный и целевой документы релевантны этому анкорному тексту (т.е. содержат его связанные фразы).Interesting Instances) — выделение жирным, курсивом, использование в анкорном тексте — играют прямую роль в идентификации значимых («хороших») фраз на ранних этапах анализа корпуса.Related Phrases) и концепции второго порядка (Secondary Related Phrases). Это необходимо для того, чтобы система классифицировала страницу как «Primary Topic».Secondary Window, например, 30 слов). Это усиливает сигналы Information Gain между ними.Interesting Instances) и классифицированы как «Хорошие фразы».Outlink Score), и чтобы ваша страница (URL1) подтверждала эту релевантность своим содержанием (высокий Inlink Score). Обеспечивайте наличие связанных фраз анкорного текста на обеих страницах.Inlink и Outlink Scores.Related Phrase Bit Vector), а не повторение одной и той же фразы.Outlink и Inlink Scores, даже если анкорный текст соответствует запросу.Interesting Instances.Этот патент является одним из краеугольных камней в эволюции Google от лексического поиска к семантическому. Он предоставляет четкий механизм того, как Google автоматически изучает язык и связи между концепциями на основе статистического анализа корпуса. Стратегически это подтверждает абсолютную необходимость построения Topical Authority. SEO-стратегия должна быть направлена на создание кластеров контента, которые демонстрируют глубокую взаимосвязь между основными и связанными концепциями, тем самым максимизируя сигналы Information Gain и формируя сильные Related Phrase Bit Vectors.
Сценарий 1: Оценка глубины контента (Topical Depth)
Сайт А и Сайт Б оптимизированы под фразу «Уход за Австралийской Овчаркой».
Related Phrase Bit Vector Сайта А будет иметь вид (1,0) для связанных фраз. Сайт Б будет иметь вид (1,1) (Primary Topic), так как присутствуют вторичные связанные фразы. Сайт Б получит преимущество в ранжировании.Сценарий 2: Оценка качества ссылки (Link Scoring)
Сайт Х (блог о собаках) и Сайт Y (форум о финансах) ссылаются на Сайт Z (магазин кормов) с анкорным текстом «лучший корм для собак».
Outlink Score высокий. Сайт Z также содержит эти фразы. Inlink Score высокий. Ссылка имеет высокую ценность.Outlink Score низкий. Даже если Inlink Score Сайта Z высокий, общая ценность ссылки снижена из-за нерелевантности источника.Что такое «Хорошая фраза» (Good Phrase) и почему это важно для SEO?
«Хорошая фраза» — это не просто часто встречающееся словосочетание. Это фраза, которая статистически значима (встречается достаточно часто или выделена форматированием) И обладает предсказательной силой — её наличие в тексте повышает вероятность появления других конкретных фраз (на основе Information Gain). Для SEO это критически важно, так как Google индексирует контент именно по этим «хорошим фразам» (концепциям), а не по любым комбинациям слов.
Что такое Information Gain (IG) в контексте этого патента и как его использовать?
Information Gain — это отношение фактической частоты совместной встречаемости двух фраз к ожидаемой. Если IG высок (например, >100), фразы считаются связанными. В SEO это используется для построения семантического кокона: необходимо включать в контент фразы, которые имеют высокий IG с вашей основной темой, чтобы показать тематическую релевантность и глубину.
Что такое Related Phrase Bit Vector и как он влияет на ранжирование?
Это структура данных в индексе, которая для конкретного документа и фразы показывает, какие связанные и вторичные связанные фразы также присутствуют в этом документе. Чем больше бит установлено в этом векторе (особенно для вторичных связанных фраз), тем более тематически глубоким считается документ. Документы с более высокими значениями этого вектора получают преимущество в ранжировании.
Как система определяет Primary Topic и Secondary Topic?
Это определяется с помощью «би-битного» вектора (bi-bit vector). Для каждой связанной фразы есть две позиции. Бит 1 означает, что связанная фраза присутствует. Бит 2 означает, что присутствует вторичная связанная фраза. Комбинация (1,1) указывает на Primary Topic (глубокая проработка), а (1,0) — на Secondary Topic (более поверхностное упоминание).
Как этот патент влияет на стратегию линкбилдинга (Inlink/Outlink Scores)?
Он радикально меняет подход, показывая, что контекст ссылки важнее её наличия. Outlink Score оценивает релевантность страницы-донора анкорному тексту. Inlink Score оценивает релевантность страницы-акцептора анкорному тексту. Для передачи максимального веса обе оценки должны быть высокими, что достигается наличием связанных фраз на обеих страницах.
Что такое «Интересные вхождения» (Interesting Instances) и как их оптимизировать?
Это фразы, выделенные форматированием (жирный, курсив) или структурой (анкорный текст, цитаты). Они играют ключевую роль в идентификации «хороших фраз». Для оптимизации следует использовать HTML-форматирование и заголовки для выделения наиболее важных концепций (фраз) в вашем контенте.
Что произойдет, если я буду использовать только основную ключевую фразу без связанных концепций?
Ваш документ, скорее всего, будет классифицирован как Secondary Topic. Он будет иметь низкое значение Related Phrase Bit Vector, так как биты для связанных и вторичных связанных фраз не будут установлены. Такой контент уступит в ранжировании страницам, которые демонстрируют большую тематическую глубину.
Как система борется со ссылочным спамом (Link Bombing) с помощью этого механизма?
Система проверяет Inlink Score. Если много сайтов ссылаются на целевую страницу с определенным анкорем, но сама целевая страница не содержит этот анкорь или его связанные фразы (низкий Inlink Score), эти ссылки будут обесценены. Это предотвращает искусственное повышение ранжирования страницы по запросам, которым она не релевантна.
Что такое «Неполные фразы» (Incomplete Phrases) и как они используются?
Это фразы, которые предсказывают только свои собственные расширения (например, «Капитан Джек» предсказывает только «Капитан Джек Воробей»). Они удаляются из основного индекса хороших фраз, но сохраняются отдельно. Система использует их для автодополнения и предложения пользователю более полных и точных формулировок запроса.
Актуален ли этот патент 2004 года для современного SEO?
Да, он критически актуален. Он описывает фундаментальные принципы индексирования и понимания контента, которые легли в основу всех последующих семантических технологий Google. Понимание этих механизмов (Information Gain, Related Phrases, контекстуальная оценка ссылок) необходимо для построения эффективной стратегии Topical Authority.

Семантика и интент
Индексация

Индексация
Семантика и интент

Индексация
SERP
Семантика и интент

Индексация
Семантика и интент

Семантика и интент

Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Индексация
Структура сайта

Ссылки
SERP
Техническое SEO

SERP
EEAT и качество
Персонализация

Ссылки
SERP
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Мультиязычность
Семантика и интент
Ссылки

Семантика и интент
Персонализация
Поведенческие сигналы
