SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

PHRASE-BASED INDEXING IN AN INFORMATION RETRIEVAL SYSTEM (Индексирование на основе фраз в системе поиска информации)
  • US7536408B2
  • Google LLC
  • 2004-07-26
  • 2009-05-19
  • Индексация
  • Семантика и интент
  • Ссылки
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

Описание

Какую проблему решает

Патент решает фундаментальную проблему традиционных поисковых систем, которые индексируют документы по отдельным словам, а не по концепциям, которые часто выражаются фразами (например, «Президент Соединенных Штатов»). Индексирование всех возможных последовательностей слов (n-грамм) вычислительно невозможно. Изобретение предлагает метод для автоматического выявления семантически значимых («хороших») фраз в большом корпусе и эффективного индексирования документов на их основе, улучшая понимание тематики контента.

Что запатентовано

Запатентована система и метод индексирования, основанный на фразах. Система автоматически идентифицирует «хорошие фразы», которые встречаются достаточно часто и обладают предсказательной силой (Information Gain) по отношению к другим фразам. Документы индексируются по этим фразам, при этом в индексе для каждой фразы и документа сохраняется информация о том, какие связанные фразы (Related Phrases) также присутствуют в этом документе. Это позволяет системе понимать тематическую глубину и контекст.

Как это работает

Система работает в несколько этапов:

  • Идентификация фраз: Система сканирует документы, используя скользящее окно для поиска кандидатов. Фразы классифицируются как «хорошие», если они соответствуют порогам частотности или имеют достаточно «интересных вхождений» (например, в анкорном тексте, заголовках).
  • Определение предсказательной силы: Рассчитывается Information Gain (IG) между фразами. Если фактическая частота совместной встречаемости значительно превышает ожидаемую, одна фраза считается предсказателем другой.
  • Выявление связанных фраз: Фразы с очень высоким IG считаются связанными (Related Phrases).
  • Индексирование: Документы добавляются в индекс по содержащимся в них хорошим фразам. Для каждого документа в индексе сохраняется Related Phrase Bit Vector, указывающий, какие связанные и вторичные связанные фразы также присутствуют в документе.
  • Анализ ссылок: Система рассчитывает Inlink и Outlink оценки для анкорного текста, используя Related Phrase Bit Vector исходного и целевого документов для оценки контекста ссылки.

Актуальность для SEO

Критически высокая. Хотя патент подан в 2004 году, он описывает фундаментальные принципы перехода от ключевых слов к концепциям и темам, что является основой современного семантического поиска Google (например, Knowledge Graph, BERT, MUM). Понимание того, как Google идентифицирует и связывает фразы (сущности/концепции), остается центральным элементом для разработки эффективных SEO-стратегий в 2025 году.

Важность для SEO

Патент имеет критическое значение (95/100). Он закладывает основу для понимания того, как Google оценивает тематический авторитет (Topical Authority) и релевантность. Он показывает, что для высокого ранжирования недостаточно наличия основной фразы; необходимо наличие связанных и вторичных связанных фраз для демонстрации глубины проработки темы. Кроме того, он описывает механизм контекстуальной оценки ссылок, подчеркивая важность релевантности как источника, так и цели ссылки анкорному тексту.

Детальный разбор

Термины и определения

Anchor Text (Анкорный текст)
Видимый кликабельный текст гиперссылки.
Bad Phrase (Плохая фраза)
Фраза, которая встречается слишком редко и не имеет «интересных вхождений».
Cluster (Кластер)
Набор связанных фраз, в котором каждая фраза имеет высокий Information Gain по отношению хотя бы к одной другой фразе в наборе.
Co-occurrence Matrix (Матрица совместной встречаемости)
Структура данных, хранящая статистику о том, как часто пары хороших фраз встречаются вместе в пределах Secondary Window.
Good Phrase (Хорошая фраза)
Фраза, которая соответствует порогам частотности ИЛИ имеет достаточно «интересных вхождений», И которая предсказывает хотя бы одну другую фразу (на основе Information Gain), не являющуюся её расширением.
Incomplete Phrase (Неполная фраза)
Фраза, которая предсказывает только свои собственные расширения (например, «Президент» предсказывает только «Президент США»). Удаляется из списка хороших фраз, но используется для подсказок запросов.
Information Gain (IG) (Прирост информации)
Метрика предсказательной силы между двумя фразами. Рассчитывается как отношение фактической частоты совместной встречаемости к ожидаемой частоте. Используется для определения связанных фраз.
Inlink Score (Оценка входящей ссылки)
Оценка релевантности целевого документа (URL1) анкорному тексту (A). Рассчитывается на основе Related Phrase Bit Vector фразы A в документе URL1.
Interesting Instance (Интересное вхождение)
Вхождение фразы, выделенное грамматическими или форматными маркерами (например, жирный шрифт, подчеркивание, анкорный текст, кавычки).
Outlink Score (Оценка исходящей ссылки)
Оценка релевантности исходного документа (URL0) анкорному тексту (A). Рассчитывается на основе Related Phrase Bit Vector фразы A в документе URL0.
Phrase Extension (Расширение фразы)
Более длинная фраза, которая начинается с более короткой фразы (например, «Президент США» — это расширение фразы «Президент»).
Phrase Window (Окно фразы)
Скользящее окно длиной N слов (например, 5), используемое для идентификации кандидатов во фразы при сканировании документа.
Posting List (Список рассылки/Постинг-лист)
Запись в индексе для конкретной фразы, содержащая список документов, в которых эта фраза встречается, а также связанную с ней информацию (например, Related Phrase Bit Vector).
Related Phrase (Связанная фраза)
Две фразы считаются связанными, если их взаимный Information Gain превышает высокий порог (например, 100), что указывает на очень сильную тематическую связь.
Related Phrase Bit Vector (Битовый вектор связанных фраз)
Структура данных, хранящаяся в Posting List для пары (Фраза, Документ). Указывает, какие связанные фразы и вторичные связанные фразы присутствуют в данном документе. Используется для определения тем документа.
Secondary Related Phrase (Вторичная связанная фраза)
Связанная фраза связанной фразы.
Secondary Window (Вторичное окно)
Более широкое окно (например, 30 слов) вокруг текущей позиции в документе, используемое для сбора статистики совместной встречаемости.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс индексирования на основе фраз и связанных фраз.

  1. Система предоставляет список фраз.
  2. Для данного документа идентифицируются фразы из списка, присутствующие в документе.
  3. Для каждой идентифицированной фразы (P1) в документе:
    • Идентифицируется связанная фраза (P2), также присутствующая в документе. Связь определяется тем, что Information Gain (IG) между P1 и P2 превышает порог (IG рассчитывается как функция фактической и ожидаемой частоты совместной встречаемости).
    • Документ индексируется путем сохранения его идентификатора и индикатора присутствия связанной фразы (P2) в Posting List идентифицированной фразы (P1).

Ядро изобретения — это индексирование документа не просто по фразе, которую он содержит, а по тому, какие связанные (на основе IG) фразы он также содержит, и сохранение этой информации непосредственно в индексе (Posting List).

Claim 5 (Зависимый от 1): Уточняет информацию, сохраняемую в индексе.

Сохранение индикатора связанной фразы (первичной) также включает сохранение индикатора присутствия Secondary Related Phrase (связанной фразы первичной связанной фразы) в документе.

Это механизм, позволяющий системе оценить глубину проработки темы (наличие не только связанных концепций, но и концепций второго порядка).

Claim 10 (Независимый пункт): Описывает процесс индексирования с использованием предварительно определенных «действительных» (Valid) фраз.

  1. Система предоставляет список «действительных фраз». Фраза действительна, если она появляется минимальное количество раз И предсказывает хотя бы одну другую фразу (на основе превышения порога Information Gain).
  2. Система получает доступ к документам.
  3. Для каждого документа идентифицируются присутствующие в нем действительные фразы.
  4. Документ индексируется путем сохранения его идентификатора в Posting List каждой идентифицированной фразы.

Этот пункт защищает метод использования только семантически значимых (частотных и предсказательных) фраз для индексирования.

Claim 17 (Независимый пункт): Описывает процесс индексирования фраз в анкорном тексте.

  1. Система идентифицирует фразы в документе и индексирует их (как в Claim 1).
  2. Определяется, появляется ли идентифицированная фраза как Anchor Text гиперссылки, указывающей на целевой документ.
  3. Если ДА, то определяется Link Score (оценка ссылки) для этой фразы на основе связанных фраз идентифицированной фразы.
  4. Link Score сохраняется в Posting List фразы в ассоциации с документом.

Этот пункт защищает метод оценки значимости ссылки (Link Score) на основе контекста (связанных фраз), а не только наличия самой ссылки или анкорного текста.

Где и как применяется

Изобретение является центральной частью процесса индексирования и подготовки данных для ранжирования.

CRAWLING – Сканирование и Сбор данных
Система собирает необработанный контент, который является входными данными для процесса идентификации фраз.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.

  1. Идентификация фраз: Определение «хороших», «плохих» и «неполных» фраз в корпусе.
  2. Расчет статистики: Вычисление Information Gain, определение Related Phrases и формирование кластеров.
  3. Аннотирование документов: Сканирование документов и создание Related Phrase Bit Vector для каждой фразы в документе. Определение основных и второстепенных тем.
  4. Анализ ссылок: Расчет Inlink Score и Outlink Score для фраз в анкорном тексте на основе контекста связанных фраз.
  5. Построение индекса: Сохранение всей этой информации в Posting Lists.

RANKING – Ранжирование
Хотя этот патент фокусируется на индексировании, создаваемые им структуры данных (Related Phrase Bit Vectors, Link Scores) являются критически важными входными данными для алгоритмов ранжирования, позволяя оценивать документы по тематической глубине и качеству ссылок.

Входные данные:

  • Необработанный текст документов (включая HTML-разметку).
  • Структура ссылок между документами.

Выходные данные:

  • Список хороших фраз (Good Phrases).
  • Матрица совместной встречаемости и данные Information Gain.
  • Список связанных фраз и кластеров.
  • Обогащенный индекс (Posting Lists), где для каждой пары (Фраза, Документ) хранится Related Phrase Bit Vector и Link Scores (если фраза является анкорным текстом).

На что влияет

  • Все типы контента и запросов: Механизм является универсальным и влияет на весь процесс индексирования и понимания контента, независимо от типа документа или запроса. Он позволяет системе понимать концепции, а не только ключевые слова.
  • Оценка качества и глубины контента: Влияет на способность системы различать поверхностный контент (содержит только основную фразу) и глубокий, авторитетный контент (содержит основную, связанные и вторичные связанные фразы).
  • Оценка ссылок: Влияет на то, как оценивается вес и релевантность ссылок, противодействуя манипуляциям (например, ссылочному спаму), путем анализа контекста источника и цели.

Когда применяется

  • Триггеры активации (Идентификация фраз): Процесс активируется при выполнении пороговых значений частотности. Фраза становится «хорошей», если P(p)>10 И S(p)>20 (количество документов > 10 и общее количество вхождений > 20) ИЛИ количество интересных вхождений M(p)>5. (Пороги масштабируются в зависимости от размера корпуса).
  • Триггеры активации (Связанные фразы): Фразы считаются связанными, если Information Gain превышает высокий порог (например, 100). Они считаются предсказателями, если IG превышает более низкий порог (например, 1.5).
  • Частота применения: Применяется непрерывно в процессе сканирования и индексирования корпуса, а также при обновлении индекса для учета новых фраз и изменения статистики использования существующих.

Пошаговый алгоритм

Процесс А: Идентификация фраз и сбор статистики (Выполняется во время сканирования)

  1. Сканирование документа: Документ обходится с использованием Phrase Window (например, 5 слов) для идентификации кандидатов во фразы.
  2. Классификация кандидатов: Каждый кандидат проверяется по спискам «Хороших» и «Возможных» фраз.
  3. Обновление статистики: Для фраз в списках обновляются счетчики: P (количество документов), S (общее количество вхождений), M (интересные вхождения).
  4. Сбор данных о совместной встречаемости: Используется Secondary Window (например, 30 слов) для обновления Co-occurrence Matrix. Увеличиваются счетчики R (Raw), D (Disjunctive Interesting) и C (Conjunctive Interesting) для пар фраз.
  5. Переклассификация фраз (Периодически): «Возможные» фразы перемещаются в «Хорошие» или помечаются как «Плохие» на основе порогов частотности (P, S, M).

Процесс Б: Обработка и прунинг списка хороших фраз (Офлайн)

  1. Расчет Information Gain (IG): Для каждой пары хороших фраз (g1, g2) рассчитывается ожидаемая частота E(g1, g2) и фактическая частота A(g1, g2). IG = A/E.
  2. Прунинг по предсказательной силе: Если IG ни для одной фразы g2 не превышает порог (например, 1.5), то фраза g1 удаляется из списка хороших фраз (она ничего не предсказывает).
  3. Прунинг неполных фраз: Если фраза g1 предсказывает только свои расширения (Phrase Extensions), она помечается как Incomplete Phrase и удаляется из списка хороших фраз.
  4. Идентификация связанных фраз: Для оставшихся хороших фраз определяются Related Phrases — те, для которых IG превышает высокий порог (например, 100).
  5. Кластеризация: Связанные фразы группируются в кластеры на основе взаимного IG. Создаются Cluster Bit Vectors.

Процесс В: Индексирование документов (Выполняется во время индексации)

  1. Идентификация фраз в документе: Документ (D) сканируется для поиска всех хороших фраз (P1, P2...).
  2. Добавление в индекс: Идентификатор документа D добавляется в Posting List каждой найденной фразы P1.
  3. Создание Related Phrase Bit Vector: Для фразы P1 в документе D создается битовый вектор. Для каждой связанной фразы (R1) фразы P1:
    • Бит 1 устанавливается, если R1 также присутствует в D.
    • Бит 2 устанавливается, если любая вторичная связанная фраза (связанная фраза R1) также присутствует в D.
  4. Аннотирование тем: На основе битового вектора определяются темы: (1,1) = Primary Topic, (1,0) = Secondary Topic.
  5. Анализ анкорного текста: Если фраза P1 является анкорным текстом (A) ссылки из URL0 (текущий документ) в URL1:
    • Рассчитывается Outlink Score: Related Phrase Bit Vector фразы A в URL0.
    • Рассчитывается Inlink Score: Related Phrase Bit Vector фразы A в URL1 (или синтетический вектор, если A нет в теле URL1).
  6. Сохранение данных: Related Phrase Bit Vector и Link Scores сохраняются в Posting List фразы P1 для документа D.

Какие данные и как использует

Данные на входе

  • Контентные и структурные факторы: Система анализирует весь текст документа. Особое внимание уделяется «Интересным вхождениям» (Interesting Instances), которые определяются по форматированию (жирный шрифт, подчеркивание) или структурной роли (заголовки, текст в кавычках).
  • Ссылочные факторы: Анкорный текст (Anchor Text) рассматривается как важное «интересное вхождение» и используется для расчета Inlink и Outlink Scores. Анализируется наличие анкорного текста в теле целевого документа.

Какие метрики используются и как они считаются

  • Счетчики частотности фраз:
    • P(p): Количество документов, содержащих фразу.
    • S(p): Общее количество вхождений фразы.
    • M(p): Количество интересных вхождений фразы.
  • Счетчики совместной встречаемости:
    • R(j,k): Raw Co-occurrence (сырой счетчик).
    • D(j,k): Disjunctive Interesting (хотя бы одна из фраз является интересным вхождением).
    • C(j,k): Conjunctive Interesting (обе фразы являются интересными вхождениями).
  • Information Gain (IG): Метрика предсказательной силы. I(j,k)=A(j,k)/E(j,k)I(j,k) = A(j,k)/E(j,k)I(j,k)=A(j,k)/E(j,k). Где A — фактическая частота, E — ожидаемая частота.
  • Пороги Information Gain:
    • Порог предсказания (например, 1.5) для определения «хороших фраз».
    • Порог связанности (например, 100) для определения Related Phrases.
  • Related Phrase Bit Vector: Используется для кодирования наличия связанных и вторичных связанных фраз. Значение этого вектора используется для определения тем (Primary/Secondary Topics).
  • Link Scores (Inlink/Outlink): Рассчитываются как значение Related Phrase Bit Vector анкорной фразы в исходном или целевом документе.

Выводы

  1. Переход от слов к концепциям: Патент описывает механизм автоматического выявления и индексирования семантически значимых фраз («концепций») без ручного вмешательства или использования предопределенных словарей. Это основа семантического поиска.
  2. Information Gain как мера связанности: Information Gain (IG) является ключевой метрикой для определения того, насколько сильно одна концепция предсказывает другую. Система ищет статистически значимые отклонения от ожидаемой частоты совместной встречаемости.
  3. Определение тематической глубины (Topical Depth): Система не просто фиксирует наличие фраз, но и записывает в индекс (через Related Phrase Bit Vector), присутствуют ли связанные и вторичные связанные фразы. Наличие вторичных связанных фраз указывает на «Primary Topic», что свидетельствует о глубокой проработке темы.
  4. Важность контекста для оценки ссылок: Патент вводит концепцию Inlink и Outlink Scores, основанных на связанных фразах. Это означает, что ценность ссылки определяется не только анкорным текстом, но и тем, насколько исходный и целевой документы релевантны этому анкорному тексту (т.е. содержат его связанные фразы).
  5. Значимость структурного выделения: «Интересные вхождения» (Interesting Instances) — выделение жирным, курсивом, использование в анкорном тексте — играют прямую роль в идентификации значимых («хороших») фраз на ранних этапах анализа корпуса.

Практика

Best practices (это мы делаем)

  • Развитие Topical Authority через связанные концепции: Сосредоточьтесь на создании контента, который всесторонне охватывает тему. Убедитесь, что в тексте естественно присутствуют не только основные фразы, но и связанные с ними концепции (Related Phrases) и концепции второго порядка (Secondary Related Phrases). Это необходимо для того, чтобы система классифицировала страницу как «Primary Topic».
  • Использование семантически связанных фраз в контексте: Обеспечивайте высокую совместную встречаемость ключевых концепций в пределах документа (идеально в пределах Secondary Window, например, 30 слов). Это усиливает сигналы Information Gain между ними.
  • Структурное выделение ключевых концепций: Используйте форматирование (например, жирный шрифт) и структурные элементы (заголовки, списки) для выделения важных фраз. Это увеличивает вероятность того, что они будут распознаны как «Интересные вхождения» (Interesting Instances) и классифицированы как «Хорошие фразы».
  • Контекстуальная релевантность при линкбилдинге: При получении внешних ссылок критически важно, чтобы страница-донор (URL0) была тематически релевантна анкорному тексту (высокий Outlink Score), и чтобы ваша страница (URL1) подтверждала эту релевантность своим содержанием (высокий Inlink Score). Обеспечивайте наличие связанных фраз анкорного текста на обеих страницах.
  • Оптимизация внутренней перелинковки: Используйте релевантный анкорный текст для внутренних ссылок и убедитесь, что исходная и целевая страницы контекстуально поддерживают этот текст, чтобы максимизировать внутренние Inlink и Outlink Scores.

Worst practices (это делать не надо)

  • Фокус на плотности ключевых слов: Оптимизация под частоту отдельного слова или фразы неэффективна. Система оценивает тематику через наличие сети связанных фраз (Related Phrase Bit Vector), а не повторение одной и той же фразы.
  • Создание поверхностного контента: Контент, который упоминает основную тему, но не раскрывает связанные подтемы, будет классифицирован как «Secondary Topic» (бит-пара 1,0) и уступит в ранжировании более глубокому контенту.
  • Нерелевантный линкбилдинг и ссылочный спам: Получение ссылок с нерелевантных страниц или с использованием анкорного текста, который не поддерживается контентом вашей страницы. Система обесценит такие ссылки из-за низких Outlink и Inlink Scores, даже если анкорный текст соответствует запросу.
  • Игнорирование структуры и форматирования: Публикация «стены текста» без выделения ключевых концепций снижает шансы на их идентификацию как Interesting Instances.

Стратегическое значение

Этот патент является одним из краеугольных камней в эволюции Google от лексического поиска к семантическому. Он предоставляет четкий механизм того, как Google автоматически изучает язык и связи между концепциями на основе статистического анализа корпуса. Стратегически это подтверждает абсолютную необходимость построения Topical Authority. SEO-стратегия должна быть направлена на создание кластеров контента, которые демонстрируют глубокую взаимосвязь между основными и связанными концепциями, тем самым максимизируя сигналы Information Gain и формируя сильные Related Phrase Bit Vectors.

Практические примеры

Сценарий 1: Оценка глубины контента (Topical Depth)

Сайт А и Сайт Б оптимизированы под фразу «Уход за Австралийской Овчаркой».

  • Сайт А: Упоминает основную фразу, а также связанные фразы («груминг», «дрессировка», «питание»). Но не углубляется дальше.
  • Сайт Б: Упоминает основную фразу и связанные фразы («груминг», «дрессировка»). Также упоминает вторичные связанные фразы: для «груминга» — это «фурминатор», «стрижка когтей»; для «дрессировки» — «аджилити», «послушание».
  • Результат индексирования: В индексе для фразы «Уход за Австралийской Овчаркой» Related Phrase Bit Vector Сайта А будет иметь вид (1,0) для связанных фраз. Сайт Б будет иметь вид (1,1) (Primary Topic), так как присутствуют вторичные связанные фразы. Сайт Б получит преимущество в ранжировании.

Сценарий 2: Оценка качества ссылки (Link Scoring)

Сайт Х (блог о собаках) и Сайт Y (форум о финансах) ссылаются на Сайт Z (магазин кормов) с анкорным текстом «лучший корм для собак».

  • Ссылка с Сайта Х: Сайт Х содержит много связанных фраз для этого анкоря («состав корма», «протеин», «беззерновой»). Outlink Score высокий. Сайт Z также содержит эти фразы. Inlink Score высокий. Ссылка имеет высокую ценность.
  • Ссылка с Сайта Y: Сайт Y не содержит связанных фраз для этого анкоря. Outlink Score низкий. Даже если Inlink Score Сайта Z высокий, общая ценность ссылки снижена из-за нерелевантности источника.

Вопросы и ответы

Что такое «Хорошая фраза» (Good Phrase) и почему это важно для SEO?

«Хорошая фраза» — это не просто часто встречающееся словосочетание. Это фраза, которая статистически значима (встречается достаточно часто или выделена форматированием) И обладает предсказательной силой — её наличие в тексте повышает вероятность появления других конкретных фраз (на основе Information Gain). Для SEO это критически важно, так как Google индексирует контент именно по этим «хорошим фразам» (концепциям), а не по любым комбинациям слов.

Что такое Information Gain (IG) в контексте этого патента и как его использовать?

Information Gain — это отношение фактической частоты совместной встречаемости двух фраз к ожидаемой. Если IG высок (например, >100), фразы считаются связанными. В SEO это используется для построения семантического кокона: необходимо включать в контент фразы, которые имеют высокий IG с вашей основной темой, чтобы показать тематическую релевантность и глубину.

Что такое Related Phrase Bit Vector и как он влияет на ранжирование?

Это структура данных в индексе, которая для конкретного документа и фразы показывает, какие связанные и вторичные связанные фразы также присутствуют в этом документе. Чем больше бит установлено в этом векторе (особенно для вторичных связанных фраз), тем более тематически глубоким считается документ. Документы с более высокими значениями этого вектора получают преимущество в ранжировании.

Как система определяет Primary Topic и Secondary Topic?

Это определяется с помощью «би-битного» вектора (bi-bit vector). Для каждой связанной фразы есть две позиции. Бит 1 означает, что связанная фраза присутствует. Бит 2 означает, что присутствует вторичная связанная фраза. Комбинация (1,1) указывает на Primary Topic (глубокая проработка), а (1,0) — на Secondary Topic (более поверхностное упоминание).

Как этот патент влияет на стратегию линкбилдинга (Inlink/Outlink Scores)?

Он радикально меняет подход, показывая, что контекст ссылки важнее её наличия. Outlink Score оценивает релевантность страницы-донора анкорному тексту. Inlink Score оценивает релевантность страницы-акцептора анкорному тексту. Для передачи максимального веса обе оценки должны быть высокими, что достигается наличием связанных фраз на обеих страницах.

Что такое «Интересные вхождения» (Interesting Instances) и как их оптимизировать?

Это фразы, выделенные форматированием (жирный, курсив) или структурой (анкорный текст, цитаты). Они играют ключевую роль в идентификации «хороших фраз». Для оптимизации следует использовать HTML-форматирование и заголовки для выделения наиболее важных концепций (фраз) в вашем контенте.

Что произойдет, если я буду использовать только основную ключевую фразу без связанных концепций?

Ваш документ, скорее всего, будет классифицирован как Secondary Topic. Он будет иметь низкое значение Related Phrase Bit Vector, так как биты для связанных и вторичных связанных фраз не будут установлены. Такой контент уступит в ранжировании страницам, которые демонстрируют большую тематическую глубину.

Как система борется со ссылочным спамом (Link Bombing) с помощью этого механизма?

Система проверяет Inlink Score. Если много сайтов ссылаются на целевую страницу с определенным анкорем, но сама целевая страница не содержит этот анкорь или его связанные фразы (низкий Inlink Score), эти ссылки будут обесценены. Это предотвращает искусственное повышение ранжирования страницы по запросам, которым она не релевантна.

Что такое «Неполные фразы» (Incomplete Phrases) и как они используются?

Это фразы, которые предсказывают только свои собственные расширения (например, «Капитан Джек» предсказывает только «Капитан Джек Воробей»). Они удаляются из основного индекса хороших фраз, но сохраняются отдельно. Система использует их для автодополнения и предложения пользователю более полных и точных формулировок запроса.

Актуален ли этот патент 2004 года для современного SEO?

Да, он критически актуален. Он описывает фундаментальные принципы индексирования и понимания контента, которые легли в основу всех последующих семантических технологий Google. Понимание этих механизмов (Information Gain, Related Phrases, контекстуальная оценка ссылок) необходимо для построения эффективной стратегии Topical Authority.

Похожие патенты

Как Google использует Information Gain для автоматического определения значимых фраз и построения семантических связей между ними
Google использует статистический метод для автоматического определения «значимых» фраз в корпусе документов. Система анализирует частоту употребления, форматирование (например, анкорный текст) и совместную встречаемость фраз. Используя метрику Information Gain, система выявляет фразы, которые предсказывают появление других фраз, формируя семантические кластеры. Это позволяет поисковой системе понимать контент на уровне концепций, а не отдельных слов.
  • US7580921B2
  • 2009-08-25
  • Семантика и интент

  • Индексация

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
  • US7567959B2
  • 2009-07-28
  • Индексация

  • Семантика и интент

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи
Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.
  • US7426507B1
  • 2008-09-16
  • Индексация

  • SERP

  • Семантика и интент

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз
Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.
  • US8166045B1
  • 2012-04-24
  • Индексация

  • Семантика и интент

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
  • US7958136B1
  • 2011-06-07
  • Семантика и интент

Популярные патенты

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов
Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.
  • US8001118B2
  • 2011-08-16
  • Поведенческие сигналы

  • SERP

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)
Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.
  • US20250005303A1
  • 2025-01-02
  • SERP

  • EEAT и качество

  • Персонализация

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
  • US10853432B2
  • 2020-12-01
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

seohardcore