Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует фразы, Information Gain и архитектуру разделенного индекса для понимания контента и масштабирования поиска

    MULTIPLE INDEX BASED INFORMATION RETRIEVAL SYSTEM (Информационно-поисковая система на основе множественных индексов)
    • US10671676B2
    • Google LLC
    • 2020-06-02
    • 2005-01-25
    2005 EEAT и качество SERP Индексация Патенты Google

    Анализ патента Google, описывающего фундаментальную архитектуру поиска, основанную на фразах. Система идентифицирует значимые фразы и их взаимосвязи через Information Gain. Для масштабирования используется разделенный индекс: Primary Index хранит богатые данные о самых релевантных документах, а Secondary Index хранит остальные. Это позволяет Google понимать тематический контекст, ранжировать документы на основе связанных фраз и радикально увеличивать охват индекса.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает две фундаментальные проблемы информационного поиска. Во-первых, он устраняет ограничения систем, основанных на отдельных словах, которые плохо понимают концепции, выраженные во фразах. Во-вторых, он решает проблему масштабирования: традиционные индексы требуют огромных ресурсов для хранения позиционной информации каждого слова, что ограничивает охват интернета. Патент предлагает архитектуру, позволяющую индексировать на порядок больше документов.

    Что запатентовано

    Запатентована система поиска, которая использует фразы для индексирования и ранжирования. Система автоматически идентифицирует значимые фразы (good phrases) и определяет их взаимосвязи на основе статистической ко-встречаемости (Information Gain). Для масштабирования используется секционированная архитектура: Primary Index хранит Топ-K наиболее релевантных документов для фразы (в порядке ранжирования), а Secondary Index хранит остальные (в порядке DocID), оптимизируя хранение и скорость.

    Как это работает

    Система работает в нескольких ключевых направлениях:

    • Идентификация фраз: Система сканирует документы и вычисляет Information Gain между фразами. Если одна фраза статистически предсказывает появление другой, они считаются связанными.
    • Кластеризация: Связанные фразы группируются в тематические кластеры.
    • Индексирование и Ранжирование: Документы индексируются по фразам. Ранжирование учитывает наличие связанных фраз в документе (Related Phrase Bit Vector) и в анкорах ссылок (Anchor Hit Score).
    • Секционирование индекса: Списки документов для каждой фразы сортируются по базовой релевантности (например, PageRank). Топ-K документов хранятся в быстром Primary Index с богатыми данными. Остальные перемещаются в компактный Secondary Index.
    • Поиск: Система использует оптимизированную логику для эффективного пересечения списков из Primary и Secondary индексов.

    Актуальность для SEO

    Критически высокая. Этот патент (и связанная с ним линия патентов Анны Паттерсон, начиная с 2004 г.) описывает фундаментальные принципы масштабирования и семантического понимания. Идеи Information Gain, кластеризации фраз (предшественники Topical Authority) и многоуровневого индексирования (Tiered Indexing) остаются центральными для архитектуры крупномасштабных поисковых систем в 2025 году.

    Важность для SEO

    Патент имеет критическое значение (95/100) для SEO-стратегии. Он объясняет, почему Google ценит контент, содержащий кластеры связанных фраз, а не изолированные ключевые слова, что напрямую влияет на построение Тематического Авторитета. Кроме того, архитектура Primary/Secondary Index создает жесткий порог авторитетности: для конкурентоспособности необходимо попасть в Primary Index, что требует сильных статических сигналов (например, ссылок).

    Детальный разбор

    Термины и определения

    Anchor Hit Score
    Компонент ранжирования, основанный на появлении фраз запроса и связанных фраз в анкорах ссылок, ведущих на документ.
    Body Hit Score
    Компонент ранжирования, основанный на фразах в самом документе. Может рассчитываться как числовое значение Related Phrase Bit Vector.
    Cluster (Кластер)
    Набор связанных фраз, в котором каждая фраза имеет высокий Information Gain по отношению хотя бы к одной другой фразе в наборе.
    Common Phrase (Частая фраза)
    Фраза, чей Posting List превышает порог K и разделен между Primary Index и Secondary Index.
    Good Phrase (Значимая фраза)
    Фраза, которая встречается достаточно часто и/или имеет достаточно «интересных» появлений (interesting instances) (например, в заголовках, анкорах), и которая предсказывает появление других фраз.
    Incomplete Phrase (Незавершенная фраза)
    Фраза, которая предсказывает только свои собственные расширения (phrase extensions). Например, «President of».
    Information Gain (Прирост информации)
    Предиктивная мера. Рассчитывается как отношение фактической частоты ко-встречаемости двух фраз к ожидаемой частоте. Используется для определения связи между фразами.
    Posting List (Список документов)
    Список идентификаторов документов, содержащих определенную фразу.
    Primary Index (Первичный индекс)
    Часть индекса, хранящая Топ-K документов для каждой фразы. Документы упорядочены по релевантности (например, PageRank) и содержат богатые данные для ранжирования.
    Rare Phrase (Редкая фраза)
    Фраза, чей Posting List не превышает порог K и полностью хранится в Primary Index.
    Related Phrase (Связанная фраза)
    Фраза, которая связана с другой фразой, если Information Gain между ними превышает высокий порог (например, 100).
    Related Phrase Bit Vector
    Битовый вектор, хранящийся для документа в posting list фразы. Указывает, какие из связанных фраз также присутствуют в этом документе. Используется для ранжирования.
    Secondary Index (Вторичный индекс)
    Часть индекса, хранящая оставшиеся документы (n>K). Документы упорядочены по номеру документа (DocID), а не по релевантности, и содержат минимальные данные.

    Ключевые утверждения (Анализ Claims)

    Патент US10671676B2 фокусирует свою формулу изобретения (Claims 1-16) на механизме обработки запросов с использованием секционированного индекса, хотя описание (Description) охватывает более широкую систему идентификации фраз и ранжирования.

    Claim 1 (Независимый пункт): Описывает метод обработки поискового запроса, содержащего как минимум две фразы, в системе с секционированным индексом.

    1. Система получает запрос, включающий Первую и Вторую фразы.
    2. Индексная система хранит posting lists, секционированные на основе relevance score: Первая часть (Primary Index) содержит документы с более высоким скором, Вторая часть (Secondary Index) — с более низким.
    3. Условие обработки: Первая фраза имеет секционированный список (Common Phrase), а Вторая — нет (Rare Phrase).
    4. Пересечение 1: Пересекается Первая часть списка Первой фразы со списком Второй фразы (Первый набор общих документов).
    5. Пересечение 2: Пересекается Вторая часть списка Первой фразы со списком Второй фразы (Второй набор общих документов).
    6. Объединение и ранжирование результатов.

    Claim 9 (Независимый пункт): Описывает архитектуру системы (Primary Index и Secondary Index), сконфигурированную для выполнения логики, аналогичной Claim 1.

    Ядро изобретения в этом конкретном патенте — это оптимизация процесса пересечения (intersection logic) posting lists для запросов, состоящих из частых и редких фраз, путем использования предварительно отсортированных и секционированных индексов.

    Где и как применяется

    Изобретение затрагивает ключевые этапы поисковой архитектуры, обеспечивая как семантическое понимание, так и масштабируемость.

    INDEXING – Индексирование и извлечение признаков

    1. Идентификация фраз: Анализ контента, вычисление Information Gain, идентификация good phrases, связанных фраз и кластеров.
    2. Индексирование документов: Обработка документов для выявления фраз и расчета related phrase bit vectors.
    3. Оценка и Секционирование: Расчет статических IR scores (например, PageRank). Сортировка Posting lists и их разделение между Primary Index и Secondary Index.

    RANKING – Ранжирование (Этап Retrieval/Отбор кандидатов)

    1. Обработка запроса: Идентификация фраз в запросе и их типа (Common/Rare).
    2. Пересечение списков: Использование оптимизированного механизма пересечения секционированных списков (как описано в Claims) для быстрого нахождения общих документов из Primary и Secondary индексов.

    RERANKING – Переранжирование (Или поздние этапы RANKING)

    1. Оценка релевантности: Документы оцениваются с использованием related phrase bit vectors (Body Hit Score) и тематичности анкоров (Anchor Hit Score).

    Входные данные:

    • Коллекция документов (Corpus).
    • Статистика использования фраз и их ко-встречаемости.
    • Метрики авторитетности документов (например, PageRank).
    • Пользовательский запрос.

    Выходные данные:

    • Данные о фразах (Good phrase list, Кластеры).
    • Секционированный индекс (Primary и Secondary).
    • Ранжированный список результатов поиска.

    На что влияет

    • Контент и Семантика: Смещает фокус с плотности ключевых слов на наличие кластеров семантически связанных фраз. Это критично для оценки качества контента и Тематического Авторитета.
    • Ссылочные факторы: Анализирует фразы в анкорном тексте (Anchor Hit Score) и учитывает тематичность ссылающихся документов.
    • Масштабируемость и Скорость: Архитектура секционированного индекса позволяет индексировать значительно больше документов и быстрее отвечать на запросы, фокусируясь на Primary Index.

    Когда применяется

    • Во время индексирования: Идентификация фраз, кластеризация и секционирование индекса выполняются при обходе документов.
    • Во время поиска: Механизмы оптимизированного пересечения списков и ранжирования на основе фраз активируются при обработке запросов.
    • Триггеры: Фразы признаются связанными, если Information Gain превышает высокий порог (например, 100). Индекс секционируется, если количество документов для фразы превышает порог K (например, 32k).

    Пошаговый алгоритм

    Процесс А: Идентификация фраз и кластеризация (Во время индексирования)

    1. Сбор статистики: Обход документов с использованием скользящих окон для сбора частотности и ко-встречаемости фраз.
    2. Классификация фраз: Идентификация good phrases на основе порогов частотности и «интересных» появлений (например, в заголовках, анкорах).
    3. Расчет Information Gain (IG): Для всех пар good phrases вычисляется IG = Фактическая частота / Ожидаемая частота.
    4. Прунинг (Pruning): Удаление фраз, которые не предсказывают другие фразы (низкий IG) или предсказывают только свои расширения (Incomplete Phrases).
    5. Идентификация связанных фраз: Определение пар фраз с очень высоким IG (например, >100).
    6. Кластеризация: Группировка связанных фраз в тематические кластеры.

    Процесс Б: Индексирование и секционирование (Во время индексирования)

    1. Индексирование фраз: Добавление документа в posting lists содержащихся в нем good phrases.
    2. Расчет Related Phrase Bit Vector: Для каждой фразы в документе определяется, какие связанные с ней фразы также присутствуют. Это сохраняется в векторе.
    3. Ранжирование Posting Lists: Документы в каждом списке сортируются по статическому IR-скору (например, PageRank).
    4. Секционирование: Список разделяется. Топ-K документов идут в Primary Index (сортировка по рангу). Остальные идут в Secondary Index (сортировка по DocID, данные о релевантности удаляются).

    Процесс В: Обработка запроса (Во время поиска)

    1. Идентификация фраз в запросе.
    2. Оптимизированное пересечение (Логика из Claim 1): Если запрос содержит частую (Common) и редкую (Rare) фразы:
      • Пересечь Primary(Common) с Primary(Rare).
      • Пересечь Secondary(Common) с Primary(Rare).
      • Объединить результаты.
    3. Ранжирование: Оценка документов с использованием Related Phrase Bit Vector (Body Hit Score) и Anchor Hit Score. Комбинирование оценок для финального ранга.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа для идентификации фраз и статистики ко-встречаемости.
    • Структурные и HTML факторы: Используются для определения «интересных» появлений фразы (interesting instances). Упоминаются: заголовки (titles, headings), жирный шрифт (boldface), подчеркивание (underline), URL, тело документа (body), сайдбар (sidebar), футер (footer), капитализация (capitalized).
    • Ссылочные факторы: Анкорный текст (anchor text) используется для идентификации фраз и расчета Anchor Hit Score. IR scores (упоминается PageRank, количество входящих/исходящих ссылок) используются для сортировки posting lists перед секционированием.
    • Временные факторы: Упоминается возможность индексации и поиска архивных версий документов с использованием временных диапазонов (date range).

    Какие метрики используются и как они считаются

    • Счетчики фраз (P, S, M): Количество документов с фразой (P), общее количество появлений (S), количество «интересных» появлений (M). Используются для определения good phrases.
    • Information Gain I(j,k): Предиктивная мера. Формула: I(j,k) = A(j,k) / E(j,k).
    • Пороги Information Gain: Порог для прунинга (например, 1.5) и порог для связанных фраз (например, 100).
    • Related Phrase Bit Vector: Числовое значение этого вектора используется как Body Hit Score. Вектор строится так, что наиболее предсказываемые фразы соответствуют старшим битам.
    • IR Score (Оценка релевантности): Статическая метрика (например, PageRank), используемая для определения порядка документов в Primary Index.
    • Порог K: Определяет максимальный размер Primary Index для фразы (например, 32k).

    Выводы

    1. Переход от ключевых слов к концепциям (фразам): Патент описывает механизм автоматической идентификации и использования фраз как основных единиц смысла. Это основа для понимания концепций и интента.
    2. Information Gain как мера семантической связи: Система использует статистическую меру Information Gain для определения силы связи между фразами. Это позволяет строить объективную карту тематических связей (кластеров).
    3. Ранжирование основано на тематическом контексте: Ключевой механизм ранжирования — related phrase bit vector. Документы ранжируются выше, если содержат не только фразы запроса, но и статистически связанные с ними фразы. Это вознаграждает тематическую глубину.
    4. Масштабируемость через приоритизацию (Primary/Secondary Index): Архитектура показывает, что Google хранит богатые сигналы ранжирования только для наиболее релевантных (Топ-K) документов. Это создает жесткий порог качества/авторитетности для попадания в быстрый Primary Index.
    5. Приоритет статической авторитетности: Поскольку Primary Index сортируется по статическому IR Score (например, PageRank), базовая авторитетность документа критична для его включения в основной индекс.
    6. Тематичность анкоров: Ранжирование учитывает не просто наличие фразы в анкоре, но и тематичность как ссылающегося, так и целевого документа относительно этой фразы (Anchor Hit Score).

    Практика

    Best practices (это мы делаем)

    • Построение Тематического Авторитета (Topical Authority): Создавайте контент, который охватывает весь кластер семантически связанных фраз (имеющих высокий Information Gain). Это увеличивает значение related phrase bit vector и демонстрирует глубокое раскрытие темы.
    • Максимизация статической авторитетности (PageRank/IR Score): Критически важно наращивать авторитет страницы и домена (качественные ссылки). Это необходимое условие для попадания в Primary Index, особенно по конкурентным (Common) фразам, где порог K быстро достигается.
    • Использование структурных элементов для выделения фраз: Активно используйте значимые фразы в заголовках, выделенном тексте и анкорах внутренних ссылок. Это увеличивает счетчик «интересных» появлений (M(p)), помогая системе идентифицировать эти фразы как значимые (interesting instances).
    • Стратегия линкбилдинга с тематическими анкорами: Стремитесь получать ссылки с тематически релевантных страниц, используя в анкорах фразы, которые концептуально важны для вашего документа. Это повышает Anchor Hit Score.

    Worst practices (это делать не надо)

    • Фокус на плотности ключевых слов (Keyword Stuffing): Эта тактика неэффективна, так как система ранжирует на основе наличия связанных фраз, а не частоты повторения одной фразы.
    • Создание «тонкого» контента под узкий запрос: Контент, оптимизированный только под одну фразу и не содержащий связанных концепций, получит низкий Body Hit Score.
    • Игнорирование авторитетности при работе в конкурентных нишах: Если сайт имеет низкий IR Score, его контент, скорее всего, окажется в Secondary Index по частым запросам и не будет конкурентоспособным.
    • Использование нерелевантных анкоров: Ссылки с анкорами, которые нерелевантны содержанию целевой или ссылающейся страницы, дадут низкий Anchor Hit Score.

    Стратегическое значение

    Патент подтверждает стратегический приоритет Google на понимание контента на уровне концепций и тем, а также раскрывает инфраструктурные основы приоритизации авторитетности. Он показывает, что построение Topical Authority — это прямое следствие механизма кластеризации фраз. Одновременно архитектура Primary/Secondary Index объясняет, почему авторитетные сайты имеют структурное преимущество: они попадают в быстрый индекс. Долгосрочная SEO-стратегия должна быть направлена на достижение статуса одного из самых авторитетных ресурсов в нише.

    Практические примеры

    Сценарий 1: Повышение Тематической Релевантности (Information Gain)

    Задача: Оптимизация статьи о «Тренировке Австралийской Овчарки».

    1. Анализ: Определить фразы с высоким Information Gain по отношению к основной теме. Например: «herding instincts», «obedience training», «agility training», «Basque shepherds».
    2. Действия: Естественно интегрировать эти связанные фразы в контент.
    3. Результат: Related Phrase Bit Vector документа получит высокое значение, что увеличит Body Hit Score и улучшит ранжирование по сравнению с конкурентами, использующими только основную фразу.

    Сценарий 2: Переход из Secondary в Primary Index

    Задача: Улучшить видимость по конкурентному запросу «Data Science Careers».

    1. Анализ: Предполагается, что запрос является Common Phrase, и страница в настоящее время находится в Secondary Index из-за недостаточного IR Score.
    2. Действия: Запустить кампанию по наращиванию авторитетности: получение качественных обратных ссылок с авторитетных образовательных и карьерных ресурсов с релевантными анкорами.
    3. Результат: Повышение статического IR Score (например, PageRank) приводит к тому, что страница перемещается в Топ-K документов и попадает в Primary Index, что резко увеличивает ее шансы на ранжирование.

    Вопросы и ответы

    Что такое Information Gain и почему это важно для SEO?

    Information Gain (Прирост информации) — это статистическая мера, которая показывает, насколько сильнее фактическая частота совместного появления двух фраз превышает ожидаемую случайную частоту. Если она высока, фразы семантически связаны. Для SEO это критически важно, потому что Google использует эти связи для определения тематики контента и ранжирует выше документы, содержащие кластеры таких связанных фраз (построение Topical Authority).

    Что такое Related Phrase Bit Vector и как он влияет на ранжирование?

    Это структура данных, которая показывает, какие связанные фразы присутствуют в документе относительно основной фразы. При ранжировании система использует числовое значение этого вектора как Body Hit Score. Чем больше связанных фраз содержит документ, тем выше значение вектора и тем выше позиция документа в выдаче. Это механизм, который вознаграждает тематическую глубину контента.

    Что означает разделение индекса на Primary и Secondary, и как это влияет на мой сайт?

    Это механизм масштабирования. Primary Index хранит только Топ-K (например, 32k) наиболее релевантных и авторитетных документов для каждой фразы, отсортированных по базовому скору (например, PageRank). Secondary Index хранит все остальные. Для сайта это означает, что критически важно иметь достаточный базовый авторитет, чтобы попасть в быстрый Primary Index и эффективно конкурировать.

    Что произойдет, если мой сайт находится в Secondary Index?

    Если документ находится в Secondary Index, он считается менее релевантным/авторитетным. Он хранится без полных данных о релевантности и отсортирован по DocID, а не по рангу. Его шансы появиться в топе выдачи значительно снижаются, так как система в первую очередь обрабатывает Primary Index.

    Как система определяет, какие фразы являются «значимыми» (Good Phrases)?

    Система анализирует статистику. Фраза признается значимой, если она превышает пороги частотности ИЛИ имеет достаточное количество «интересных» появлений (в заголовках, анкорах, выделенном тексте). Кроме того, она должна статистически предсказывать появление других фраз (иметь достаточный Information Gain), а не только своих расширений.

    Как использовать концепцию «интересных появлений» (Interesting Instances) в SEO?

    «Интересные появления» — это использование фразы в выделяющихся элементах документа. SEO-специалисты должны стратегически размещать ключевые и связанные фразы в заголовках (H1-H6), использовать выделение (bold/italic) и включать их в анкорные тексты внутренней перелинковки. Это помогает системе распознать важность этих концепций.

    Влияет ли этот патент на линкбилдинг?

    Да, значительно. Во-первых, PageRank упоминается как пример IR Score для попадания в Primary Index. Во-вторых, патент описывает Anchor Hit Score, который учитывает тематичность анкорного текста и релевантность ссылающегося документа. Это подтверждает критическую важность получения тематических ссылок с концептуально точными анкорами.

    Как система обрабатывает запрос с частой (Common) и редкой (Rare) фразой?

    Это описано в Claim 1. Система выполняет два пересечения. Сначала пересекается Primary часть частой фразы со списком редкой фразы. Затем Secondary часть частой фразы пересекается со списком редкой фразы. Результаты объединяются и ранжируются. Это оптимизированный процесс для обеспечения полноты выдачи.

    Является ли этот патент основой для E-E-A-T или Topical Authority?

    Он является фундаментальной основой для Topical Authority. Механизмы Information Gain и кластеризации фраз — это способ статистически измерить, насколько хорошо контент покрывает тему. Он также связан с Авторитетностью (A в E-E-A-T), поскольку статический IR Score (например, PageRank) используется для определения того, какие документы попадают в Primary Index.

    Стоит ли мне перестать думать о ключевых словах и думать только о фразах?

    Да, стратегически нужно сместить фокус на концепции и темы. Отдельные слова также обрабатываются как фразы, но ценность заключается в понимании того, как слова объединяются в значимые фразы и как эти фразы формируют тематические кластеры. Оптимизация должна быть направлена на весь кластер, а не на изолированные термины.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.