Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует статистический анализ фраз и Information Gain для перехода от ключевых слов к концептуальному поиску

    PHRASE-BASED SEARCHING IN AN INFORMATION RETRIEVAL SYSTEM (Поиск на основе фраз в системе информационного поиска)
    • US9990421B2
    • Google LLC
    • 2018-06-05
    • 2004-07-26
    2004 EEAT и качество Knowledge Graph SERP Патенты Google

    Анализ фундаментального патента Google, описывающего систему перехода от поиска по ключевым словам к поиску по концепциям. Система автоматически определяет семантически значимые фразы и вычисляет, насколько одна фраза предсказывает появление другой (Information Gain). Документы индексируются и ранжируются на основе сети связанных фраз, которые они содержат, что позволяет оценивать глубину проработки темы, а не просто плотность ключевых слов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему традиционных поисковых систем, основанных на индексации отдельных слов (term-based indexing). Такие системы плохо понимают концепции (concepts), которые часто выражаются многословными фразами, и не могут эффективно определить релевантность. Например, поиск по запросу «Australian Shepherds» мог вернуть документы об Австралии или о пастухах (shepherds) вместо документов о породе собак. Система предлагает метод автоматического определения только семантически значимых фраз (good phrases) и связей между ними, избегая вычислительной проблемы индексации всех возможных комбинаций слов.

    Что запатентовано

    Запатентована система информационного поиска, которая использует автоматически идентифицированные фразы для индексации, поиска, ранжирования и описания документов. Ядром изобретения является метод определения «хороших» фраз и вычисления степени их семантической связи с другими фразами на основе статистической меры предсказания — Information Gain (Прирост информации). Документы индексируются с учетом того, какие связанные фразы (related phrases) они содержат, что используется для ранжирования по тематической глубине.

    Как это работает

    Система работает в несколько этапов:

    • Идентификация фраз: Система сканирует корпус и определяет «хорошие фразы» на основе частотности и наличия маркеров значимости (например, выделение жирным, анкорный текст).
    • Вычисление предсказательной силы (Information Gain): Анализируется совместная встречаемость (co-occurrence) фраз. Если фактическая частота совместной встречаемости значительно превышает ожидаемую (статистически случайную), вычисляется высокий Information Gain.
    • Определение связанных фраз: Фразы с очень высоким Information Gain считаются связанными (related phrases). Фразы, которые ничего не предсказывают, отсеиваются.
    • Индексация: Документы индексируются по фразам. Для каждой фразы в документе сохраняется Related Phrase Bit Vector, который указывает, какие связанные с ней фразы также присутствуют в этом документе.
    • Ранжирование: Документы ранжируются на основе числового значения их Related Phrase Bit Vector. Чем больше значимых связанных фраз содержит документ, тем выше его ранг.

    Актуальность для SEO

    Критически высокая. Этот патент (и серия связанных с ним патентов Анны Паттерсон, начиная с 2004 года) заложил основу для перехода Google от сопоставления строк к пониманию концепций и тематик. Хотя конкретные реализации могли эволюционировать в более сложные нейросетевые модели (BERT, MUM), базовый принцип — использование совместной встречаемости и предсказательной силы фраз для определения релевантности и тематической глубины (Topical Authority) — остается центральным в современном поиске.

    Важность для SEO

    Патент имеет критическое значение (95/100) для SEO. Он предоставляет техническую основу для стратегий, ориентированных на создание тематически глубокого контента. Ранжирование напрямую зависит от наличия в документе семантически связанных концепций (фраз), а не только от плотности ключевых слов. Понимание этого механизма объясняет, почему тематическая полнота контента важнее узкой оптимизации под отдельные запросы.

    Детальный разбор

    Термины и определения

    Good Phrase («Хорошая фраза»)
    Фраза (включая отдельные слова), которая встречается в корпусе достаточно часто и/или имеет достаточное количество «интересных» использований, и которая статистически предсказывает появление хотя бы одной другой фразы, не являющейся ее расширением.
    Information Gain (IG, Прирост информации)
    Ключевая метрика патента. Мера предсказательной силы между двумя фразами. Рассчитывается как отношение фактической частоты совместной встречаемости к ожидаемой (статистически случайной) частоте. IG > 1 означает, что фразы встречаются вместе чаще, чем случайно.
    Related Phrase («Связанная фраза»)
    Две фразы считаются связанными, если Information Gain между ними превышает очень высокий порог (например, 100). Это означает, что они встречаются вместе в 100 раз чаще, чем ожидалось бы случайно.
    Related Phrase Bit Vector (Битовый вектор связанных фраз)
    Структура данных, хранящаяся в индексе для пары (фраза, документ). Вектор содержит биты, соответствующие связанным фразам, упорядоченным по значению Information Gain. Бит устанавливается, если связанная фраза присутствует в документе. Используется как ключевой сигнал ранжирования.
    Interesting Instance («Интересное использование» / Distinguished Appearance)
    Использование фразы, выделенное форматированием или структурными маркерами (например, жирный шрифт, курсив, анкорный текст ссылки, заголовок). Используется для первичной идентификации значимых фраз.
    Co-occurrence Matrix (Матрица совместной встречаемости)
    Структура данных, хранящая статистику о том, как часто пары «хороших фраз» встречаются вместе в пределах определенного окна (secondary window).
    Phrase Extension (Расширение фразы)
    Более длинная фраза, которая начинается с исходной фразы.
    Incomplete Phrase (Незавершенная фраза)
    Фраза, которая предсказывает только свои собственные расширения. Используется для подсказок в поиске.
    Cluster (Кластер)
    Набор фраз, тесно связанных друг с другом через высокий Information Gain. Представляет собой семантически значимую группу концепций.

    Ключевые утверждения (Анализ Claims)

    Примечание: Патент US9990421B2 является продолжением (continuation) серии патентов. Спецификация описывает всю систему, но Claims (Формула изобретения) в этой версии сфокусированы на процессе ранжирования.

    Claim 1 (Независимый пункт): Описывает основной метод ранжирования на основе связанных фраз.

    1. Система получает (из фразового индекса) список документов, содержащих первую фразу, релевантную запросу.
    2. Для каждого документа определяется, содержит ли он связанные фразы (related phrases) первой фразы. (Связь определяется тем, что фактическая частота совместной встречаемости превышает ожидаемую).
    3. Документы ранжируются на основе количества (quantity) присутствующих связанных фраз. Документы с большим количеством связанных фраз ранжируются выше.
    4. Выбираются документы с наивысшим рангом.

    Интерпретация: Ядром этого патента является утверждение, что количество связанных концепций используется как сигнал ранжирования. Это технически подтверждает важность тематической глубины.

    Claim 3 (Зависимый от 1): Определяет приоритет ранжирования.

    Документ с низкой частотой терминов запроса, но с множеством связанных фраз, ранжируется выше, чем документ с более высокой частотой терминов запроса, но без связанных фраз.

    Интерпретация: Это ключевое положение для SEO. Оно явно указывает, что наличие связанных концепций (related phrases) может перевесить простую плотность ключевых слов (frequency of query terms).

    Claim 4 (Зависимый от 1): Детализирует реализацию.

    Информация о связанных фразах хранится в битовом векторе (Related Phrase Bit Vector). Вектор имеет числовое значение (numerical value).

    Интерпретация: Подтверждает использование битового вектора как механизма хранения и основы для оценки, используемой при ранжировании.

    Где и как применяется

    Это изобретение затрагивает практически все этапы работы поисковой системы.

    INDEXING – Индексирование и Извлечение признаков (Основное применение)
    Здесь происходят все ключевые процессы:

    • Идентификация Good Phrases путем анализа частотности и форматирования.
    • Расчет статистики совместной встречаемости и Information Gain.
    • Определение Related Phrases и формирование Clusters.
    • Построение индекса, генерация и сохранение Related Phrase Bit Vector для каждой фразы в каждом документе.
    • Аннотирование ссылок (Inlink/Outlink scores) на основе фраз.

    QUNDERSTANDING – Понимание Запросов
    Система идентифицирует фразы в запросе пользователя и обрабатывает неполные фразы с помощью механизма Phrase Extensions (для автодополнения или расширения запроса).

    RANKING – Ранжирование
    На этом этапе используются данные из индекса. Числовое значение Related Phrase Bit Vector используется как основной сигнал ранжирования (body hit score). Также учитываются фразы в анкорных текстах (anchor hit score), которые также используют эти векторы.

    RERANKING и METASEARCH – Переранжирование и Представление

    • Персонализация: Корректировка ранжирования с использованием пользовательской модели, основанной на фразах.
    • Кластеризация выдачи: Группировка результатов поиска по темам (Dynamic Taxonomy).
    • Генерация сниппетов: Выбор предложений, содержащих наибольшее количество фраз запроса и связанных фраз.
    • Удаление дубликатов: Идентификация дубликатов на основе схожести наборов связанных фраз.

    На что влияет

    • Типы контента и форматы: Наибольшее влияние оказывается на информационный контент (статьи, лонгриды), где глубина раскрытия темы и использование связанных концепций критически важны. Отдает предпочтение детальным материалам.
    • Специфические запросы: Влияет на информационные и транзакционные запросы, где требуется понимание концепций, а не простое совпадение слов.
    • Ниши и тематики: Влияет на все ниши. В сложных тематиках (включая YMYL) способность системы определять тематическую глубину через связанные фразы помогает выделять экспертный контент.

    Когда применяется

    • Идентификация фраз и расчет связей: Происходит офлайн или в пакетном режиме во время процесса индексации корпуса.
    • Ранжирование и обработка запросов: Происходит онлайн в момент получения запроса пользователя. Использование Related Phrase Bit Vector позволяет быстро оценить наличие связанных концепций.
    • Пороговые значения: Система использует пороги частотности для определения Good Phrases и пороги Information Gain (например, 1.5 для предсказания и 100 для определения сильной связи).

    Пошаговый алгоритм

    Процесс А: Идентификация фраз и вычисление связанности (Офлайн / Индексирование)

    1. Сбор статистики: Сканирование корпуса. Использование скользящего окна (например, 5 слов) для идентификации кандидатов. Сбор статистики частотности и «интересных использований». Отслеживание совместной встречаемости в пределах вторичного окна (например, 30 слов).
    2. Классификация фраз: Применение пороговых значений для определения Good Phrases.
    3. Расчет Information Gain (IG): Для каждой пары хороших фраз:
      1. Вычисление Ожидаемой частоты совместной встречаемости E(j,k).
      2. Вычисление Фактической частоты совместной встречаемости A(j,k).
      3. Расчет IG(j,k) = A(j,k) / E(j,k).
    4. Валидация и чистка (Pruning):
      • Удаление фраз, которые не предсказывают никакие другие фразы (IG < 1.5).
      • Идентификация и удаление незавершенных фраз (Incomplete Phrases).
    5. Идентификация связанных фраз: Определение Related Phrases (IG > 100). Сортировка связанных фраз по значению IG.
    6. Кластеризация: Группировка связанных фраз в кластеры.

    Процесс Б: Индексация документов (Офлайн / Индексирование)

    1. Идентификация фраз в документе: Выявление всех Good Phrases в документе.
    2. Создание битового вектора: Для каждой фразы в документе создается Related Phrase Bit Vector. Биты устанавливаются, если соответствующие связанные фразы также присутствуют в документе.
    3. Сохранение в индексе: Добавление документа в постинг-лист фразы вместе с его битовым вектором.
    4. Аннотация ссылок: Расчет оценок входящих и исходящих ссылок на основе битовых векторов анкорного текста.

    Процесс В: Обработка запроса и ранжирование (Онлайн / Поиск)

    1. Анализ запроса: Идентификация Good Phrases в тексте запроса.
    2. Поиск документов: Получение постинг-листов для фраз запроса.
    3. Ранжирование (Scoring): Расчет оценки документа. Основным компонентом является числовое значение Related Phrase Bit Vector (Body Hit Score). Документы с более высокими значениями получают более высокий ранг.
    4. Комбинирование оценок: Объединение Body Hit Score и Anchor Hit Score.
    5. Постобработка: Кластеризация результатов, генерация сниппетов, удаление дубликатов.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Основной текст документа используется для идентификации фраз и расчета статистики совместной встречаемости.
    • Структурные и Технические факторы (Markup): HTML-теги (теги выделения, заголовки, <a href>) и грамматические маркеры используются для идентификации «интересных использований» (Interesting Instances / Distinguished Appearance).
    • Ссылочные факторы: Анкорный текст (Anchor text) используется как для идентификации хороших фраз, так и для расчета Anchor Hit Score при ранжировании.
    • Данные корпуса: Глобальная статистика частотности фраз по всему корпусу необходима для расчета ожидаемой частоты совместной встречаемости.

    Какие метрики используются и как они считаются

    • Частотные метрики (P(p), S(p), M(p)): Количество документов с фразой, общее количество вхождений, количество «интересных» вхождений. Используются для первичной классификации фраз.
    • Expected Co-occurrence Rate E(j,k): Ожидаемая частота совместной встречаемости, если бы фразы были независимы. E(j,k) = E(gj) * E(gk).
    • Actual Co-occurrence Rate A(j,k): Фактическая частота совместной встречаемости.
    • Information Gain I(j,k): Ключевая метрика предсказательной силы. I(j,k) = A(j,k) / E(j,k).
    • Пороги Information Gain: Низкий порог (например, 1.5) для определения предсказания; высокий порог (например, 100) для определения сильной связанности (Related Phrases).
    • Related Phrase Bit Vector Value: Числовое значение битового вектора. Используется как оценка релевантности (Body Hit Score). Близость связанных фраз к началу вектора (старшие биты) увеличивает вес этих фраз в оценке.

    Выводы

    1. Фундаментальный сдвиг от ключевых слов к концепциям: Патент описывает механизм для автоматической идентификации и индексации концепций (фраз), а не только отдельных слов. Это основа семантического поиска.
    2. Information Gain как мера семантической связи: Степень связанности между фразами определяется статистически через Information Gain. Если две фразы встречаются вместе значительно чаще, чем случайно, они считаются семантически связанными.
    3. Тематическая глубина как ключевой сигнал ранжирования: Ключевым сигналом ранжирования является не частота ключевых слов запроса, а количество и значимость связанных фраз (Related Phrases) в документе. Это измеряется значением Related Phrase Bit Vector.
    4. Приоритет связанности над частотностью: Claim 3 патента прямо указывает, что наличие множества связанных фраз является более сильным сигналом релевантности, чем высокая частота использования термина запроса.
    5. Контекстуальная оценка анкорного текста: Система оценивает релевантность ссылки, анализируя связанные фразы как на ссылающейся, так и на целевой странице, что усложняет манипуляции ссылочным весом.
    6. Многогранность применения фраз: Описанные механизмы используются не только для ранжирования, но и для понимания запросов, генерации сниппетов, кластеризации выдачи и обнаружения дубликатов.

    Практика

    Best practices (это мы делаем)

    • Комплексное покрытие темы (Topical Authority): Создавайте контент, который всесторонне раскрывает тему. Необходимо естественно включать связанные фразы, подтемы и концепции, которые статистически часто встречаются вместе с основной темой. Это напрямую увеличивает значение Related Phrase Bit Vector и улучшает ранжирование.
    • Семантическое обогащение контента (Исследование совместной встречаемости): Вместо фокусировки на плотности основного ключевого слова, сосредоточьтесь на включении терминологии и фраз, которые демонстрируют глубину понимания темы. Анализируйте контент авторитетных сайтов для выявления этих связанных фраз.
    • Использование четкой структуры и выделения ключевых концепций: Поскольку система идентифицирует «хорошие фразы» частично на основе «интересных использований» (Interesting Instances), использование семантической разметки, заголовков и выделения (например, полужирным шрифтом) для ключевых концепций может помочь системе идентифицировать их как значимые.
    • Оптимизация анкорных текстов с учетом контекста: При построении ссылок (внутренних и внешних) важно не только использовать целевые фразы в анкорах, но и гарантировать, что контекст вокруг ссылки и контент на целевой странице тематически богаты связанными фразами. Это максимизирует Anchor Hit Score.

    Worst practices (это делать не надо)

    • Keyword Stuffing и фокус на плотности: Создание контента с высокой частотой целевой фразы, но без использования связанных фраз, неэффективно. Согласно Claim 3, такие документы проиграют в ранжировании более полным документам.
    • Создание «тонкого» контента (Thin Content): Страницы, сфокусированные только на одной узкой фразе без охвата связанных концепций, будут иметь низкое значение Related Phrase Bit Vector и плохо ранжироваться.
    • Манипуляции с анкорными текстами без учета контекста: Построение большого количества ссылок со страниц, которые тематически не связаны с целевой фразой (и не содержат связанных фраз), будет неэффективно из-за механизма оценки Anchor Hit Score, описанного в патенте.
    • Игнорирование семантически связанных терминов: Оптимизация страницы под один вариант фразы без учета связанных концепций и терминологии, используемой экспертами в данной области, ограничивает потенциал ранжирования.

    Стратегическое значение

    Этот патент является одним из фундаментальных документов, подтверждающих стратегию Google по переходу от лексического поиска к семантическому. Он предоставляет конкретную, статистически обоснованную модель для измерения тематической релевантности. Для SEO-специалистов это означает, что долгосрочная стратегия должна базироваться на создании глубокого, всестороннего контента, который соответствует статистическим моделям совместной встречаемости фраз, которые Google использует для понимания тем.

    Практические примеры

    Сценарий: Оптимизация статьи о породе собак «Australian Shepherd» (Австралийская овчарка)

    1. Анализ (Имитация Information Gain): SEO-специалист анализирует авторитетные источники и выявляет, что фразы «blue merle» (голубой мрамор), «red merle» (красный мрамор), «herding dog» (пастушья собака) и «agility training» (аджилити) очень часто встречаются вместе с «Australian Shepherd».
    2. Создание контента: Создается подробная статья, которая естественно включает все эти связанные фразы в соответствующие разделы (окрасы, темперамент, дрессировка).
    3. Ожидаемый результат (согласно патенту): При индексации Google рассчитает Related Phrase Bit Vector для фразы «Australian Shepherd» в этом документе. Поскольку связанные фразы присутствуют, вектор будет иметь высокое числовое значение.
    4. Ранжирование: При запросе «Australian Shepherd» эта статья получит преимущество (более высокий Body Hit Score) перед статьей, которая часто повторяет основную фразу, но не упоминает окрасы или виды дрессировки.

    Вопросы и ответы

    Что такое Information Gain (IG) простыми словами и почему это важно для SEO?

    Information Gain — это мера того, насколько сильнее, чем случайно, одна фраза предсказывает появление другой. Если IG=100, это значит, что фразы встречаются вместе в 100 раз чаще, чем ожидалось бы статистически. Для SEO это критически важно, потому что Google использует IG для определения того, какие концепции семантически связаны. Включение в контент фраз с высоким IG относительно основной темы повышает тематическую релевантность документа.

    Как этот патент влияет на важность плотности ключевых слов (Keyword Density)?

    Он значительно снижает важность плотности ключевых слов. Claim 3 патента прямо указывает, что документ с низкой частотой термина запроса, но большим количеством связанных фраз, будет ранжироваться выше, чем документ с высокой частотой термина запроса, но без связанных фраз. Это означает, что семантический охват и наличие связанных концепций важнее повторения основного ключевого слова.

    Что такое Related Phrase Bit Vector и как он влияет на ранжирование?

    Это способ хранения информации о том, какие связанные фразы присутствуют в документе. Вектор упорядочен по значимости связанных фраз (по Information Gain). При ранжировании Google использует числовое значение этого вектора как оценку релевантности (Body Hit Score). Чем больше связанных фраз (особенно высокозначимых) присутствует, тем выше оценка документа.

    Как связаны описанные в патенте «фразы» и современные «сущности» (Entities) в Google?

    Фразы в этом патенте можно рассматривать как предшественников сущностей. Патент предлагает механизм автоматической идентификации значимых концепций (многие из которых являются сущностями) и их связей на основе статистики использования в тексте. Современные системы используют Knowledge Graph и нейронные сети для более точного распознавания сущностей, но базовая идея — что концепции связаны и эта связь измерима — остается той же.

    Как SEO-специалисту на практике найти эти «связанные фразы» (Related Phrases)?

    Не существует инструмента, который бы точно показывал Information Gain по версии Google. Однако, можно эмулировать этот процесс: анализируйте контент авторитетных сайтов и ТОП-10 выдачи по целевому запросу. Ищите фразы и термины, которые постоянно встречаются вместе при обсуждении темы. Инструменты анализа семантики и совместной встречаемости также помогают выявить этот «общий язык» темы.

    Влияет ли этот патент на стратегию использования анкорных текстов?

    Да, значительно. Патент описывает расчет Anchor Hit Score, который учитывает тематический контекст (связанные фразы) как на ссылающейся, так и на целевой странице. Это означает, что ссылка с точным анкором со страницы, которая нерелевантна теме (не содержит связанных фраз), будет иметь низкий вес. Важно строить ссылки в тематически релевантном окружении.

    Что такое «Interesting Instances» (Интересные использования) и как это использовать в SEO?

    Interesting Instances — это фразы, выделенные форматированием (жирный, курсив) или структурой (заголовки, анкорный текст). Система использует их для идентификации значимых фраз на начальном этапе. Это подчеркивает важность использования качественного форматирования и семантической верстки для выделения ключевых концепций в тексте.

    Является ли этот алгоритм устаревшим с появлением BERT и MUM?

    Нет. Хотя BERT и MUM используют более сложные нейросетевые модели для понимания контекста, фундаментальные принципы, изложенные в этом патенте (идентификация концепций за пределами ключевых слов, важность совместной встречаемости и семантических связей), остаются крайне актуальными. Современные системы строятся на этих основах, а не заменяют их полностью.

    Как система использует фразы для генерации сниппетов (Document Descriptions)?

    Система ранжирует предложения в документе по количеству содержащихся в них фраз запроса и связанных фраз. Предложения с наибольшим количеством этих фраз выбираются для формирования сниппета. Это означает, что сниппеты генерируются так, чтобы максимально отражать тематический контекст документа относительно запроса.

    Что такое «Неполные фразы» (Incomplete Phrases) и как они используются?

    Это фразы, которые предсказывают только свои расширения (например, «Президент Соединенных»). Они не используются для индексации как самостоятельные концепции, но система хранит их для генерации поисковых подсказок (Auto-complete) или автоматического расширения запроса пользователя до наиболее вероятной полной фразы.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.