Анализ фундаментального патента Google, описывающего переход от индексации слов к индексации концепций (фраз). Система определяет значимые фразы и их семантические связи через статистику совместной встречаемости (Information Gain). Документы ранжируются на основе наличия связанных фраз, что позволяет оценить глубину проработки темы (Topical Authority), улучшить релевантность, кластеризовать выдачу и уточнять запросы.
Описание
Какую задачу решает
Патент решает фундаментальную проблему традиционного поиска, основанного на отдельных терминах (словах), который не способен улавливать концепции, выраженные фразами (например, «Australian Shepherd»). Это приводит к низкой релевантности и неспособности оценить тематическую глубину контента. Также решается вычислительная проблема: вместо индексации всех возможных комбинаций слов система предлагает метод автоматической идентификации только семантически значимых («хороших») фраз в масштабах веба.
Что запатентовано
Запатентована система информационного поиска, которая использует фразы для индексации, поиска, ранжирования, кластеризации и описания документов. Ядром системы является автоматическая идентификация «хороших фраз» (good phrases) и определение их взаимосвязей на основе статистики совместной встречаемости (co-occurrence statistics). Система использует предиктивную метрику, такую как Information Gain, чтобы определить, насколько появление одной фразы предсказывает появление другой.
Как это работает
Система работает в несколько этапов:
- Идентификация фраз: При сканировании корпуса идентифицируются кандидаты во фразы. Они классифицируются как «хорошие» на основе частоты и «интересного» использования (например, в заголовках, анкорном тексте).
- Анализ связей (Information Gain): Рассчитывается Information Gain (отношение фактической совместной встречаемости к ожидаемой). Фразы, которые не предсказывают другие, отбрасываются. Фразы с очень высоким Information Gain помечаются как связанные (Related Phrases).
- Индексация: Документы индексируются по фразам. Для каждой фразы сохраняется Related Phrase Bit Vector, указывающий, какие связанные фразы также присутствуют в документе.
- Поиск и Ранжирование: Система идентифицирует фразы в запросе и ранжирует документы, отдавая предпочтение тем, у кого выше значение Related Phrase Bit Vector (т.е. больше значимых связанных фраз). Также система может уточнять неполные запросы (incomplete phrases) и оптимизировать скорость поиска.
Актуальность для SEO
Критически высокая. Этот патент закладывает фундамент для современного семантического поиска и концепции Topical Authority. Хотя методы реализации эволюционировали (от статистического анализа к нейронным сетям и векторным вложениям), базовые принципы — понимание смысла через взаимосвязи концепций (фраз) и оценка глубины контента на основе этих связей — остаются центральными для алгоритмов Google (Hummingbird, BERT, MUM).
Важность для SEO
Фундаментальное влияние (95/100). Патент объясняет механизм, лежащий в основе Topical Authority. Он демонстрирует, что для высокого ранжирования необходимо не повторение ключевых слов, а всестороннее раскрытие темы с использованием семантически связанных концепций (Related Phrases), которые Google статистически ассоциирует с основной темой. Это определяет современные стратегии контент-маркетинга и семантического проектирования.
Детальный разбор
Термины и определения
- Anchor Text (Анкорный текст)
- Текст гиперссылки. Используется для идентификации «интересных вхождений» и для расчета оценок ссылок (Inlink/Outlink Scores) на основе фраз.
- Cluster (Кластер)
- Набор Related Phrases, где каждая фраза имеет высокий Information Gain по отношению к другим фразам в наборе. Представляет собой семантическую тему.
- Co-occurrence Matrix (Матрица совместной встречаемости)
- Структура данных, хранящая статистику о том, как часто пары «хороших фраз» появляются вместе в пределах контекстного окна (Secondary Window).
- Good Phrase (Хорошая фраза)
- Фраза, которая встречается достаточно часто и/или имеет «интересные вхождения», И обладает предиктивной силой (предсказывает другие фразы, не являющиеся ее расширениями).
- Incomplete Phrase (Неполная фраза)
- Фраза, которая предсказывает только свои собственные расширения (Phrase Extensions). Пример: «Президент Соединенных».
- Information Gain (Прирост информации, I(j,k))
- Ключевая предиктивная метрика. Показывает, во сколько раз фактическая частота совместной встречаемости двух фраз (A(j,k)) превышает ожидаемую (E(j,k)). Формула: .
- Interesting Instance (Интересное вхождение, M(p))
- Вхождение фразы, выделенное форматными маркерами (жирный шрифт, анкорный текст, заголовки).
- Phrase Extension (Расширение фразы)
- Более длинная фраза, которая начинается с данной фразы. «Президент Соединенных Штатов» является расширением «Президент Соединенных».
- Related Phrase (Связанная фраза)
- Фразы, чей Information Gain превышает высокий порог (например, 100), что указывает на сильную семантическую связь.
- Related Phrase Bit Vector (Вектор связанных фраз)
- Битовый вектор, хранящийся в индексе для пары (Фраза, Документ). Указывает, какие из связанных фраз присутствуют в этом документе. Биты упорядочены по убыванию Information Gain. Используется для ранжирования и оптимизации поиска.
Ключевые утверждения (Анализ Claims)
Патент US7599914B2 фокусируется на применении фразовой индексации в процессе поиска.
Claim 1 (Независимый пункт): Описывает метод обработки неполных фраз в запросе (Query Rewriting/Auto-completion).
- Система получает запрос.
- Идентифицируется Incomplete Phrase в запросе (фраза, которая предсказывает только свои расширения).
- Неполная фраза заменяется на ее наиболее вероятное расширение (Phrase Extension), основанное на статистике предсказания (Information Gain).
- Поиск выполняется по расширенной фразе.
Система автоматически уточняет интент пользователя. Если пользователь вводит «Президент Соединенных», система статистически знает, что это почти всегда ведет к «Президент Соединенных Штатов», и выполняет поиск по полной концепции.
Claim 3 (Независимый пункт): Описывает оптимизацию скорости поиска для многофразовых запросов (Retrieval Optimization).
- Система получает запрос с фразами Q1 и Q2.
- Извлекается список документов (posting list) для Q1.
- Для каждого документа проверяется его список связанных фраз (Related Phrase Bit Vector).
- Если вектор указывает, что Q2 (как связанная фраза Q1) присутствует в документе, документ выбирается без извлечения posting list для Q2.
Это критическая оптимизация производительности. Если фразы связаны (например, «Эйфелева башня» и «Париж»), система избегает дорогостоящей операции пересечения двух длинных списков документов, используя предварительно рассчитанную информацию в индексе.
Claim 6 (Зависимый от 3): Детализирует использование вектора для ранжирования.
- Список связанных фраз хранится как Related Phrase Bit Vector.
- Документ оценивается (скоринг) на основе значения этого битового вектора.
Ранжирование напрямую зависит от того, какие именно связанные фразы присутствуют. Поскольку вектор упорядочен по Information Gain, наличие более значимых фраз дает больший вес в ранжировании.
Где и как применяется
Это изобретение охватывает все ключевые этапы работы поисковой системы.
CRAWLING – Сканирование и Сбор данных
Сбор сырых данных для анализа фраз и подсчета статистики.
INDEXING – Индексирование и извлечение признаков
Основная работа (Офлайн-процессы):
- Идентификация: Определение Good Phrases и Incomplete Phrases.
- Анализ связей: Расчет Co-occurrence Matrix и Information Gain. Идентификация Related Phrases и Кластеров.
- Индексация: Создание фразового индекса. Расчет и сохранение Related Phrase Bit Vector для каждого документа. Расчет оценок анкорных фраз (Inlink/Outlink Scores).
QUNDERSTANDING – Понимание Запросов
- Парсинг: Идентификация Good Phrases в запросе.
- Переписывание (Claim 1): Замена Incomplete Phrases на их расширения.
RANKING – Ранжирование
- Оптимизированный отбор (Claim 3): Ускорение поиска по связанным фразам без пересечения постинг-листов.
- Ранжирование (Claim 6): Использование значения Related Phrase Bit Vector (Body Hits Score) и оценок анкорных фраз (Anchor Hits Score).
RERANKING – Переранжирование
- Персонализация: Корректировка на основе фразовой модели пользователя.
- Разнообразие: Использование кластеров фраз для обеспечения тематического разнообразия выдачи.
METASEARCH – Метапоиск и Смешивание (Presentation)
- Генерация сниппетов: Выбор предложений на основе наличия связанных фраз.
- Удаление дубликатов: Идентификация дубликатов через сравнение наиболее тематически нагруженных предложений.
На что влияет
- Тематический авторитет (Topical Authority): Система напрямую измеряет глубину покрытия темы через наличие множества семантически связанных фраз (высокие значения Related Phrase Bit Vector).
- Качество контента: Отдает предпочтение глубокому, экспертному контенту (лонгридам, подробным статьям), который естественно содержит кластеры связанных концепций.
- Все типы запросов: Влияет на все запросы, но особенно сильно на информационные и сложные тематические запросы, где важен контекст.
Когда применяется
- Триггеры активации: Анализ фраз происходит постоянно при индексации. Механизмы поиска и ранжирования активируются при каждом запросе.
- Пороговые значения:
- Пороги частотности и «интересных вхождений» (M(p)) для определения Good Phrases.
- Порог Information Gain (например, 1.1-1.7) для определения предиктивной силы фразы.
- Высокий порог Information Gain (например, 100) для определения сильной связи (Related Phrases).
Пошаговый алгоритм
Процесс А: Индексация и идентификация фраз (Офлайн)
- Сбор статистики: Сканирование документов с использованием скользящего окна (Phrase Window). Подсчет частоты кандидатов и «интересных вхождений» (M(p)).
- Классификация фраз: Определение Good Phrases на основе порогов частоты и M(p).
- Расчет совместной встречаемости: Подсчет совместной встречаемости пар хороших фраз в пределах вторичного окна (Secondary Window). Создание Co-occurrence Matrix.
- Расчет Information Gain и Прунинг: Расчет I(j,k). Удаление фраз, которые не предсказывают другие фразы (низкий I(j,k)).
- Идентификация неполных фраз: Определение фраз, предсказывающих только свои расширения. Перенос их в Incomplete Phrase List.
- Идентификация связанных фраз: Определение Related Phrases (I(j,k) выше высокого порога). Сортировка по Information Gain.
- Кластеризация: Группировка связанных фраз в тематические кластеры.
- Фразовая индексация: Индексация документов. Расчет и сохранение Related Phrase Bit Vector для каждой пары (фраза, документ).
Процесс Б: Обработка запроса и поиск (Онлайн)
- Парсинг и Понимание Запроса: Идентификация Good Phrases (Qp). Замена Incomplete Phrases на расширения (Qe) (Claim 1).
- Отбор документов (Оптимизация): Если запрос содержит связанные фразы Q1 и Q2, использовать Related Phrase Bit Vector Q1 для быстрого поиска документов, содержащих Q2, без пересечения постинг-листов (Claim 3).
- Ранжирование: Расчет оценки документа. Использование числового значения Related Phrase Bit Vector (Body Hit Score) (Claim 6) и оценок анкорных фраз (Anchor Hit Score).
- Презентация: Кластеризация результатов, генерация сниппетов на основе фраз, удаление дубликатов.
Какие данные и как использует
Данные на входе
- Контентные факторы: Весь текст документа для анализа фраз и их совместной встречаемости.
- Структурные факторы: HTML-теги форматирования (bold, underline), заголовки, кавычки используются для идентификации «интересных вхождений» (M(p)).
- Ссылочные факторы: Анкорный текст (Anchor Text) используется как «интересное вхождение» и для расчета Inlink/Outlink Scores.
Какие метрики используются и как они считаются
- M(p) (Interesting Instances): Количество «интересных» вхождений фразы.
- E(j,k) (Expected Co-occurrence Rate): Ожидаемая частота совместной встречаемости независимых фраз. Рассчитывается как произведение вероятностей появления каждой фразы.
- A(j,k) (Actual Co-occurrence Rate): Фактическая частота совместной встречаемости.
- I(j,k) (Information Gain): Мера предсказуемости. Формула: .
- Related Phrase Bit Vector Value: Числовое значение вектора, используемое как оценка релевантности (Body Hit Score).
Выводы
- Переход от слов к концепциям: Патент описывает механизм перехода от индексации отдельных слов к индексации концепций (фраз). Система автоматически определяет, какие фразы являются семантически значимыми («хорошими»).
- Information Gain как мера семантической связи: Ключевым механизмом является использование Information Gain для определения силы связи между фразами на основе статистики их совместного использования в реальных документах, а не лингвистических правил.
- Related Phrase Bit Vector как основа ранжирования (Topical Authority): Ранжирование сильно зависит от Related Phrase Bit Vector. Документы, содержащие большее количество сильно связанных фраз (демонстрирующие глубину темы), получают более высокий рейтинг. Это является математической основой для Topical Authority.
- Автоматическое уточнение запросов: Система активно уточняет интент пользователя, идентифицируя Incomplete Phrases и заменяя их полными версиями (Phrase Extensions) (Claim 1).
- Оптимизация производительности: Информация о связанных фразах используется для ускорения поиска по многословным запросам, избегая дорогостоящих операций пересечения постинг-листов (Claim 3).
- Комплексное использование фраз: Фразы используются на всех этапах: от индексации и ранжирования до генерации сниппетов, кластеризации выдачи и дедупликации.
Практика
Best practices (это мы делаем)
- Построение Тематического Авторитета (Topical Authority): Сосредоточьтесь на всестороннем охвате темы. Используйте широкий спектр семантически связанных фраз (Related Phrases), которые естественно встречаются вместе. Это повысит значение Related Phrase Bit Vector вашего документа.
- Семантическое обогащение контента (LSI-фразы): Анализируйте контент лидеров ниши для выявления фраз с высоким Information Gain по отношению к вашим целевым запросам и интегрируйте их в свой контент.
- Оптимизация под «Хорошие фразы»: Убедитесь, что ключевые концепции выражены устоявшимися, полными фразами (Good Phrases), а не разрозненными словами или неполными конструкциями.
- Использование форматирования и структуры («Интересные вхождения»): Выделяйте ключевые концепции с помощью заголовков, списков и форматирования (bold). Это помогает системе идентифицировать «интересные вхождения» (M(p)), способствуя признанию фраз как значимых.
- Оптимизация анкорного текста и контекста ссылок: Используйте семантически значимые фразы в анкорах. Обеспечивайте релевантный контекст вокруг исходящих ссылок (для повышения Outlink Score) и стремитесь получать ссылки из тематически релевантного окружения (для повышения Inlink Score).
Worst practices (это делать не надо)
- Keyword Stuffing (Переспам): Повторение одной фразы неэффективно. Система оценивает наличие разнообразных связанных фраз (Related Phrase Bit Vector), а не плотность одного ключа.
- Создание «тонкого» контента (Thin Content): Страницы без достаточного количества связанных фраз будут иметь низкий Related Phrase Bit Vector и считаться нерелевантными теме.
- Использование неестественных фраз: Искусственные конструкции не будут признаны Good Phrases, так как не имеют достаточной статистики использования в корпусе.
- Нерелевантный линкбилдинг и Link Bombing: Ссылки со страниц, где отсутствуют фразы, связанные с анкорным текстом, будут иметь низкий Outlink Score и передавать минимальный вес.
Стратегическое значение
Этот патент является одним из столпов семантического поиска Google. Он подтверждает, что стратегический приоритет в SEO должен отдаваться созданию экспертного контента, который демонстрирует глубокое понимание взаимосвязей между концепциями в своей нише. Долгосрочная стратегия должна фокусироваться на покрытии целых тематических кластеров (Topical Clusters), а не на оптимизации под отдельные запросы. Это требует глубокого исследования семантики и комплексного подхода к созданию контента.
Практические примеры
Сценарий: Оптимизация статьи о породе собак «Австралийская овчарка»
- Анализ связанных фраз: SEO-специалист определяет, что для фразы «Австралийская овчарка» (Q1) связанными фразами (Related Phrases) с высоким Information Gain являются: «блю-мерль» (R1), «ред-мерль» (R2), «пастушья собака» (R3), «аджилити» (R4).
- Создание контента: Статья пишется так, чтобы естественно включить все эти связанные фразы в контексте основной темы (описание окрасов, способностей, ухода).
- Ожидаемый результат (Индексация): При индексации Google рассчитывает Related Phrase Bit Vector для этой статьи по отношению к Q1. Поскольку R1-R4 присутствуют, вектор будет иметь высокое значение.
- Ожидаемый результат (Ранжирование): Статья получит высокий Body Hit Score и будет ранжироваться выше, чем статья, которая многократно повторяет «Австралийская овчарка», но не упоминает связанные концепции.
Сценарий: Уточнение запроса пользователя (Claim 1)
- Действие пользователя: Пользователь вводит запрос «президент соединенных».
- Анализ системы: Google идентифицирует это как Incomplete Phrase, которая почти всегда ведет к расширению «президент соединенных штатов».
- Действие системы: Google автоматически выполняет поиск по полной фразе «президент соединенных штатов».
- Вывод для SEO: Важно оптимизировать контент под полные, устоявшиеся концепции, так как система стремится привести запросы к ним.
Вопросы и ответы
Что такое «Хорошая фраза» (Good Phrase) и как Google ее определяет?
Хорошая фраза — это семантически значимая последовательность слов. Google определяет ее автоматически на основе статистики: она должна встречаться достаточно часто ИЛИ часто появляться в «интересном» виде (заголовки, выделенный текст, анкорные ссылки). Кроме того, она должна обладать предиктивной силой – предсказывать появление других фраз (иметь достаточный Information Gain) и не быть «неполной».
Что такое Information Gain в контексте этого патента и почему это важно для SEO?
Information Gain (Прирост информации) — это мера того, насколько сильно присутствие одной фразы предсказывает присутствие другой. Если две фразы встречаются вместе значительно чаще, чем случайно, они имеют высокий Information Gain. Для SEO это критически важно: чтобы контент высоко ранжировался, он должен содержать фразы, которые сильно связаны (имеют высокий Information Gain) с целевым запросом.
Что такое Related Phrase Bit Vector и как он влияет на ранжирование?
Это вектор, который хранится в индексе для каждой фразы в документе и показывает, какие связанные концепции также присутствуют в этом документе. Вектор упорядочен по силе связи (Information Gain). Числовое значение этого вектора используется как оценка релевантности (Body Hit Score). Чем больше значимых связанных фраз содержит документ, тем выше его оценка.
Означает ли этот патент, что частота ключевой фразы (Keyword Density) больше не важна?
Да, в значительной степени. Патент смещает фокус с частоты повторения одной фразы на разнообразие и наличие семантически связанных фраз. Документ с умеренной частотой основного запроса, но богатый связанными фразами (высокий Related Phrase Bit Vector), будет ранжироваться лучше, чем документ с переспамом, но без контекста.
Как этот патент связан с концепцией LSI (Latent Semantic Indexing) и Topical Authority?
Этот патент описывает конкретный механизм реализации идей, близких к LSI. Использование фраз, которые часто встречаются вместе (высокий Information Gain), позволяет системе понять семантику. Построение Topical Authority напрямую связано с этим: авторитетный ресурс по теме естественным образом использует широкий кластер связанных фраз, что приводит к высоким оценкам при ранжировании.
Как система обрабатывает новые или редкие фразы?
Новые фразы изначально попадают в список «возможных». По мере того как они становятся популярнее и начинают чаще встречаться с другими фразами в корпусе, их статистика (частота и Information Gain) растет. Как только они преодолевают установленные пороги, они автоматически классифицируются как Good Phrases. Система адаптивна к эволюции языка.
Как использовать концепцию «Интересных вхождений» (Interesting Instances) в SEO?
«Интересные вхождения» (например, выделение жирным, анкорный текст, заголовки) помогают системе быстрее идентифицировать потенциально важные фразы. SEO-специалистам следует использовать структурную разметку и форматирование для выделения ключевых концепций на странице. Это может ускорить признание этих концепций как значимых для вашего контента.
Что такое «Неполная фраза» (Incomplete Phrase) и как она используется?
Неполная фраза — это фраза, которая предсказывает только свои расширения (например, «как приготовить яблочный»). Система идентифицирует такие фразы в запросах пользователей и автоматически заменяет их на полные версии («как приготовить яблочный пирог») для улучшения результатов поиска (Claim 1). Это механизм уточнения запросов.
Как этот патент влияет на стратегию линкбилдинга и работу с анкорными текстами?
Он значительно повышает требования к качеству ссылок. Система оценивает не только сам анкорный текст, но и контекст (наличие связанных фраз) на странице-доноре (Outlink Score) и странице-акцепторе (Inlink Score). Ссылки со страниц, которые тематически богаты и релевантны анкорному тексту, передают значительно больший вес.
Как механизм фразового поиска ускоряет выдачу результатов (Claim 3)?
Если запрос состоит из нескольких связанных фраз (например, «Билл Клинтон Моника Левински»), системе не нужно выполнять дорогую операцию пересечения списков документов для каждой фразы. Она может проверить наличие второй фразы, используя Related Phrase Bit Vector первой фразы. Это значительно экономит вычислительные ресурсы.