SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности

MULTIPLE INDEX BASED INFORMATION RETRIEVAL SYSTEM (Система поиска информации на основе множественных индексов)
  • US7567959B2
  • Google LLC
  • 2005-01-25
  • 2009-07-28
  • Индексация
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.

Описание

Какую проблему решает

Патент решает две фундаментальные проблемы масштабирования поисковых систем:

  • Ограничения хранения и производительности: Устраняет неэффективность традиционных инвертированных индексов, которые требуют огромных ресурсов для хранения позиционной информации по каждому термину. Это ограничивает количество документов, которые можно проиндексировать. Цель — обеспечить возможность индексации сотен миллиардов страниц.
  • Ограничения поиска по ключевым словам: Решается проблема поиска по отдельным терминам, который не учитывает концепции, выраженные во фразах. Система улучшает понимание тематики документов путем идентификации и индексации значимых фраз и их взаимосвязей.

Что запатентовано

Запатентована система поиска информации, которая использует фразы для индексации и поиска, а также специфическую архитектуру разделения индекса. Индекс разделен на Primary Index (для высокорелевантных документов, отсортированных по рангу) и Secondary Index (для остальных документов, отсортированных по идентификатору документа). Система также включает механизм для идентификации значимых («хороших») фраз и определения взаимосвязей между ними на основе статистического анализа совместной встречаемости (Information Gain).

Как это работает

Система работает в нескольких измерениях:

  • Идентификация фраз: Система сканирует корпус и идентифицирует «хорошие» фразы на основе частоты и отличительных признаков (например, форматирование).
  • Выявление связей: Определяется, предсказывает ли одна фраза появление другой, используя Information Gain (отношение фактической частоты совместной встречаемости к ожидаемой). Фразы кластеризуются.
  • Фразовая индексация: Документы индексируются по фразам. В индексе хранится информация о том, какие связанные фразы также присутствуют в документе (Related Phrase Bit Vector).
  • Разделение индекса: Для каждой фразы документы ранжируются по релевантности (например, PageRank). Топ-K документов хранятся в Primary Index в порядке ранжирования. Остальные хранятся в Secondary Index в порядке номеров документов.
  • Многоуровневое хранение (Tiering): Внутри Primary Index для менее релевантных документов хранится меньше атрибутов, что экономит место.

Актуальность для SEO

Высокая. Масштабирование индекса и переход от ключевых слов к концепциям (сущностям и фразам) являются фундаментальными для современного поиска. Описанные методы идентификации фраз и анализа совместной встречаемости (Information Gain) лежат в основе понимания тематического авторитета и семантических связей. Архитектура многоуровневого индекса остается критически важной для управления огромным объемом данных в интернете.

Важность для SEO

Патент имеет высокое стратегическое значение. Он описывает фундаментальные механизмы того, как Google идентифицирует значимые фразы, определяет тематические кластеры (используя Information Gain) и использует эту информацию в ранжировании (используя Related Phrase Bit Vector). Кроме того, архитектура индекса (Primary/Secondary) подчеркивает, что только ограниченное число документов считается высокорелевантными для любой конкретной фразы, что усиливает конкуренцию за попадание в Primary Index.

Детальный разбор

Термины и определения

Primary Index (Первичный индекс)
Часть индекса, хранящая списки соответствия (Posting Lists) для фраз. Содержит ограниченное количество (Топ-K) наиболее релевантных документов. Документы хранятся в порядке ранжирования по релевантности.
Secondary Index (Вторичный индекс)
Часть индекса, хранящая оставшиеся документы из Posting Lists, которые не вошли в Primary Index. Документы хранятся в порядке их идентификаторов (Document ID), а не по релевантности.
Posting List (Список соответствия)
Структура данных в индексе для конкретной фразы, содержащая список документов, в которых эта фраза встречается.
Good Phrase (Хорошая фраза)
Фраза (включая отдельные слова), которая встречается достаточно часто и/или имеет отличительные признаки (например, выделена тегами), и которая статистически предсказывает появление других фраз.
Information Gain (Прирост информации)
Метрика для определения связи между двумя фразами. Рассчитывается как отношение фактической частоты совместной встречаемости двух фраз к ожидаемой частоте. Высокий Information Gain указывает на сильную связь.
Related Phrases (Связанные фразы)
Фразы, которые часто встречаются вместе и имеют Information Gain выше определенного (высокого) порога. Используются для определения тематики документа.
Cluster (Кластер)
Набор связанных фраз, в котором каждая фраза имеет высокий Information Gain по отношению хотя бы к одной другой фразе в наборе.
Related Phrase Bit Vector (Битовый вектор связанных фраз)
Структура данных, хранящаяся в Posting List для пары (фраза, документ). Указывает, какие из связанных фраз также присутствуют в этом документе. Используется для ранжирования.
Incomplete Phrase (Незавершенная фраза)
Фраза, которая предсказывает только свои собственные расширения (например, «Президент Соединенных» предсказывает только «Президент Соединенных Штатов»).
Interesting Instance (Интересное вхождение)
Вхождение фразы, выделенное грамматическими или форматными маркерами (например, жирный шрифт, анкорный текст гиперссылки).
Tiering (Многоуровневое хранение)
Метод оптимизации хранения в Primary Index, при котором для документов с более низким рангом хранится меньше атрибутов релевантности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод разделения индекса для фразы.

  1. Система создает список документов (Posting List), содержащих первую фразу.
  2. Документы в списке ранжируются по оценке релевантности (relevance score).
  3. Список разделяется на первую часть (высокоранжированные документы) и вторую часть (менее ранжированные документы).
  4. Первая часть сохраняется в Primary Index. Документы хранятся в порядке их ранга (rank order).
  5. Вторая часть сохраняется в Secondary Index. Документы хранятся в числовом порядке их идентификаторов (numerical order of the respective document identifiers).
  6. В Primary Index сохраняется ссылка на Secondary Index.

Claim 2 (Зависимый от 1): Уточняет, что оценка релевантности может быть основана на PageRank (page rank based type score).

Claim 8 (Независимый пункт): Описывает метод многоуровневого хранения (Tiering) внутри Primary Index.

  1. Система сохраняет первую часть списка (высокоранжированные документы) в Primary Index.
  2. Эта первая часть делится на секции (уровни).
  3. Первая секция (самые высокие ранги) содержит первый набор атрибутов релевантности для каждого документа.
  4. Вторая секция (более низкие ранги) содержит второй набор атрибутов релевантности, который является подмножеством первого набора.

Это означает, что система хранит меньше информации о документах по мере снижения их релевантности, даже если они находятся в Primary Index.

Где и как применяется

Изобретение затрагивает фундаментальные аспекты архитектуры поиска, в первую очередь индексирование и ранжирование.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает документы для анализа. Также описан механизм обнаружения изменений в документах для управления версиями (архивирования).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Включает несколько ключевых процессов:

  1. Идентификация фраз: Анализ документов для выявления Good Phrases.
  2. Анализ совместной встречаемости: Построение матрицы совместной встречаемости и расчет Information Gain для определения Related Phrases и кластеров.
  3. Построение индекса: Создание Posting Lists для фраз, включая расчет Related Phrase Bit Vector для каждого документа.
  4. Ранжирование и разделение: Расчет оценок релевантности (например, PageRank) для документов в каждом Posting List, их сортировка и разделение между Primary Index и Secondary Index.
  5. Многоуровневое хранение (Tiering): Оптимизация хранения атрибутов в Primary Index.

RANKING – Ранжирование
Система использует фразовую информацию на этапе ранжирования. Документы оцениваются не только по наличию фраз из запроса, но и по наличию связанных фраз. Ранг может определяться значением Related Phrase Bit Vector (чем больше связанных фраз в документе, тем выше ранг). Также учитываются фразы в анкорах входящих ссылок.

Входные данные:

  • Коллекция документов (Corpus).
  • Статистика частоты и совместной встречаемости фраз.
  • Атрибуты релевантности документов (например, PageRank, инлинки, анкорный текст).

Выходные данные:

  • Primary Index и Secondary Index.
  • Список Good Phrases с данными о кластерах и Information Gain.
  • Related Phrase Bit Vectors, ассоциированные с документами в индексе.

На что влияет

  • Типы контента: Влияет на все типы индексируемого контента. Особенно сильно влияет на информационный контент, где тематика определяется через взаимосвязанные концепции (фразы).
  • Точность определения тематики: Система позволяет более точно определять тематику документа, отличая документы, которые глубоко раскрывают тему (содержат много связанных фраз и кластеров), от документов с поверхностным упоминанием.
  • Масштабируемость поиска: Архитектура индекса позволяет Google обрабатывать значительно больший объем документов по сравнению с традиционными методами.

Когда применяется

  • Триггеры активации (Индексация): Процесс применяется во время каждого прохода индексации (crawling pass). Идентификация фраз, ранжирование и разделение индекса происходят периодически.
  • Триггеры активации (Ранжирование): Механизмы ранжирования на основе фраз активируются при обработке поискового запроса, когда система идентифицирует фразы в запросе и извлекает данные о связанных фразах из индекса.
  • Пороговые значения: Используются пороги для определения Good Phrases (на основе частоты и количества Interesting Instances) и для определения Related Phrases (на основе порога Information Gain). Также используется порог K для разделения Posting List между Primary и Secondary индексами (в примере указано 32k).

Пошаговый алгоритм

Процесс А: Идентификация и кластеризация фраз

  1. Сбор статистики: Сканирование документов с использованием скользящего окна для сбора кандидатов во фразы и статистики совместной встречаемости.
  2. Классификация фраз: Разделение фраз на Good Phrases и Bad Phrases на основе порогов частоты и количества «интересных» вхождений.
  3. Расчет предсказательной силы: Для каждой пары хороших фраз рассчитывается Information Gain. I(j,k)=A(j,k)/E(j,k)I(j,k) = A(j,k) / E(j,k)I(j,k)=A(j,k)/E(j,k).
  4. Отсечение слабых фраз: Удаление из списка Good Phrases тех фраз, которые не предсказывают никакие другие фразы или предсказывают только свои расширения (Incomplete Phrases).
  5. Идентификация связанных фраз: Определение Related Phrases путем сравнения Information Gain с высоким порогом (например, 100).
  6. Кластеризация: Группировка Related Phrases в кластеры на основе их взаимной предсказательной силы.

Процесс Б: Индексация документов и разделение индекса

  1. Идентификация фраз в документе: Поиск всех Good Phrases в документе.
  2. Обновление Posting Lists: Добавление идентификатора документа в Posting Lists для каждой найденной фразы.
  3. Расчет Related Phrase Bit Vector: Для каждой фразы определяется, какие из ее связанных фраз (и вторичных связанных фраз) также присутствуют в документе. Эта информация кодируется в битовый вектор.
  4. Ранжирование Posting Lists: Документы в каждом Posting List сортируются по оценке релевантности (например, PageRank).
  5. Разделение индекса: Posting List разделяется. Топ-K документов сохраняются в Primary Index в порядке ранжирования.
  6. Многоуровневое хранение (Tiering): В Primary Index для документов с более низким рангом сохраняется меньше атрибутов релевантности.
  7. Сохранение остатка: Документы за пределами Топ-K сохраняются в Secondary Index в порядке идентификаторов документов.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документа. Система анализирует последовательности слов для формирования фраз.
  • Структурные и HTML факторы: Используются для определения «интересных» вхождений фраз (Interesting Instances). Упоминаются: жирный шрифт, подчеркивание, анкорный текст гиперссылки, кавычки, заголовки (titles), URL, основной текст (body), боковые панели (sidebar), футеры, реклама, капитализация.
  • Ссылочные факторы:
    • PageRank (упоминается как возможная оценка релевантности для сортировки Posting Lists).
    • Входящие ссылки (inlinks) и исходящие ссылки (outlinks).
    • Анкорный текст входящих ссылок. Система хранит список анкорных документов, которые содержат фразу и ссылаются на текущий документ.
  • Временные факторы: Патент описывает механизм архивирования версий документов с использованием временных меток и диапазонов дат для определения валидности конкретной версии документа.

Какие метрики используются и как они считаются

  • P(p), S(p), M(p): Метрики для идентификации Good Phrases. P(p) – количество документов с фразой; S(p) – общее количество вхождений фразы; M(p) – количество «интересных» вхождений.
  • Expected Co-occurrence Rate E(j,k): Ожидаемая частота совместной встречаемости фраз j и k, если бы они были независимы. E(j,k)=E(j)∗E(k)E(j,k) = E(j) * E(k)E(j,k)=E(j)*E(k).
  • Actual Co-occurrence Rate A(j,k): Фактическая частота совместной встречаемости.
  • Information Gain I(j,k): Основная метрика для определения связи между фразами. I(j,k)=A(j,k)/E(j,k)I(j,k) = A(j,k) / E(j,k)I(j,k)=A(j,k)/E(j,k).
  • Пороги Information Gain: Используются два порога. Низкий (например, 1.1-1.7) для определения предсказательной силы фразы. Высокий (например, 100) для определения Related Phrases и формирования кластеров.
  • Relevance Score: Оценка релевантности документа (например, PageRank), используемая для сортировки Posting Lists перед разделением индекса.
  • Related Phrase Bit Vector Value: Числовое значение битового вектора, используемое как показатель тематической релевантности документа (чем больше связанных фраз, тем выше значение).

Выводы

  1. Фундаментальный сдвиг к фразовой индексации: Патент подтверждает, что индексация и ранжирование основаны на фразах и концепциях, а не только на отдельных словах. Система автоматически определяет значимые фразы в языке.
  2. Information Gain как мера связи: Ключевым механизмом для определения тематических связей является Information Gain. Фразы считаются связанными, если их совместная встречаемость значительно (в патенте предлагается порог в 100 раз) превышает ожидаемую. Это основа для построения тематических кластеров.
  3. Тематическая релевантность через связанные фразы: Наличие в документе не только целевой фразы, но и множества связанных с ней фраз (Related Phrases) является сильным сигналом релевантности. Это кодируется в Related Phrase Bit Vector, и его значение используется для ранжирования.
  4. Архитектура Primary/Secondary Index: Для масштабирования поиска Google использует разделенный индекс. Только ограниченное количество документов (Топ-K) попадает в Primary Index для каждой фразы. Эти документы предварительно отсортированы по сильным сигналам релевантности (например, PageRank).
  5. Конкуренция за Primary Index: Попадание в Primary Index критически важно, так как он используется в первую очередь при поиске. Для этого документ должен обладать высокими показателями авторитетности и релевантности.
  6. Многоуровневая оптимизация (Tiering): Даже внутри Primary Index ресурсы распределяются неравномерно. Полный набор атрибутов релевантности хранится только для самых топовых документов.

Практика

Best practices (это мы делаем)

  • Построение Тематического Авторитета (Topical Authority): Сосредоточьтесь на создании контента, который содержит естественные кластеры семантически связанных фраз. Если вы пишете о теме А, убедитесь, что контент также включает фразы, имеющие высокий Information Gain с темой А. Это увеличит значение Related Phrase Bit Vector документа.
  • Использование значимых фраз в структурных элементах: Система идентифицирует Good Phrases, обращая внимание на «интересные» вхождения (заголовки, жирный шрифт, анкорный текст). Стратегически размещайте ключевые концепции в этих элементах для повышения вероятности их распознавания как значимых.
  • Наращивание сильных сигналов релевантности (PageRank/E-E-A-T): Поскольку Primary Index хранит документы в порядке их Relevance Score (например, PageRank), критически важно наращивать авторитет страницы. Без достаточного авторитета страница может оказаться в Secondary Index, даже если она тематически релевантна.
  • Оптимизация анкорного текста входящих ссылок: Патент подчеркивает важность фраз в анкорах. Получайте ссылки с тематически релевантных страниц, используя анкоры, которые являются Good Phrases и связаны с тематикой вашего документа. Система оценивает тематичность как ссылающегося документа, так и самого анкора.
  • Создание сфокусированного контента: Патент предполагает, что документы, охватывающие слишком много разных тем (слишком много кластеров), могут быть отсеяны из выдачи в пользу более сфокусированных документов. Поддерживайте четкую тематическую направленность страницы.

Worst practices (это делать не надо)

  • Фокус на плотности ключевых слов: Оптимизация под частоту отдельных слов или одной фразы неэффективна. Если документ не содержит связанных фраз (Related Phrases), его тематическая релевантность будет оценена низко, даже при высокой плотности основного запроса.
  • Использование неестественных или изолированных фраз: Попытки манипулировать ранжированием путем вставки фраз без контекста не сработают, так как система анализирует совместную встречаемость и кластеры фраз в естественном контексте.
  • Игнорирование авторитета страницы при оптимизации контента: Создание отличного контента на сайте с низким авторитетом может привести к тому, что страница попадет в Secondary Index и не будет конкурентоспособной в поиске.
  • Размытие тематики страницы: Создание длинных страниц, затрагивающих множество слабо связанных тем, может привести к трудностям в классификации и потенциальному понижению в ранжировании по сравнению с узкоспециализированными страницами.

Стратегическое значение

Этот патент является одним из фундаментальных документов, объясняющих переход Google от статистического анализа слов к семантическому анализу концепций. Он показывает, что тематический авторитет строится не просто на покрытии темы, а на использовании правильных комбинаций взаимосвязанных фраз, которые статистически предсказывают друг друга (Information Gain). Стратегически, SEO должно фокусироваться на понимании этих взаимосвязей в своей нише. Кроме того, он подчеркивает жесткую иерархию в индексе Google: есть явное разделение на высокоавторитетный контент (Primary Index) и «длинный хвост» (Secondary Index).

Практические примеры

Сценарий: Оптимизация статьи про породу собак «Австралийская овчарка» (Australian Shepherd)

  1. Исследование связанных фраз: Необходимо определить фразы, которые имеют высокий Information Gain с «Австралийская овчарка». В патенте (FIG. 3) упоминаются примеры из текста: «stock dogs» (пастушьи собаки), «Basque shepherds» (баскские пастухи), «Australian Shepherd Club of America» (ASCA).
  2. Создание контента: Написать статью, которая естественным образом интегрирует эти и другие связанные фразы (например, «herding programs», «obedience programs», «little blue dogs»).
  3. Ожидаемый результат (Контент): Система идентифицирует наличие кластера связанных фраз. Related Phrase Bit Vector для этой страницы будет иметь высокое значение, что повысит ее тематическую релевантность.
  4. Повышение авторитета: Продвигать страницу для получения качественных обратных ссылок, чтобы повысить ее Relevance Score.
  5. Ожидаемый результат (Индекс): Благодаря высокому Relevance Score, страница попадает в Primary Index по запросу «Австралийская овчарка» и связанные запросы, обеспечивая высокую видимость.

Вопросы и ответы

Что такое Information Gain и почему это важно для SEO?

Information Gain — это статистическая мера, которая показывает, насколько чаще две фразы встречаются вместе, чем это ожидалось бы случайно. Если Information Gain высок (например, в 100 раз выше ожидаемого), фразы считаются сильно связанными. Для SEO это критически важно, потому что Google использует эти связи для определения тематики документа. Включение в контент фраз с высоким Information Gain по отношению к вашему целевому запросу увеличивает тематическую релевантность страницы.

В чем разница между Primary Index и Secondary Index?

Primary Index хранит только ограниченное количество (например, Топ-32k) наиболее релевантных и авторитетных документов для каждой фразы. Эти документы отсортированы по рангу (например, PageRank) и содержат полные данные для ранжирования. Secondary Index хранит все остальные документы, которые содержат фразу. Они отсортированы по ID документа (не по релевантности) и содержат минимальные данные. При поиске в первую очередь используется Primary Index.

Как этот патент влияет на построение Topical Authority?

Он предоставляет конкретный механизм. Topical Authority достигается, когда контент содержит не просто много информации по теме, а правильные кластеры связанных фраз (Related Phrases). Система измеряет это через Related Phrase Bit Vector: чем больше связанных фраз в документе, тем выше его тематическая релевантность и, соответственно, вклад в авторитет сайта по этой теме.

Что означает «Tiering» (многоуровневое хранение) в Primary Index?

Tiering — это метод оптимизации хранения. Даже внутри Primary Index не все документы равны. Для самых авторитетных документов (например, первый уровень) хранится полный набор атрибутов (PageRank, позиции фраз, данные об анкорах и т.д.). Для менее авторитетных документов (второй и третий уровни), даже если они попали в Primary Index, хранится сокращенный набор атрибутов. Это экономит ресурсы системы.

Моя страница очень релевантна запросу, но имеет низкий трафик. Может ли она быть в Secondary Index?

Да, это вполне вероятно. Попадание в Primary Index зависит от сортировки по Relevance Score, который часто коррелирует с авторитетностью страницы (например, PageRank). Если авторитет страницы недостаточен, она может оказаться за пределами Топ-K документов и попасть в Secondary Index, что значительно снижает ее шансы на высокое ранжирование в конкурентной выдаче.

Как система определяет, какие фразы являются «хорошими» (Good Phrases)?

Система анализирует частоту появления фразы в корпусе и количество «интересных» вхождений (Interesting Instances). Интересными считаются вхождения в выделенных элементах документа: заголовках, жирном шрифте, анкорном тексте ссылок и т.д. Кроме того, хорошая фраза должна обладать предсказательной силой — она должна статистически предсказывать появление других фраз (иметь достаточный Information Gain).

Как используется Related Phrase Bit Vector в ранжировании?

Этот вектор показывает, какие связанные фразы присутствуют в документе. Чем больше связанных фраз найдено, тем больше битов установлено в векторе, и тем выше его числовое значение. Патент предлагает ранжировать документы в соответствии с этим значением. Документы с наибольшим количеством связанных фраз будут ранжироваться выше, так как они считаются наиболее тематически релевантными.

Влияет ли этот патент на оптимизацию анкорного текста?

Да, значительно. Патент описывает ранжирование на основе фраз в анкорах (Anchor Hits). Система оценивает, насколько тематичен анкор по отношению как к ссылающемуся документу, так и к целевому документу. Получение ссылок с использованием связанных фраз в анкорном тексте с тематически релевантных страниц является сильным сигналом ранжирования.

Что произойдет, если я использую в тексте только одну ключевую фразу много раз?

Это неэффективная стратегия. Система ищет кластеры связанных фраз. Если документ содержит только одну фразу без ее тематического окружения (фраз с высоким Information Gain), его Related Phrase Bit Vector будет иметь низкое значение. Такой документ будет считаться менее релевантным, чем документ, содержащий разнообразный кластер связанных концепций.

Учитывает ли система расположение фраз на странице?

Да. При определении Good Phrases учитывается расположение и форматирование (заголовки, сайдбары, футеры, основной текст). Кроме того, в патенте указано, что для самых высокоранжированных документов в Primary Index (первый уровень Tiering) может храниться позиция каждого вхождения фразы и набор флагов, указывающих на ее форматирование.

Похожие патенты

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи
Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.
  • US7426507B1
  • 2008-09-16
  • Индексация

  • SERP

  • Семантика и интент

Как Google использует Information Gain для автоматического определения значимых фраз и построения семантических связей между ними
Google использует статистический метод для автоматического определения «значимых» фраз в корпусе документов. Система анализирует частоту употребления, форматирование (например, анкорный текст) и совместную встречаемость фраз. Используя метрику Information Gain, система выявляет фразы, которые предсказывают появление других фраз, формируя семантические кластеры. Это позволяет поисковой системе понимать контент на уровне концепций, а не отдельных слов.
  • US7580921B2
  • 2009-08-25
  • Семантика и интент

  • Индексация

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.
  • US7702614B1
  • 2010-04-20
  • Индексация

  • Свежесть контента

  • Семантика и интент

Как Google строит инфраструктуру поиска на основе фраз и оптимизирует извлечение концепций из контента
Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.
  • US7693813B1
  • 2010-04-06
  • Индексация

  • Семантика и интент

Популярные патенты

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии
Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.
  • US8051076B1
  • 2011-11-01
  • SERP

  • Поведенческие сигналы

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами
Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.
  • US7783639B1
  • 2010-08-24
  • Ссылки

  • Антиспам

  • EEAT и качество

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче
Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.
  • US8645362B1
  • 2014-02-04
  • Техническое SEO

  • Поведенческие сигналы

  • SERP

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)
Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.
  • US10146829B2
  • 2018-12-04
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности
Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.
  • US7657520B2
  • 2010-02-02
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи
Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.
  • US6526440B1
  • 2003-02-25
  • Ссылки

  • Антиспам

  • SERP

seohardcore