Как Google определяет главные темы (Центральные Сущности) страницы с помощью графа связей сущностей

Google использует глобальный граф сущностей для определения главных тем (Центральных Сущностей) веб-страницы. Система анализирует, как сущности на странице связаны друг с другом на основе статистики их совместного упоминания в вебе (PMI). Сущности, которые изолированы или не имеют исходящих связей в контексте страницы, отбрасываются как периферийные. Этот механизм позволяет точно понять основные темы документа.

Описание

Какую задачу решает

Патент решает задачу точной идентификации главных тем (main topics) веб-ресурса и отделения их от периферийных или случайных упоминаний (peripheral topics). Это необходимо для улучшения качества систем рекомендаций, гарантируя, что генерируемый дополнительный контент (например, связанные новости, видео, товары) строго релевантен основному содержанию просматриваемой страницы. Также затрагивается проблема выявления неоднозначных сущностей (ambiguous entities).

Что запатентовано

Запатентован метод идентификации «Центральных Сущностей» (Central Entities) ресурса с использованием предварительно построенного глобального «Графа Сущностей» (Entity Graph). Этот граф отражает статистические связи между сущностями на основе их совместной встречаемости в большом корпусе документов. Система фильтрует глобальный граф до уровня конкретного ресурса и затем анализирует структуру получившегося подграфа, удаляя слабо связанные или изолированные узлы, чтобы выявить главные темы.

Как это работает

Система работает в несколько этапов:

Построение Глобального Графа (Офлайн): Анализируется весь корпус документов. Строится Entity Graph, где узлы — это сущности. Ребра (связи) устанавливаются, если сущности часто встречаются вместе. Ребра взвешены (используя PMI) и направлены.
Извлечение Кандидатов: Из конкретного ресурса извлекаются все сущности (Candidate Entities).
Фильтрация Графа: Глобальный граф фильтруется, оставляя только узлы кандидатов и связи между ними.
Очистка Графа: Из отфильтрованного графа удаляются изолированные узлы и, что критически важно, узлы без исходящих связей (outgoing edges).
Идентификация и Скоринг: Оставшиеся узлы идентифицируются как Central Entities. Для них рассчитывается Centrality Score.
Применение: Центральные сущности используются для поиска релевантного дополнительного контента.

Актуальность для SEO

Высокая. Понимание контента через призму сущностей (Entity-based understanding) и анализ их взаимосвязей являются фундаментом современного семантического поиска и работы Knowledge Graph. Описанные методы определения контекста и главных тем страницы критически важны для оценки релевантности и тематического авторитета в 2025 году.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8.5/10). Хотя он напрямую описывает генерацию «дополнительного контента», лежащий в его основе механизм идентификации Central Entities критически важен для понимания того, как Google интерпретирует тематику страницы. Патент подчеркивает, что важна не просто насыщенность страницы сущностями, а наличие сильных семантических связей и тематической связности (Cohesion) между ключевыми концепциями.

Детальный разбор

Термины и определения

Ambiguous Entity (Неоднозначная сущность): Сущность, которая преимущественно используется в контексте, отличном от контекста анализируемого ресурса. Например, «Moscow» на странице про город в Айдахо.
Candidate Entities (Кандидаты в сущности): Все сущности, извлеченные из конкретного ресурса (текст, метаданные, Title, URL) до начала процесса фильтрации.
Central Entity (Центральная сущность): Сущность, идентифицированная системой как представляющая одну из главных тем (main topics) ресурса. Определяется как узел, оставшийся после фильтрации Entity Graph.
Centrality Score (Оценка центральности): Оценка, генерируемая для каждой центральной сущности, отражающая ее важность для ресурса. Основана на весах исходящих ребер и корректируется дополнительными сигналами (IDF, Query Logs).
Entity Graph (Граф сущностей, также First Entity Graph): Глобальный граф, построенный на основе коллекции ресурсов. Узлы представляют сущности. Ребра соединяют сущности, которые часто ассоциируются с одним и тем же ресурсом. Ребра направлены и взвешены.
Outgoing Edge (Исходящее ребро): Направленное ребро, исходящее из данного узла. Указывает на контекстуальную зависимость (например, Конкретный Игрок -> Лига). Играет ключевую роль в фильтрации.
Pointwise Mutual Information (PMI) (Поточечная взаимная информация): Метрика для расчета веса ребра. Определяет меру связанности (measure of relatedness) двух сущностей на основе частоты их совместного упоминания по сравнению с их независимым упоминанием.
Second Entity Graph (Второй граф сущностей): Локальный граф, сгенерированный для конкретного ресурса путем фильтрации и очистки глобального графа.
Topical Entity (Тематическая сущность): Сущность, представляющая преобладающую (доминирующую) тему ресурса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод идентификации центральных сущностей и их использования.

Идентификация множества Candidate Entities для первого веб-ресурса.
Получение первого (глобального) Entity Graph, где ребра соединяют часто совместно встречающиеся сущности.
Фильтрация первого графа: удаление узлов, не соответствующих кандидатам.
Генерация второго (локального) графа из отфильтрованного: удаление узлов, которые не соединены ребром хотя бы с одним другим узлом (изолированные узлы).
Идентификация оставшихся сущностей как Central Entities.
(Далее описывается использование этих сущностей для генерации и выбора дополнительного контента).

Claim 3 (Зависимый от 2 и 1): Вносит критически важное уточнение в процесс фильтрации (Claim 2 уточняет, что связи основаны на вероятности совместной встречаемости).

Процесс генерации второго графа также включает удаление узлов, у которых нет исходящих ребер (outgoing edges).

Это подразумевает использование направленного графа. Сущность считается центральной, только если она имеет исходящие связи к другим сущностям в контексте данной страницы. Это помогает найти сущности, которые задают контекст.

Claim 4 и 5 (Зависимые от 1): Детализируют механизм взвешивания.

Ребра в графах взвешены на основе меры связанности. Эта мера связанности рассчитывается с использованием Pointwise Mutual Information (PMI).

Claim 6 (Зависимый от 1): Описывает скоринг центральных сущностей.

Генерация первой оценки (Centrality Score) для каждой Central Entity, основанной на весах исходящих ребер соответствующих узлов.
(Далее описывается использование этой оценки для выбора наилучшего дополнительного контента).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, от предварительной обработки данных до генерации контента.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная работа:

(Офлайн): Построение глобального Entity Graph. Система анализирует весь корпус документов, рассчитывает статистику совместной встречаемости, вычисляет веса PMI и определяет направление ребер.
(Обработка документа): При индексации ресурса система извлекает Candidate Entities. Затем она применяет алгоритм фильтрации глобального графа для идентификации Central Entities и расчета Centrality Scores. Эти данные сохраняются в индексе как ключевые признаки документа.

METASEARCH / Рекомендательные системы
Основное применение, описанное в патенте, — это генерация Additional Content. Central Entities используются для запроса к поисковому движку с целью найти связанные материалы (новости, видео, товары). Это актуально для систем рекомендаций контента (например, Google Discover) или браузерных расширений.

Входные данные:

Контент анализируемого ресурса (текст, Title, URL, метаданные).
Глобальный Entity Graph (с весами PMI и направлениями).
Логи поисковых запросов (Query Logs).

Выходные данные:

Список Central Entities ресурса с их Centrality Scores.
Набор сгенерированного дополнительного контента.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, богатый сущностями и концепциями: информационные статьи, обзоры продуктов, биографии, страницы о локациях.
Понимание контента: Влияет на способность системы точно определять тематический фокус документа и отличать главные темы от второстепенных деталей, особенно в лонгридах.

Когда применяется

Условия работы: Алгоритм применяется, когда необходимо глубоко понять тематику ресурса, особенно если в нем упомянуто много разнородных сущностей.
Триггеры активации: Активируется во время индексации для анализа контента или в реальном времени, когда система должна сгенерировать дополнительный контент для просматриваемого ресурса.
Ограничения: Эффективность зависит от полноты глобального Entity Graph. Для новых или очень редких сущностей может работать хуже из-за недостатка статистики для расчета PMI.

Пошаговый алгоритм

Процесс А: Построение глобального Entity Graph (Офлайн)

Сбор данных и извлечение сущностей: Анализ корпуса документов и идентификация сущностей.
Расчет частот: Подсчет частоты появления каждой сущности (freq(A)) и частоты совместного появления пар (freq(A,B)).
Расчет PMI и взвешивание: Вычисление веса связи (W_AB) по формуле: W_AB = log [prob(A,B)/(prob(A)*prob(B))]. Если результат ниже порога, связь игнорируется.
Определение направления: Определение направления ребер на основе условных вероятностей (например, если A часто влечет B, но не наоборот, ребро идет от A к B).

Процесс Б: Идентификация Central Entities (Индексирование / Реал-тайм)

Извлечение кандидатов: Идентификация Candidate Entities из ресурса (текст, Title, URL, метаданные).
Фильтрация Графа (Шаг 1): Создание отфильтрованного графа путем удаления из глобального графа всех узлов, не входящих в список кандидатов. Сохранение ребер между оставшимися узлами.
Генерация Второго Графа (Очистка):
- Удаление изолированных узлов (не имеющих связей).
- (Ключевой шаг) Удаление узлов, не имеющих исходящих ребер (outgoing edges).
Идентификация: Объявление оставшихся узлов как Central Entities.
Расчет Centrality Score (Начальный): Вычисление оценки на основе суммы весов исходящих ребер узла во втором графе.
Корректировка Centrality Score (Финальный): Уточнение оценки с использованием дополнительных сигналов:
- Понижение с помощью IDF (штраф за общеупотребительность).
- Повышение за частоту в документе (TF).
- Повышение за наличие в Query Logs, ведущих на ресурс.
- Повышение за расположение (Title, URL).

Процесс В: Обработка неоднозначности (Опционально, FIG. 7)

Проверка сущности: Выполнение поиска по сущности.
Анализ связанности: Определение, насколько топовые результаты поиска связаны с исходным ресурсом (имеют ли общие сущности).
Определение неоднозначности: Если связанность низкая (ниже порога), сущность признается Ambiguous.
Дисамбигуация: Сущность отбрасывается или уточняется путем добавления другой сущности со страницы (например, «Moscow» -> «Moscow Idaho»).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст ресурса, Заголовки (Title), Метаданные. Используются для извлечения Candidate Entities и корректировки Centrality Score.
Технические факторы: URL ресурса. Используется для извлечения кандидатов и корректировки скоринга.
Глобальные данные (Corpus Data): Статистика по всему корпусу документов. Используется для построения глобального Entity Graph и расчета PMI и IDF.
Поведенческие факторы: Логи запросов (Query Logs). Используются для корректировки Centrality Score и определения Topical Entity.

Какие метрики используются и как они считаются

Pointwise Mutual Information (PMI): Ключевая метрика для веса ребер в Entity Graph. Формула: W_AB = log [prob(A,B)/(prob(A)*prob(B))]. Измеряет статистическую связь между сущностями.
Centrality Score: Оценка важности сущности для ресурса. Базируется на сумме весов (PMI) исходящих ребер в локальном графе и корректируется сигналами TF-IDF и Query Logs.
Inverse Document Frequency (IDF): Используется для понижения веса общеупотребительных сущностей при расчете Centrality Score.
Measure of relatedness (Мера связанности ресурсов): Используется для обнаружения Ambiguous Entities. Рассчитывается как количество общих сущностей между двумя ресурсами или сумма весов ребер, соединяющих их сущности.

Выводы

Тематика определяется через связи, а не просто присутствие: Ключевой вывод — Google определяет главные темы страницы (Central Entities) не по факту присутствия или частоте сущностей, а по тому, насколько сильно эти сущности связаны друг с другом в контексте глобального графа знаний. Изолированные сущности отбрасываются.
Критичность исходящих связей (Dependency): Система использует направленные ребра. Сущности без исходящих связей в локальном графе фильтруются. Это означает, что центральные сущности — это те, которые «ведут» к другим концепциям на странице (задают контекст), подчеркивая важность специфичности и глубины контента.
Статистическая основа семантики (PMI): Связанность сущностей определяется статистически с помощью PMI на основе анализа всего веб-корпуса. Это количественная мера семантической близости, основанная на том, как авторы используют язык.
Многофакторная корректировка важности: Важность сущности (Centrality Score) корректируется: она штрафуется за общеупотребительность (IDF) и повышается за релевантность пользовательским запросам (Query Logs) и расположение (Title/URL).
Активное управление контекстом и неоднозначностью: Патент включает механизмы для выявления и обработки Ambiguous Entities, что требует от авторов четкого контекстуализирования контента.

Практика

Best practices (это мы делаем)

Укрепление семантической связности (Semantic Cohesion): При создании контента убедитесь, что основные сущности темы тесно взаимосвязаны друг с другом (имеют высокий PMI). Контент должен формировать плотный локальный Entity Graph, где ключевые понятия поддерживаются связанными сущностями.
Фокус на специфичных сущностях (Обеспечение исходящих связей): Отдавайте приоритет более специфичным сущностям, которые естественно ведут к другим концепциям на странице. Например, при описании болезни (общая сущность) фокусируйтесь на конкретных симптомах и методах лечения (специфичные сущности), которые имеют исходящие связи к этой болезни.
Обеспечение контекста для дисамбигуации: Для потенциально неоднозначных терминов (например, «Ягуар») необходимо предоставить достаточный контекст с помощью связанных сущностей (например, «двигатель», «скорость»), чтобы избежать классификации как Ambiguous Entity в неверном контексте.
Оптимизация под пользовательские запросы (Query Logs): Активно используйте данные GSC о том, по каким запросам приходят пользователи. Включение этих сущностей в контент, Title и URL может повысить их Centrality Score, так как логи запросов являются сигналом для корректировки оценки.

Worst practices (это делать не надо)

«Entity Stuffing» (Переспам сущностями): Беспорядочное включение множества популярных или тематических сущностей без обеспечения их взаимосвязи в контенте. Изолированные сущности будут отфильтрованы системой как не центральные (изолированные узлы).
Поверхностный контент с общими терминами: Создание контента, который упоминает только широкие концепции без специфики. Такие сущности могут получить низкий Centrality Score из-за корректировки IDF или отсутствия сильных исходящих связей в локальном контексте.
Смешивание несвязанных тем: Создание страниц, охватывающих несколько слабо связанных кластеров сущностей. Это приводит к фрагментации графа сущностей страницы, и система может не выделить четкие Central Entities.

Стратегическое значение

Патент подтверждает фундаментальную роль Entity Graph в понимании контента и стратегический переход к Entity-First подходу. Построение Тематического Авторитета (Topical Authority) требует создания контента, который не только покрывает отдельные сущности, но и явно демонстрирует глубокое понимание взаимосвязей между ними. Стратегия должна фокусироваться на создании семантически богатого и связанного контента, отражающего реальную структуру знаний в данной области.

Практические примеры

Сценарий 1: Анализ статьи о баскетболисте (Направленность связей)

Ресурс: Статья об игроке «Омри Касспи».
Candidate Entities: «Омри Касспи», «НБА», «Сакраменто Кингз», «Баскетбол».
Анализ Графа: В глобальном графе есть сильные направленные связи: «Омри Касспи» -> «НБА» и «Сакраменто Кингз» -> «НБА» (игрок и команда подразумевают лигу).
Фильтрация: Система строит локальный граф. «Омри Касспи» и «Сакраменто Кингз» имеют исходящие ребра. Если у «НБА» или «Баскетбол» нет исходящих ребер к другим сущностям *на этой странице*, они могут быть отфильтрованы.
Результат: «Омри Касспи» и «Сакраменто Кингз» идентифицируются как ключевые Central Entities, так как они задают контекст.

Сценарий 2: Обработка неоднозначности (Москва, Айдахо)

Ресурс: Страница о городе Москва в штате Айдахо, США.
Candidate Entities: «Москва», «Айдахо», «США», «Университет Айдахо».
Проверка на неоднозначность: Система проверяет «Москва». Она определяет, что большинство результатов поиска по запросу [Москва] не связаны с «Айдахо». Сущность признается Ambiguous Entity.
Дисамбигуация: Система пытается уточнить сущность, комбинируя ее с другой центральной сущностью: «Москва Айдахо».
Результат: Для дальнейшего анализа и генерации контента используется уточненная сущность «Москва Айдахо».

Вопросы и ответы

Что такое Entity Graph в контексте этого патента и как он строится?

Это глобальная структура данных, построенная офлайн путем анализа огромного корпуса документов. Узлы — это сущности, а ребра соединяют те сущности, которые статистически часто упоминаются вместе. Сила связи (вес ребра) рассчитывается с помощью PMI (Pointwise Mutual Information). Также определяется направление связи на основе условных вероятностей.

Чем Central Entity отличается от любой другой сущности на странице?

Любая упомянутая сущность является кандидатом. Чтобы стать Central Entity, она должна пройти строгую фильтрацию: 1) она должна иметь связи с другими сущностями на этой странице (не быть изолированной); 2) у нее должны быть исходящие ребра (outgoing edges) в локальном графе страницы. Это отсеивает случайные или периферийные упоминания.

Почему так критичны исходящие ребра (Outgoing Edges)?

Исходящее ребро показывает, что сущность является источником связи и задает контекст для других понятий на странице (например, от частного к общему). Удаление узлов без исходящих ребер — это ключевой механизм патента для отделения главных тем от второстепенных. Система ищет ядро взаимосвязанных концепций, определяющих суть документа.

Что такое PMI и как он влияет на SEO?

PMI (Pointwise Mutual Information) — это мера силы статистической связи между двумя сущностями. Чем выше PMI, тем сильнее связь. Для SEO это означает, что нужно использовать кластеры сущностей, которые имеют высокий PMI (часто встречаются вместе в авторитетных источниках), чтобы усилить тематическую связность и релевантность контента.

Как рассчитывается Centrality Score?

Centrality Score рассчитывается на основе суммы весов (PMI) исходящих ребер сущности в локальном графе страницы. Затем эта оценка корректируется: снижается, если сущность слишком общеупотребительна (используется IDF), и повышается, если сущность часто используется в запросах (Query Logs), ведущих на эту страницу, или присутствует в заголовке/URL.

Как система обрабатывает неоднозначные сущности (Ambiguous Entities)?

Система выполняет поиск по сущности и анализирует, насколько топовые результаты связаны с контекстом исходной страницы (имеют ли общие сущности). Если связанность низкая, сущность признается неоднозначной. Система может ее отбросить или попытаться дисамбигуировать, добавив контекст (например, «Москва Айдахо» вместо «Москва»).

Как этот патент связан с Topical Authority?

Он напрямую связан. Патент предоставляет механизм для оценки глубины, фокуса и связности проработки темы на странице. Создавая контент, в котором четко выделяются кластеры взаимосвязанных Central Entities с высокими оценками центральности, сайт демонстрирует свою экспертизу и тематическую авторитетность.

Влияет ли этот механизм на ранжирование в основном поиске Google?

Патент описывает применение для генерации «Дополнительного контента» (рекомендаций). Однако сам механизм идентификации Central Entities является фундаментальным процессом понимания контента (NLU) и с высокой вероятностью используется Google и в основных системах ранжирования для оценки релевантности и качества документа.

Что делать, если мой контент посвящен новой или очень редкой теме?

Для новых или редких сущностей у Google может быть недостаточно данных в корпусе для расчета надежного PMI и построения глобального графа. В этом случае крайне важно предоставить максимально четкий и полный контекст на самой странице, детально описывая сущность и ее связи с другими, более известными концепциями, чтобы помочь системе понять ее значение и сформировать новые связи.

Что произойдет, если мой контент не сформирует связанный локальный граф?

Если сущности на странице не связаны друг с другом (являются изолированными узлами) или не имеют исходящих ребер, они будут отфильтрованы. Система может решить, что у страницы нет четких Central Entities. Это может сигнализировать о низкой тематической связности контента или его поверхностности.