Как Google определяет главную тему страницы (Topical Entity), используя графы сущностей и анализ SERP Features

Google анализирует сущности на странице для определения «Topical Entity» (главной темы). Для этого используются графы сущностей, основанные на совместной встречаемости, и анализ результатов поиска. Присутствие сущности в Title/URL и активация специальных SERP features (Shopping, Maps) могут подтвердить главную тему, даже если страница ранжируется низко. Это понимание используется для генерации релевантного дополнительного контента.

Описание

Какую задачу решает

Патент решает задачу точной идентификации основных тем (Central Entities) и главной, преобладающей темы (Topical Entity) веб-ресурса. Цель — отфильтровать периферийные или двусмысленные сущности, чтобы сгенерировать высокорелевантный дополнительный контент (например, похожие новости, видео, товары), который будет показан пользователю вместе с просматриваемым ресурсом. Это улучшает пользовательский опыт за счет предоставления релевантной контекстной информации.

Что запатентовано

Запатентована система для идентификации Topical Entity (главной темы) ресурса. Система использует Entity Graph, построенный на основе совместной встречаемости сущностей в коллекции документов, для определения Central Entities. Для валидации Topical Entity система анализирует результаты поиска по этим сущностям. Ключевым механизмом является использование сигналов из SERP (ранжирование ресурса или активация специальных результатов, таких как Shopping/Maps) в сочетании с наличием сущности в Title/URL для подтверждения главной темы.

Как это работает

Система работает в несколько этапов:

Извлечение сущностей: Из ресурса извлекаются кандидаты в сущности.
Идентификация Central Entities: Используется глобальный Entity Graph. Он фильтруется по сущностям, присутствующим в ресурсе. Сущности, имеющие сильные исходящие связи (определяющие контекст), считаются центральными.
Идентификация Topical Entity: Система проверяет, является ли одна из сущностей преобладающей темой. Это делается путем анализа результатов поиска (SERP) для запросов, основанных на этих сущностях.
Валидация в SERP: Сущность подтверждается как Topical Entity, если: (1) ресурс высоко ранжируется по этой сущности, ИЛИ (2) сущность присутствует в Title/URL И поиск по ней активирует специальные результаты (Shopping, Maps, Answer Box).
Обработка двусмысленности: Система проверяет, не используется ли сущность преимущественно в другом контексте (например, «Moscow» для страницы о городе в Айдахо), и при необходимости уточняет ее.
Генерация контента: Подтвержденные сущности используются для поиска и предоставления релевантного дополнительного контента.

Актуальность для SEO

Высокая. Понимание сущностей и определение главной темы документа лежат в основе современного семантического поиска и работы Knowledge Graph. Механизмы, описанные в патенте для идентификации и валидации главной сущности, особенно через анализ SERP Features, крайне актуальны для понимания того, как Google интерпретирует контент и интент.

Важность для SEO

Патент имеет высокое значение (8/10). Он описывает конкретные механизмы, которые Google использует для понимания основного предмета страницы. Это критически важно для SEO, поскольку определяет, как обеспечить выравнивание контента с целевой сущностью. Патент подчеркивает важность Title и URL для определения темы и показывает, как активация специализированных вертикалей (Shopping, Maps) используется Google для валидации природы сущности.

Детальный разбор

Термины и определения

Additional Content (Дополнительный контент): Контент (новости, видео, изображения, товары, карты), релевантный просматриваемому ресурсу, который генерируется системой на основе идентифицированных Topical/Central Entities и предоставляется пользователю (например, через браузерное расширение).
Ambiguous Entity (Двусмысленная сущность): Сущность, которая, хотя и связана с темой ресурса, преимущественно используется в другом контексте в коллекции документов (например, «Apple» на странице о фруктах).
Central Entity (Центральная сущность): Сущность, представляющая одну из основных тем ресурса. Определяется с помощью Entity Graph как узел с сильными исходящими связями к другим сущностям на странице.
Centrality Score (Оценка центральности): Метрика, определяющая важность сущности для темы ресурса. Рассчитывается на основе весов исходящих ребер в Entity Graph, а также сигналов типа IDF и присутствия в Title/URL.
Entity (Сущность): Слово или фраза, представляющая концепцию или тему.
Entity Graph (Граф сущностей): Структура данных, где узлы представляют сущности, а ребра — связь между ними, основанную на совместной встречаемости в документах. Ребра имеют вес (например, PMI) и направление.
Pointwise Mutual Information (PMI) (Поточечная взаимная информация): Мера связи между двумя сущностями, используемая для взвешивания ребер в графе. Определяет, насколько чаще две сущности встречаются вместе, чем если бы они были независимы.
Topical Entity (Тематическая сущность): Сущность, представляющая преобладающую (главную) тему ресурса. Обычно это одна сущность, валидированная через анализ результатов поиска.

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых подхода к определению Topical Entity.

Claim 1 и Claim 4 (Независимые пункты): Определение Topical Entity через ранжирование.

Система идентифицирует множество сущностей, связанных с ресурсом.
Для каждой сущности генерируется поисковый запрос и получаются результаты поиска (с Ranking Scores).
Проверяется условие: появляется ли ссылка на данный ресурс выше определенного порога (specified rank/threshold number) в результатах поиска.
Если ресурс появляется выше порога только для одной сущности, эта сущность назначается Topical Entity.
Если ресурс появляется выше порога для нескольких сущностей, выбирается та сущность, для которой ресурс получил наивысший Ranking Score, и она назначается Topical Entity.

Claim 8 (Независимый пункт): Определение Topical Entity через SERP Features и структуру документа.

Этот пункт описывает альтернативный метод, который не зависит от того, насколько высоко ранжируется сам ресурс.

Система генерирует запросы для сущностей и получает результаты поиска.
Определяется, что результаты поиска для конкретной сущности включают «особый тип результата» (particular type of search result), например, Shopping results, Map results, Answer box (Claim 9).
Определяется, что эта же сущность присутствует в Заголовке (Title) или URL ресурса.
Если оба условия (2 и 3) выполнены, сущность назначается Topical Entity.

Это позволяет идентифицировать тему даже для малоизвестных страниц (например, страница товара в маленьком магазине), если Google распознает природу сущности (товар) и страница структурно фокусируется на ней (Title/URL).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, а также описывает клиентское приложение для отображения результатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит построение глобального Entity Graph путем анализа совместной встречаемости сущностей во всем корпусе документов. Также происходит извлечение сущностей из отдельных ресурсов и, вероятно, предварительный расчет Central Entities и Topical Entity.

QUNDERSTANDING – Понимание Запросов
Система использует Entity Graph для понимания связей между концепциями. При анализе SERP для валидации Topical Entity система интерпретирует запросы, основанные на сущностях.

RANKING / METASEARCH – Ранжирование и Метапоиск
Система анализирует результаты ранжирования и состав выдачи (SERP Features). Активация вертикалей (Shopping, Maps) используется как сигнал для подтверждения природы Topical Entity (согласно Claim 8).

Клиентское приложение (Additional Content Module)
Патент описывает применение этой технологии в рамках Additional Content System, которая взаимодействует с клиентским модулем (например, расширением браузера) для отображения релевантного контента в реальном времени при просмотре пользователем ресурса.

Входные данные:

URL просматриваемого ресурса.
Сущности, извлеченные из ресурса (включая Title, URL, контент).
Глобальный Entity Graph.
Результаты поиска (SERP) для запросов на основе сущностей, включая Ranking Scores и типы результатов (SERP Features).
Логи запросов (Query Logs).

Выходные данные:

Список Central Entities с оценками Centrality Score.
Идентифицированная Topical Entity.
Набор релевантного дополнительного контента (ссылки, сниппеты, медиа).

На что влияет

Конкретные типы контента и ниши: Механизм оказывает значительное влияние на E-commerce и Локальный поиск. Способность идентифицировать Topical Entity через активацию Shopping или Map результатов (Claim 8) критически важна для правильной классификации страниц товаров и локаций.
Специфические запросы: Влияет на понимание запросов, связанных с сущностями, имеющими несколько значений (двусмысленные сущности), помогая выбрать правильную интерпретацию в контексте документа.

Когда применяется

Триггеры активации (Claim 8): Логика определения Topical Entity через специальные результаты активируется, когда (1) сущность найдена в Title или URL и (2) поиск по этой сущности вызывает появление Shopping, Maps или Answer Box в выдаче.
Условия применения (Claim 1/4): Логика определения Topical Entity через ранжирование применяется, когда ресурс достигает определенного порога видимости (specified rank) в результатах поиска по запросу, основанному на сущности.
Обработка неопределенности: Если логи запросов не дают достаточной информации (например, мало трафика на страницу), система полагается на анализ SERP (FIG. 6).

Пошаговый алгоритм

Процесс состоит из нескольких ключевых этапов.

Этап А: Идентификация Central Entities (FIG. 5)

Получение кандидатов: Извлечение сущностей из ресурса (контент, Title, URL).
Фильтрация глобального графа: Глобальный Entity Graph фильтруется, оставляя только узлы, соответствующие кандидатам из ресурса.
Генерация графа ресурса: Из отфильтрованного графа удаляются узлы, не имеющие исходящих ребер (т.е. сущности, которые не определяют контекст для других сущностей на странице).
Идентификация Central Entities: Оставшиеся узлы идентифицируются как Central Entities.
Расчет Centrality Score: Для каждой Central Entity рассчитывается оценка на основе весов (PMI) ее исходящих ребер. Оценка корректируется с использованием сигналов: частота в документе, IDF (Inverse Document Frequency), присутствие в Title/URL, присутствие в логах запросов, ведущих на ресурс.

Этап Б: Идентификация Topical Entity (FIG. 6, Claims 1, 4, 8)

Генерация запросов и получение SERP: Для Central Entities формируются запросы, получаются результаты поиска.
Проверка по ранжированию (Claims 1, 4): Проверяется, ранжируется ли ресурс выше порога. Если да, выбирается сущность, обеспечившая наивысший Ranking Score.
Проверка по SERP Features и структуре (Claim 8): Параллельно или в случае неудачи шага 2, проверяется: (а) Активирует ли запрос специальные результаты (Shopping, Maps, Answer Box)? и (б) Присутствует ли сущность в Title/URL? Если оба условия выполнены, сущность идентифицируется как Topical Entity.

Этап В: Обработка двусмысленности (FIG. 7)

Генерация запроса и получение SERP: Для сущности (например, Topical Entity) получаются результаты поиска.
Расчет оценок релевантности: Для топовых результатов из SERP рассчитывается оценка их связанности с *другими* сущностями исходного ресурса (например, путем подсчета общих сущностей или через анализ связей в Entity Graph (FIG. 8)).
Определение двусмысленности: Если доля топовых результатов, имеющих высокую оценку связанности, ниже порога (например, менее 50%), сущность считается двусмысленной (используется преимущественно в другом контексте).
Уточнение (Disambiguation): Двусмысленная сущность может быть отброшена или уточнена путем добавления другой Central Entity (например, «Moscow» -> «Moscow Id.») или использования предложений из Suggestion Service.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст ресурса для извлечения сущностей.
Структурные факторы: Заголовок (Title) и URL ресурса. Они используются как сильные сигналы для расчета Centrality Score и как обязательное условие для идентификации Topical Entity в Claim 8.
Технические факторы: URL (Resource Locator) используется для идентификации ресурса в SERP.
Поведенческие факторы: Логи запросов (Query Logs), которые привели к запросу ресурса. Используются для расчета Centrality Score и как альтернативный метод определения Topical Entity.
Системные данные:
- Entity Graph: Глобальные данные о совместной встречаемости сущностей.
- Результаты поиска (SERP): Ranking Scores документов и информация о типах активированных результатов (SERP Features).

Какие метрики используются и как они считаются

Pointwise Mutual Information (PMI): Используется для взвешивания ребер в Entity Graph. Формула:

Выводы

Определение темы через структуру связей (Entity Graph): Google использует графы сущностей, основанные на совместной встречаемости и PMI, для определения Central Entities. Важна не просто частота сущности, а то, как она связана с другими сущностями на странице. Сущности с сильными исходящими связями считаются определяющими контекст.
Валидация главной темы через SERP: Идентификация Topical Entity не основана только на анализе контента. Она активно валидируется через анализ результатов поиска.
Два пути к Topical Entity: Система может определить главную тему либо через высокое ранжирование ресурса по этой сущности (Claim 1/4), либо через структурные и контекстные сигналы (Claim 8).
Критическая роль SERP Features и Title/URL (Claim 8): Это ключевой вывод. Присутствие сущности в Title или URL в сочетании с активацией специализированных результатов поиска (Shopping, Maps, Answer Box) является достаточным условием для определения Topical Entity. Это позволяет Google понимать тему даже малоавторитетных или новых страниц.
Активное обнаружение и разрешение двусмысленности: Система имеет механизм для определения того, что контекст страницы отличается от общепринятого значения сущности. Если результаты поиска по сущности нерелевантны другим сущностям страницы, она помечается как двусмысленная и уточняется.

Практика

Best practices (это мы делаем)

Четкий фокус в Title и URL: Убедитесь, что главная целевая сущность (Topical Entity) явно присутствует в Title и URL страницы. Согласно Claim 8, это критически важный сигнал для подтверждения темы страницы, особенно если страница еще не имеет высокого авторитета.
Оптимизация под активацию SERP Features: Для коммерческих и локальных страниц необходимо стремиться к тому, чтобы поиск по главной сущности активировал соответствующие блоки (Shopping/Maps). Это служит для Google подтверждением природы сущности. Используйте соответствующую микроразметку (Product, LocalBusiness).
Усиление семантических связей на странице: Создавайте сильные сигналы совместной встречаемости. Поддерживайте главную сущность (Topical Entity) релевантными связанными сущностями (Central Entities). Это помогает сформировать четкий граф сущностей для ресурса и подтверждает его тематику.
Явное уточнение двусмысленных сущностей: Если вы таргетируете сущность с несколькими значениями (например, «Jaguar» как животное, а не автомобиль), убедитесь, что контекст страницы (другие Central Entities) немедленно устраняет двусмысленность. При необходимости используйте уточненные термины в Title/URL (например, «Jaguar animal facts»).

Worst practices (это делать не надо)

Неоднозначные Title и URL: Использование заголовков, которые не содержат главную сущность или размывают фокус между несколькими несвязанными темами. Это затрудняет идентификацию Topical Entity.
Изолированный контент (Thin Content): Создание страниц, где главная сущность упоминается без достаточного количества связанных сущностей. Это не позволит системе построить надежный граф сущностей для ресурса и рассчитать высокий Centrality Score.
Игнорирование контекста сущности: Попытка ранжироваться по сущности, чей доминирующий контекст сильно отличается от темы вашего сайта, без явного семантического уточнения на странице. Система обнаружения двусмысленности может классифицировать вашу интерпретацию как нерелевантную.

Стратегическое значение

Патент подтверждает фундаментальный сдвиг к семантическому поиску, ориентированному на сущности (Entity-Oriented Search). Он детально показывает, что анализ связей между сущностями (Entity Graph) и анализ результатов поиска (SERP Analysis) используются совместно для понимания контента. Стратегически важно понимать, что Google ищет подтверждение темы страницы не только в ее контенте, но и в том, как эта тема отражается в глобальной выдаче (через ранжирование или SERP Features).

Практические примеры

Сценарий 1: Оптимизация страницы товара в новом интернет-магазине

Новый магазин имеет низкий авторитет и не ранжируется высоко по запросу о товаре.

Задача: Убедиться, что Google правильно идентифицирует товар как Topical Entity.
Действия (на основе Claim 8):
- Разместить точное название модели товара в Title и URL (например, Title: «Купить Смартфон Google Pixel 8 Pro 128GB Obsidian», URL: /product/google-pixel-8-pro-128gb-obsidian).
- Внедрить микроразметку Product с указанием цены, наличия и характеристик, чтобы увеличить вероятность активации Shopping Results при поиске по этой сущности.
Ожидаемый результат: Google идентифицирует «Google Pixel 8 Pro 128GB Obsidian» как Topical Entity, так как сущность есть в Title/URL и поиск по ней активирует Shopping Features.

Сценарий 2: Устранение двусмысленности для информационной статьи

Задача: Написать статью о Марсе (планета), избежав путаницы с Марсом (бог) или Марсом (бренд).
Действия (на основе FIG. 7 и FIG. 5):
- Использовать Central Entities, которые создают сильные исходящие связи для контекста планеты: «Солнечная система», «Красная планета», «Атмосфера», «Колонизация», «NASA».
- Избегать или минимизировать использование сущностей, связанных с другими контекстами.
Ожидаемый результат: Система обнаружения двусмысленности определит, что контекст страницы соответствует общепринятому значению сущности «Марс» в контексте космоса, благодаря сильной связи с другими релевантными сущностями.

Вопросы и ответы

В чем разница между Central Entity и Topical Entity?

Central Entity — это одна из основных тем ресурса. На странице может быть несколько Central Entities. Они определяются как сущности, имеющие сильные связи с другими сущностями на той же странице в Entity Graph. Topical Entity — это единственная преобладающая (главная) тема всего ресурса. Она валидируется через анализ результатов поиска (ранжирование или SERP Features) и представляет собой основной фокус страницы.

Как работает Entity Graph, описанный в патенте?

Entity Graph строится на основе анализа совместной встречаемости сущностей во всем корпусе документов. Узлы графа — это сущности. Ребро между двумя узлами создается, если сущности встречаются вместе значительно чаще, чем случайно. Вес ребра рассчитывается с помощью PMI (Pointwise Mutual Information). Важной особенностью является то, что ребра направленные.

Почему важно направление ребер в Entity Graph?

Направление ребер отражает условную вероятность. Например, если встречается «Омри Касспи» (игрок NBA), то вероятно встретится и «NBA». Но если встречается «NBA», то вероятность встретить именно «Омри Касспи» мала. Поэтому ребро направлено от «Омри Касспи» к «NBA». Сущности с большим количеством сильных исходящих ребер считаются Central Entities, так как они определяют контекст для других сущностей на странице.

Как Google определяет главную тему (Topical Entity), если страница ранжируется низко?

Это ключевой механизм, описанный в Claim 8. Если страница не ранжируется высоко (например, она новая или с низким авторитетом), Google использует комбинацию двух сигналов: (1) Сущность должна присутствовать в Title или URL страницы, И (2) Поиск по этой сущности должен активировать специальные типы результатов (SERP Features).

Что такое «особые типы результатов поиска» (particular type of search results), упомянутые в патенте?

В патенте (Claim 9) явно упоминаются Shopping results (результаты покупок), Map results (карты) и Answer box (блок с ответом). Если поиск по сущности вызывает появление одного из этих блоков в выдаче, это помогает Google понять природу сущности (товар, локация, вопрос) и подтвердить ее как Topical Entity.

Как система обрабатывает двусмысленность? Например, «Apple» как фрукт или компания.

Система проверяет контекст (FIG. 7). Она выполняет поиск по сущности (например, «Apple») и анализирует топовые результаты. Затем она проверяет, насколько эти топовые результаты связаны с *другими* сущностями на исходной странице. Если страница о фруктах, а топовые результаты поиска связаны с технологиями и не имеют общих сущностей со страницей о фруктах, сущность «Apple» будет признана двусмысленной в данном контексте.

Каково практическое значение механизма обнаружения двусмысленности для SEO?

Это подчеркивает необходимость создания четкого семантического контекста на странице. Если вы используете термин, который может быть истолкован неверно, вы должны окружить его достаточным количеством связанных сущностей (Central Entities), чтобы немедленно устранить двусмысленность. В противном случае Google может решить, что ваша интерпретация сущности нерелевантна общепринятому значению.

Насколько важны Title и URL согласно этому патенту?

Они критически важны. Присутствие сущности в Title или URL используется как сильный сигнал для повышения Centrality Score. Более того, в механизме Claim 8 присутствие в Title или URL является обязательным условием для идентификации Topical Entity, если страница сама по себе не ранжируется высоко.

Имеет ли этот патент отношение к Google Knowledge Graph?

Да, напрямую. Entity Graph, описанный в патенте, по сути, является реализацией или компонентом Google Knowledge Graph. Он хранит данные о сущностях и силе связей между ними, основанные на анализе всего корпуса веб-документов. Патент описывает, как эта глобальная структура данных используется для анализа отдельных документов.

Что представляет собой описанная в патенте система «Additional Content System»?

Судя по описанию и иллюстрациям (FIG. 10-12), это система для динамического предоставления контекстно-зависимого контента, вероятно, реализованная как браузерное расширение или тулбар. Она анализирует просматриваемую страницу, определяет ее главные темы с помощью описанных механизмов и показывает пользователю релевантные новости, видео, товары или карты в отдельном блоке интерфейса.