Как Google использует Граф Сущностей для определения главных тем страницы и генерации релевантных рекомендаций контента

Патент Google описывает систему анализа веб-страницы для выявления ее главных тем («Центральных Сущностей») с помощью глобального Графа Сущностей, основанного на совместной встречаемости терминов. Система отфильтровывает периферийные и неоднозначные темы, генерирует на основе главных тем поисковые запросы и предлагает пользователю категоризированный дополнительный контент (новости, видео, товары).

Описание

Какую задачу решает

Патент решает задачу улучшения пользовательского опыта путем проактивного предоставления дополнительного контента (новости, видео, изображения, товары, карты), релевантного просматриваемой веб-странице. Ключевая техническая проблема — точно идентифицировать главные темы (Central Entities) ресурса, отфильтровать периферийную информацию и устранить неоднозначность (Ambiguous Entities), чтобы гарантировать высокую релевантность предлагаемых рекомендаций.

Что запатентовано

Запатентована система (Additional Content System), которая динамически генерирует дополнительный контент на основе контекста текущей страницы. Ядром изобретения является метод идентификации Central Entities с использованием взвешенного и направленного Графа Сущностей (Entity Graph). Система генерирует запросы на основе этих сущностей, отбирает релевантные результаты и отображает их в отдельном элементе интерфейса (например, через браузерное расширение), категоризируя контент (Новости, Видео, Покупки).

Как это работает

Система работает следующим образом:

Извлечение сущностей: Из просматриваемой страницы извлекаются сущности-кандидаты.
Фильтрация Графа Сущностей: Глобальный Entity Graph фильтруется для контекста данной страницы.
Идентификация Центральных Сущностей: Применяется алгоритм фильтрации (например, удаление узлов без исходящих связей) для выявления Central Entities — тем, которые семантически связаны с другими темами на странице.
Оценка и Уточнение: Рассчитывается Centrality Score. Система определяет доминирующую тему (Topical Entity) и выявляет неоднозначные сущности (Ambiguous Entities).
Генерация Контента: На основе Central Entities формируются поисковые запросы. Полученные результаты ранжируются, причем приоритет отдается результатам по Topical Entity и определенным типам контента (например, видео).
Отображение: Дополнительный контент категоризируется и отображается пользователю, адаптируясь к типу страницы (например, показ цен для товаров).

Актуальность для SEO

Высокая. Хотя конкретная реализация интерфейса (браузерное расширение/тулбар) может быть устаревшей, лежащие в основе технологии анализа контента крайне актуальны. Методы идентификации главных тем страницы с помощью Entity Graph, анализа совместной встречаемости (PMI) и расчета Centrality Score являются фундаментальными для понимания того, как Google интерпретирует тематику и контекст документа в современном семантическом поиске и системах рекомендаций (например, Google Discover).

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он не описывает алгоритмы ранжирования основного поиска, но предоставляет детальный взгляд на то, как Google алгоритмически определяет главные темы (Central Entities) и доминирующую тему (Topical Entity) страницы. Понимание этих механизмов критически важно для оптимизации контента, построения тематического авторитета (Topical Authority) и обеспечения правильной интерпретации фокуса страницы системами Google.

Детальный разбор

Термины и определения

Additional Content System (Система дополнительного контента): Система, отвечающая за идентификацию тем просматриваемого ресурса и генерацию релевантного дополнительного контента.
Ambiguous Entity (Неоднозначная сущность): Сущность, которая, хотя и связана с темой ресурса, в основном используется в других контекстах в вебе (например, «Moscow» на странице о городе в Айдахо).
Central Entity (Центральная сущность): Сущность, представляющая одну из главных тем ресурса. Определяется как узел в отфильтрованном графе сущностей, имеющий хотя бы одну исходящую связь.
Centrality Score (Оценка центральности): Метрика, определяющая важность Central Entity для ресурса. Учитывает структуру графа, частоту сущности (TF-IDF), упоминания в заголовках/URL и данные из журналов запросов.
Directed Edge (Направленное ребро/связь): Связь в графе сущностей, указывающая на направление зависимости между сущностями (например, Игрок -> Команда).
Entity Graph (Граф Сущностей): Структура данных, хранящая информацию о сущностях и связях между ними, собранная из коллекции ресурсов. Узлы представляют сущности, а ребра (взвешенные и направленные) — их взаимосвязь на основе совместной встречаемости.
Pointwise Mutual Information (PMI) (Поточечная взаимная информация): Статистическая мера, используемая для определения веса ребер в Entity Graph. Измеряет, насколько часто две сущности встречаются вместе по сравнению с ожидаемой частотой при их независимости.
Topical Entity (Топиковая/Тематическая сущность): Сущность, представляющая доминирующую (преобладающую) тему ресурса. Ресурс, как правило, хорошо ранжируется по запросу, содержащему эту сущность.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации и отображения дополнительного контента.

Идентификация тем (сущностей), связанных с веб-ресурсом, который просматривает пользователь в браузере.
Генерация поискового запроса для каждой из этих тем.
Получение от поисковой системы результатов поиска и соответствующих оценок (scores).
Классификация других веб-ресурсов (из результатов поиска) как релевантных исходному ресурсу на основе этих оценок.
Категоризация этих релевантных ресурсов по нескольким категориям.
Предоставление для отображения поверх просматриваемого ресурса элемента пользовательского интерфейса (UI element), содержащего ссылки на эти ресурсы, причем ссылки визуально разделены (visually segregated) по категориям.

Claim 3 (Зависимый от 1): Детализирует процесс классификации релевантности.

Процесс включает повышение (increasing/бустинг) оценок для ресурсов, идентифицированных в результатах поиска. Ресурсы, чьи повышенные оценки удовлетворяют определенному порогу, классифицируются как релевантные.

Claim 4 (Зависимый от 1): Добавляет условие доминирующей темы и типа контента.

Если запрос был сгенерирован для темы, которая является predominant topic (доминирующей темой / Topical Entity) исходного ресурса, то оценки полученных результатов повышаются. Затем выбираются ресурсы, удовлетворяющие порогу И являющиеся определенного типа (например, видео, новости, изображения – как указано в Claim 5).

Claim 10 (Зависимый от 1): Описывает адаптацию интерфейса.

Система определяет тип просматриваемого ресурса (например, товар, место) и модифицирует отображаемые категории и ссылки в элементе UI, чтобы они соответствовали этому типу (например, показ блока «Покупки» для страницы товара).

Где и как применяется

Изобретение затрагивает несколько этапов обработки данных, но его основное применение связано с системами рекомендаций контента и глубоким пониманием содержания страниц.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных:

Извлечение сущностей из всех ресурсов в коллекции.
Построение глобального Entity Graph. Это офлайн-процесс, включающий анализ совместной встречаемости сущностей, расчет PMI для определения веса связей и определение направления связей (Directed Edges).

Применение в реальном времени (Recommendation/Content Generation)
Основная логика патента применяется, когда система анализирует просматриваемую страницу:

Анализ страницы: Система идентифицирует Central Entities, Topical Entity и Ambiguous Entities для текущей страницы, используя данные из Entity Graph Store.
Взаимодействие с RANKING: Система генерирует запросы на основе Central Entities и использует стандартную поисковую машину (Search Engine) для получения и первичного ранжирования результатов.
Пост-обработка (RERANKING/METASEARCH эквивалент): Результаты переранжируются с учетом Centrality Scores, типа контента и типа страницы, а затем категоризируются для отображения.

Входные данные:

Данные о просматриваемом ресурсе (URL или контент).
Глобальный Entity Graph.
Журналы поисковых запросов (Query Logs).
(Опционально) История браузинга пользователя (для персонализации).

Выходные данные:

Набор категоризированного дополнительного контента (ссылки, сниппеты, медиа), готовый для отображения в UI.

На что влияет

Системы рекомендаций: Патент напрямую влияет на генерацию предложений связанного контента (например, Google Discover, блоки похожих статей).
Понимание контента: Описанные механизмы критически важны для того, как поисковая система интерпретирует фокус и контекст любого типа контента.
Типы сущностей и Ниши: Система специфически обрабатывает ресурсы о Потребительских товарах (E-commerce) и Местах (Local), адаптируя формат рекомендаций (показывая цены, отзывы или карты).

Когда применяется

Условия применения: Алгоритм активируется при просмотре веб-ресурса пользователем, у которого активен соответствующий клиентский модуль (например, web browser add-on).
Пороговые значения: Система может не генерировать контент, если ни одна из сущностей не имеет Centrality Score выше определенного порога, или если релевантность найденного дополнительного контента недостаточна.

Пошаговый алгоритм

Процесс А: Идентификация Центральных Сущностей (Central Entities)

Получение кандидатов: Извлечение всех сущностей, связанных с ресурсом (контент, заголовок, URL, метаданные).
Фильтрация глобального графа: Создание отфильтрованного Entity Graph. Из глобального графа удаляются все узлы, которые не соответствуют сущностям-кандидатам. Сохраняются только связи между оставшимися узлами.
Генерация ресурсного графа (Очистка): Из отфильтрованного графа удаляются узлы, у которых нет исходящих (outgoing) связей.
Идентификация Центральных Сущностей: Оставшиеся узлы идентифицируются как Central Entities.
Расчет Centrality Score: Для каждой Central Entity рассчитывается начальная оценка на основе весов исходящих связей (используя PMI).
Корректировка Centrality Score: Начальная оценка корректируется с использованием сигналов:
- TF-IDF сущности (учитывает частоту на странице и редкость в корпусе).
- Присутствие сущности в журналах запросов (Query Logs), которые привели к запросу этого ресурса.
- Расположение сущности (Title, URL).

Процесс Б: Уточнение Сущностей

Определение Topical Entity: Анализ, является ли одна из сущностей доминирующей темой. Проверяется, ранжируется ли сам ресурс высоко в результатах поиска по запросу, содержащему эту сущность, или используются данные Query Logs.
Выявление Ambiguous Entity: Для сущности генерируется запрос. Анализируются ресурсы в результатах поиска. Если большинство этих ресурсов слабо связаны с исходным ресурсом (низкий Relatedness Score), сущность признается неоднозначной.
Устранение неоднозначности: Неоднозначные сущности могут быть отброшены или дисамбигуированы путем добавления других терминов из ресурса.

Процесс В: Генерация Дополнительного Контента

Генерация запросов: Формирование поисковых запросов на основе валидированных Central Entities.
Получение результатов: Запросы отправляются в поисковую систему, возвращаются результаты с оценками (Ranking Scores).
Расчет и Корректировка оценок: Для каждого ресурса рассчитывается итоговая оценка. Применяется бустинг:
- Повышаются оценки, если ресурс найден по запросу с Topical Entity.
- Повышаются оценки для определенных типов контента (видео, изображения).
- Оценки корректируются на основе Centrality Score.
Выбор и Категоризация: Отбираются ресурсы с наивысшими оценками. Они категоризируются (Новости, Видео и т.д.).
Адаптация по типу: Если ресурс определен как Товар или Место, категории адаптируются (Цены, Карты, Отзывы).
Передача клиенту: Сформированный контент передается на клиентское устройство.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст страницы, заголовки (Title), метаданные. Используются для извлечения сущностей-кандидатов. Проминенс (например, в заголовке) влияет на Centrality Score.
Технические факторы: URL ресурса используется для идентификации и может влиять на Centrality Score.
Поведенческие факторы (Query Logs): Журналы поисковых запросов, которые приводили к кликам на ресурс. Используются для определения Topical Entity и корректировки Centrality Score. Упоминается возможность использования истории браузинга пользователя для персонализации.
Данные корпуса (Corpus Data / Entity Graph): Глобальная статистика совместной встречаемости сущностей, необходимая для построения Entity Graph и расчета PMI и IDF.

Какие метрики используются и как они считаются

Критерий связи в графе: Связь между сущностью A и B устанавливается, если частота их совместной встречаемости значительно превышает ожидаемую частоту при условии независимости. Формула: $\frac{\frac{freq(A,B)}{N}}{\frac{freq(A)}{N}*\frac{freq(B)}{N}} > k$ , где k — пороговое значение.
Вес связи (Weight) / PMI: Вес ребра $W_{AB}$ рассчитывается как $log [prob(A,B) / (prob(A)*prob(B))]$ .
Направление ребра (Directionality): Определяется на основе условной вероятности. Ребро направлено от A к B, если B часто встречается с A, но A не обязательно часто встречается с B (например, от Игрока к Лиге).
Centrality Score: Агрегированная метрика, основанная на весах исходящих связей в ресурсном графе, скорректированная с помощью IDF, данных Query Logs и сигналов проминенса.
Relatedness Score (Оценка связанности): Используется для выявления неоднозначности. Измеряет схожесть между исходным ресурсом и ресурсами в результатах поиска, основываясь на количестве общих сущностей или связях в Entity Graph.

Выводы

Определение главных тем через структуру графа: Ключевой механизм определения Central Entities — это анализ их взаимосвязей в контексте страницы с использованием глобального Entity Graph. Сущность считается центральной, если у нее есть исходящие связи к другим сущностям на этой же странице.
Важность совместной встречаемости (Co-occurrence) и PMI: Построение Entity Graph основано на статистическом анализе (PMI). Это подчеркивает, что Google ценит сильные, неслучайные семантические связи между концепциями в контенте.
Многофакторная оценка важности сущности: Centrality Score — комплексная метрика. Она объединяет данные из графа (веса связей), NLP-метрики (TF-IDF), сигналы проминенса (Title, URL) и поведенческие данные (Query Logs).
Различие между главной и доминирующей темой: Система разделяет Central Entities (главные темы) и Topical Entity (единственная доминирующая тема). Topical Entity определяет основной фокус страницы и ее тип (например, Товар или Место).
Активная обработка неоднозначности: Система активно выявляет Ambiguous Entities, проверяя контекст их использования в вебе. Простого упоминания сущности недостаточно; контекст должен быть ясным.
Адаптивное понимание типа контента: Система способна определить тип страницы на основе анализа Topical Entity и адаптировать предлагаемый контент, что демонстрирует глубокое понимание интента и типа контента.

Практика

Best practices (это мы делаем)

Выстраивание четких концептуальных связей в контенте: Структурируйте контент так, чтобы главная тема страницы явно подразумевала присутствующие на странице подтемы. Это поможет системе идентифицировать главную тему как Central Entity за счет наличия исходящих направленных связей (outgoing directed edges) в отфильтрованном графе сущностей.
Четкое определение доминирующей темы (Topical Entity): Убедитесь, что страница имеет ясный фокус и оптимизирована для ранжирования по этой теме. Доминирующая сущность должна присутствовать в Title, H1, URL. Это помогает системе правильно определить Topical Entity.
Использование данных Query Logs (GSC): Анализируйте запросы в Google Search Console, по которым пользователи находят вашу страницу. Интегрируйте эти сущности в контент и заголовки, так как Query Logs являются прямым сигналом для расчета Centrality Score.
Активная дисамбигуация (Disambiguation): Если основная тема может быть неоднозначной, активно используйте контекстные термины для ее уточнения. Это поможет избежать классификации темы как Ambiguous Entity.
Использование специфичных терминов (IDF): Фокусируйтесь на специфичных, релевантных сущностях. Патент подтверждает, что Centrality Score корректируется с помощью IDF, понижая вес общеупотребительных терминов.

Worst practices (это делать не надо)

Размытие тематики страницы (Topic Dilution): Создание страниц, охватывающих слишком много слабо связанных тем. Это приводит к формированию слабого ресурсного графа, где не могут быть выделены четкие Central Entities.
Изолированное упоминание сущностей: Упоминание важных сущностей без контекстной поддержки и связей с другими релевантными терминами. Такие сущности могут быть отфильтрованы как не имеющие исходящих связей.
Игнорирование неоднозначности: Использование многозначных терминов без учета их основного значения в интернете и без предоставления четкого контекста.

Стратегическое значение

Патент является отличной иллюстрацией перехода Google от ключевых слов к сущностям (Entities) и связям между ними. Стратегическое значение заключается в понимании того, что релевантность определяется ролью сущности в семантической структуре страницы и силой ее связей (PMI). Для SEO это означает, что построение тематического авторитета (Topical Authority) требует создания контента, который демонстрирует глубокие и статистически значимые связи между сущностями в рамках определенной ниши.

Практические примеры

Сценарий: Оптимизация статьи о редком заболевании (устранение неоднозначности и усиление центральности)

Задача: Опубликовать статью о заболевании «Синдром XYZ», которое также является названием популярной рок-группы.

Анализ проблемы: В глобальном Entity Graph «Синдром XYZ» сильнее связан с музыкой, чем с медициной (выше PMI). Есть риск определения сущности как Ambiguous.
Действия по оптимизации:
- Уточнение контекста: Использовать заголовок «Синдром XYZ: симптомы и лечение заболевания». Это помогает определить Topical Entity и повышает Centrality Score.
- Насыщение связанными сущностями: Активно использовать медицинские сущности (симптомы, гены, методы лечения). Это создает сильные связи в отфильтрованном графе страницы и обеспечивает наличие исходящих связей от «Синдром XYZ» к этим терминам.
Ожидаемый результат:
- Система видит высокую степень связанности (Relatedness Score) между статьей и медицинским контекстом, что позволяет избежать пометки Ambiguous Entity.
- Система корректно идентифицирует «Синдром XYZ» как Central Entity и Topical Entity в медицинском контексте.

Вопросы и ответы

Что такое Entity Graph в контексте этого патента и как он строится?

Entity Graph — это глобальная структура данных, где узлы представляют сущности, а ребра показывают их взаимосвязь. Он строится путем анализа совместной встречаемости (co-occurrence) сущностей во всем веб-индексе. Если две сущности встречаются вместе значительно чаще, чем случайно, между ними создается связь. Вес этой связи рассчитывается с помощью PMI (Pointwise Mutual Information), а направление указывает на зависимость (например, от игрока к команде).

Как система определяет, какие сущности на странице являются главными (Central Entities)?

Это ключевой механизм. Система фильтрует глобальный Entity Graph, оставляя только сущности, присутствующие на данной странице. Затем она удаляет все узлы, у которых нет исходящих (outgoing) связей к другим узлам в этом отфильтрованном графе. Оставшиеся узлы и есть Central Entities. Это означает, что главные темы — это те, которые концептуально связаны с другими темами на этой же странице.

В чем разница между Central Entity и Topical Entity?

Central Entity — это одна из главных тем страницы (их может быть несколько). Topical Entity — это единственная преобладающая (доминирующая) тема всего ресурса. Система пытается определить Topical Entity, проверяя, ранжируется ли страница высоко по запросу, состоящему из этой сущности, или анализируя логи запросов (Query Logs).

Как рассчитывается Centrality Score и как на него можно повлиять?

Centrality Score изначально основан на весах исходящих связей в графе (PMI). Но он корректируется рядом факторов. Чтобы повысить его, нужно обеспечить присутствие сущности в Title/URL, использовать специфичные термины (высокий IDF) и убедиться, что страница получает трафик по запросам, содержащим эту сущность (так как используются Query Logs).

Что происходит, если моя главная сущность неоднозначна (Ambiguous)?

Если сущность признана Ambiguous (например, чаще используется в другом контексте), система может ее отбросить или попытаться уточнить (дисамбигуировать), добавив другие термины со страницы. Для SEO это означает необходимость активного предоставления контекста с помощью связанных сущностей, чтобы избежать неверной интерпретации темы.

Что означает «направленность ребер» (Directed Edge) в графе сущностей?

Направленность указывает на иерархию или зависимость. Например, связь идет от «Омри Касспи» к «НБА», потому что Касспи подразумевает НБА, но не наоборот. Для того чтобы сущность была признана Central Entity, у нее должны быть исходящие связи к другим сущностям на странице, что указывает на ее важность в данном контексте.

Подтверждает ли патент использование TF-IDF в алгоритмах Google?

Да, патент явно упоминает использование Inverse Document Frequency (IDF) как часть метрики TF-IDF для корректировки Centrality Score. Система понижает вес сущностей, которые слишком часто встречаются в общем корпусе документов (общеупотребительные слова), подчеркивая важность специфичных терминов.

Как система обрабатывает малоизвестные или новые страницы товаров (E-commerce)?

Патент предусматривает исключение. Даже если новая страница товара еще не ранжируется высоко, система может признать товар Topical Entity, если запрос по этой сущности вызывает специальные результаты (например, Shopping results) И название товара присутствует в Title или URL страницы.

Влияет ли этот патент на ранжирование в основном поиске Google?

Патент описывает систему генерации дополнительного контента, а не алгоритмы основного ранжирования. Однако технологии, лежащие в его основе (идентификация Central Entities, использование Entity Graph, обработка неоднозначности), являются фундаментальными для того, как Google понимает контент, что косвенно влияет на ранжирование.

Как этот патент связан с Тематическим Авторитетом (Topical Authority)?

Патент предоставляет алгоритмическую основу для оценки Тематического Авторитета. Чтобы быть авторитетом, ваш контент должен демонстрировать сильные, статистически подтвержденные (высокий PMI) связи между ключевыми сущностями вашей ниши. Создание контента, который генерирует сильные Central Entities, напрямую способствует построению авторитета.