Как Google анализирует Knowledge Graph для поиска и отображения неочевидных связей, редких фактов и суперлативов о сущностях

Google использует методы анализа графа данных для выявления «содержательных связей» о сущностях. Сюда входят общие связи между двумя сущностями, редкие комбинации связей, сильные вторичные связи (например, актер снялся в 49 драмах) и уникальные факты (суперлативы, такие как «самый высокий актер»). Эта информация, часто вычисляемая заранее, используется для обогащения поисковой выдачи, например, в Панелях Знаний.

Описание

Какую задачу решает

Патент решает задачу улучшения пользовательского опыта в поиске путем предоставления дополнительной, «содержательной» (insightful) информации о сущностях, которая не была запрошена явно, но может быть интересна пользователю. Система направлена на автоматическое выявление и отображение более глубоких, неочевидных или статистически значимых связей и фактов, скрытых в графе данных (Data Graph, например, Knowledge Graph), обогащая тем самым результаты поиска.

Что запатентовано

Запатентована система и методы для идентификации и генерации «содержательных связей» (Insightful Connections) между сущностями в графе данных. Изобретение описывает четыре основных механизма выявления информации: общие связи (Shared Connections) между двумя сущностями, редкие связи (Rare Connections), сильные вторичные связи (Strong Secondary Connections) и уникальные факты (Unique Facts или суперлативы). Большая часть этих данных вычисляется офлайн для обеспечения низкой задержки при обработке запросов.

Как это работает

Система использует два основных компонента: Connection Discovery System (работает офлайн) и Query System (работает в реальном времени).

Офлайн-анализ (Connection Discovery System): Этот компонент анализирует граф данных, генерируя пути первой и второй степени для сущностей. Он ищет сложные паттерны: статистически редкие комбинации связей, часто повторяющиеся вторичные связи и статистические выбросы (суперлативы) для определенных атрибутов внутри коллекций сущностей. Эти данные сохраняются.
Обработка запроса (Query System): При получении запроса система определяет релевантные сущности. Для поиска общих связей (Shared Connections) между двумя сущностями (в том числе из последовательных запросов) анализ может выполняться на лету. Для остальных типов система извлекает предварительно вычисленные содержательные связи и уникальные факты и включает их в результаты поиска (например, в Панель Знаний).

Актуальность для SEO

Высокая. Патент напрямую связан с тем, как Google представляет информацию о сущностях в Панелях Знаний, блоках «Люди также ищут» (People Also Search For) и других элементах SERP, основанных на Knowledge Graph. Понимание и отображение связей между сущностями является ключевым направлением развития поиска. Описанные механизмы лежат в основе современного Entity SEO.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100), особенно в области Entity SEO и оптимизации под Knowledge Graph. Он детально описывает механизмы, с помощью которых Google понимает не только сами сущности, но и глубину, уникальность и значимость их связей с другими сущностями. Это напрямую влияет на то, как бренды, продукты или персоны представлены в SERP, и подчеркивает критическую важность структурированных данных и построения авторитетности в определенной тематике.

Детальный разбор

Термины и определения

Collection Definition (Определение коллекции): Набор правил и ограничений, определяющих группу схожих сущностей в графе (например, «Актеры», «Страны мира»). Используется для расчета Unique Facts.
Connection Discovery System (Система обнаружения связей): Компонент системы, который офлайн анализирует граф данных для выявления содержательных связей и уникальных фактов.
Data Graph (Граф данных): Структура данных (например, Knowledge Graph), хранящая информацию в виде узлов (сущностей) и ребер (связей).
Entity (Сущность): Узел в графе данных, представляющий человека, место, объект, идею или концепцию.
Fact Definition (Определение факта): Набор правил для вычисления значения факта (атрибута) для сущности (например, «Рост», «Количество полученных Оскаров»). Используется для расчета Unique Facts.
First-degree connection/path (Связь/путь первой степени): Прямая связь от одной сущности к другой через одно ребро (отношение). Например: Том Хэнкс -> (Снялся в) -> Форрест Гамп.
Insightful Connection (Содержательная связь): Общий термин для обозначения неочевидной, интересной информации о сущности, выявленной путем анализа графа.
Outlier Value (Выброс, Экстремальное значение): Статистически значимое значение атрибута (самое высокое или самое низкое) среди всех сущностей в коллекции. Является основой для Unique Fact.
Query System (Система обработки запросов): Компонент системы, который обрабатывает входящие запросы и формирует результаты поиска, включая содержательные связи.
Rare Connection (Редкая связь): Ситуация, когда две сущности связаны напрямую и косвенно, и при этом вероятность совместного возникновения (probability of co-occurrence) этих двух путей низка. Например, супруги, которые также снялись в одном фильме.
Second-degree connection/path (Связь/путь второй степени): Путь от одной сущности к третьей через промежуточную сущность (два ребра). Например: Том Хэнкс -> (Снялся в) -> Форрест Гамп -> (Имеет жанр) -> Драма.
Shared Connection (Общая связь): Совпадающий first-degree path для двух разных сущностей (обе сущности имеют одинаковое отношение к одной и той же целевой сущности).
Strong Secondary Connection (Сильная вторичная связь): Ситуация, когда сущность имеет большое количество путей второй степени (выше порога), ведущих к одной и той же терминальной сущности через один и тот же тип связи. Например, Том Хэнкс снялся в 49 фильмах жанра Драма.
Unique Fact (Уникальный факт, Суперлатив): Факт о сущности, представляющий собой экстремальное значение (Outlier Value) определенного атрибута в рамках коллекции. Например, «самый высокий актер».

Ключевые утверждения (Анализ Claims)

Патент описывает несколько различных механизмов. Рассмотрим ключевые независимые пункты.

Claim 1 (Независимый пункт): Механизм общих связей (Shared Connections). Описывает метод реагирования на запрос путем поиска общих связей между двумя сущностями.

Система получает запрос и генерирует результаты поиска.
Идентифицируются первая и вторая сущности из графа данных, соответствующие запросу.
Идентифицируются пути первой степени (состоящие из отношения и целевой сущности) для обеих сущностей.
Определяется совпадение: путь первой степени первой сущности совпадает с путем второй сущности (т.е. у них общее отношение и целевая сущность). Это совпадение называется matched connection.
Информация из этого совпадения (метка отношения и целевая сущность) включается в результат поиска.

Claim 2 (Зависимый от 1): Уточняет, что вторая сущность может быть определена из текущего запроса, который возник в результате выбора (клика) пользователем представления этой сущности в результатах предыдущего поиска, связанного с первой сущностью. (Например, клик по ссылке в блоке «Люди также ищут»).

Claim 8 (Независимый пункт): Офлайн-вычисление сильных и редких связей. Описывает систему для предварительного анализа графа.

Система генерирует графы первой и второй степени для конкретной сущности.
Вычисление сильных вторичных связей (Strong Secondary): Для терминальной сущности в путях второй степени:
1. Отношения группируются (например, по типу).
2. Подсчитывается количество отношений в каждой группе.
3. Если количество превышает порог, данные об этой связи сохраняются.
Вычисление структур для редких связей (Rare Connections): Для сущности из пути первой степени:
1. Ищется совпадение этой сущности с терминальной сущностью в путях второй степени (находится matching path).
2. Проверяется, являются ли два отношения в этом пути второй степени отношениями одного типа.
3. Если да, данные об этой структуре сохраняются для последующего использования (что позволяет рассчитать вероятность совместного возникновения).

Где и как применяется

Изобретение затрагивает этапы индексирования (в контексте анализа Knowledge Graph) и метапоиска для формирования финальной выдачи.

INDEXING – Индексирование и извлечение признаков (Анализ Графа Данных)
Основная часть сложной работы происходит на этом этапе, но офлайн. Connection Discovery System анализирует Data Graph Index для вычисления редких связей, сильных вторичных связей и уникальных фактов. Это процесс извлечения сложных признаков из Knowledge Graph. Результаты сохраняются в хранилище Insightful Connections.

QUNDERSTANDING – Понимание Запросов
Система идентифицирует сущности в запросе. Для механизма Shared Connections система также может учитывать контекст (предыдущий запрос пользователя), чтобы определить вторую сущность для сравнения.

METASEARCH – Метапоиск и Смешивание
На этом этапе Query System формирует финальную выдачу.

Обогащение: Система извлекает предварительно вычисленные Insightful Connections (редкие, сильные, уникальные факты), связанные с сущностями запроса.
Анализ на лету: Для Shared Connections система может в реальном времени найти общие связи первой степени между двумя идентифицированными сущностями.
Формирование SERP Features: Выявленная информация используется для формирования Панелей Знаний, прямых ответов или специализированных блоков в выдаче.

Входные данные:

Структура Графа Данных (сущности, отношения, атрибуты).
Определения коллекций и фактов (для Unique Facts).
Метрики популярности сущностей (для сортировки Shared Connections).
Запрос пользователя и контекст сессии.

Выходные данные:

Хранилище предварительно вычисленных содержательных связей и уникальных фактов.
Обогащенные результаты поиска, включающие эту информацию.

На что влияет

Типы контента и форматы: В первую очередь влияет на представление фактической информации из Knowledge Graph. Отображается в Панелях Знаний (Knowledge Panels), прямых ответах (Answer Boxes) и блоках исследования сущностей.
Специфические запросы: Влияет на информационные запросы о сущностях (люди, места, компании, продукты) и запросы, требующие сравнения или исследования (например, «кто самый богатый человек»).

Когда применяется

Применение зависит от типа связи:

Shared Connections: Активируется, когда система идентифицирует две связанные сущности в контексте запроса (в одном запросе или связке текущий+предыдущий запрос).
Rare Connections, Strong Secondary Connections, Unique Facts: Применяется, когда основная сущность запроса имеет предварительно вычисленные данные такого типа. Вычисления производятся периодически офлайн.
Триггеры и пороги: Для Strong Secondary Connections требуется превышение порога количества связей. Для Rare Connections требуется низкая вероятность совместного возникновения связей.

Пошаговый алгоритм

Патент описывает четыре различных механизма.

Механизм А: Общие связи (Shared Connections) (Выполняется во время запроса)

Идентификация сущностей: Определение первой и второй сущностей на основе ключевых слов из одного или нескольких связанных запросов.
Извлечение связей: Идентификация всех путей первой степени (отношение и целевая сущность) для обеих сущностей.
Сравнение и Поиск совпадений: Поиск идентичных отношений и идентичных целевых сущностей.
Типизация и Сортировка: Присвоение типа совпавшим связям (например, «Фильм»). Сортировка связей по популярности целевой сущности внутри каждого типа.
Выбор типа: Если найдено несколько типов совпадений, выбор одного типа для отображения (например, тип с наибольшим количеством совпадений).
Отображение: Выбор первых N связей из выбранного типа для включения в результаты поиска.

Механизм Б: Редкие связи (Rare Connections) (Выполняется офлайн)

Генерация путей: Создание графов первой и второй степени для сущностей. (Включает фильтрацию слишком общих сущностей или отношений).
Поиск совпадений путей: Для каждой сущности сравнение целевых сущностей в путях первой степени с терминальными сущностями в путях второй степени.
Подсчет прямых связей: При нахождении совпадения инкрементируется счетчик для отношения первой степени (например, счетчик для «имеет супруга»).
Проверка типа косвенных связей: Проверка, являются ли два отношения в пути второй степени отношениями одного типа (или инверсиями друг друга, например, «снялся в» и «в ролях»).
Подсчет косвенных связей: Если типы совпадают, инкрементируется счетчик для комбинации отношения первой степени и отношения второй степени.
Оценка редкости: Сравнение счетчиков прямых и косвенных связей. Если счетчик прямой связи высок, а счетчик соответствующей косвенной связи низок (низкая вероятность совместного возникновения), это идентифицируется как Rare Connection.
Сохранение: Сохранение таких комбинаций для последующего использования.

Механизм В: Сильные вторичные связи (Strong Secondary Connections) (Выполняется офлайн)

Генерация путей: Создание путей второй степени для сущности.
Анализ терминальных сущностей: Для каждой терминальной сущности в путях второй степени подсчет количества входящих связей, сгруппированных по типу связи (Connection Type).
Применение порога: Выбор связей, чьи счетчики превышают заданный порог.
Сохранение: Сохранение этих данных как Strong Connection для исходной сущности.

Механизм Г: Уникальные факты (Unique Facts) (Выполняется офлайн)

Получение определений: Загрузка Collection Definition и Fact Definition.
Формирование коллекции: Выборка всех сущностей из графа, соответствующих определению коллекции.
Вычисление значений: Расчет значения факта для каждой сущности в коллекции согласно правилам из Fact Definition.
Идентификация выбросов: Определение сущностей с наименьшим и/или наибольшим значением факта (Outlier Value).
Сохранение: Сохранение этой информации как Unique Fact, индексированного по ID сущности, ID коллекции и ID факта.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на данных, извлеченных из графа данных (Knowledge Graph) и системных определениях.

Структурные факторы (Граф): Основные данные — это структура графа: Сущности (Nodes), Отношения (Edges) и их типы. Система анализирует пути первой и второй степени.
Факторы популярности (Popularity): Для сортировки общих связей (Shared Connections) используются данные о популярности целевых сущностей. Популярность может определяться количеством связей в графе, частотой упоминаний в корпусе документов или частотой запросов.
Системные определения: Collection Definitions и Fact Definitions, которые определяют правила группировки сущностей и вычисления атрибутов.
Поведенческие факторы (Контекст): История запросов или последовательность кликов пользователя может использоваться для определения пары сущностей при поиске Shared Connections (Claim 2).

Какие метрики используются и как они считаются

Счетчики путей (Path Counts): Подсчет количества путей первой и второй степени, удовлетворяющих определенным условиям. Используется в механизмах Б и В.
Вероятность совместного возникновения (Probability of Co-occurrence): Вычисляется путем сравнения частоты прямого отношения с частотой специфического косвенного отношения. Низкая вероятность указывает на Rare Connection.
Пороги (Thresholds): Минимальное количество путей второй степени одного типа, необходимое для идентификации Strong Secondary Connection. Также используются пороги для фильтрации слишком общих (commonly occurring) сущностей/отношений.
Значения фактов (Fact Values): Числовые значения атрибутов, вычисленные на основе правил Fact Definition.
Экстремумы (Outliers): Максимальные и минимальные значения фактов внутри коллекции. Используются для Unique Facts.

Выводы

Глубокий анализ Knowledge Graph: Патент демонстрирует, что Google проводит сложный структурный анализ Knowledge Graph, выходящий за рамки простых фактов первой степени. Анализ путей второй степени критически важен для понимания контекста, глубины экспертизы и значимости связей.
Четыре типа алгоритмических инсайтов: Google четко разделяет механизмы выявления «содержательной» информации: через общность (Shared), редкость комбинации (Rare), частотность и глубину (Strong Secondary), и превосходство (Unique Facts).
Приоритет офлайн-вычислений: Сложный анализ графа (механизмы Б, В, Г) выполняется офлайн с помощью Connection Discovery System. Это позволяет обогащать выдачу сложными данными без увеличения задержки ответа на запрос.
Использование контекста сессии: Система может интерпретировать последовательные запросы (например, клик по ссылке в блоке «Люди также ищут») как неявное сравнение или поиск связей между сущностями из этих запросов.
Фильтрация шума: При анализе графа система активно фильтрует слишком общие (commonly occurring) сущности и отношения, чтобы сосредоточиться на более значимых связях.
Фундамент Entity SEO: Патент подтверждает, что для полноценного представления сущности в поиске необходимо не только наличие самой сущности в Knowledge Graph, но и богатство, структурированность и уникальность ее связей.

Практика

Best practices (это мы делаем)

Комплексное использование структурированных данных (Schema.org): Обеспечьте максимально полное и точное описание ваших ключевых сущностей (организация, продукты, авторы) и их связей с другими сущностями. Это является входными данными для Knowledge Graph, который анализируется описанными алгоритмами. Используйте максимально точные типы отношений.
Построение тематического авторитета (Topical Authority) (Механизм В): Создавайте глубокий и всесторонний контент по вашей тематике. Это увеличивает вероятность формирования Strong Secondary Connections. Если ваш бренд (сущность) связан с множеством продуктов или статей (промежуточные сущности), которые в свою очередь связаны с определенной категорией (терминальная сущность), это укрепляет ассоциацию вашего бренда с этой категорией.
Акцент на уникальности и достижениях (Механизмы Б и Г): Четко формулируйте уникальные торговые предложения, достижения (суперлативы) или уникальные партнерства. Обеспечьте подтверждение этих фактов на авторитетных ресурсах. Это может помочь в формировании Unique Facts или Rare Connections в Панели Знаний.
Стимулирование связей с релевантными сущностями (Механизм А): Работайте над тем, чтобы ваша сущность упоминалась и связывалась с другими значимыми сущностями в вашей нише. Это увеличивает вероятность появления в результатах поиска через механизм Shared Connections, когда пользователи изучают связанные темы.

Worst practices (это делать не надо)

Манипуляция фактами и суперлативами: Предоставление ложной информации или неподтвержденных заявлений о превосходстве в надежде активировать механизм Unique Facts. Система ищет статистические выбросы на основе данных всего графа, и ложные данные будут проигнорированы или могут привести к потере доверия.
Игнорирование Entity SEO: Фокусировка исключительно на ключевых словах и обратных ссылках без работы над представлением бренда как сущности в Knowledge Graph. Описанные алгоритмы работают только с данными графа.
Поверхностный контент: Создание большого количества мелких, не связанных между собой страниц. Это не способствует формированию Strong Secondary Connections, так как не создает достаточной глубины связей с терминальными тематическими сущностями.
Несогласованность данных: Публикация противоречивой информации о сущности в разных источниках затрудняет анализ связей и вычисление фактов.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на понимание мира через призму сущностей и их взаимосвязей (Things, not Strings). Для SEO это означает, что оптимизация должна включать управление тем, как сущность воспринимается в Knowledge Graph. Долгосрочная стратегия должна быть направлена на построение реальной авторитетности и формирование четких, структурированных связей в графе, что позволит алгоритмам идентифицировать ваш бренд или контент как содержательный (insightful).

Практические примеры

Сценарий 1: Использование Strong Secondary Connection для усиления Topical Authority

Задача: Укрепить ассоциацию бренда (например, VPN-сервиса) с темой «Стриминг».
Действия: Создать обширный хаб контента, где каждая статья посвящена разблокировке определенного стримингового сервиса (Netflix, Hulu, BBC iPlayer и т.д.) с помощью этого VPN. Внедрить корректную разметку, связывающую бренд с каждой статьей, и каждую статью с сущностью стримингового сервиса.
Ожидаемый результат: Алгоритм офлайн-анализа идентифицирует множество путей второй степени: VPN Бренд (E1) -> (Описывается в статье) -> Статья о Netflix/Hulu (E2) -> (Связана с темой) -> Стриминг (E3). Если таких путей много, формируется Strong Secondary Connection между Брендом и Стримингом, что повышает его авторитетность в этой теме и может быть отражено в Knowledge Panel.

Сценарий 2: Оптимизация под Unique Fact

Задача: Позиционировать университет как «Старейший университет страны».
Действия: Убедиться, что дата основания точно отражена в источниках Knowledge Graph (Wikidata, официальный сайт с разметкой Organization/EducationalOrganization). Обеспечить подтверждение этого факта в авторитетных источниках (исторические архивы, рейтинги).
Ожидаемый результат: При офлайн-анализе коллекции «Университеты Страны» по факту «Дата основания», алгоритм идентифицирует этот университет как Outlier (минимальное значение даты). В Панели Знаний университета может появиться Unique Fact: «Старейший университет страны», или система будет использовать его для прямого ответа на соответствующий запрос.

Вопросы и ответы

Что такое «содержательная связь» (Insightful Connection) в контексте этого патента?

Это общий термин для обозначения информации, которую Google считает интересной, неочевидной или статистически значимой для пользователя, но которая не была запрошена явно. Патент выделяет четыре типа: общие связи между двумя сущностями, редкие комбинации связей, сильные вторичные связи (глубокая экспертиза в теме) и уникальные факты (суперлативы). Все они выявляются путем анализа структуры Knowledge Graph.

Большая часть этих данных вычисляется заранее (офлайн). Что это значит для SEO?

Это означает, что изменения, которые вы вносите (например, внедрение структурированных данных или публикация нового контента), не сразу отразятся на этих сложных связях. Потребуется время, чтобы Google обновил Knowledge Graph, а затем чтобы офлайн-система Connection Discovery System провела повторный анализ графа и выявила новые связи. Необходима долгосрочная и последовательная работа над Entity SEO.

Как работает механизм «Сильная вторичная связь» (Strong Secondary Connection) и как его использовать?

Он ищет сущности, которые имеют множество путей второй степени к одной и той же терминальной сущности. Например, Том Хэнкс (1) снялся во многих фильмах (2), которые имеют жанр Драма (3). Это показывает глубокую связь Тома Хэнкса с Драмой. В SEO это напрямую связано с Topical Authority: создание большого объема качественного контента по одной теме формирует сильные вторичные связи между вашим сайтом/брендом и этой темой.

Что такое «Редкая связь» (Rare Connection) и можно ли на нее повлиять?

Редкая связь возникает, когда две сущности связаны напрямую и косвенно, и такая комбинация встречается статистически редко. Пример в патенте: быть супругами — частое явление, но супруги, снявшиеся в одном фильме — редкое. Повлиять на это сложно, так как это зависит от реальных фактов. Однако, если у вашего бренда есть уникальные партнерства или характеристики, важно четко описать их с помощью структурированных данных, чтобы помочь Google распознать эту редкость.

Как Google определяет «Уникальные факты» (Unique Facts) или суперлативы?

Система определяет коллекцию (например, «VPN-сервисы») и факт (например, «Количество стран»). Затем она вычисляет этот показатель для всех сущностей в коллекции и ищет статистические выбросы (самые высокие или низкие значения). Чтобы претендовать на суперлатив, необходимо иметь реальные данные, подтвержденные в Knowledge Graph (через ваш сайт или авторитетные источники).

Патент упоминает фильтрацию «часто встречающихся» (commonly occurring) сущностей и связей. Что это значит?

При анализе графа система может игнорировать слишком общие сущности (например, «Человек» или «США») и слишком общие связи (например, «имеет Имя»), так как они не несут полезной информации для выявления инсайтов. Для SEO это означает, что важно фокусироваться на специфических, нишевых связях и атрибутах, а не только на базовых.

Как механизм «Общие связи» (Shared Connections) влияет на выдачу?

Он активируется, когда пользователь изучает связанные сущности. Например, если пользователь искал Бренд А, а затем кликнул на Бренд Б в блоке «Люди также ищут» (Claim 2), Google может интерпретировать это как запрос на сравнение и автоматически показать, что общего у этих двух брендов (например, оба производят продукт X). Это подчеркивает важность корректной классификации бренда и его продуктов в Knowledge Graph.

Какие данные используются для определения популярности при сортировке общих связей?

Патент упоминает, что популярность может определяться количеством связей у сущности в графе данных, количеством появлений сущности в запросах или частотой упоминания сущности в корпусе документов (веб-индексе). Это еще раз подчеркивает важность упоминаний бренда и его продуктов на авторитетных ресурсах.

На какие элементы SERP влияет этот патент?

В первую очередь, это влияет на содержание Панелей Знаний (Knowledge Panels), где часто отображаются уникальные факты и содержательные связи. Также это влияет на формирование прямых ответов (особенно на запросы типа «кто самый…») и на блоки исследования сущностей, такие как карусели связанных объектов и «Люди также ищут».

Какова главная рекомендация для SEO-специалистов, исходя из этого патента?

Главная рекомендация — сместить фокус с традиционного SEO на Entity SEO. Необходимо обеспечить, чтобы ваши ключевые сущности были точно представлены в Knowledge Graph и имели богатый набор структурированных связей. Работайте над глубиной контента для формирования сильных вторичных связей и обеспечьте точность данных для потенциального выявления уникальных фактов.