Как Google объединяет разрозненные данные о сущностях для построения Knowledge Graph (Entity Reconciliation)

Патент описывает механизм, который Google использует для консолидации фактов, извлеченных из интернета. Система анализирует разрозненные данные (объекты), сравнивает их на предмет сходств (например, общие редкие факты) и конфликтов (например, разные даты рождения). Используя графовый анализ и кластеризацию, Google объединяет объекты, относящиеся к одной и той же реальной сущности, формируя точный профиль в Knowledge Graph.

Описание

Какую задачу решает

Патент решает фундаментальную проблему построения баз знаний (Fact Repository, например, Knowledge Graph): дублирование и фрагментацию данных. Когда информация извлекается из множества разнообразных источников (веб-страниц), система часто создает несколько отдельных объектов (Objects) для одной и той же реальной сущности (Entity). Например, для «Билл Клинтон» и «Уильям Джефферсон Клинтон». Задача изобретения — выполнить Entity Reconciliation (согласование сущностей): идентифицировать и объединить эти дубликаты, одновременно избегая слияния разных сущностей с похожими именами.

Что запатентовано

Запатентована система (Object Merge Engine) для автоматического объединения объектов на основе детального анализа содержащихся в них фактов. Система вычисляет показатель сходства (Similarity Value) между парами объектов, взвешивая доказательства в пользу слияния (например, общие редкие данные) и доказательства против слияния (например, конфликтующие уникальные атрибуты). Затем используется иерархическая кластеризация для объединения объектов с высоким уровнем сходства.

Как это работает

Механизм работает в несколько этапов:

Группировка: Объекты-кандидаты (merge candidate objects) группируются по общим значениям атрибутов (например, по имени).
Сравнение: Внутри групп пары объектов сравниваются для поиска доказательств ЗА и ПРОТИВ слияния.
Вычисление Сходства: Для каждой пары рассчитывается Similarity Value. Конфликты в ключевых данных могут привести к значению «минус бесконечность», блокируя слияние.
Построение Графа: Строится граф, где узлы — это объекты, а вес ребер — Similarity Value.
Кластеризация и Слияние: Используется иерархическая агломеративная кластеризация (Hierarchical Agglomerative Clustering). Пары с наибольшим сходством, превышающим порог, последовательно объединяются.

Актуальность для SEO

Критически высокая. Entity Reconciliation является основой для функционирования Knowledge Graph, семантического поиска и оценки E-E-A-T. Хотя конкретные алгоритмы могли эволюционировать (например, с использованием нейросетевых эмбеддингов), описанные принципы — фактологическое сравнение, обработка конфликтов, анализ редкости фактов и кластеризация — остаются фундаментальными для организации информации в Google.

Важность для SEO

Патент имеет критическое значение (9/10) для Entity SEO. Он детально описывает, как Google консолидирует информацию о сущностях (бренд, автор, продукт). Понимание этих механизмов жизненно важно для управления представлением сущности в Google. Непоследовательность данных (например, разные адреса или даты основания) в разных источниках напрямую препятствует способности Google сформировать полный и точный профиль сущности, что негативно влияет на авторитетность и видимость в поиске.

Детальный разбор

Термины и определения

Entity (Сущность): Реальный или вымышленный человек, место или предмет, информация о котором хранится в системе.
Fact Repository (Репозиторий фактов): База данных, хранящая факты, извлеченные из различных источников. Аналог Knowledge Graph.
Hierarchical Agglomerative Clustering (Иерархическая агломеративная кластеризация): Алгоритм, используемый для слияния объектов. Он итеративно объединяет два наиболее похожих узла в графе, пока показатель сходства не упадет ниже порога.
Importer (Импортер): Модуль, который извлекает факты из документов (например, веб-страниц) и создает объекты.
Janitor (Уборщик): Внутренний процесс, выполняющий обработку и очистку данных в репозитории, включая нормализацию и объединение объектов. Object Merge Engine является одним из видов Janitor.
Object (Объект): Набор фактов в Fact Repository, ассоциированных с определенной сущностью. В идеале, каждой сущности должен соответствовать один объект.
Object Merge Engine (Механизм объединения объектов): Система, описанная в патенте, которая идентифицирует и объединяет дублирующиеся объекты.
Similarity Value (Показатель сходства): Числовая оценка, рассчитываемая для пары объектов, отражающая вероятность того, что они относятся к одной сущности. Может принимать значение ‘отрицательной бесконечности’ для блокировки объединения.
Singleton Attribute (Уникальный/Синглтон атрибут): Атрибут, который может иметь только одно значение для данной сущности (например, «Дата рождения» для человека, «ISBN» для книги). Конфликт в этих атрибутах является сильным доказательством против слияния.
TF/IDF (Term Frequency/Inverse Document Frequency): Метрика, используемая для оценки сходства текстовых значений фактов (например, биографий) двух объектов.
Trusted Agent (Доверенный агент): Importer, который извлекает данные из источников, известных своей уникальностью (например, Wikipedia). Предполагается, что объекты от одного доверенного агента из одного источника не нужно объединять между собой.
Uncommon Fact (Редкий факт): Факт со значением, которое статистически редко встречается (например, рост человека 230 см). Наличие общего Uncommon Fact является сильным сигналом для объединения.
Web Link Graph Distance (Расстояние в графе веб-ссылок): Количество гиперссылок между исходными документами двух объектов. Используется как мера связанности источников.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод слияния объектов.

Идентификация кандидатов на слияние (merge candidate objects).
Группировка кандидатов на основе значения общего атрибута (например, имени).
Идентификация сходств между объектами внутри каждой группы, включая расчет Similarity Value.
Генерация графов, описывающих эти сходства среди объектов всех групп.
Анализ графов для идентификации объектов, относящихся к одной сущности.
Слияние этих объектов в merged object и сохранение в репозитории.

Claim 4 (Зависимый от 1): Детализирует расчет Similarity Value.

Система сравнивает пару объектов для поиска доказательств ЗА слияние (Evidence FOR) и доказательств ПРОТИВ слияния (Evidence AGAINST). Similarity Value вычисляется на основе результатов этих сравнений.

Claim 5 (Зависимый от 4): Определяет доказательства в пользу слияния (Evidence FOR). Список включает одно или несколько из:

Совпадение типа сущности (type fact value).
Показатель TF/IDF, рассчитанный по текстовым значениям фактов, превышает порог.
Факты обоих объектов извлечены из одного и того же электронного документа.
Расстояние в графе веб-ссылок (web link graph distance) между исходными документами меньше порога.
Совпадение редкого факта (Uncommon Fact).

Claim 7 (Зависимый от 4): Определяет доказательства против слияния (Evidence AGAINST). Список включает одно или несколько из:

Объекты содержат разные значения для Singleton Attribute.
Оба объекта были добавлены в репозиторий одним и тем же агентом (подразумевается Trusted Agent).
Объекты содержат взаимоисключающие типы (например, Человек vs Компания).

Claim 9 (Зависимый от 8, который зависит от 1): Уточняет метод слияния.

Для слияния объектов на основе сгенерированного графа (где вес ребер — это Similarity Value) используется Hierarchical agglomerative clustering.

Где и как применяется

Изобретение является частью инфраструктуры управления данными Google, отвечающей за построение и поддержание качества базы знаний (Knowledge Graph).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс происходит в фазе постобработки данных.

Извлечение фактов (Feature Extraction): Importers сканируют контент и извлекают факты, формируя первичные, потенциально дублирующиеся объекты в Fact Repository.
Очистка и Консолидация (Data Cleansing/Entity Reconciliation): Object Merge Engine (реализованный как Janitor) обрабатывает эти объекты. Он выполняет процесс слияния, описанный в патенте, чтобы устранить дубликаты и фрагментацию.

Это не процесс ранжирования в реальном времени, а часть офлайн или near-real-time процесса построения и очистки базы знаний.

Входные данные:

Набор кандидатов на слияние (merge candidate objects).
Факты внутри каждого объекта (Атрибуты и Значения, включая Типы).
Метаданные фактов: Источники (URL), информация об агенте-импортере (Agent ID).
Внешние данные: Граф веб-ссылок (для расчета web link graph distance).
Системные данные: Статистика распределения значений атрибутов (для определения Uncommon Facts), список Singleton Attributes.

Выходные данные:

Консолидированные объекты (merged objects) в Fact Repository, содержащие объединенный набор фактов.

На что влияет

Конкретные типы контента и Сущности: Влияет на представление именованных сущностей (Named Entities) — людей, организаций, мест, продуктов. Критично для сущностей с неоднозначными именами или несколькими вариантами написания.
Форматы выдачи: Напрямую влияет на точность и полноту данных в Knowledge Panels, каруселях сущностей и других функциях, основанных на Knowledge Graph.
Конкретные ниши или тематики: Наибольшее влияние в нишах с большим количеством фактологической информации (медиа, e-commerce, локальный бизнес, YMYL), где точность идентификации сущности критична.

Когда применяется

Условия работы алгоритма: Наличие набора объектов-кандидатов, которые имеют потенциал для объединения (например, схожее имя или другой общий идентификатор).
Частота применения: Это фоновый процесс (Janitor operation), который выполняется периодически или по мере поступления новых данных для очистки репозитория.
Пороговые значения: Слияние происходит, когда Similarity Value между двумя объектами превышает установленный порог (в одном из вариантов реализации порог равен нулю).

Пошаговый алгоритм

Процесс работы Object Merge Engine:

Идентификация кандидатов: Выбор набора объектов (merge candidate objects) для анализа.
Группировка (Grouping): Объекты группируются на основе значений общего атрибута (например, имени). Учитываются синонимы и вариации. Объект может попасть в несколько групп.
Сравнение пар (Object Comparison): Внутри каждой группы сравниваются все пары объектов.
Анализ доказательств ЗА слияние: Проверка наличия общих типов, высокого TF/IDF сходства текстов, общего источника, близости источников в графе ссылок, наличия общих Uncommon Facts. Каждому доказательству присваивается вес (similarity weight).
Анализ доказательств ПРОТИВ слияния (Вето): Проверка наличия конфликтов в Singleton Attributes, взаимоисключающих типов или происхождения от одного Trusted Agent. При обнаружении конфликта паре присваивается вес «минус бесконечность» (-∞).
Расчет показателя сходства (Compute Similarity Value): Агрегация весов для получения итогового Similarity Value для каждой пары.
Построение графа (Graph Generation): Создание графа, где объекты являются узлами, а Similarity Value – весом ребер между ними.
Слияние (Merging/Clustering): Применение Hierarchical Agglomerative Clustering:
1. Находится ребро с наибольшим весом, превышающим порог.
2. Узлы (объекты), соединенные этим ребром, объединяются в один новый узел (объект).
3. Веса ребер между новым объединенным узлом и остальными узлами пересчитываются.
4. Процесс повторяется до тех пор, пока не останется ребер с весом выше порога.
Сохранение и Очистка: Объединенные объекты сохраняются в Fact Repository. Процесс может быть запущен повторно после дополнительной очистки данных.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для принятия решения о слиянии объектов:

Контентные факторы (Факты):
- Значения атрибутов (имена, даты, числа). Используются для сравнения, особенно Singleton Attributes и Uncommon Facts.
- Текстовые значения фактов (описания, биографии). Используются для расчета TF/IDF сходства.
Структурные факторы (Данные о сущностях):
- Факты типа (Type Facts). Используются для проверки наличия общих типов или взаимоисключающих типов (Type Conflict).
Технические факторы (Метаданные):
- URL источников (Sources). Используется для определения, пришли ли объекты из одного документа.
- Идентификатор импортера (Agent ID). Используется для идентификации Trusted Agents.
Ссылочные факторы (Внешние данные):
- Данные графа веб-ссылок. Используются для расчета Web Link Graph Distance между исходными документами объектов.

Какие метрики используются и как они считаются

Similarity Value (Показатель сходства): Агрегированная метрика. Рассчитывается путем взвешивания доказательств ЗА и ПРОТИВ. Если есть доказательство ПРОТИВ, значение может быть установлено как -∞ (минус бесконечность).
TF/IDF Score: Стандартный расчет TF/IDF для измерения сходства текстового контента фактов двух объектов.
Web Link Graph Distance: Количество гиперссылок между исходными страницами объектов.
Определение Uncommon Fact: Используются статистические методы. Система вычисляет нормальное распределение (normal distribution) значений для атрибута (например, рост людей). Значения, выходящие за пределы заданного диапазона (например, два стандартных отклонения от среднего), считаются необычными.
Определение Singleton Attribute: Список атрибутов, которые могут иметь только одно значение. Может быть задан вручную или определен с помощью машинного обучения.

Выводы

Основа Knowledge Graph (Entity Reconciliation): Патент описывает фундаментальный механизм, который позволяет Google строить Knowledge Graph, объединяя фрагментированную и противоречивую информацию из интернета в чистые профили сущностей.
Критичность разрешения конфликтов (Veto Rules): Система активно ищет доказательства ПРОТИВ слияния. Конфликты в ключевых данных (Singleton Attributes, таких как дата рождения, адрес, ISBN) могут полностью заблокировать объединение информации о сущности (присваивается Similarity Value -∞).
Сила уникальных идентификаторов (Uncommon Facts): Совпадение статистически редких данных является сильным сигналом для Google, что речь идет об одной и той же сущности. Это подчеркивает важность предоставления уникальных идентификаторов и детализированных фактов.
Значимость типов сущностей (Type Facts): Корректное определение типа сущности критически важно. Совпадение типов является доказательством ЗА слияние, а взаимоисключающие типы — доказательством ПРОТИВ.
Итеративный подход к консолидации: Google использует Hierarchical Agglomerative Clustering. Это означает, что процесс слияния итеративен: сначала объединяются самые очевидные пары, что затем способствует дальнейшему объединению с другими объектами.
Учет происхождения данных: Источник данных имеет значение. Близость источников в графе ссылок или происхождение из одного документа увеличивает сходство. Также учитывается надежность процесса извлечения (Trusted Agents).

Практика

Best practices (это мы делаем)

Основная задача SEO в контексте этого патента — помочь Google корректно выполнить Entity Reconciliation для ключевых сущностей сайта (компания, авторы, продукты).

Абсолютная последовательность ключевых данных (Consistency): Обеспечьте полную идентичность ключевых идентификаторов сущности (Имя/Название, Адрес, Телефон – NAP, а также Singleton Attributes, таких как дата основания, ИНН, GTIN) во всех источниках (сайт, социальные сети, каталоги, Википедия). Это минимизирует риск конфликтов, блокирующих слияние.
Четкое определение типа сущности: Используйте точную и последовательную разметку Schema.org для определения типа сущности (Type Fact). Это прямое доказательство в пользу слияния данных из разных источников, если типы совпадают, и предотвращает ошибки, если типы различны.
Использование уникальных идентификаторов (Uncommon Facts): Активно используйте и распространяйте уникальные идентификаторы (например, Wikidata ID, ISNI, ORCID, официальные регистрационные номера). В контексте патента это сильные Uncommon Facts, совпадение которых значительно увеличивает Similarity Value.
Стратегия SameAs и Централизация: Используйте schema.org/sameAs для связи профиля сущности на вашем сайте с авторитетными внешними источниками. Создавайте на своем сайте авторитетный хаб информации о сущности, который будет служить основным источником фактов при консолидации.

Worst practices (это делать не надо)

Непоследовательность данных (Data Inconsistency): Публикация разных версий названия компании, разных адресов или дат основания в разных источниках. Это создает конфликты Singleton Attributes, что приводит к фрагментации профиля сущности в Knowledge Graph.
Игнорирование разметки типа: Отсутствие Schema.org или использование слишком общих типов (например, Thing вместо Organization). Это лишает Google важного доказательства для корректного сравнения и слияния данных.
Смешивание сущностей на одной странице: Создание страниц, где смешивается информация о разных сущностях с похожими именами без четкого разделения. Это может привести к некорректному извлечению фактов и ошибочному слиянию объектов.
Фокус только на имени: Полагаться только на совпадение имени для идентификации сущности. Имя — это лишь один из факторов, и его недостаточно при наличии конфликтов в других данных или при наличии омонимов.

Стратегическое значение

Этот патент подтверждает стратегическую важность Entity SEO и управления данными. Успех в современном поиске зависит от того, насколько точно и полно сущность представлена в Knowledge Graph. Патент показывает, что Google использует сложный, многофакторный подход к консолидации данных. Долгосрочная SEO-стратегия должна включать управление цифровым следом сущности во всем интернете, обеспечивая последовательность, точность и взаимосвязь данных, чтобы помочь Google корректно выполнить Object Merging. Это напрямую влияет на E-E-A-T.

Практические примеры

Сценарий: Консолидация профиля автора для E-E-A-T

Цель: Убедиться, что Google объединяет все упоминания автора с разных сайтов в единый объект Knowledge Graph.

Обеспечение Consistency: Имя и основное место работы автора указываются идентично на Сайте А (основной сайт) и Сайте Б (гостевой пост).
Использование Uncommon Facts: На обоих сайтах в биографии указывается уникальный идентификатор ORCID и упоминается получение редкой отраслевой награды.
Определение Type: Оба сайта используют разметку schema.org/Person.
Процесс Google:
- Система группирует объекты по имени.
- При сравнении обнаруживаются сильные доказательства ЗА слияние: общий тип, общие Uncommon Facts (ORCID, награда). Конфликтов нет.
- Similarity Value высокий.
Результат: Google объединяет информацию с Сайтов А и Б в единый объект автора. Формируется более полный профиль, что положительно влияет на оценку авторитетности контента этого автора.

Вопросы и ответы

Что такое «Singleton Attribute» и почему это критически важно для SEO?

Singleton Attribute — это атрибут, который может иметь только одно значение для сущности (например, дата рождения человека, дата основания компании, ИНН). Согласно патенту, если два объекта имеют конфликтующие значения для такого атрибута, система присваивает им показатель сходства «минус бесконечность». Это гарантированно блокирует их объединение. Для SEO это означает, что любая неконсистентность в ключевых данных может привести к фрагментации вашей сущности в Knowledge Graph.

Как Google определяет, является ли факт «редким» (Uncommon Fact), и как это использовать?

Система анализирует статистическое распределение значений для определенного атрибута. Например, она знает средний рост людей, и рост 230 см будет считаться редким. Совпадение такого редкого факта у двух объектов является сильным сигналом для их объединения. SEO-специалистам следует публиковать уникальные идентификаторы (GTIN, ISBN, ORCID) и отличительные характеристики сущности (уникальные награды, патенты), чтобы помочь Google связать разрозненные упоминания.

Что произойдет, если моя компания имеет два разных адреса на разных сайтах (например, на сайте и в каталоге)?

Это зависит от того, классифицирует ли Google атрибут «адрес» как Singleton Attribute для вашего типа организации. Для малого бизнеса с одним офисом это, скорее всего, так, и это может заблокировать объединение объектов, создавая проблемы в локальном поиске. Для крупной сети система может принять оба факта как адреса филиалов. Однако для Local SEO критически важно поддерживать консистентность основного адреса (NAP).

Как этот патент связан с Knowledge Graph и Knowledge Panel?

Патент описывает процесс построения и очистки Fact Repository, который лежит в основе Knowledge Graph. Knowledge Panel — это визуальное отображение консолидированного объекта из этого репозитория. Механизм Object Merging отвечает за сбор и объединение фактов, которые в итоге отображаются в этой панели. Ошибки в панели часто являются результатом сбоев в этом процессе.

Как использование разметки Schema.org помогает этому процессу?

Разметка Schema.org предоставляет факты в структурированном виде, что облегчает их извлечение и сравнение. Четкое указание типов (Type) помогает избежать конфликтов (Type Conflict), а использование свойств типа sameAs или уникальных идентификаторов предоставляет сильные сигнальные факты (Uncommon Facts) для корректного объединения объектов.

Влияет ли этот механизм на оценку E-E-A-T?

Да, очень сильно. Оценка E-E-A-T связана с авторитетностью сущности (автора или организации). Если информация об авторе фрагментирована по разным объектам из-за плохого Entity Reconciliation (например, из-за противоречивых биографических данных), Google не сможет консолидировать его авторитет и опыт. Корректное объединение позволяет аккумулировать все сигналы авторитетности в одном объекте.

Что означает упоминание TF/IDF в патенте о сущностях?

Это указывает на то, что система сравнивает не только структурированные факты (вроде дат), но и текстовый контент, связанный с объектами (например, биографии, описания). TF/IDF используется для оценки того, насколько похожи эти тексты и используют ли они схожую уникальную терминологию. Это означает, что контент на страницах, описывающих сущность, также участвует в процессе распознавания и объединения.

Что такое ‘Trusted Agent’ и как это связано с авторитетностью источников?

Trusted Agent — это специальный импортер данных, настроенный на работу с источником, который гарантирует уникальность сущностей (например, Википедия или официальный реестр). Система предполагает, что если такой агент создал два разных объекта, то это действительно две разные сущности, даже если они очень похожи. Это механизм защиты от ошибок, основанный на доверии к качеству источника.

Что такое иерархическая агломеративная кластеризация в этом контексте?

Это алгоритм, который Google использует для принятия решения о слиянии. Он работает итеративно: сначала находит два наиболее похожих объекта (с наивысшим Similarity Value) и объединяет их в один кластер. Затем он ищет следующую наиболее похожую пару. Процесс продолжается до тех пор, пока уровень сходства не упадет ниже порога, позволяя строить полные профили сущностей.

Что делать, если Google путает мою компанию с другой, имеющей похожее название?

Необходимо усилить сигналы, которые дифференцируют вашу сущность. Убедитесь, что тип вашей организации указан точно (используя Schema.org). Обеспечьте точность Singleton Attributes (адрес, телефон, дата основания). Опубликуйте Uncommon Facts (уникальные идентификаторы, специфические услуги), которые отличают вас от другой компании. Усиление этих дифференцирующих фактов поможет системе увидеть доказательства ПРОТИВ слияния ваших данных с данными другой компании.