
Google использует двухфазную систему для создания Графа Знаний. Сначала данные из разных источников (например, Wikipedia, коммерческие базы данных) приводятся к единому формату идентификаторов (Reconciliation Phase). Затем эти нормализованные данные объединяются в единый граф, при этом устраняются дубликаты и разрешаются конфликты (Build Phase). Это позволяет создавать разные версии графа для разных нужд и эффективно управлять качеством данных.
Патент решает фундаментальную проблему интеграции данных из множества разрозненных источников (disparate sources), таких как Freebase, базы данных музыки, ТВ-программы и т.д., в единый граф знаний (Combined Data Graph). Основные проблемы заключаются в том, что:
Identifier Space) для одной и той же сущности (например, "Том Круз" имеет ID1 в источнике А и ID2 в источнике Б).Запатентована двухфазная система построения графов данных. Первая фаза (Reconciliation Phase) нормализует данные из каждого источника, конвертируя локальные идентификаторы в глобальные с помощью централизованного хранилища (Master Evidence File). Вторая фаза (Build Phase) объединяет эти нормализованные графы (Reconciled Data Graphs), устраняет дубликаты, разрешает конфликты и позволяет создавать различные "Представления" (Knowledge Graph Views) графа на основе выбранного набора источников.
Система работает в два этапа:
Фаза 1: Reconciliation (Нормализация)
Source Data Graphs) и файлы соответствий (Source Evidence Files) от поставщиков данных.Reconciliation Engine конвертирует локальные ID в глобальные, используя Master Evidence File. Если сущность новая, создается новый глобальный ID.Reconciled Data Graphs) в едином пространстве идентификаторов.Фаза 2: Build (Построение)
Graph Building Engine выбирает набор нормализованных графов на основе определения представления (Graph View Definition).provenance) сохраняется в метаданных оставшегося триплета.Combined Data Graph (Представление Графа Знаний).Высокая. Описанные механизмы являются фундаментальной инфраструктурой для построения и поддержания Графа Знаний Google. Процессы интеграции огромных объемов структурированных данных, согласования сущностей (reconciliation), разрешения конфликтов и отслеживания происхождения данных (provenance) остаются критически важными для качества поиска и работы семантических систем Google.
Влияние на SEO (6/10). Это преимущественно инфраструктурный патент, который не описывает алгоритмы ранжирования. Однако он детально раскрывает механизмы, которые Google использует для построения Графа Знаний. Понимание этого процесса критически важно для стратегий оптимизации сущностей (Entity Optimization), обеспечения согласованности данных о бренде в сети и понимания того, как Google выбирает "правильные" факты при наличии противоречивой информации.
Reconciled Data Graphs должны быть включены в конкретное Knowledge Graph View и какие ограничения на него накладываются.Source Data Graphs в Reconciled Data Graphs.Claim 1 (Независимый пункт): Описывает базовую архитектуру и процесс системы.
Master Evidence File, который отображает ID 1 и ID 2 на ID 3.Master Evidence File.Combined Data Graph из нормализованных версий первого и второго графов.Это ядро изобретения: независимая обработка источников (нормализация) с последующим объединением в глобальном пространстве идентификаторов.
Claim 2 (Зависимый от 1): Детализирует процесс удаления дубликатов во время объединения.
Это ключевой механизм слияния данных (Data Fusion) и отслеживания происхождения (Provenance Tracking). Факт сохраняется, но обогащается информацией о всех источниках, которые его подтверждают.
Claim 4 (Зависимый от 1): Описывает создание специфических представлений (Views).
Graph View Definition.Combined Data Graph генерируется только из этого выбранного набора.Это позволяет создавать разные версии Графа Знаний для разных нужд (например, публичная версия и внутренняя версия с лицензионными данными).
Claim 7 (Зависимый от 1): Описывает обработку расхождений между данными источника и мастер-файлом.
Source Evidence File отображает сущность на Глобальный ID A.Master Evidence File отображает ту же сущность на Глобальный ID B.Master Evidence File так, чтобы сущность отображалась на ОБА идентификатора (A и B).Это механизм управления историей согласования и обеспечения обратной совместимости. Система не теряет старые идентификаторы при слиянии сущностей.
Claim 11 (Независимый пункт): Описывает процесс с фокусом на слиянии и дедупликации триплетов (повторяет и уточняет логику Claim 1 и 2).
Изобретение относится к этапу INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction).
Это инфраструктура, которая отвечает за построение Графа Знаний из структурированных источников данных. Она не участвует в обработке запросов в реальном времени, а работает в офлайн-режиме для подготовки базы данных.
Взаимодействие с другими компонентами:
Входные данные:
Source Data Graphs (данные от поставщиков).Source Evidence Files (отображения ID от поставщиков).Выходные данные:
Reconciled Data Graphs (нормализованные данные).Master Evidence File.Knowledge Graph Views (финальные комбинированные графы).Алгоритм применяется в офлайн-режиме при обновлении данных Графа Знаний.
Source Data Graph или соответствующего ему Source Evidence File. Обрабатываются только измененные источники.Knowledge Graph Views из актуальных Reconciled Data Graphs.Reconciled Data Graphs. Если обновление вызывает нестабильность, система может откатиться к предыдущим версиям.Фаза 1: Reconciliation (Нормализация и Согласование)
Source Evidence File (SEF) на наличие прямого отображения на Глобальный ID.Master Evidence File (MEF) на наличие существующего отображения для данного локального ID.replaced by) Новый_ID) для обеспечения обратной совместимости.Reconciled Data Graph.Фаза 2: Build (Построение Представления)
Entity Provenance Graph, отслеживающий источник каждой сущности.Reconciled Data Graphs на основе Graph View Definition.Knowledge Graph View.Патент фокусируется на инфраструктуре обработки данных, а не на факторах ранжирования.
provenance) каждого триплета и ограничения на использование/лицензии, связанные с источником.Патент не описывает метрики ранжирования, но описывает метрики и правила для слияния данных и разрешения конфликтов:
Master Evidence File является главным авторитетом для глобальных ID. Он управляет слиянием сущностей и хранит полную историю всех присвоенных идентификаторов, что критически важно для стабильности системы.replaced by).Хотя патент описывает внутреннюю инфраструктуру Google, он имеет важные последствия для стратегий оптимизации сущностей (Entity Optimization) и работы с Графом Знаний.
schema.org/sameAs, чтобы связать вашу сущность с ее идентификаторами в основных базах данных (например, Wikidata ID, официальные государственные ID). Это действует аналогично Source Evidence File, явно указывая Google, как ваша локальная информация соотносится с известными глобальными идентификаторами.Reconciliation Engine и создает риск того, что Google выберет неверную информацию во время разрешения конфликтов или разделит вашу сущность на несколько.disparate inputs; внешние сигналы и структурированные данные из сторонних источников являются критически важными входными данными.Патент подтверждает фундаментальную важность внешних структурированных данных для понимания мира Google. SEO-стратегия должна включать оптимизацию сущностей, которая выходит далеко за рамки собственного сайта. Патент подчеркивает, что понимание сущности Google – это слияние (fusion) множества источников. Управление этим слиянием путем предоставления согласованных, подтвержденных и явно связанных данных является ключевой задачей SEO. Также патент объясняет, как Google разрешает разногласия: по консенсусу (частота упоминаний) или по авторитету (доверие к источнику).
Сценарий: Разрешение конфликта даты основания компании.
Graph Building Engine объединяет данные и обнаруживает конфликт: отношение "дата основания" имеет два разных объекта (2010 и 2008).schema.org/foundingDate с правильной датой (2008) и связать через sameAs с идентификатором в госреестре.Как этот патент влияет на локальное SEO и управление данными в Google Business Profile (GBP)?
Он напрямую влияет на то, как Google формирует базу данных о локальном бизнесе. GBP является одним из Source Data Graphs. Google объединяет данные из GBP с данными из каталогов, сайтов с отзывами, официальных реестров и самого сайта компании. Если данные NAP (Name, Address, Phone) не согласованы, система должна разрешать конфликты (Фаза 2). Для обеспечения точности в локальной выдаче критически важно поддерживать согласованность данных во всей экосистеме, чтобы помочь Google правильно согласовать (Фаза 1) и верифицировать факты.
Что происходит, когда Google объединяет две разные сущности в одну (например, двух людей с одинаковыми именами)?
Патент описывает этот механизм через Master Evidence File. Если две сущности (с Глобальными ID A и B) признаются одной и той же, система выбирает один основной ID (например, A), а второй (B) помечается как исторический. В Master Evidence File оба ID будут указывать на эту сущность. Система также генерирует триплет "B заменен на A" (replaced by), гарантируя, что запросы к старому ID B будут корректно обрабатываться (обратная совместимость).
Как Google решает, какой факт выбрать, если два источника противоречат друг другу?
Это происходит в Фазе 2 (Build). Патент упоминает два основных критерия для разрешения конфликтов. Первый – это достоверность (trustworthiness) источника (авторитет): факты из более авторитетных источников могут иметь приоритет. Второй – это частота утверждения (Frequency of Assertion) (консенсус): факт, который подтверждается большим количеством источников, может быть выбран как истинный. Система отслеживает количество источников для каждого факта благодаря механизму слияния дубликатов.
Означает ли этот патент, что данные на моем собственном сайте менее важны, чем данные во внешних источниках?
Ваш сайт является одним из источников данных (Source Data Graph). Однако Граф Знаний стремится к объективности и строится на основе множества источников. Если информация на вашем сайте противоречит подавляющему большинству или наиболее авторитетным внешним источникам, система может проигнорировать ваши данные при разрешении конфликтов. Лучшая стратегия – обеспечить соответствие данных на вашем сайте (особенно через Schema.org) данным в авторитетных внешних источниках.
Как я могу помочь Google правильно идентифицировать мою сущность в Фазе 1 (Reconciliation)?
Вы можете предоставить эквивалент Source Evidence File с помощью микроразметки Schema.org. Используя свойство sameAs, вы можете явно указать идентификаторы вашей сущности в других надежных базах данных (например, Wikidata, официальные реестры). Это предоставляет системе четкие сигналы для отображения вашего локального представления на глобальный идентификатор, уменьшая неопределенность.
Что такое "Пространство идентификаторов" (Identifier Space) и почему оно важно?
Identifier Space – это система уникальных кодов, используемая базой данных. Например, в базе данных фильмов Том Круз может иметь ID "P500", а в базе данных музыки – ID "A789". Эти ID локальны. Чтобы объединить данные, Google конвертирует их в Глобальное пространство идентификаторов, где Том Круз имеет один уникальный ID (например, "M105"). Этот патент описывает, как именно происходит эта конвертация и управление этими ID.
Почему система построена в две фазы, а не объединяет все сразу?
Двухфазная архитектура обеспечивает эффективность и гибкость. Фаза 1 (Reconciliation) обрабатывает только те источники, которые были обновлены, экономя ресурсы. Фаза 2 (Build) позволяет создавать множество различных Knowledge Graph Views из уже нормализованных данных. Например, можно создать одну версию графа только из публичных данных, а другую – с добавлением конфиденциальных или лицензионных данных для внутреннего использования.
Что такое "Граф происхождения сущностей" (Entity Provenance Graph) и зачем он нужен?
Это специальный граф, который создается в Фазе 2 и включается в финальное представление. Он содержит метаданные, указывающие, из каких именно первоисточников была получена информация о каждой сущности. Это позволяет пользователям или приложениям понять происхождение данных (provenance), даже если сам исходный граф не включен в текущее представление, и используется для оценки достоверности фактов.
Может ли этот механизм привести к тому, что некачественные данные загрязнят Граф Знаний?
Да, это потенциальный риск при интеграции данных из непроверенных источников. Однако система имеет механизмы защиты в Фазе 2. При разрешении конфликтов система использует критерии доверия к источнику и частоту подтверждения фактов. Это позволяет отфильтровывать или понижать в приоритете данные из менее надежных источников при наличии противоречий с авторитетными данными.
Как быстро изменения во внешнем источнике (например, Wikipedia) попадут в Граф Знаний, согласно этому патенту?
Скорость зависит от расписания обеих фаз. Сначала Google должен обнаружить изменение в источнике и запустить Фазу 1 (Reconciliation) для этого источника. После создания обновленного Reconciled Data Graph, необходимо дождаться следующего запуска Фазы 2 (Build), чтобы эти данные были интегрированы в финальное Knowledge Graph View. Процесс не мгновенный и зависит от частоты сканирования источника и расписания обновления Графа Знаний.

Knowledge Graph
Семантика и интент

Knowledge Graph

Knowledge Graph
Local SEO

Индексация
Краулинг
Техническое SEO

Knowledge Graph
EEAT и качество
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Мультиязычность
Поведенческие сигналы
SERP

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

SERP
Семантика и интент
Ссылки

Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
SERP
Персонализация

Семантика и интент
Индексация
Структура сайта

Семантика и интент
Поведенческие сигналы
