Как Google автоматически находит и проверяет новые сущности для Knowledge Graph, сверяя факты из разных источников

Google использует процесс «согласования графов» для автоматического расширения Knowledge Graph. Система извлекает факты о потенциально новых сущностях из множества веб-документов, а затем проверяет их достоверность путем перекрестной сверки (corroboration). Если несколько независимых источников подтверждают ключевые (determinative) факты, сущность считается верифицированной и добавляется в граф знаний.

Описание

Какую задачу решает

Патент решает проблему неполноты больших графов знаний (например, Knowledge Graph) и медленной скорости их ручного пополнения. Основная задача — разработать масштабируемый автоматический метод обнаружения новых сущностей и фактов о них в веб-документах с одновременной гарантией высокой точности этих данных. Система предотвращает загрязнение графа недостоверной информацией, требуя подтверждения (corroboration) из нескольких независимых источников.

Что запатентовано

Запатентована система автоматического расширения целевого графа данных (Target Data Graph). Ядром изобретения является процесс «Согласования графов» (Graph Reconciliation). Этот процесс верифицирует потенциальные новые сущности (Potential Entities), извлеченные из веба, путем итеративной сверки ключевых фактов. Сущность принимается, только если несколько источников согласуются по ее «детерминативным фактам» (Determinative Facts) и удовлетворяют порогу надежности (Reliability Threshold).

Как это работает

Система работает следующим образом:

Извлечение фактов: Из веб-документов извлекаются факты в виде кортежей (Tuples: Субъект-Предикат-Объект).
Генерация исходных графов: Для каждой пары документ/сущность создается Исходный граф данных (Source Data Graph).
Кластеризация: Графы из разных источников кластеризуются по имени и типу сущности.
Итеративное согласование: Система итеративно разделяет кластеры на «корзины» (buckets) на основе Determinative Predicates (уникальных идентификаторов, например, даты рождения).
Проверка надежности: «Корзины», не соответствующие Reliability Threshold (например, информация только с одного домена), отбрасываются.
Слияние: Если несколько исходных графов из разных источников попадают в одну финальную «корзину», они объединяются в Согласованный граф (Reconciled Graph), который становится кандидатом на добавление в Knowledge Graph.

Актуальность для SEO

Высокая. Автоматическое расширение и поддержание актуальности Knowledge Graph является критически важной задачей для Google, особенно в контексте развития семантического поиска, SGE и оценки E-E-A-T. Механизмы извлечения знаний из неструктурированного текста и их верификации постоянно совершенствуются, и данный патент описывает фундаментальный подход к обеспечению качества этих данных.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает основополагающий механизм того, как Google строит свое понимание мира — как сущности и факты попадают в Knowledge Graph. Это напрямую влияет на видимость компаний, продуктов и персон в SERP-функциях, таких как Knowledge Panels. Патент подчеркивает критическую важность консистентности, точности и подтверждения информации из множества независимых источников для успешного распознавания и верификации сущностей.

Детальный разбор

Термины и определения

Corroboration (Подтверждение): Процесс верификации факта путем его подтверждения в нескольких независимых источниках.
Determinative Predicate / Discriminative Predicate (Детерминативный / Дискриминативный предикат): Предикат, представляющий отношение «один-к-одному» между субъектом и объектом. Это уникальный идентификатор сущности (например, «дата рождения», «ISBN», «продолжительность фильма»).
Entity (Сущность): Человек, место, предмет, идея, концепт и т.д., представленный узлом в графе данных.
Graph Reconciliation (Согласование графов): Процесс итеративного разделения и слияния исходных графов данных на основе общих детерминативных фактов для выявления достоверной информации.
Potential Entity (Потенциальная сущность): Сущность, идентифицированная в исходных документах, но еще не присутствующая в целевом графе данных.
Provenance (Происхождение): Источник (документ, URL, домен), из которого был извлечен факт или сущность.
Reconciled Graph (Согласованный граф): Граф, полученный в результате слияния нескольких Source Data Graphs, которые согласуются по ключевым фактам и прошли проверку надежности. Является кандидатом на добавление в Target Data Graph.
Reliability Threshold (Порог надежности): Критерии, используемые для отсеивания недостоверных данных. Например, требование наличия фактов из более чем одного домена или минимального количества источников.
Source Data Graph (Исходный граф данных): Небольшой граф, содержащий сущность и факты о ней, извлеченные из одного конкретного исходного документа.
Target Data Graph (Целевой граф данных): Основная база знаний (например, Google Knowledge Graph), которую система стремится расширить.
Tuple / Fact Tuple (Кортеж / Фактологический кортеж): Базовая единица данных в графе, состоящая из субъекта, предиката (отношения) и объекта.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему для обнаружения новых сущностей.

Система работает с Source Data Graphs, сгенерированными из исходных документов, причем исходная сущность (Source Entity) отсутствует в Target Data Graph.
Генерируется кластер исходных графов, связанных с первой исходной сущностью, которые разделяют как минимум два фактологических кортежа (Fact Tuples) с детерминативными отношениями (Determinative Relationship).
Система итеративно разделяет (Iteratively splitting) кластер на множество «корзин» (buckets). Каждая итерация использует отдельное детерминативное отношение, и графы в одной корзине должны иметь одинаковое значение для этого факта.
Система отбрасывает (Discarding) одну или более корзин из кластера.
Генерируется Согласованный граф (Reconciled Graph) путем слияния оставшихся в кластере исходных графов.
На основе Согласованного графа генерируется предложение новой сущности для Target Data Graph.

Claim 8 (Независимый пункт): Описывает метод генерации кандидатов в сущности.

Генерация множества Source Data Graphs для сущности, отсутствующей в Target Data Graph.
Кластеризация графов по имени и типу сущности.
Разделение кластера на корзины на основе множества фактологических кортежей, каждый из которых содержит отдельное детерминативное отношение. Каждая корзина содержит графы, разделяющие имя сущности, детерминативное отношение и объект для этого отношения.
Генерация кандидата в сущности (Candidate Entity) из некоторых корзин.

Claim 14 (Независимый пункт): Описывает метод автоматической идентификации новых сущностей с фокусом на верификации.

Генерация Source Data Graph для потенциальной сущности (отсутствующей в целевом графе).
Кластеризация исходных графов по имени сущности.
Итеративное разделение кластера на корзины на основе множества фактологических кортежей с различными детерминативными отношениями.
Верификация потенциальной сущности с использованием кластера путем подтверждения (Corroborating) как минимум определенного количества (Quantity) детерминативных фактов о ней.
Сохранение верифицированной потенциальной сущности и фактов о ней.

Где и как применяется

Изобретение применяется на этапе построения и расширения Knowledge Graph, который тесно связан с процессом индексирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются исходные документы (Source Documents), которые служат сырьем для анализа.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система выполняет извлечение отношений (Relation Extraction) из проиндексированных документов для генерации потенциальных кортежей (Potential Tuples). Затем активируется ENTITY DISCOVERY ENGINE, который выполняет процесс Graph Reconciliation для верификации извлеченных данных и формирования новых сущностей для Knowledge Graph (Target Data Graph).

Взаимодействие с компонентами:

Система использует Target Data Graph для проверки, является ли сущность новой, и для получения метаданных о предикатах (например, какие из них являются детерминативными). Также проверяется, существуют ли объекты извлеченных фактов в графе, чтобы гарантировать связность новой сущности.

Входные данные:

Текстовые документы и извлеченные из них Potential Tuples с указанием происхождения (Provenance).
Метаданные предикатов из Target Data Graph.

Выходные данные:

Согласованные графы (Reconciled Graphs), представляющие верифицированные новые сущности и факты о них.

На что влияет

Типы контента и сущностей: Влияет на все типы сущностей, которые могут быть описаны в текстовых документах: персоны, организации, места, продукты, события.
Специфические запросы: Особенно сильно влияет на запросы о новых или развивающихся (emerging) сущностях, информация о которых быстро появляется в новостях или блогах.
Ниши и тематики: Влияет на любые ниши, где важна фактологическая точность и существуют четкие детерминативные факты (например, биографии, каталоги продуктов).

Когда применяется

Условия работы: Алгоритм применяется, когда система извлекает факты о сущности, которая, предположительно, отсутствует в Target Data Graph.
Триггеры активации: Наличие достаточного количества исходных документов, упоминающих потенциальную сущность и содержащих факты о ней.
Частота применения: Процесс может выполняться непрерывно или периодически по мере обновления индекса, особенно для документов, которые часто меняются (например, новостные сайты).

Пошаговый алгоритм

Процесс обнаружения новых сущностей с использованием согласования графов.

Этап 1: Подготовка данных

Извлечение данных: Система анализирует исходные документы и извлекает Potential Tuples.
Генерация обратных связей: Для извлеченных кортежей генерируются обратные кортежи (Inverse Tuples), если это применимо для данного предиката.
Создание исходных графов (Source Data Graphs): Кортежи группируются по источнику (документу), типу и имени сущности.

Этап 2: Согласование графов (Graph Reconciliation)

Первичная кластеризация: Source Data Graphs группируются в кластеры по типу и имени исходной сущности.
Итеративное разделение и верификация:
- a. Выбор предиката: Выбирается Discriminative Predicate (детерминативный предикат) из данных в кластере (например, «Дата выхода»).
- b. Разделение на корзины (Buckets): Кластер разделяется на корзины по значению объекта для этого предиката. Графы с одинаковым значением попадают в одну корзину.
- c. Оценка надежности: Корзины, не удовлетворяющие Reliability Threshold, удаляются. Пороги включают минимальное количество графов и требование, чтобы графы происходили из разных доменов (unrelated sources).
- d. Итерация: Шаги a-c повторяются определенное количество раз (например, 2 или 3 раза), каждый раз используя новый Discriminative Predicate.
Слияние и очистка: Графы в оставшихся корзинах считаются верифицированными. Они объединяются в Reconciled Graph. Конфликтующие факты (Conflicting Facts) удаляются.
Финальное слияние (Опционально): Система может объединить Reconciled Graphs с разными именами, но очень схожими свойствами (например, используя Jaccard similarity), если они превышают порог схожести (Similarity Threshold). Это помогает обрабатывать синонимы.
Вывод: Reconciled Graph сохраняется как кандидат на новую сущность для добавления в Target Data Graph.

Какие данные и как использует

Данные на входе

Контентные факторы: Неструктурированный текст из исходных документов. Текстовые строки, представляющие имена сущностей (Entity Name) и значения объектов. Эти данные используются для извлечения кортежей.
Технические факторы: Идентификаторы документов (например, URL) используются для определения происхождения (Provenance). Доменное имя источника критически важно для оценки надежности и подтверждения из независимых источников.
Структурные факторы (Графа): Метаданные предикатов из существующего Target Data Graph. Эти метаданные определяют ожидаемые типы сущностей и указывают, является ли предикат детерминативным.

Какие метрики используются и как они считаются

Determinative Predicate (Метка): Бинарная метка в метаданных предиката, указывающая на отношение «один-к-одному».
Reliability Threshold (Пороги надежности): Конкретные значения для верификации корзин (buckets):
- Минимальное количество Source Data Graphs в корзине (например, больше 1).
- Минимальное количество уникальных доменов (unique domain names). Факты только из одного домена могут быть отброшены.
Quantity of Determinative Facts: Заданное количество итераций разделения кластера. Определяет, сколько детерминативных фактов должно совпадать для верификации сущности (в патенте упоминаются примеры 2 или 3).
Similarity Threshold (Порог схожести): Используется для слияния Reconciled Graphs с разными именами. Может рассчитываться с использованием Jaccard similarity на основе пересечения детерминативных предикатов и их объектов.

Выводы

Автоматизация и масштабирование Knowledge Graph: Патент описывает ключевой механизм, позволяющий Google автоматически расширять свой Граф Знаний в большом масштабе, минимизируя ручной труд.
Точность через подтверждение (Accuracy through Corroboration): Фундаментальный принцип системы — факт не считается достоверным, пока он не подтвержден несколькими независимыми источниками. Простого упоминания на одном сайте недостаточно.
Критическая роль детерминативных фактов: Верификация сущностей строится вокруг Determinative Facts (уникальных идентификаторов). Согласованность этих данных (даты, коды, локации) является обязательным условием для распознавания и принятия сущности.
Разнообразие источников (Provenance Matters): Система явно учитывает происхождение данных. Факты, исходящие только из одного домена или связанных источников, могут быть отброшены механизмом Reliability Threshold, даже если они повторяются много раз.
Обработка конфликтов и неоднозначности: Процесс итеративного разделения на корзины (buckets) предназначен для разрешения конфликтов. Если источники не согласуются по ключевым фактам, сущность не будет верифицирована или будут созданы отдельные сущности.

Практика

Best practices (это мы делаем)

Обеспечение абсолютной консистентности фактов (NAP+W): Гарантируйте, что ключевые данные о вашей сущности (компания, персона, продукт) абсолютно идентичны на вашем сайте и во всех внешних источниках (каталоги, листинги, СМИ, социальные сети). Это критично для успешного прохождения этапа Graph Reconciliation.
Фокус на детерминативных фактах: Четко указывайте уникальные идентификаторы вашей сущности. Для продуктов это GTIN, MPN; для книг — ISBN; для организаций — даты основания, адреса штаб-квартиры. Эти данные используются как ключи для сверки.
Четкое структурирование контента и Schema.org: Помогайте системам извлечения фактов. Используйте семантическую верстку и микроразметку Schema.org для ясного представления отношений Субъект-Предикат-Объект. Это облегчает извлечение и снижает вероятность ошибок интерпретации.
Стимулирование упоминаний в независимых источниках (Digital PR): Активно работайте над тем, чтобы факты о вашей сущности появлялись в авторитетных, независимых источниках. Reliability Threshold требует подтверждения из разных доменов. Чем больше качественных источников подтверждают ваши данные, тем быстрее сущность попадет в Knowledge Graph.

Worst practices (это делать не надо)

Несогласованность данных: Публикация противоречивой информации (например, разные даты основания компании в LinkedIn и на официальном сайте). Это приведет к тому, что система не сможет согласовать графы (Conflicting Facts) и верифицировать сущность.
Манипуляция источниками (Сателлиты/PBN): Попытки создать видимость подтверждения фактов через сеть контролируемых сайтов. Система оценивает независимость источников (unrelated sources) и может отбросить данные, исходящие из одного источника или домена (или группы связанных доменов).
Игнорирование уникальных идентификаторов: Описание компании или продукта только общими маркетинговыми терминами без указания четких Determinative Facts затрудняет идентификацию и верификацию.

Стратегическое значение

Этот патент критически важен для понимания процесса построения Knowledge Graph и стратегий Entity-based SEO. Он подтверждает, что Google отдает приоритет точности и подтвержденной информации. Для SEO-специалистов это означает, что управление репутацией и фактологическим следом сущности в интернете (а не только на своем сайте) является необходимым условием для попадания в KG и управления Knowledge Panels. Это также фундаментальный механизм для оценки E-E-A-T на уровне сущностей.

Практические примеры

Сценарий: Верификация нового автора (Персональная сущность) для E-E-A-T.

Задача: Добиться попадания автора в Knowledge Graph.
Анализ детерминативных фактов: Определяем ключевые факты: Полное имя, Образование (Университет, Год выпуска), Место работы (Компания, Должность), Ключевые публикации (Название, ISBN).
Действия на сайте: Создаем детальную страницу «Об авторе» с использованием Schema.org/Person, четко указывая все факты.
Действия вне сайта (Corroboration):
- Обновляем профили автора на авторитетных площадках (например, LinkedIn, Google Scholar, официальный сайт университета, сайт работодателя), гарантируя 100% совпадение фактов.
- Публикуем статьи или интервью с автором в отраслевых СМИ, где упоминаются его аффилиации и достижения.
Результат (Как работает система): Google извлекает Source Data Graphs из разных доменов. Система проводит Graph Reconciliation, сверяя факты. Так как факты (Образование, Место работы) совпадают и исходят из независимых источников, Reliability Threshold пройден. Автор верифицируется и добавляется в Knowledge Graph.

Вопросы и ответы

Что такое «Детерминативный факт» (Determinative Fact) и почему он так важен?

Детерминативный факт (или предикат) описывает уникальную характеристику сущности, отношение «один-к-одному». Примеры: дата рождения человека, GTIN продукта, дата основания компании, ISBN книги. Они критически важны, потому что система использует их как ключи для сверки информации из разных источников. Если источники не согласуются по этим фактам, верификация сущности не произойдет.

Почему Google требует подтверждения из нескольких источников? Недостаточно ли моего официального сайта?

Это необходимо для обеспечения точности и защиты от манипуляций. Система использует «Порог надежности» (Reliability Threshold), который часто требует, чтобы факты исходили из нескольких независимых доменов (unrelated sources). Информация только с одного сайта (даже официального) может считаться недостаточно надежной для автоматического включения в Knowledge Graph.

Как этот патент влияет на формирование Панели Знаний (Knowledge Panel)?

Патент описывает процесс, с помощью которого сущности и факты попадают в Knowledge Graph, который является основным источником данных для Knowledge Panel. Чтобы панель появилась, ваша сущность должна пройти процесс Graph Reconciliation, описанный здесь: извлечение фактов, сверка по детерминативным предикатам и подтверждение из разных источников.

Что произойдет, если разные источники предоставляют противоречивую информацию о моей компании?

Система попытается разрешить конфликт в процессе разделения на «корзины» (buckets). Если источники противоречат друг другу по детерминативным фактам (например, разные даты основания), графы попадут в разные корзины. Если ни одна из корзин не наберет достаточного веса (Reliability Threshold), сущность может быть не верифицирована. Конфликтующие факты (Conflicting Facts) часто отбрасываются.

Как я могу использовать принципы этого патента для улучшения E-E-A-T?

E-E-A-T тесно связан с тем, насколько хорошо Google понимает и доверяет вашим сущностям (авторам, организации). Применяя принципы патента, вы должны обеспечить максимальную консистентность информации об авторах и компании в сети и стимулировать подтверждение их экспертизы и авторитетности в независимых, трастовых источниках. Это напрямую способствует верификации сущностей и повышению E-E-A-T.

Помогает ли использование Schema.org этому процессу?

В патенте напрямую не упоминается Schema.org, но он описывает извлечение кортежей (Субъект-Предикат-Объект) из документов. Schema.org является эффективным способом предоставить эти кортежи в структурированном виде, что облегчает их извлечение и интерпретацию. Корректное использование разметки повышает шансы, что ваши факты будут правильно извлечены и использованы в процессе согласования.

Сколько фактов должно совпасть для верификации сущности?

Патент указывает, что система итеративно проверяет «определенное количество» (Quantity) детерминативных фактов. В тексте и формуле изобретения (Claim 1) упоминается необходимость совпадения как минимум двух (at least two) фактологических кортежей с детерминативными отношениями. В некоторых реализациях может потребоваться три совпадения.

Что такое «Согласование графов» (Graph Reconciliation) простыми словами?

Это процесс «сверки показаний». Представьте, что Google опросил 10 разных сайтов о «Компании X». Каждый сайт предоставил набор фактов (Source Data Graph). Согласование графов — это когда Google сравнивает эти факты, ищет совпадения по ключевым пунктам (например, дата основания и адрес) и отбрасывает информацию, которую никто больше не подтвердил. То, что осталось и подтверждено несколькими сайтами, становится Согласованным графом (Reconciled Graph).

Применяется ли этот механизм только к новым сущностям?

Основной фокус патента и Claims 1, 8, 14 — это обнаружение сущностей, которых еще нет в Target Data Graph. Однако в описании упоминается, что если сущность уже существует, система может использовать этот же механизм для предложения новых фактов, которых еще нет в графе, при условии их верификации через согласование.

Как система обрабатывает синонимы или разные названия одной и той же сущности?

Патент предусматривает механизм слияния сущностей с разными именами, но общими свойствами. После создания Согласованных графов система может рассчитать их схожесть (например, используя Jaccard similarity) на основе детерминативных фактов. Если схожесть высока, графы объединяются (например, графы для «IBM» и «International Business Machines»).