
Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.
Патент решает проблему идентификации и объединения дублирующихся объектов (duplicate objects), представляющих одну и ту же реальную сущность, в большой и гетерогенной коллекции данных (например, в Fact Repository или Knowledge Graph). Проблема усугубляется тем, что сущности могут иметь разные названия, неполные или противоречивые атрибуты, а также тем, что традиционные методы дедупликации (например, по ISBN для книг) не работают для разнородных данных. Изобретение направлено на повышение точности и полноты базы знаний и снижение вычислительных затрат на ее обработку.
Запатентована система и метод для разрешения сущностей (Entity Normalization), который использует агрессивную нормализацию имен в качестве первого шага для эффективной группировки потенциальных дубликатов. Суть изобретения заключается в двухэтапном подходе: сначала система стандартизирует имена и группирует объекты с одинаковыми нормализованными именами (Bucketing), а затем применяет механизм сравнения (Matcher) к парам объектов внутри этих групп, используя другие атрибуты для подтверждения идентичности.
Система работает следующим образом:
Signature). Объекты с одинаковыми сигнатурами группируются в 'корзины' (Buckets).merged).Критически высокая. Разрешение сущностей (Entity Resolution) является фундаментальной задачей для поддержания качества и точности Google Knowledge Graph. Описанные механизмы нормализации и дедупликации лежат в основе того, как Google понимает сущности (бренды, людей, продукты) и консолидирует информацию о них из разных источников в интернете. Этот процесс постоянно используется и развивается.
Патент имеет критическое значение (9/10) для SEO, особенно в контексте Entity SEO и оптимизации под Knowledge Graph. Он раскрывает конкретные механизмы, которые Google использует для идентификации и консолидации сущностей. Понимание этого процесса позволяет SEO-специалистам понять, почему необходима абсолютная консистентность данных (NAP, Schema.org) и как наличие уникальных, подтверждаемых фактов помогает Google правильно идентифицировать и выделять сущность.
Object ID.Fact Repository.object merging). Описанный в патенте алгоритм реализуется именно в Janitor.Normalization Rules к именам объектов.Buckets.Claim 1 (Независимый пункт): Описывает основной метод идентификации дубликатов объектов, созданных на основе фактов, извлеченных из веб-документов.
Name Fact.Buckets в соответствии с их нормализованными именами.Bucket применяется Matcher для определения, являются ли они дубликатами.Ключевой аспект: группировка основана на имени, а финальное сравнение (Matcher) учитывает другие факты (в патенте указано, что один из объектов пары имеет факт, не являющийся общим для пары, что подразумевает сравнение по совокупности фактов).
Claim 2, 3, 4, 5 (Зависимые): Детализируют процесс нормализации имен.
Это указывает на очень агрессивную стратегию нормализации, направленную на приведение самых разных вариантов написания имени к единому стандарту.
Claim 6 (Зависимый): Детализирует процесс группировки.
Signature на основе нормализованного имени. Сигнатуры для дубликатов должны быть идентичны, даже если исходные факты различаются.Bucket, идентифицируемую этой сигнатурой.Это подтверждает, что нормализация имени является ключевым механизмом для предварительной кластеризации потенциальных дубликатов.
Claim 7, 8 (Зависимые): Детализируют работу Matcher.
similarity measure) (Claim 7).Это подчеркивает, что хотя имя используется для группировки, окончательное решение об идентичности сущностей принимается на основе других подтверждающих фактов.
Изобретение применяется на этапе построения и поддержания базы знаний (Knowledge Graph), используя данные, извлеченные из интернета.
CRAWLING – Сканирование и Сбор данных
Система собирает веб-документы (web documents), которые служат источником для извлечения фактов.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента, связанный с построением Knowledge Graph.
Janitor выполняет процесс Entity Normalization, описанный в патенте. Он анализирует созданные объекты, нормализует их имена, группирует и применяет Matcher для выявления и объединения дубликатов.Результатом этого этапа является очищенный и консолидированный Fact Repository (Knowledge Graph), где каждая сущность реального мира представлена одним уникальным объектом.
RANKING / METASEARCH
Хотя патент напрямую не описывает ранжирование, результаты его работы (консолидированный Knowledge Graph) активно используются на этих этапах для формирования Knowledge Panels, обогащения сниппетов и понимания связи между сущностями, что влияет на ранжирование.
Входные данные:
Name Fact.Выходные данные:
merged objects), консолидирующие факты из дубликатов.data processing) после того, как факты были извлечены Importers и перед тем, как они будут использованы для ответов на запросы пользователей. Это часть процесса построения и обновления индекса/базы знаний.Fact Repository.Процесс идентификации дублирующихся объектов (Entity Normalization):
Name Fact) и применяет к нему Normalizer. Signature на основе его нормализованного имени (например, путем удаления пробелов).Buckets. Объекты с одинаковой сигнатурой помещаются в одну 'корзину'. Объекты с пустой сигнатурой (например, если имя состояло только из стоп-слов) могут игнорироваться.Matcher.Matcher анализирует общие факты (Common Facts) – факты с одинаковыми атрибутами (кроме имени).Matcher принимает решение о совпадении на основе количества схожих и различающихся общих фактов (например, если схожих фактов больше, чем различающихся).Matcher определил совпадение, идентифицируются как дубликаты.Патент фокусируется на использовании атрибутов объектов для их нормализации.
Matcher).Патент не приводит конкретных формул, но описывает используемые метрики и методы:
Matcher для сравнения значений фактов. Упоминаются: Signature) используется только для эффективной группировки потенциальных дубликатов (Bucketing). Оно не используется для принятия финального решения об идентичности.Matcher на основе схожести других фактов (адрес, дата рождения, телефон и т.д.). Наличие консистентных и подтверждаемых фактов является решающим фактором.Matcher мог подтвердить идентичность сущности.Organization, Person, Product, LocalBusiness. Используйте свойство sameAs для связи с авторитетными источниками (Wikipedia, Wikidata, официальные реестры). Это предоставляет Matcher четкие и однозначные факты для сравнения.alternateName.Matcher объединить объекты.Патент подтверждает стратегическую важность Entity SEO. Понимание того, как Google видит и консолидирует сущности, является основой для построения авторитетности и видимости в современном поиске. Стратегия должна быть направлена на создание четкого, консистентного и взаимосвязанного цифрового следа для ключевых сущностей (бренд, авторы, продукты). Этот патент показывает, что Google технически оснащен для решения сложных задач по дедупликации, и успех зависит от качества и согласованности данных, предоставляемых вебмастерами и SEO-специалистами.
Сценарий: Консолидация бренда с несколькими вариантами написания
Компания работает под брендом 'Acme Dynamics', но её часто называют 'Acme' или 'Acme Dyn. Corp.'.
Bucket.Matcher сравнивает адреса, телефоны, URL сайтов, указанные в источниках.alternateName и указав основные факты (Address, Phone).Matcher видит высокое сходство фактов (идентичные NAP/URL) и уверенно объединяет все варианты в одну сильную сущность 'Acme Dynamics'.Как Google решает, какие именно правила нормализации применять к имени?
Патент перечисляет множество возможных правил (удаление титулов, стоп-слов, сортировка и т.д.). Конкретный набор и порядок применения правил, вероятно, определяется системой динамически и может зависеть от языка и контекста. Важно понимать, что система стремится к максимально агрессивной нормализации, чтобы найти как можно больше потенциальных совпадений на этапе группировки.
Что такое 'алфавитная сортировка' слов в имени и зачем она нужна?
Это одно из правил нормализации, при котором слова в имени сортируются по алфавиту. Например, 'Henry, John' и 'John Henry' после удаления запятой и сортировки станут 'Henry John'. Это позволяет системе стандартизировать имена независимо от того, указано ли сначала имя или фамилия, что особенно полезно при обработке данных из разных культурных и языковых источников.
Если две разные компании имеют одинаковое название, как Google их различает?
В этом случае обе компании пройдут этап нормализации и попадут в одну 'корзину' (Bucket), так как их сигнатуры совпадут. Однако на этапе сравнения (Matcher) система проанализирует другие факты: адреса, телефоны, URL сайтов, сферу деятельности. Если эти факты различаются, Matcher определит, что это разные сущности, и не будет их объединять.
Насколько важна консистентность NAP (Name, Address, Phone) в свете этого патента?
Консистентность NAP критически важна. Поскольку имя используется для предварительной группировки, именно совпадение адреса и телефона (а также URL сайта) является основным сигналом для Matcher при принятии решения об объединении сущностей. Несоответствия в NAP могут привести к тому, что Google не сможет консолидировать информацию о вашем бренде.
Как этот патент связан с Schema.org разметкой?
Разметка Schema.org является одним из основных источников данных для Fact Repository. Предоставляя четкие и структурированные факты через Schema.org, вы напрямую 'кормите' Matcher данными, необходимыми для правильной идентификации и дедупликации вашей сущности. Это значительно повышает шансы на корректное формирование Knowledge Graph.
Что произойдет, если у сущности нет имени или оно состоит только из стоп-слов?
Патент указывает, что если нормализованное имя пустое, система может сгенерировать пустую сигнатуру (null signature). Объекты с пустой сигнатурой обычно не помещаются в 'корзины' и, следовательно, не участвуют в процессе сравнения и объединения. Это означает, что такие сущности будет крайне сложно идентифицировать и консолидировать.
Может ли система ошибочно объединить две разные сущности?
Да, это возможно, особенно если у сущностей совпадают нормализованные имена и есть значительное пересечение в других фактах (например, два человека с одинаковым именем родились в один день, но в разные годы). Чтобы минимизировать этот риск, необходимо насыщать свои сущности максимальным количеством уникальных и проверяемых фактов, которые помогут Matcher их различить.
Как обрабатываются инициалы в именах людей?
Патент явно упоминает правило удаления однобуквенных слов (single-letter-word removal rule). Это означает, что инициалы (например, 'W.' в 'John W. Henry') скорее всего будут удалены на этапе нормализации имени. Поэтому не стоит полагаться на инициалы для дифференциации сущностей; лучше использовать полные имена.
Что важнее для объединения: количество совпадающих фактов или их качество?
Патент предполагает, что важен баланс. Упоминается критерий, основанный на сравнении количества схожих и различающихся общих фактов. Однако логично предположить, что разные атрибуты могут иметь разный вес (например, совпадение уникального идентификатора или адреса может быть важнее совпадения примерного года основания).
Как обрабатываются титулы, такие как 'Dr.' или 'President'?
Патент явно указывает на использование правил удаления социальных (social-titles removal) и почетных (honorific-titles removal) титулов. Титулы удаляются на этапе нормализации, чтобы стандартизировать имя. Например, 'President Joe Biden' и 'Joe Biden' будут нормализованы до одного и того же значения.

Knowledge Graph
Local SEO

Семантика и интент
SERP
Индексация

Knowledge Graph
Семантика и интент
Индексация

Knowledge Graph
Семантика и интент
Ссылки

Knowledge Graph
Семантика и интент
SERP

Ссылки
Мультиязычность
Семантика и интент

Поведенческие сигналы

Техническое SEO
SERP
Ссылки

EEAT и качество
Ссылки

Поведенческие сигналы
SERP
Антиспам

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
SERP
Антиспам

Local SEO
Семантика и интент
Поведенческие сигналы

EEAT и качество
SERP
Поведенческие сигналы

Семантика и интент
Персонализация
EEAT и качество
