
Google использует этот механизм для определения того, относятся ли разные записи данных к одной и той же сущности (Entity Resolution). Система находит потенциальные совпадения через общие идентификаторы (например, телефон или email), а затем применяет нечеткое сравнение строк (Fuzzy Matching) и анализ конфликтов, чтобы объединить записи. Это критически важно для Knowledge Graph и Local SEO.
Патент решает фундаментальную проблему управления данными: дедупликацию и разрешение сущностей (Entity Resolution). Задача состоит в том, чтобы автоматически определить, когда две разные записи в базе данных (например, извлеченные из разных источников в интернете), содержащие частичную или немного отличающуюся информацию, на самом деле относятся к одному и тому же объекту реального мира (человеку, компании, месту). Это необходимо для повышения качества данных и построения точных баз знаний.
Запатентован метод для идентификации дублирующихся записей (Duplicate Entries). Система использует двухэтапный подход: (1) эффективное выявление кандидатов на совпадение путем хеширования значений полей и поиска коллизий (совпадающих хешей); (2) детальный анализ конфликтов (Conflict Detection) с применением правил типизации полей и алгоритмов нечеткого сравнения строк (Fuzzy Matching), чтобы подтвердить возможность объединения записей.
Ключевой механизм работает следующим образом:
Hamming Distance, Sequence Alignment), чтобы определить, являются ли различия незначительными (опечатки, аббревиатуры) или критическими.Высокая. Хотя патент подан в 2011 году, разрешение сущностей (Entity Resolution) остается критически важной задачей для Google. Построение и поддержка Knowledge Graph, обработка данных локального поиска (Local Search) и идентификация авторов (E-E-A-T) напрямую зависят от способности системы точно объединять разрозненную информацию из множества источников, используя подобные техники.
Патент имеет высокое значение для SEO (7/10), особенно в контексте Entity-based SEO, Local SEO и E-E-A-T. Он не описывает алгоритмы ранжирования, но раскрывает инфраструктурные механизмы, которые Google использует для сверки и объединения данных о сущностях. Понимание этих механизмов подчеркивает критическую важность консистентности данных (например, NAP) и использования структурированных данных (Schema.org) для обеспечения корректного формирования профиля сущности в Knowledge Graph.
Hash Value. Это указывает на точное совпадение значения и является триггером для проверки на дублирование.Non-blank Field Values).Sequence Alignment). Используется для измерения степени схожести строк разной длины (например, сокращенных и полных имен).Fuzzy Matching).Claim 1 (Независимый пункт): Описывает основной метод идентификации дубликатов.
set of entries).hash value) для непустых полей.Field Type), который не может содержать несколько разных значений для одной записи (например, Имя).Sequence Alignment) между значениями этого типа поля в первой и второй записях.sequence alignment threshold), то есть значения достаточно похожи.Claim 10 (Зависимый): Детализирует условие отсутствия конфликта, когда значения полей различны.
Если записи имеют разные значения для определенного типа поля, конфликт отсутствует, если система определяет, что этот тип поля допускает наличие нескольких значений в одной записи (например, несколько телефонных номеров или email-адресов).
Claim 11 (Зависимый): Детализирует альтернативный метод определения отсутствия конфликта с использованием Hamming Distance.
Вычисляется расстояние Хэмминга между значениями полей. Если расстояние меньше порогового значения (Hamming distance threshold), конфликт отсутствует (например, при наличии опечаток).
Claim 12 (Зависимый): Уточняет, что для расчета Sequence Alignment может использоваться алгоритм Needleman-Wunsch.
Claim 25 (Зависимый): Вводит специальное правило для обработки конфликтов.
Система проверяет, что поле не содержит подстроки «&» или «and» только в одной из двух сравниваемых записей. Это направлено на предотвращение ошибочного слияния индивидуальных и групповых записей (например, «Jenny Baker» и «Tom & Jenny Baker»).
Изобретение применяется на этапе обработки и структурирования данных, критически важном для построения базы знаний.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Когда поисковая система извлекает данные о сущностях (Entity Extraction) из веб-страниц, она должна выполнить процесс разрешения сущностей (Entity Resolution). Описанный механизм используется для:
Knowledge Graph.Входные данные:
set of entries).Field Types (допустимость множественных значений).Выходные данные:
single entry) о сущности.Entities) — компаниях (Local SEO), людях (E-E-A-T, авторы), продуктах (E-commerce).Schema.org).Knowledge Graph).Collision) — когда две разные записи имеют как минимум одно идентичное значение ключевого поля (анкоря), например, одинаковый телефон, email или URL.non-blank field values) вычисляются Hash Values.Field Type множественные значения. Если да, конфликта нет.Field Type требует уникальности (например, Имя), система вычисляет метрики схожести: Thresholds). Если схожесть достаточна, конфликт игнорируется.Патент фокусируется на обработке структурированных или полуструктурированных данных.
Field Types) и значениями (Field Values). Это могут быть данные из баз данных, микроразметки Schema.org, каталогов.Hamming Distance Threshold. Если расстояние меньше порога, строки считаются похожими.Sequence Alignment Threshold. Если оценка выравнивания выше порога, строки считаются похожими.Entity Resolution).@id и sameAs в Schema.org). Это обеспечивает надежные точки привязки для Collision Detection и гарантирует, что Google точно сопоставит записи.Sequence Alignment, стандартизация снижает риск ошибок интерпретации и повышает уверенность системы.Entity Resolution, так как теряются стабильные анкоря для хеш-коллизий.Патент подтверждает фундаментальную важность разрешения сущностей (Entity Resolution) для построения Knowledge Graph. В эру Entity-based SEO предоставление Google четких, непротиворечивых и легко сопоставимых данных является ключом к авторитетности и видимости. Долгосрочная стратегия должна включать управление цифровым следом бренда (Digital Footprint Management), гарантируя, что все упоминания во всех источниках могут быть корректно объединены Google в единый, авторитетный профиль сущности.
Сценарий: Разрешение сущности локального бизнеса (Entity Resolution в Local SEO)
Sequence Alignment), превышающее порог. Конфликт не обнаружен.Как этот патент связан с Knowledge Graph и разрешением сущностей (Entity Resolution)?
Этот патент описывает технологию, которая является фундаментальной для построения Knowledge Graph. Когда Google находит информацию о сущности (компании, человеке) из разных источников, он использует эти механизмы (хеширование, анализ конфликтов, нечеткое сравнение), чтобы понять, что все эти фрагменты данных относятся к одному и тому же объекту, и объединить их в единую запись. Это и есть процесс Entity Resolution.
Насколько важна консистентность NAP (Имя, Адрес, Телефон) в Local SEO в контексте этого патента?
Критически важна. Патент показывает, что процесс объединения запускается при обнаружении точного совпадения (Collision) хотя бы одного поля (например, телефона). Затем система проверяет схожесть Имени и Адреса. Если данные сильно различаются и не проходят пороги нечеткого сравнения, Google может посчитать их конфликтующими, что помешает корректному объединению сигналов ранжирования.
Может ли Google объединить две записи, если в них нет ни одного точно совпадающего поля?
Согласно описанному механизму (Claim 1), нет. Алгоритм требует наличия коллизии хешей (точного совпадения значения поля) как триггера для запуска детального анализа конфликтов. Если все поля отличаются, система не будет рассматривать эти записи как потенциальные дубликаты в рамках данного патента.
Как Google обрабатывает опечатки или небольшие вариации в названиях и адресах?
Система использует техники нечеткого сравнения (Fuzzy Matching). Если система обнаружила совпадение по другому полю (например, телефону), она анализирует различия в названиях с помощью Hamming Distance (для опечаток) или Sequence Alignment (для вариаций). Если схожесть высока (превышает порог), различия игнорируются, и записи объединяются.
Что такое алгоритм Нидлмана-Вунша (Needleman-Wunsch) и зачем он нужен?
Это алгоритм для вычисления глобального выравнивания последовательностей (Sequence Alignment). Он позволяет измерять схожесть строк разной длины, учитывая вставки и удаления символов. В контексте SEO он используется для сопоставления сложных вариаций, например, названий компаний с разными приставками («ООО Ромашка» vs «Ромашка Плюс») или имен авторов («Бен Смит» vs «Бенджамин Смит»).
Если у компании несколько телефонных номеров или адресов, вызовет ли это конфликт при индексации?
Нет. Патент явно учитывает (Claim 10), что система знает, какие типы полей (Field Types) допускают множественные значения. Наличие разных телефонных номеров или дополнительных адресов в двух записях не считается конфликтом, если ключевые идентификаторы (например, Имя) совпадают или достаточно схожи.
Что произойдет, если два разных бизнеса используют один и тот же номер телефона (например, общий офис)?
Система обнаружит коллизию по номеру телефона. Затем она проанализирует конфликты в Именах и Адресах. Если названия сильно различаются (схожесть ниже порога Sequence Alignment), система определит наличие конфликта и не будет объединять эти записи, признав их разными сущностями, несмотря на общий телефон.
Как система обрабатывает названия, содержащие «и» или «&»?
Патент включает специальное правило (Claim 25). Если одна запись содержит «&» или «and», а другая нет, система распознает это как потенциальный конфликт. Это сделано для предотвращения ошибочного слияния записи об одном человеке или компании с записью о группе (например, «Иванов» и «Иванов и Петров»).
Как использование микроразметки Schema.org связано с этим патентом?
Schema.org предоставляет данные в идеальном для этого алгоритма формате: структурированном виде с четкими типами полей (Field Types) и значениями (Field Values). Это значительно упрощает для Google извлечение, хеширование и сравнение данных, повышая точность разрешения сущностей (Entity Resolution).
Влияет ли этот патент на ранжирование веб-страниц?
Прямого влияния на алгоритмы ранжирования патент не оказывает. Однако он критически важен для процесса понимания контента и авторитетности. Корректное разрешение сущностей позволяет Google агрегировать сигналы авторитетности (ссылки, упоминания, E-E-A-T) вокруг канонической записи в Knowledge Graph, что косвенно влияет на ранжирование контента, связанного с этой сущностью.

Knowledge Graph

Семантика и интент
Ссылки
Knowledge Graph

Knowledge Graph
Семантика и интент
SERP

SERP
Семантика и интент
EEAT и качество

Local SEO
Индексация
SERP

Local SEO
Ссылки
SERP

Ссылки
SERP
Структура сайта

Семантика и интент
Персонализация
Поведенческие сигналы

Свежесть контента
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
SERP
Мультимедиа

Local SEO
Поведенческие сигналы

Ссылки
Структура сайта
Семантика и интент

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа
