
Google использует метод "Поиска известного элемента" для надежной идентификации конкретных сущностей (например, научных статей или товаров), даже если исходный запрос содержит ошибки. Система создает несколько запросов с разными комбинациями атрибутов и выполняет их иерархически — от самых точных (например, по DOI/GTIN) к менее точным (по названию/автору). Это позволяет находить нужный объект, игнорируя ошибки в отдельных атрибутах, и используется для сверки данных и каноникализации сущностей.
Патент решает проблему хрупкости традиционных методов поиска конкретных объектов (Known Item Search). Стандартные системы требуют абсолютно точного совпадения всех предоставленных атрибутов (например, в библиографической ссылке или описании товара). Если хотя бы один атрибут содержит ошибку, поиск терпит неудачу. Изобретение направлено на создание устойчивой к ошибкам системы, которая может надежно идентифицировать объект, несмотря на неточности во входных данных.
Запатентован метод робастного (устойчивого к ошибкам) поиска известного элемента. Вместо выполнения одного запроса, требующего совпадения всех атрибутов, система генерирует множество запросов, используя разные подмножества предоставленных данных. Эти запросы организованы в иерархию по точности (Query Type Hierarchy) и выполняются последовательно. Полученные результаты фильтруются на основе их согласованности (consistency) с полным исходным запросом.
Ключевой механизм работы системы:
estimated values) и извлекает пары атрибут-значение.Query Types). Например: Запрос 1 (только Идентификатор); Запрос 2 (Название + Автор); Запрос 3 (Автор + Год).Consistency Check).Высокая. Идентификация и сверка сущностей (Entity Reconciliation) критически важны для работы Knowledge Graph, Google Scholar и Google Shopping. Учитывая, что одним из изобретателей является Anurag Acharya (основатель Google Scholar), этот метод, вероятно, лежит в основе обработки научных публикаций, верификации цитирований и сопоставления товаров, где необходимо обрабатывать большие объемы зашумленных данных.
Патент имеет высокое значение для SEO (80/100), особенно в области Entity SEO, E-commerce и продвижения структурированного контента. Он описывает инфраструктурный механизм, с помощью которого Google идентифицирует и каноникализирует сущности. Понимание этого механизма критично для обеспечения корректного учета и отображения объектов (товаров, статей) в специализированных вертикалях поиска и панелях знаний.
Known Item. Содержит информацию о его атрибутах.Lookup Request. Называется "предполагаемым", так как система допускает, что оно может содержать ошибки.Query Types в порядке убывания их точности (precision) или способности уникально идентифицировать Known Item.Candidate Item соответствуют Estimated Values из исходного запроса.Claim 1 (Независимый пункт): Описывает базовый метод поиска известного элемента.
Lookup Request с предполагаемыми значениями атрибутов.Estimated Attribute-Value Pairs.Predefined Query Types. Каждый запрос имеет позицию в Query Type Hierarchy.Candidate Items путем выполнения запросов в соответствии с этой иерархией.Ядро изобретения — использование множества запросов и иерархии их выполнения. Это обеспечивает устойчивость к ошибкам: если атрибут, используемый в точном запросе (высоко в иерархии), неверен, система переходит к менее точному запросу (ниже в иерархии), который может не включать ошибочный атрибут, и все равно находит объект.
Claim 6 (Зависимый от 1): Уточняет структуру иерархии.
Типы запросов позиционируются в Query Type Hierarchy в порядке убывания точности (decreasing precision) их способности уникально идентифицировать известные элементы.
Система предпочитает идентификацию по наиболее надежным и уникальным атрибутам. Запрос по уникальному идентификатору (DOI, GTIN, ISBN) будет находиться выше в иерархии, чем запрос по названию или автору.
Claim 12 (Зависимый от 11): Описывает процесс фильтрации (filtering) кандидатов после их идентификации.
Candidate Item определяются его реальные пары атрибут-значение.predefined criteria) относительно предполагаемых пар из запроса.Это механизм проверки согласованности (Consistency Check). Если кандидат найден по одному атрибуту (например, по названию), система валидирует его, проверяя, совпадают ли другие его атрибуты (например, автор, год) с тем, что было указано в исходном запросе.
Claim 16 (Зависимый от 1): Детализирует процесс иерархического выполнения запросов (Каскадный поиск).
predefined count).Система работает каскадно. Она пытается найти объект самым точным способом и прибегает к менее точным методам только в случае неудачи (failover).
Этот патент описывает специализированный сервис или модуль поиска (Known Item Lookup Module), который используется для идентификации и сверки сущностей (Entity Reconciliation). Он не является частью стандартного ранжирования веб-страниц, но критически важен для инфраструктуры Google.
CRAWLING и INDEXING – Сканирование и Индексирование
Crawler Module сканирует источники (сайты издательств, интернет-магазины). На этапе индексирования извлекаются атрибуты (метаданные) элементов, которые сохраняются в базе данных известных элементов (Database 114-a).
QUNDERSTANDING / Specialized Lookup Service
Основное применение патента. Known Item Lookup Module принимает запрос от клиента (которым может быть основной поисковый движок, Google Scholar, система обработки фидов Merchant Center или внешний сервис) и выполняет процесс идентификации сущности.
Estimated Attribute-Value Pairs из запроса (структурированного или неструктурированного).Consistency Criteria для валидации кандидатов.Входные данные:
Lookup Request (структурированный или неструктурированный текст).Query Type Hierarchy.Выходные данные:
Known Item (каноническая сущность).online publications (научные статьи, книги), товары онлайн-вендоров, изображения, аудиозаписи, мультимедиа объекты, записи баз данных.Known Item Search).Knowledge Graph.Алгоритм применяется, когда системе необходимо точно идентифицировать конкретную сущность на основе набора предоставленных атрибутов, которые могут содержать ошибки.
Триггеры активации:
Entity Reconciliation).Lookup Request. Он парсится для определения Estimated Attribute-Value Pairs. Парсинг может использовать предопределенную структурную информацию (теги) или автоматическое распознавание атрибутов из неструктурированного текста (например, анализ формата цитаты MLA).Predefined Query Types.Query Type Hierarchy (наиболее точные), для которых есть данные в запросе (например, запрос по DOI).Candidate Items (сравнивается с predefined count).Candidate Item его реальные атрибуты сравниваются со всеми Estimated Attribute-Value Pairs из исходного запроса.high degree of certainty), возвращается только он.Патент фокусируется на использовании метаданных объекта для его идентификации.
Estimated Values для атрибутов известного элемента. Для научных публикаций это: Автор (author attribute), Название (title attribute), Том (volume attribute), Выпуск (issue attribute), Страницы (page attribute), Дата публикации (publication date attribute).unique object identifier, например, DOI, ISBN). Для товаров или медиа используются соответствующие идентификаторы (GTIN, ISRC).Primary URL, Secondary URL) может использоваться для корреляции разных экземпляров одного и того же элемента, найденных в разных местах.Query Type Hierarchy. Определяет способность типа запроса уникально идентифицировать элемент. Подразумевается, что Точность(Идентификатор) > Точность(Название) > Точность(Автор+Дата).high precision) и проверяются в первую очередь. Название, авторы/бренды и даты используются как вторичные идентификаторы.Query Type Hierarchy) с разными комбинациями атрибутов, что позволяет найти объект, даже если часть данных неверна.predefined criteria).Knowledge Graph и функционирования специализированных поисковых вертикалей (Scholar, Shopping).Query Type, который имеет наивысший приоритет в Query Type Hierarchy и обеспечивает быструю и точную идентификацию.Product, ScholarlyArticle и т.д.) необходимо максимально полно заполнять все доступные атрибуты в микроразметке. Чем полнее данные, тем больше типов запросов система сможет сгенерировать, что повышает надежность идентификации и валидации (Consistency Check).Degree of Certainty при идентификации элемента.Known Item Lookup Module для верификации цитирований и агрегации показателей, даже если сторонние сайты цитируют вас с ошибками.Query Types, что может привести к ошибкам в сопоставлении.Consistency Check предназначен для выявления таких несоответствий и отфильтрует объект, если его атрибуты противоречивы.Query Types для идентификации вашего контента.Патент детально описывает инфраструктуру для Entity Reconciliation — процесса сверки и объединения разрозненных данных об одном и том же объекте. Это подтверждает стратегический фокус Google на точном понимании сущностей. Для SEO это означает, что критически важно обеспечить максимально точное, полное и стандартизированное описание ключевых сущностей сайта (товаров, статей, организаций), используя уникальные идентификаторы, чтобы гарантировать их корректное распознавание, каноникализацию и представление в поиске.
Сценарий: Идентификация товара в E-commerce с ошибкой в GTIN
Known Item, несмотря на ошибку в предоставленном GTIN.Как этот патент влияет на работу с микроразметкой Schema.org?
Он подчеркивает критическую важность точного и полного заполнения микроразметки для ключевых сущностей (Product, Article, Book и т.д.). Система использует эти атрибуты для формирования запросов. Чем полнее данные, тем больше типов запросов (Query Types) система сможет сгенерировать, что повышает вероятность правильной идентификации объекта, даже если часть данных на сайте или в запросе пользователя окажется неверной.
Что важнее для идентификации товара: GTIN или комбинация названия и бренда?
Согласно патенту, система использует Query Type Hierarchy, где типы запросов ранжируются по убыванию точности. Уникальные идентификаторы (такие как GTIN) обеспечивают наивысшую точность. Поэтому запрос по GTIN будет выполнен в первую очередь. Комбинация названия и бренда менее точна и будет использована, только если запрос по GTIN не даст результатов (например, если GTIN не указан или указан с ошибкой).
Может ли эта система объединить дубликаты страниц товаров или статей?
Да, это одно из основных применений. Патент описывает механизм Entity Reconciliation. Когда краулер находит контент на разных URL, система использует этот метод, чтобы определить, являются ли они экземплярами одного и того же Known Item. Если идентификация успешна, система может связать эти URL (упоминаются Primary URL и Secondary URL) с одной канонической сущностью.
Как этот патент связан с Google Scholar?
Связь прямая и критическая. Один из изобретателей — Anurag Acharya, основатель Google Scholar. Описанный метод используется для обработки научных цитат, которые часто содержат ошибки. Система позволяет идентифицировать цитируемую статью, несмотря на неточности в библиографии, что необходимо для корректного подсчета индексов цитирования и объединения разных версий одной статьи.
Что такое "Иерархия типов запросов" (Query Type Hierarchy) и как она выглядит на практике?
Это ранжированный список способов идентификации объекта, от самого точного к самому общему. На практике для научной статьи это может выглядеть так: 1. Запрос по DOI (самый точный). 2. Запрос по точному Названию. 3. Запрос по Авторам + Году публикации. 4. Запрос по Авторам + Тому + Странице. Система выполняет их последовательно сверху вниз.
Как работает "проверка согласованности" (Consistency Check)?
Это этап фильтрации. Если система нашла кандидата по одному набору атрибутов, она проверяет, совпадают ли остальные атрибуты кандидата с исходным запросом. Например, если статья найдена по названию, система проверит авторов и год. При этом допускаются небольшие расхождения (например, год публикации в пределах +/- 5 лет), если это предусмотрено Consistency Criterion.
Означает ли этот патент, что можно не беспокоиться о точности данных на сайте?
Нет. Хотя система разработана для устойчивости к ошибкам, точность данных критически важна. Точные данные, особенно уникальные идентификаторы, позволяют системе идентифицировать объект быстро и с высокой степенью уверенности (high degree of certainty) на верхних уровнях иерархии. Неточные данные снижают уверенность и могут привести к ошибкам идентификации или игнорированию объекта.
Влияет ли этот механизм на ранжирование в основном поиске Google?
Прямого влияния на ранжирование "синих ссылок" патент не описывает. Однако он играет ключевую роль в построении и верификации Knowledge Graph. Корректная идентификация сущностей (авторов, организаций, товаров, статей) позволяет Google лучше понимать контент и авторитетность источников, что косвенно влияет на ранжирование через сигналы E-E-A-T и представление в SERP Features (Knowledge Panels, Carousels).
Как система обрабатывает неструктурированные запросы, например, обычный текст цитаты?
Патент предусматривает автоматическое определение атрибутов без использования предопределенной структурной информации. Для цитат система может анализировать ожидаемый формат (например, MLA). Она распознает шаблоны (например, текст в кавычках как название, текст в скобках как год) для извлечения Attribute-Value Pairs из неструктурированной строки.
Какие атрибуты наиболее важны для научных статей согласно патенту?
Патент явно выделяет следующий набор атрибутов для онлайн-публикаций: Уникальный идентификатор (например, DOI), Автор, Название, Том журнала, Выпуск журнала, Страница и Дата публикации. Из них уникальный идентификатор обеспечивает наивысшую точность идентификации.

Семантика и интент
Knowledge Graph
SERP

Семантика и интент
Мультимедиа
Индексация

Индексация
Краулинг
Семантика и интент

Google Shopping

Семантика и интент
Поведенческие сигналы
EEAT и качество

Ссылки
Антиспам
SERP

Ссылки
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

EEAT и качество
SERP
Knowledge Graph

Поведенческие сигналы
Персонализация
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Knowledge Graph
Семантика и интент
Персонализация

SERP
Поведенческие сигналы
EEAT и качество

Семантика и интент
SERP
Персонализация
