Как Google использует специальный язык запросов для поиска в базе структурированных фактов (Knowledge Graph)

Патент Google, описывающий специализированный язык запросов для поиска в «Хранилище фактов» (Fact Repository), основе Knowledge Graph. Система позволяет выполнять точные запросы к полуструктурированным данным (пары Атрибут-Значение), используя специальные операторы для ограничения поиска на уровне факта или поля, и учитывает метрики достоверности и важности для ранжирования сущностей.

Описание

Какую задачу решает

Патент решает проблему эффективного поиска в масштабных коллекциях полуструктурированных данных (semi-structured data), таких как Fact Repository (предшественник или основа Knowledge Graph). В отличие от SQL, который требует знания точной схемы базы данных, и стандартного веб-поиска, который работает с неструктурированным текстом, это изобретение предлагает язык запросов, адаптированный для данных, организованных в виде фактов (Атрибут-Значение), связанных с Объектами (Сущностями), где набор атрибутов является гибким и не всегда известен заранее.

Что запатентовано

Запатентован язык запросов (Query Language) и система для поиска в Fact Repository. Изобретение определяет синтаксис и операторы ограничения (restriction operators), которые позволяют точно контролировать область поиска: должны ли термины находиться в пределах одного факта (Fact restriction) или в пределах одного поля (Field restriction — Атрибут или Значение). Система ищет совпадения как в значениях, так и в названиях атрибутов.

Как это работает

Система работает на базе Fact Repository, где факты хранятся в формате Объект-Атрибут-Значение, дополненные метриками Confidence (достоверность) и Importance (важность).

Индексирование: Атрибуты и Значения всех фактов индексируются для быстрого поиска.
Обработка запроса: Service Engine получает и парсит запрос. Язык поддерживает специальный синтаксис: например, [] для ограничения одним фактом, {} для ограничения одним полем, [A:B] для поиска пары Атрибут:Значение.
Поиск и Фильтрация: Система ищет термины в индексе (как в Атрибутах, так и в Значениях) и применяет операторы ограничения для точной фильтрации результатов.
Ранжирование: Объекты ранжируются на основе релевантности их фактов, скорректированной с учетом метрик Confidence и Importance.
Результат: Система возвращает Объекты (Сущности), соответствующие условиям запроса.

Актуальность для SEO

Высокая. Патент описывает фундаментальную архитектуру и логику запросов к базе знаний Google. Извлечение, хранение (в виде Атрибут-Значение) и поиск структурированных фактов о сущностях являются ядром современного поиска (Knowledge Graph, Knowledge Panels, E-E-A-T). Понимание этой структуры критически важно для Entity SEO.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он раскрывает, как именно Google хранит, структурирует и извлекает фактическую информацию о сущностях. Это не инструкция по ранжированию в веб-поиске, но это blueprint того, как оптимизировать информацию для попадания в Knowledge Graph. Понимание модели «Объект-Атрибут-Значение» и роли метрик достоверности (Confidence) и важности (Importance) критично для долгосрочной стратегии.

Детальный разбор

Термины и определения

Attribute (Атрибут): Поле в структуре факта, описывающее тип информации или отношение. Например, «Date of Birth» или «CEO».
Confidence Level (Уровень достоверности): Метрика факта (Metric), указывающая на вероятность того, что факт корректен. Используется при ранжировании.
Fact (Факт): Единица информации в репозитории. Состоит из Атрибута и Значения, ассоциирован с Объектом. Также включает метрики и источники.
Fact Repository (Репозиторий фактов): Хранилище полуструктурированных данных, извлеченных из различных источников. Основа для Knowledge Graph.
Fact Restriction Operator (Оператор ограничения на уровне факта): Оператор (в патенте пример: []), требующий, чтобы заключенные в него термины находились в пределах одного факта (но не обязательно в одном поле).
Field Restriction Operator (Оператор ограничения на уровне поля): Оператор (в патенте пример: {}), требующий, чтобы заключенные в него термины находились в пределах одного поля (либо только в Атрибуте, либо только в Значении).
Importance Level (Уровень важности): Метрика факта (Metric), указывающая на значимость данного факта для понимания объекта по сравнению с другими фактами этого же объекта. Используется при ранжировании.
Importer (Импортер): Компонент системы, который извлекает факты из документов (например, веб-страниц) и сохраняет их в Fact Repository.
Janitor (Санитар/Нормализатор): Компонент системы, который выполняет постобработку фактов: очистку, нормализацию форматов, объединение дубликатов объектов (object merging).
Object (Объект / Сущность): Представление сущности реального мира (человек, компания и т.д.). Определяется набором ассоциированных фактов (имеющих одинаковый Object ID).
Service Engine (Сервисный движок): Интерфейс для выполнения запросов к Fact Repository. Обрабатывает запросы, оценивает объекты и возвращает результаты.
Value (Значение): Поле в структуре факта, содержащее данные для Атрибута. Например, «Feb. 22, 1732». Может содержать текст или ссылку (object reference link) на другой объект.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод поиска в репозитории фактов.

Система получает запрос через универсальное окно поиска (single generic search query box), используемое как для веб-поиска, так и для поиска по фактам.
Запрос включает restriction operator (оператор ограничения) и поисковые термины.
Определены два ключевых типа операторов:
- (a) Fact restriction operator: Поиск терминов осуществляется в пределах одного факта. Термины могут быть в разных полях (например, один в Атрибуте, другой в Значении).
- (b) Field restriction operator: Поиск всех терминов осуществляется в пределах одного поля (либо только в Атрибуте, либо только в Значении).
Определена структура репозитория: Объекты и Факты, извлеченные из неструктурированных документов. Факты имеют поля (Атрибут, Значение) и метрики (Confidence level и Importance level).
Система выполняет поиск, определяя релевантность фактов и их соответствие оператору ограничения.
Система возвращает Объекты, связанные с найденными фактами.

Ядром изобретения является возможность точного управления областью (scope) поиска в полуструктурированных данных. Например, оператор факта ([]) гарантирует контекстуальную близость терминов в рамках одного утверждения. Оператор поля ({}) гарантирует точное совпадение терминов в одном конкретном элементе данных. Это обеспечивает высокую точность извлечения данных из базы знаний.

Claim 8 (Зависимый): Детализирует поиск по паре Атрибут-Значение.

Система возвращает объект, если первый термин запроса содержится в Атрибуте, а второй – в Значении этого же факта, при условии, что запрос специфицирует поиск именно по такой паре (например, синтаксис [A:B], упомянутый в Claim 14).

Где и как применяется

Изобретение описывает инфраструктуру хранения и извлечения знаний, затрагивающую несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит наполнение Fact Repository. Importers извлекают факты из веб-страниц. Janitors очищают, нормализуют данные, рассчитывают метрики (Confidence, Importance) и объединяют объекты. Создается индекс (Index), который отображает термины на кортежи (объект, факт, поле) для быстрого поиска.

QUNDERSTANDING – Понимание Запросов
Хотя патент фокусируется на синтаксисе языка запросов, вероятно, что системы Google могут транслировать запрос пользователя на естественном языке во внутренний структурированный запрос, использующий этот синтаксис, для обращения к Fact Repository (Knowledge Graph).

RANKING / METASEARCH – Ранжирование / Метапоиск и Смешивание
Основное применение. Service Engine использует этот язык запросов для извлечения конкретных фактов или списков сущностей из Fact Repository. Этот механизм используется для генерации Knowledge Panels, Rich Results и прямых ответов, требующих точных структурированных данных.

Входные данные:

Структурированный запрос (термины + операторы, например, [Date : July]).
Fact Repository и его Index.

Выходные данные:

Набор Объектов (Сущностей) и/или конкретных фактов, релевантных запросу.

На что влияет

Конкретные типы контента: Влияет на видимость контента, который является источником для Knowledge Graph. Страницы с четкой структурой (таблицы, списки определений, биографии, каталоги) легче обрабатываются Importers.
Специфические запросы: Наибольшее влияние на информационные запросы, направленные на поиск конкретных фактов («дата рождения X») или списков сущностей («актеры, родившиеся в Y»).
Форматы SERP: Напрямую влияет на формирование Knowledge Panels, Featured Snippets и других элементов выдачи, основанных на структурированных данных.

Когда применяется

Условия работы: Алгоритм применяется для выполнения точного поиска в Fact Repository. Он используется, когда внутренние системы Google (например, генератор Панели Знаний) формируют структурированный запрос для извлечения данных, или когда пользовательский запрос интерпретируется как поиск фактов.

Пошаговый алгоритм

Процесс обработки запроса к Fact Repository (Service Engine)

Получение и Парсинг запроса: Service Engine получает запрос и разбирает его для идентификации терминов, логических операторов (AND, OR, NOT) и операторов ограничения ([], {}, :).
Поиск по индексу (Term Matching): Для каждого термина система обращается к индексу, чтобы найти факты, содержащие этот термин (в полях Attribute или Value, если нет ограничений).
Применение ограничений области (Scope Restriction): Система фильтрует факты на основе операторов:
- Fact Restriction (e.g., [A B]): Проверяется, находятся ли A и B в пределах одного факта.
- Field Restriction (e.g., {A B}): Проверяется, находятся ли A и B в пределах одного поля (только Атрибут или только Значение).
- Attribute-Value Pair (e.g., [A:B]): Проверяется, находится ли A в Атрибуте, а B – в Значении этого же факта.
Логическая обработка: Результаты объединяются в соответствии с логическими операторами запроса.
Скоринг фактов и объектов: Факты оцениваются с учетом релевантности и метрик (Confidence, Importance). Оценка объекта вычисляется на основе оценок его фактов.
Формирование ответа: Система выбирает наиболее релевантные объекты и/или факты и возвращает их.

Какие данные и как использует

Данные на входе

Патент описывает систему для запроса уже существующих данных в репозитории.

Контентные факторы (Структурированные):
- Attributes (Атрибуты фактов): Текстовое содержание названий атрибутов.
- Values (Значения фактов): Содержание значений (текст, числа).
Структурные факторы: Организация данных в виде иерархии Объект -> Факт -> Поля. Эта структура критична для работы операторов ограничения области.
Метаданные фактов:
- Sources (Источники): URL или идентификаторы документов, из которых был извлечен факт.
- Link: Ссылки из одного факта на другой объект в репозитории (object reference link) – связи между сущностями.

Какие метрики используются и как они считаются

Система использует предварительно рассчитанные метрики и вычисляет метрики релевантности во время запроса.

Confidence Level (Уровень достоверности): Предварительно рассчитанная метрика факта. Указывает на вероятность корректности факта. Используется для корректировки оценки факта.
Importance Level (Уровень важности): Предварительно рассчитанная метрика факта. Указывает на значимость факта для объекта. Используется для корректировки оценки факта.
Relevance Score (Оценка релевантности): Рассчитывается во время запроса.
- Базовый скоринг: Основан на совпадении терминов запроса в полях факта. Упоминается использование взвешивания на основе частоты терминов (TF-IDF based term weighting model).
- Корректировки: Оценка улучшается при появлении последовательных терминов запроса, соблюдении порядка терминов, точном совпадении запроса, совпадении в Name fact (именном факте).
Object Score (Оценка объекта): Агрегированная оценка. Упоминается как линейная комбинация (linear combination) оценок релевантности фактов этого объекта, скорректированных по Confidence и Importance.

Выводы

Фундамент Knowledge Graph: Патент подтверждает, что Google хранит знания в виде Fact Repository, используя модель данных «Объект-Атрибут-Значение». Это основа для Entity SEO.
Поиск по Атрибутам и Значениям: Система по умолчанию ищет термины как в названиях атрибутов, так и в их значениях. Это означает, что способ именования свойств сущности (Атрибут) так же важен для поиска, как и сами данные (Значение).
Точность через операторы ограничения: Ключевым элементом являются restriction operators (на уровне факта [] и поля {}). Они позволяют системе выполнять высокоточные запросы, гарантируя контекстуальную близость терминов.
Метрики качества и важности фактов критичны: Каждый факт имеет метрики Confidence (достоверность) и Importance (важность), которые напрямую используются для ранжирования результатов при запросе к репозиторию. Факты низкого качества имеют меньший вес.
Важность структурирования и нормализации: Для попадания в репозиторий данные должны быть извлечены (Importers) и нормализованы (Janitors). Это подчеркивает важность предоставления четкой, консистентной и структурированной информации на сайтах (например, через Schema.org).

Практика

Best practices (это мы делаем)

Фокус на Entity Optimization и структуру Атрибут-Значение: Организуйте информацию на сайте так, чтобы Google мог легко извлечь пары Атрибут-Значение. Используйте семантическую верстку: таблицы характеристик, списки определений (DL/DT/DD) и заголовки, которые четко определяют атрибуты сущности.
Использование стандартных Атрибутов: При описании свойств используйте общепринятые наименования (например, «Дата основания», «Высота», «Автор»). Это повышает вероятность того, что Google корректно распознает Атрибут и сможет найти его, так как поиск ведется и по названиям атрибутов. Ориентируйтесь на свойства Schema.org.
Внедрение микроразметки (Schema.org): Это самый надежный способ передать данные в формате Атрибут-Значение, который используется в Fact Repository. Это напрямую помогает Importers извлекать факты.
Повышение достоверности (Confidence): Обеспечьте консистентность информации о сущности на всех контролируемых ресурсах и в авторитетных источниках (Wikipedia, Wikidata, отраслевые каталоги). Метрика Confidence зависит от подтверждения фактов.
Выделение ключевых фактов (Importance): Убедитесь, что наиболее важные атрибуты четко видны и расположены на prominent-позициях. Это может повлиять на метрику Importance.
Оптимизация связей между сущностями (Links): Патент упоминает возможность связи фактов с другими объектами (object reference link). Четко указывайте связи между сущностями (например, Автор -> Публикация) через контент и разметку, чтобы Google мог построить эти связи в репозитории.

Worst practices (это делать не надо)

Предоставление противоречивой информации: Публикация разных фактов об одной сущности снижает Confidence Level и затрудняет работу Janitors по нормализации.
Скрытие фактов в неструктурированном тексте: Описание ключевых свойств длинными абзацами без четкой структуры затрудняет извлечение пар Атрибут-Значение.
Использование неоднозначных или редких названий атрибутов: Изобретение нестандартных способов описания свойств может привести к тому, что система не сможет корректно интерпретировать Атрибут.

Стратегическое значение

Патент подтверждает стратегический переход Google от индекса строк к индексу сущностей и фактов. Для SEO это означает, что оптимизация под сущности (Entity Optimization) является необходимостью. Стратегия должна быть направлена на то, чтобы Google имел полное, точное (высокий Confidence) и релевантное (высокий Importance) представление о ключевых сущностях вашего бизнеса в своем Fact Repository (Knowledge Graph). Это фундамент для видимости в современных поисковых интерфейсах.

Практические примеры

Сценарий: Оптимизация карточки товара (E-commerce) для Fact Repository

Задача: Убедиться, что характеристики товара корректно извлекаются и хранятся.

Анализ и Стандартизация Атрибутов: Определить ключевые характеристики и использовать стандартные названия (например, «Цвет», «Размер», «Бренд», ориентируясь на Schema.org/Product).
Внедрение в контент: Создать на странице четкую таблицу или список определений:
<dl>
<dt>Цвет:</dt><dd>Черный</dd>
<dt>Бренд:</dt><dd>Sony</dd>
</dl>
Внедрение микроразметки: Разметить данные с помощью Schema.org/Product:
«color»: «Black»,
«brand»: { «@type»: «Brand», «name»: «Sony» }.
Верификация (Confidence): Убедиться, что эти данные консистентны с данными в Google Merchant Center и на сайтах партнеров.
Ожидаемый результат: Importers извлекают точные факты. Когда система Google выполняет внутренний запрос к Fact Repository (например, ища товары по цвету, используя синтаксис подобный [Цвет: Черный]), ваш товар будет найден благодаря корректно сохраненному факту.

Вопросы и ответы

Что такое Fact Repository, описанный в патенте, и как он связан с Knowledge Graph?

Fact Repository — это хранилище полуструктурированных данных, где информация хранится в виде фактов (пар Атрибут-Значение), связанных с Объектами (сущностями). Этот репозиторий является инфраструктурной основой или ранней версией того, что сегодня известно как Google Knowledge Graph.

Могут ли SEO-специалисты использовать описанный язык запросов (например, операторы [] и {}) в поиске Google?

Нет, этот сложный синтаксис ([] для ограничения фактом, {} для ограничения полем) предназначен преимущественно для внутреннего использования системами Google при обращении к базе знаний. В стандартной строке поиска доступны только базовые операторы, такие как кавычки «». Однако Google может транслировать обычные запросы пользователей в этот внутренний структурированный формат.

Что означают метрики Confidence и Importance, и как на них повлиять?

Confidence (Достоверность) указывает на уверенность системы в корректности факта. Повышается за счет консистентности данных и подтверждения авторитетными источниками. Importance (Важность) указывает, насколько факт значим для понимания сущности. Повышается за счет выделения ключевых атрибутов сущности на видных местах страницы. Обе метрики используются в ранжировании.

Патент утверждает, что поиск ведется как по Атрибутам, так и по Значениям. Что это значит на практике?

Это значит, что и название свойства, и его содержание индексируются и доступны для поиска. Если у сущности есть факт с Атрибутом «Дата Рождения», то она может быть найдена по запросу, содержащему слово «Рождения». Это подчеркивает важность использования понятных и стандартных наименований для атрибутов (например, соответствующих Schema.org).

Как этот патент влияет на работу по оптимизации сущностей (Entity Optimization)?

Он дает четкое понимание целевой структуры данных Google (Объект-Атрибут-Значение). Оптимизация сущностей должна быть направлена на предоставление информации в этом формате. Необходимо фокусироваться на четкости, использовании стандартных атрибутов и повышении метрик Confidence и Importance.

Что такое операторы ограничения на уровне факта ([]) и поля ({})?

Оператор [] требует, чтобы все указанные термины находились в пределах одного факта (например, один в атрибуте, другой в значении). Оператор {} более строгий — он требует, чтобы все термины находились в пределах одного поля (например, все только в значении). Это позволяет выполнять очень точные запросы к базе знаний.

Влияет ли использование микроразметки Schema.org на данные в Fact Repository?

Да, напрямую. Микроразметка Schema.org предоставляет данные именно в формате Атрибут-Значение, который используется в Fact Repository. Это один из самых надежных способов сообщить Google структурированные факты о ваших сущностях и помочь Importers корректно заполнить репозиторий.

Что такое Importers и Janitors и какова их роль?

Importers — это системы, которые извлекают факты из веб-страниц и других источников. Janitors — это системы постобработки, которые очищают данные, нормализуют форматы и объединяют дубликаты сущностей. SEO-специалистам нужно оптимизировать контент так, чтобы облегчить работу Importers и помочь Janitors.

Может ли факт содержать ссылку на другой объект?

Да, патент упоминает object reference link. Значение факта может ссылаться на другой объект в репозитории (например, Атрибут: «CEO», Значение: Ссылка на объект «Илон Маск»). Это основа построения графа знаний и подчеркивает важность связывания сущностей на сайте и в разметке.

Каково значение этого патента для E-E-A-T?

Значение высокое. Патент напрямую связан с Авторитетностью и Достоверностью через метрику Confidence Level на уровне отдельных фактов. Если ваш сайт является источником фактов с высокой достоверностью, это способствует формированию качественного представления ваших сущностей (авторов, бренда) в Knowledge Graph, что поддерживает E-E-A-T.