Как Google учится выводить недостающие факты для Графа Знаний, анализируя текст в интернете и существующие связи

Система Google для заполнения пробелов в Графе Знаний. Если факт отсутствует (например, отношение «дедушка»), система ищет текстовые подтверждения в интернете («A — дедушка B»). Затем она анализирует существующие связи в графе (например, A — родитель C, C — родитель B) и выводит правило (Родитель + Родитель = Дедушка). Это позволяет отвечать на фактические запросы, даже если связь явно не указана в базе знаний.

Описание

Какую задачу решает

Патент решает проблему неполноты данных в реляционных моделях знаний, таких как Data Graph (например, Google Knowledge Graph). Даже самые большие графы могут не содержать миллионы фактов или отношений (ребер) между сущностями (узлами). Система направлена на автоматический вывод (инференс) недостающей информации, основываясь на существующих данных в графе и анализе неструктурированного контента в интернете, чтобы улучшить ответы на прямые вопросы.

Что запатентовано

Запатентована система, которая изучает значение отношений, отсутствующих в Data Graph, путем сопоставления текстовых шаблонов из интернета с существующими путями в графе. Система генерирует алгоритм (algorithm) или правило вывода, которое представляет это новое отношение (например, определяя «дедушку» как путь «родитель родителя»). Это позволяет системе отвечать на сложные вопросы, требующие многошагового вывода, даже если факт явно не сохранен.

Как это работает

Система работает в двух основных режимах: Офлайн-обучение (Inference) и Онлайн-ответы (Question Answering).

Офлайн-обучение: Система генерирует шаблонное предложение (template sentence), например, «X — это [АТРИБУТ] для Y». Она сканирует веб-документы в поисках этого шаблона. Если текст подтверждает отношение (например, «Зак — дедушка Карины»), система ищет существующие пути в Data Graph, соединяющие X и Y. Наилучший путь (например, через ребра «ребенок»-«ребенок») сохраняется как алгоритм для этого атрибута. Этот алгоритм проходит строгую верификацию.
Онлайн-ответы: Когда поступает запрос о факте, отсутствующем в графе («Кто дедушка Карины?»), система использует ранее изученный алгоритм. Она следует по определенному пути (path) от начального узла (Карина) до конечного узла (Зак) и возвращает ответ.

Актуальность для SEO

Высокая. Полнота и точность Knowledge Graph критически важны для современных поисковых систем, особенно для генерации прямых ответов (Featured Snippets) и Панелей Знаний. Автоматическое обучение и вывод новых фактов (Inference) без ручной разметки является ключевым направлением развития семантического поиска и ИИ.

Важность для SEO

Влияние на SEO значительное (7/10), хотя и косвенное. Патент описывает, как Google использует контент из интернета для обучения своей системы инференса и расширения Графа Знаний. Это напрямую влияет на Entity SEO и E-E-A-T. Предоставление четкой, семантически однозначной информации о сущностях и их взаимосвязях в веб-документах критически важно, чтобы система могла корректно извлечь, интерпретировать и использовать эти данные.

Детальный разбор

Термины и определения

Data Graph (Граф данных / Граф Знаний): Реляционная модель знаний. Хранилище данных в виде графа, где узлы представляют сущности, а ребра — отношения между ними.
Node (Узел): Элемент в Data Graph, представляющий сущность реального мира (человек, место, вещь). Может иметь свойства (properties).
Edge (Ребро): Связь между узлами, представляющая отношение (например, «родитель», «профессия»).
Fact (Факт): Утверждение, обычно включающее первый узел, ребро и второй узел (триплет). Также используется для обозначения информации, которая может отсутствовать в графе.
Attribute (Атрибут): Может относиться к отношению (ребру между двумя узлами) или к свойству узла.
Inference Engine (Механизм вывода): Компонент системы, который определяет недостающую информацию в Data Graph и генерирует вывод (инференс) для этой информации.
Algorithm (Алгоритм): В контексте патента — это правило вывода или функция, сгенерированная Inference Engine. Оно представляет собой серию соединений (series of connections) или путь (path) между узлами и ребрами, которая определяет отсутствующий атрибут.
Path (Путь): Последовательность узлов и ребер в Data Graph, соединяющая два узла. Используется для вывода недостающих отношений.
Template Sentence / Semantically Structured Template Sentence (Шаблонное предложение): Сгенерированная структура предложения (например, «X является [STRING] Y»), используемая для поиска в интернете и выявления отношений между известными сущностями X и Y, где [STRING] представляет отсутствующий атрибут.
Semantic Query Engine (Механизм семантических запросов): Компонент, который может генерировать Template Sentence.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных процесса: ответ на запрос (Claim 1) и обучение/вывод фактов (Claim 6).

Claim 1 (Независимый пункт): Описывает процесс ответа на запрос в реальном времени, когда факт отсутствует в графе.

Система получает запрос, основанный на первом узле и факте.
Определяется, что факт отсутствует в Data Graph.
Если факт отсутствует: Система определяет ответ, следуя пути (path) от первого узла ко второму узлу. Путь включает как минимум один промежуточный (третий) узел.
Путь соединяет узлы через существующие ребра (первый узел с третьим, третий со вторым).
Возвращается свойство (property), связанное со вторым (конечным) узлом, как ответ на запрос.

Это механизм использования ранее изученных путей (алгоритмов) для ответов на вопросы, требующие многошагового рассуждения в графе.

Claim 6 (Независимый пункт): Описывает офлайн-процесс обучения (генерации вывода/инференса).

Определяется, что первый факт отсутствует в Data Graph.
Генерируется шаблонное предложение (template sentence) на основе второго факта, включающего первый узел, второй узел и строку (string). Строка представляет отсутствующий первый факт.
Выполняется поиск в интернете документа, содержащего это шаблонное предложение.
Если документ найден: Система выводит (infer) первый факт путем генерации серии соединений (series of connections) между узлами и ребрами.
Эта серия соединений определяет путь в Data Graph от первого узла ко второму узлу.

Это механизм обучения, где система ищет текстовые подтверждения в интернете и сопоставляет их со структурой графа, чтобы изучить значение нового отношения.

Claim 15 (Зависимый от 6): Описывает процесс верификации сгенерированного пути (алгоритма).

Получение запроса на основе факта.
Использование одного узла как переменной (вход) и другого узла как известного ответа (выход).
Обход Data Graph с использованием сгенерированной серии соединений (алгоритма), чтобы проверить, приводит ли она к правильному ответу.
Повторение процесса много раз (N).
Верификация серии соединений как приемлемой, если количество правильных ответов превышает пороговое значение (Threshold).

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на расширении базы знаний и улучшении ответов на вопросы.

CRAWLING – Сканирование и Сбор данных
Система активно сканирует интернет (или использует корпус Crawled Documents) для поиска экземпляров Template Sentences. Это сбор данных, используемых для обучения механизма вывода.

INDEXING – Индексирование и извлечение признаков (Офлайн-обучение)
Основной этап работы Inference Engine. Происходит офлайн (pre-processing).

Обработка текста (NLP): Веб-документы парсятся (синтаксический анализ, построение parse tree) для идентификации сущностей и их отношений в тексте на основе шаблонов.
Анализ графа: Система анализирует пути в Data Graph между сущностями, найденными в тексте.
Генерация и Верификация Алгоритмов: Генерируются и тестируются алгоритмы (правила вывода), которые затем сохраняются.

QUNDERSTANDING – Понимание Запросов / RANKING – Ранжирование (Онлайн-ответы)
На этапе обработки запроса (processing time) система определяет, что прямой ответ отсутствует в Data Graph. Она использует предварительно вычисленный алгоритм для обхода графа в реальном времени и нахождения ответа.

Входные данные (Обучение):

Существующий Data Graph.
Корпус веб-документов (Интернет).
Шаблоны для генерации Template Sentences.

Выходные данные (Обучение):

Верифицированные алгоритмы (правила вывода), представляющие новые отношения.

Входные данные (Ответы):

Запрос пользователя.
Data Graph.
Сохраненные Алгоритмы.

Выходные данные (Ответы):

Ответ на запрос (свойство найденного узла).

На что влияет

Конкретные типы контента: Влияет на контент, содержащий четкие фактологические утверждения и описания отношений между сущностями (биографии, энциклопедические статьи, новости, корпоративные страницы).
Специфические запросы: Наибольшее влияние на информационные запросы типа «Кто/Что/Когда» (например, «Кто основатель компании X?»), особенно если прямой факт отсутствует в Графе Знаний.
Форматы контента: Улучшает способность Google извлекать ответы из неструктурированного текста для формирования прямых ответов (Featured Snippets) или заполнения Панелей Знаний.

Когда применяется

Алгоритм применяется в двух основных сценариях:

Офлайн (Периодически): Inference Engine запускается для поиска недостающей информации, анализа веба и генерации новых алгоритмов вывода. Триггером может служить анализ логов запросов (Search Records) для выявления часто запрашиваемых, но отсутствующих фактов.
Онлайн (Во время запроса): Когда поисковая система получает запрос о факте, который отсутствует в Data Graph, но для которого существует предварительно сгенерированный и верифицированный алгоритм вывода.

Пошаговый алгоритм

Процесс разделен на три основных потока: Генерация вывода (Обучение), Верификация и Ответ на вопрос (Применение).

Поток А: Генерация алгоритма вывода (Обучение)

Генерация шаблона: Создание семантически структурированного шаблонного предложения (например, «X является [АТРИБУТ] Y»), где X и Y — сущности в Data Graph, а [АТРИБУТ] отсутствует.
Сканирование документов: Поиск документов в интернете или в корпусе Crawled Documents.
Парсинг предложений: Анализ предложений в документе с использованием шаблона. Может включать построение синтаксического дерева (parse tree).
Проверка связи: Определение, подтверждает ли предложение, что «X является [АТРИБУТ] Y».
Поиск путей в графе: Если связь подтверждена, система ищет все существующие пути в Data Graph, которые соединяют узел X и узел Y.
Итерация: Повторение шагов 3-5 для желаемого количества документов.
Выбор лучшего пути: Анализ всех найденных путей. Выбор наилучшего пути на основе критериев (частота повторения, длина пути, тип узлов и т.д.).
Генерация алгоритма: Создание алгоритма (правила), который представляет атрибут на основе выбранного лучшего пути.
Верификация алгоритма (см. Поток В).

Поток Б: Ответ на вопрос (Применение)

Получение запроса: Получение запроса, структурированного как вопрос о первом узле.
Проверка наличия факта/алгоритма: Определение, что запрашиваемый факт отсутствует в графе, и загрузка сохраненного алгоритма для данного атрибута.
Определение ответа: Выполнение алгоритма путем следования по пути, начиная с первого узла и заканчивая вторым узлом.
Возврат ответа: Возвращение атрибута (например, имени), связанного со вторым узлом, как ответа на вопрос.

Поток В: Верификация алгоритма

Инициализация: Получение атрибута и входных данных для верификации. Установка количества тестов (N) и счетчика правильных ответов (ac=0).
Получение известного ответа: Получение эталонного ответа на вопрос (например, из данных, собранных при сканировании веба).
Запрос к графу (Тест): Использование тестируемого алгоритма для запроса к Data Graph с теми же входными данными.
Проверка корректности: Сравнение результата работы алгоритма с эталонным ответом.
Подсчет: Если ответ корректен, увеличение счетчика правильных ответов (ac).
Итерация: Повторение шагов 2-5 для N тестов.
Принятие/Отклонение: Если количество правильных ответов (ac) превышает пороговое значение (Thr, например, 85-95%), алгоритм принимается и сохраняется.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурных и текстовых данных для генерации выводов.

Структурные факторы (Data Graph): Существующие узлы (сущности) и ребра (отношения) в Data Graph. Это основа для поиска путей между сущностями.
Контентные факторы (Веб-документы): Неструктурированный текст из интернета (Crawled Documents). Система анализирует предложения, их синтаксическую структуру (parse tree) и семантику для идентификации отношений.
Поведенческие факторы (Косвенно): Упоминается возможность анализа журналов поиска (Search Records), чтобы определить, какие виды информации пользователи часто запрашивают, и использовать это для приоритизации генерации алгоритмов.

Какие метрики используются и как они считаются

Критерии выбора лучшего пути (Best Path Selection): Система оценивает несколько путей, соединяющих две сущности. Метрики для выбора включают:
- Частота повторения (Number of times that the path repeats): Как часто данный путь встречается для разных пар X, Y с одним и тем же атрибутом.
- Длина пути (Length of the path).
- Тип узла (Type of node traversed): Типы сущностей, через которые проходит путь.
- Распространенность (Abundance of the path relative to shorter paths).
Порог верификации (Threshold — Thr): Минимальный процент правильных ответов, который должен показать алгоритм в ходе тестирования (N тестов), чтобы быть принятым. Упоминаются высокие пороги (например, 85% — 95%).
Методы анализа текста (NLP): Используются парсинг предложений, лексический анализ и построение синтаксических деревьев (parse trees) для определения синтаксических и семантических отношений между словами в предложении.

Выводы

Автоматическое расширение Графа Знаний: Патент описывает механизм, позволяющий Google автоматически изучать новые отношения между сущностями, даже если они явно не указаны в Data Graph. Система переводит наблюдения из неструктурированного текста в структурированные правила вывода.
Обучение на основе веба: Контент в интернете используется как обучающий набор данных и источник валидации. Система ищет текстовые шаблоны, связывающие известные сущности, чтобы понять семантику отношений.
Инференс через пути в графе (Multi-hop reasoning): Ядром изобретения является идея, что сложное отношение (например, «дедушка») можно представить как путь или комбинацию более простых, существующих отношений в графе (например, «родитель» + «родитель»).
Генерация алгоритмов, а не фактов: Система не просто добавляет новый факт, а создает алгоритм (правило/путь), который можно применять к любым сущностям для вывода этого типа отношения.
Строгая верификация точности: Сгенерированные алгоритмы проходят строгую проверку на точность с высокими порогами (например, 85-95%) перед тем, как они будут использованы для ответов на запросы пользователей.
Ответы на вопросы в реальном времени: Хотя обучение происходит офлайн, применение алгоритмов для ответа на вопросы происходит в реальном времени путем быстрого обхода графа по заданному пути.

Практика

Best practices (это мы делаем)

Ясность и однозначность контента (Clarity): Пишите контент с четкой структурой предложений, ясно описывая отношения между сущностями. Система использует парсинг (parse tree) для анализа текста. Чем проще системе понять, что «X является Y-ом Z» (например, «Зак Джонс — дедушка Карины Джонс»), тем выше вероятность использования этой информации для обучения Inference Engine.
Полнота описания сущностей (Completeness): Предоставляйте исчерпывающую информацию о ключевых сущностях (людях, компаниях, продуктах). Указание базовых фактов (например, кто родители человека) помогает Google корректно строить базовый граф, который затем используется для вывода более сложных отношений.
Использование стандартных и естественных шаблонов: Используйте естественные и распространенные языковые конструкции для описания фактов. Система ищет совпадения с Template Sentences, основанными на часто встречающихся структурах.
Согласованность данных (Consistency): Убедитесь, что информация о сущностях согласована на вашем сайте и в других авторитетных источниках. Это повышает достоверность данных, используемых для верификации алгоритмов (Процесс В).
Поддержка через разметку (Schema.org): Хотя патент фокусируется на извлечении из текста, использование микроразметки Schema.org для явного указания отношений помогает системе быстрее и точнее идентифицировать базовые факты в Data Graph, что облегчает последующий инференс.

Worst practices (это делать не надо)

Сложные и неоднозначные формулировки: Использование запутанных предложений, сарказма или идиом при описании фактов может помешать системе корректно распарсить текст и идентифицировать отношения между сущностями.
Противоречивая или неточная информация: Предоставление информации, которая противоречит общепринятым фактам. Если система попытается использовать вашу информацию для генерации алгоритма, он, скорее всего, не пройдет этап верификации из-за низкой точности.
Изоляция фактов: Предоставление фактов без контекста или без связи с известными сущностями. Система работает только тогда, когда может связать информацию с существующими узлами в Data Graph.
Факты только в медиаформатах: Система основана на анализе текста. Факты, представленные только в изображениях или видео, не будут использованы этим механизмом.

Стратегическое значение

Этот патент подтверждает стратегию Google на построение максимально полного и точного Графа Знаний с минимальным ручным вмешательством. Google стремится не просто собирать данные, а понимать мир, моделируя сложные отношения. Для SEO это означает, что роль веб-сайтов как источников достоверной информации возрастает. Стратегия должна фокусироваться на Entity SEO: создании семантически богатого контента, который помогает Google не только узнать о сущностях, но и понять глубинные связи между ними.

Практические примеры

Сценарий: Обучение Google сложной корпоративной структуре

Задача: Убедиться, что Google понимает, кто является Главным техническим директором (CTO) (Сущность Z) дочерней компании (Сущность Y), принадлежащей головному холдингу (Сущность X). Отношение может отсутствовать в графе.
Действия SEO:
- Убедиться, что X, Y и Z распознаются как сущности.
- Опубликовать пресс-релиз или статью на авторитетном ресурсе с четкой формулировкой: «[Имя Z] занимает должность Главного технического директора (CTO) компании [Название Y], которая является дочерним предприятием холдинга [Название X]».
Работа системы (по патенту):
- Система идентифицирует шаблон: «[Z] [CTO] [Y]» и «[Y] [дочернее предприятие] [X]».
- Находит подтверждение в тексте пресс-релиза.
- Анализирует существующие пути в графе (например, [X] -> [владеет] -> [Y]).
- Система выводит и верифицирует алгоритм для определения отношений в этой структуре.
Результат: При запросе «Кто CTO компании Y», Google может предоставить прямой ответ, используя выведенный алгоритм для нахождения Сущности Z.

Вопросы и ответы

Что такое «Алгоритм» (Algorithm) в контексте этого патента?

Это не алгоритм ранжирования. В данном патенте «Алгоритм» — это правило вывода или функция, которая представляет собой изученное отношение между сущностями. Он определяется как конкретный путь (последовательность ребер и узлов) в Графе Знаний. Например, алгоритм для «дедушки» может быть: «Пройти по ребру ‘родитель’ → еще раз по ребру ‘родитель’ → проверить свойство ‘пол’ = мужской».

Как система определяет, какой факт отсутствует в Графе Знаний и что нужно изучить?

Патент упоминает несколько способов. Inference Engine может анализировать журналы поисковых запросов (Search Records), чтобы определить, какие факты часто запрашиваются, но отсутствуют в графе. Также система может анализировать типы сущностей и искать недостающие атрибуты, характерные для этого типа (например, искать инструменты, на которых играют музыканты в группе).

Насколько важен текст на моем сайте для этого механизма?

Текст критически важен. Офлайн-процесс обучения полностью зависит от сканирования интернета (Crawled Documents) и поиска текстовых подтверждений (Template Sentences) для недостающих фактов. Если информация о ваших сущностях представлена нечетко или двусмысленно, система не сможет обучиться этим фактам.

Как система выбирает «лучший путь» (Best Path), если между двумя сущностями много связей?

Система использует несколько критериев для выбора наилучшего пути. К ним относятся: частота, с которой этот путь повторяется для разных пар сущностей с таким же отношением, длина пути, тип проходимых узлов и общая распространенность пути. Выбирается наиболее надежный и статистически значимый путь.

Как Google защищается от изучения ложных фактов из интернета?

Патент описывает строгий процесс верификации (Claim 15, FIG. 5). Сгенерированный алгоритм тестируется на большом наборе известных пар (вопрос-ответ). Он принимается только если его точность превышает высокий порог (например, 85-95%). Это помогает отсеять ненадежные правила или правила, основанные на ложной информации.

Что означает «полуструктурированные данные» (semi structured) в названии?

Это относится к методу извлечения данных. Система анализирует обычный текст в интернете (неструктурированный), но ищет в нем предложения, соответствующие определенной семантической структуре или шаблону (Template Sentence), например, «X — это АТРИБУТ для Y». Такой подход позволяет извлекать структурированные факты из неструктурированного контента.

Как SEO-специалист может использовать это знание на практике?

Ключевая задача — обеспечить, чтобы ваш контент содержал четкие, недвусмысленные и точные утверждения о взаимосвязях между сущностями. Используйте простые синтаксические конструкции. Это помогает Inference Engine правильно парсить текст и использовать ваш контент для обучения и валидации фактов в Knowledge Graph.

Нужно ли использовать микроразметку Schema.org, если Google может извлекать факты из текста?

Да, обязательно. Schema.org предоставляет явно структурированные данные, что является более сильным сигналом. Описанный механизм используется, когда структурированные данные отсутствуют, неполны или когда системе нужно подтвердить факты. Лучшая стратегия — комбинировать качественную микроразметку с четкими текстовыми утверждениями.

Происходит ли процесс обучения в реальном времени?

Нет. Процесс обучения (генерация шаблонов, сканирование веба, поиск путей, генерация и верификация алгоритмов) описан как офлайн-процесс (pre-processing). В реальном времени происходит только процесс ответа на вопрос, который использует уже изученные и сохраненные алгоритмы для быстрого обхода графа.

Влияет ли этот патент на локальное SEO?

Да, если локальные сущности и их отношения описаны в вебе. Например, система может изучить, что определенный врач работает в конкретном отделении больницы, даже если это явно не указано в структурированных данных, найдя подтверждение в новостной статье и сопоставив это с существующими связями между врачом и больницей в графе.