Как Google извлекает, расширяет и проверяет факты из веб-документов, используя HTML-структуру и консенсус

Патент Google, описывающий систему автоматического извлечения и проверки фактов для ответов на вопросы и наполнения базы знаний (Knowledge Graph). Система генерирует гипотетические ответы, проверяет их достоверность по количеству подтверждающих источников (Corroboration) и использует контекстные подсказки, такие как HTML-теги (Fact Expansion), для определения наиболее полной и точной формулировки ответа.

Описание

Какую задачу решает

Патент решает проблему извлечения точной и полной фактической информации из огромного массива неструктурированных электронных документов (веб-страниц). Традиционный поиск предоставляет ссылки, а не ответы. Использование множества источников для поиска ответов увеличивает охват, но также вводит риск включения противоречивой или недостоверной информации. Изобретение предлагает метод автоматической генерации гипотез о фактах, их проверки через консенсус (Corroboration) и уточнения с помощью анализа структуры документов (Fact Expansion).

Что запатентовано

Запатентована система для идентификации и подтверждения фактов. Система генерирует hypothetical facts (гипотетические факты) как потенциальные ответы на запрос, анализируя часто встречающиеся термины в корпусе документов. Ключевыми механизмами являются: 1) Corroboration — проверка достоверности на основе количества поддерживающих документов; и 2) Fact Expansion — использование контекстных подсказок (например, HTML-тегов) для расширения частичных фактов до их наиболее полной формы.

Как это работает

Система работает итеративно:

Генерация гипотез: В ответ на запрос (например, «Кого играл Уильям Фроули?») система находит термины, часто встречающиеся рядом с терминами запроса в вебе (например, «Фред»). Формируются гипотезы (Роль: «Фред»).
Подтверждение (Corroboration): Подсчитывается, сколько документов поддерживают каждую гипотезу.
Расширение фактов (Fact Expansion): Система анализирует contextual clues (например, HTML-теги) в поддерживающих документах. Если «Фред» находится внутри тега <td>Фред Мерц</td>, гипотеза расширяется до (Роль: «Фред Мерц»).
Оценка и Выбор: Выбирается гипотеза, которая превышает порог поддержки и не содержится внутри другой гипотезы с таким же или большим уровнем поддержки (принцип максимальности).

Актуальность для SEO

Критически высокая. Извлечение знаний (Information Extraction) и их валидация лежат в основе Knowledge Graph, Featured Snippets и современных ИИ-ответов. Описанные методы, особенно использование структуры HTML для определения границ фактов и консенсуса веба для верификации, остаются фундаментальными для обеспечения качества и точности поиска Google.

Важность для SEO

Патент имеет критическое значение для SEO, особенно для Entity SEO и оптимизации под блоки ответов. Он прямо демонстрирует, как структура HTML (contextual clues) используется для определения полноты факта (Fact Expansion). Понимание этих механизмов необходимо для структурирования контента таким образом, чтобы Google мог корректно извлекать и подтверждать информацию, что напрямую влияет на видимость в ключевых элементах SERP.

Детальный разбор

Термины и определения

Contextual Clues (Контекстные подсказки): Элементы структуры документа, используемые для определения границ факта. В патенте упоминаются теги языка разметки (HTML) и структура таблиц.
Corroboration (Подтверждение, Корроборация): Процесс проверки гипотетического факта путем определения количества электронных документов, которые его поддерживают. Мера консенсуса.
Fact Expansion (Расширение факта): Процесс использования Contextual Clues для дополнения значения гипотетического факта соседними терминами, чтобы получить более полный ответ.
Fact Repository (Репозиторий фактов): База данных для хранения структурированных фактов, связанных с объектами (сущностями). Аналог Knowledge Graph.
Hypothetical Fact (Гипотетический факт): Предполагаемый факт, сгенерированный системой как потенциальный ответ на запрос. Требует подтверждения.
Importer / Janitor (Импортер / Санитар): Компоненты общей архитектуры системы извлечения фактов. Importer извлекает данные из документов. Janitor очищает, нормализует и объединяет извлеченные факты.
Likely Correct Fact (Вероятно достоверный факт): Гипотетический факт, который прошел проверку: превысил порог поддержки и не был поглощен более полным фактом.
Object (Объект): Сущность реального мира (человек, место, концепция), представленная в репозитории набором фактов.
Smallest Enclosing Intertag (Наименьший охватывающий межтеговый контент): Термин, используемый в описании патента для обозначения контента внутри наименьшего набора открывающих и закрывающих HTML-тегов. Ключевой элемент для Fact Expansion.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации фактов.

Определение запроса (вопроса).
Создание одного или нескольких hypothetical facts на основе терминов запроса и терминов из электронных документов.
Подтверждение (Corroborating) гипотетических фактов для идентификации likely correct fact. Процесс подтверждения включает:
- Определение количества документов, поддерживающих гипотетический факт.
- Идентификацию факта как likely correct, если уровень поддержки превышает порог (порог > 1 документа).
Представление likely correct fact как ответа на запрос.

Claim 6 (Зависимый от 1): Вводит принцип максимальности (выбор наиболее полного факта).

Гипотетический факт идентифицируется как likely correct, только если он не содержится внутри другого гипотетического факта, имеющего как минимум такой же уровень поддержки. (Например, предпочтение отдается «Фред Мерц» перед «Фред»).

Claim 7 (Зависимый от 1): Описывает механизм расширения фактов (Fact Expansion).

Идентификация документа, упоминающего исходные термины гипотетического факта.
Изучение контекстных подсказок (contextual clues) в документе, чтобы определить возможность расширения факта дополнительными терминами.
Если расширение возможно, создание нового, более полного гипотетического факта.

Claim 8 (Зависимый от 7): Уточняет природу контекстных подсказок в HTML.

Документ описан языком разметки. Изучение contextual clues включает идентификацию открывающих и закрывающих тегов, окружающих исходные термины, и идентификацию дополнительных терминов внутри этих же тегов.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, связанных с извлечением знаний и ответами на вопросы.

INDEXING – Индексирование и извлечение признаков (Information Extraction)
Основное применение. Система функционирует как механизм извлечения информации для наполнения Fact Repository (Knowledge Graph). Процесс может происходить офлайн (используя Importers и Janitors, упомянутые в патенте) для анализа корпуса документов и извлечения новых фактов.

QUNDERSTANDING – Понимание Запросов
Query Parsing Module анализирует запрос для идентификации известных сущностей (Objects) и искомых атрибутов (Attributes), что необходимо для инициации процесса генерации гипотез.

METASEARCH – Метапоиск и Смешивание (Генерация SERP Features)
Механизм может применяться в реальном времени для генерации кандидатов для прямых ответов (Featured Snippets, Knowledge Panels). Система генерирует и проверяет hypothetical facts, чтобы найти наилучший ответ, который будет представлен пользователю.

Входные данные:

Запрос (пользовательский или системный).
Корпус электронных документов (веб-индекс).
Существующий Fact Repository.

Выходные данные:

Likely correct fact (достоверный ответ).
Обновления для Fact Repository.

На что влияет

Конкретные типы контента: Контент, содержащий фактическую информацию (статьи, справочники, биографии, описания продуктов).
Структура контента (HTML): Система полагается на структуру HTML (таблицы, списки, семантические теги) как на contextual clues для определения границ факта. Четкая структура повышает эффективность извлечения.
Специфические запросы: Информационные запросы, подразумевающие фактический ответ (Кто/Что/Когда/Где).

Когда применяется

Триггеры активации: Получение фактического запроса от пользователя или плановый процесс пополнения базы знаний (например, на основе анализа исторических логов запросов).
Пороговые значения: Применяется порог (threshold) количества поддерживающих документов для признания факта достоверным (порог > 1).

Пошаговый алгоритм

Этап 1: Инициализация и Генерация Гипотез

Определение запроса: Система получает запрос, требующий фактического ответа.
Парсинг запроса: Запрос анализируется, удаляются шумовые слова. Идентифицируются известные объекты и искомые атрибуты.
Идентификация общих терминов: Система ищет документы, содержащие термины запроса, и анализирует сниппеты вокруг них. Идентифицируются термины, которые часто встречаются в этом контексте (кандидаты в ответы).
Создание гипотетических фактов: Генерируются начальные hypothetical facts (Атрибут: Кандидат).

Этап 2: Итеративное Тестирование и Расширение (Corroboration & Expansion)

Идентификация релевантных документов: Поиск документов, упоминающих гипотетические факты.
Подтверждение (Corroboration): Для каждого факта подсчитывается количество поддерживающих документов.
Анализ контекста (Fact Expansion): В поддерживающих документах анализируются contextual clues (HTML-теги) вокруг значения факта. Определяется наименьший охватывающий межтеговый контент (smallest enclosing intertag).
Расширение: Если возможно расширить значение факта терминами внутри того же тега, создается новый, расширенный hypothetical fact.
Повторный проход (Опционально): Процесс может повторяться (в патенте упоминается возможность двух проходов), чтобы проверить новые расширенные факты по всему корпусу документов.

Этап 3: Оценка и Вывод

Фильтрация по порогу: Факты, не достигшие минимального порога поддержки, отбрасываются.
Применение принципа максимальности: Среди оставшихся фактов выбираются те, которые не содержатся внутри другого факта с таким же или большим уровнем поддержки (подавление частичных ответов).
Представление результата: Выбранные likely correct facts представляются пользователю и/или сохраняются в Fact Repository.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов, частота совместной встречаемости терминов в сниппетах.
Структурные факторы (HTML): Критически важные данные для Fact Expansion. Используется язык разметки (HTML-теги) для определения contextual clues и границ фактов (smallest enclosing intertag). Также упоминается использование структуры таблиц (данные в смежных колонках).
Системные данные: Данные из Fact Repository (известные объекты и атрибуты). Логи запросов (historical queries).

Какие метрики используются и как они считаются

Уровень поддержки (Amount of Support): Основная метрика для Corroboration. Количество уникальных документов, подтверждающих гипотетический факт.
Порог поддержки (Threshold): Минимальный уровень поддержки для признания факта достоверным (порог > 1).
Вложенность фактов (Containment / Maximality): Метрика сравнения. Если факт A содержится в факте B, и уровень поддержки B >= A, факт A подавляется в пользу B.

Выводы

Структура HTML критична для извлечения фактов (Fact Expansion): Ключевой вывод для SEO. Google активно использует contextual clues, в частности HTML-теги (smallest enclosing intertag) и структуру таблиц, для определения точных границ факта. Семантическая и чистая верстка напрямую влияет на то, насколько полно и корректно будет извлечена информация.
Приоритет полноты ответа (Максимальность): Система предпочитает наиболее полные ответы. Если полный ответ имеет такой же уровень поддержки, как и его часть, система выберет полный ответ. Необходимо обеспечивать полноту фактической информации.
Достоверность через консенсус (Corroboration): Достоверность факта определяется не авторитетностью одного источника, а количеством документов, подтверждающих этот факт. Факт должен превысить порог поддержки (>1).
Автоматизированное построение Knowledge Graph: Описан механизм автоматического извлечения, валидации и уточнения фактов из веба для наполнения Fact Repository (Knowledge Graph).
Основа для Featured Snippets: Этот механизм напрямую используется для идентификации наилучшего ответа на фактический запрос, что является основой для генерации Featured Snippets и прямых ответов.

Практика

Best practices (это мы делаем)

Использование чистой и семантической HTML-разметки: Структурируйте контент так, чтобы факты были заключены в соответствующие теги (<p>, <li>, <td>, <dd>) без разрывов или посторонних элементов. Это обеспечивает четкие contextual clues для механизма Fact Expansion, позволяя корректно определить границы факта (smallest enclosing intertag).
Эффективное использование таблиц и списков: Используйте таблицы (<table>) для данных типа атрибут-значение и списки определений (<dl>). Патент явно упоминает анализ таблиц как способ извлечения и расширения фактов.
Обеспечение полноты ответов: Давайте полные ответы на фактические вопросы. Поскольку система подавляет частичные ответы в пользу полных, важно предоставлять исчерпывающую информацию (например, полное ФИО, а не только имя).
Согласованность информации (Corroboration): Убедитесь, что ключевые факты согласуются с общепринятой информацией в авторитетных источниках. Система полагается на консенсус для валидации фактов.
Использование микроразметки (Schema.org): Хотя патент фокусируется на извлечении из неструктурированного текста, предоставление фактов через Schema.org служит сильным сигналом подтверждения и помогает избежать ошибок интерпретации HTML-структуры.

Worst practices (это делать не надо)

Сложная, «грязная» или несемантическая верстка: Использование избыточных вложенных <div> или несемантических тегов может помешать механизму Fact Expansion корректно определить границы факта.
Разрыв факта стилистическими тегами или <br>: Разделение одного логического факта между разными HTML-элементами или вставка тегов форматирования внутрь факта затрудняет его извлечение как единого целого. (Например, Имя: <b>Иван</b> Петров).
Публикация спорных фактов без широкой поддержки: Информация, которая противоречит большинству источников, вряд ли преодолеет порог поддержки (Threshold) и будет признана Likely Correct Fact.

Стратегическое значение

Патент подтверждает стратегическую важность технического SEO и семантической верстки для извлечения знаний (Information Extraction). Google не просто читает текст, но и анализирует его представление в HTML для валидации и уточнения фактов. Долгосрочная стратегия должна включать аудит шаблонов и верстки, чтобы обеспечить техническую доступность и понятность контента для алгоритмов извлечения. Успех в Knowledge Graph и блоках ответов напрямую зависит от способности сайта четко и структурированно представлять факты.

Практические примеры

Сценарий: Оптимизация страницы для корректного извлечения фактов (Fact Expansion)

Задача: Убедиться, что система корректно извлечет полное имя и дату.

Плохая реализация (затрудняет Fact Expansion):

<div class="bio">
  Имя: <span class="firstname">Иван</span> <span class="lastname">Петров</span>.
  <p>Родился: 10/<b>15</b>/1980.</p>
</div>

Проблема: Имя разбито разными <span>. Дата имеет внутреннее форматирование (<b>). Система может извлечь только частичные факты и не сможет их корректно расширить, так как нет единого smallest enclosing intertag для полного факта.

Хорошая реализация (облегчает Fact Expansion):

<table class="bio-data">
  <tr>
    <th>Имя:</th>
    <td>Иван Петров</td> <!-- Полный факт внутри одного тега -->
  </tr>
  <tr>
    <th>Дата рождения:</th>
    <td>15 октября 1980</td>
  </tr>
</table>

Преимущество: Полные факты заключены в чистые теги (<td>). Система использует структуру таблицы и теги <td> как Contextual Clues, чтобы определить, что «Иван Петров» — это полное значение факта.

Вопросы и ответы

Что такое «Fact Expansion» и почему это критично для SEO?

Fact Expansion — это процесс, когда Google пытается расширить найденный частичный ответ до полной фразы, анализируя окружающий контекст в источнике. Система использует Contextual Clues, в первую очередь HTML-теги. Это критично для SEO, потому что чистая и семантическая верстка помогает Google корректно определить границы факта (например, полное название продукта или имя человека), что повышает шансы на использование этого контента в Featured Snippets и Knowledge Graph.

Что подразумевается под «Smallest Enclosing Intertag»?

Это технический термин, обозначающий наименьший HTML-элемент (контент между открывающим и закрывающим тегом), который полностью охватывает факт. Например, если факт находится в ячейке таблицы <td>Факт</td>, то <td> является этим элементом. Google анализирует его содержимое, чтобы убедиться, что извлекает факт полностью и не захватывает лишнего.

Как работает механизм подтверждения (Corroboration)?

Corroboration основан на консенсусе. Система подсчитывает количество независимых электронных документов, которые поддерживают данный гипотетический факт. Если количество источников превышает определенный порог (в патенте указано > 1), факт считается подтвержденным. Для SEO это подчеркивает важность консистентности информации на вашем сайте и в авторитетных внешних источниках.

Как система выбирает между коротким и полным ответом (Принцип Максимальности)?

Система предпочитает наиболее полный (специфичный) ответ. Если гипотетический факт (например, «Фред») содержится внутри другого факта («Фред Мерц»), и оба имеют одинаковый или больший уровень поддержки, система выберет более полный факт («Фред Мерц»). Это означает, что в контенте важно давать полные и точные определения и названия.

Может ли плохая верстка помешать Google извлечь факт, даже если текст идеален?

Да. Если ключевой факт разорван ненужными HTML-тегами (например, стилистическими тегами или <br> внутри имени сущности), механизм Fact Expansion может не сработать корректно. Система может извлечь только часть факта, так как не сможет определить его полные границы из-за сложной структуры кода.

Как этот патент связан с E-E-A-T?

Патент напрямую связан с Точностью (Accuracy) и Надежностью (Trustworthiness). Механизм Corroboration (подтверждение через консенсус) является способом автоматической оценки надежности информации. Сайты, предоставляющие точную и подтверждаемую информацию, способствуют общему восприятию их как надежных источников.

Как лучше всего структурировать данные на странице: таблицами, списками или текстом?

Таблицы (<table>) и списки определений (<dl>) являются предпочтительными для представления пар атрибут-значение. Патент явно упоминает таблицы как Contextual Clue. Эти структуры обеспечивают четкие границы для Fact Expansion, облегчая извлечение по сравнению с неструктурированным текстом в абзацах.

Как система обрабатывает противоречивую информацию из разных источников?

Система сгенерирует разные Hypothetical Facts для каждой версии информации. Затем она оценит уровень поддержки (Corroboration) для каждой из них. Факт, имеющий наибольшее количество подтверждающих документов и превышающий порог, будет выбран как Likely Correct Fact. Система полагается на мнение большинства.

Что такое «Hypothetical Facts» и как Google их генерирует?

Hypothetical Facts — это предполагаемые ответы, которые система генерирует на начальном этапе. Google анализирует документы, релевантные запросу, и ищет слова, которые статистически часто встречаются рядом с терминами запроса. Эти часто встречающиеся слова становятся основой для гипотез, которые затем проходят проверку.

Нужно ли использовать микроразметку Schema.org, чтобы помочь этой системе?

Патент описывает механизм извлечения фактов без опоры на микроразметку, что необходимо для обработки большей части веба. Однако использование Schema.org значительно упрощает задачу для Google, предоставляя факты в явном, структурированном виде, и служит дополнительным сильным сигналом подтверждения.