Как Google извлекает факты из неструктурированных веб-страниц для создания структурированных представлений (таблиц и карточек)

Google использует систему для извлечения сущностей (Instances), их характеристик (Attributes) и конкретных данных (Values) из разрозненных и неструктурированных веб-документов. Эта система агрегирует информацию, оценивает ее достоверность (Confidence) и представляет пользователю в структурированном виде, таком как сравнительные таблицы или карточки, даже если данные об одной сущности берутся с разных сайтов.

Описание

Какую задачу решает

Патент решает проблему сбора и сравнения информации, когда данные распределены по unstructured electronic document collection (например, Интернету). Поскольку форматы веб-страниц не являются ни ограничительными, ни постоянными, автоматическое извлечение и сопоставление данных затруднено. Изобретение призвано предоставить пользователю когерентное, структурированное представление данных, несмотря на разнообразие и отсутствие единой структуры в источниках.

Что запатентовано

Запатентован метод и система для автоматического создания структурированных представлений (structured presentation), таких как таблицы или карточки, на основе данных, извлеченных из неструктурированных документов. В ответ на запрос система идентифицирует сущности (instances), их характеристики (attributes) и значения (values). Ключевая особенность — способность извлекать и объединять данные об одной сущности из нескольких различных источников.

Как это работает

Система работает путем идентификации и извлечения данных для заполнения структурированного представления:

Инициализация: В ответ на поисковый запрос система идентифицирует релевантные документы.
Извлечение (Extraction): Система извлекает instances, attributes и values. Она может извлечь разные атрибуты одной и той же сущности из разных источников.
Оценка достоверности (Confidence): Для извлеченных данных рассчитывается оценка Confidence, основанная на качестве источников и согласованности данных.
Структурирование: Извлеченные данные организуются в structured presentation (например, таблицу).
Интерактивное расширение: Патент также описывает интерфейс, где пользователи могут добавлять новые instances или attributes, запуская новые циклы извлечения данных.

Актуальность для SEO

Высокая. Этот патент описывает фундаментальные концепции извлечения сущностей и структурирования информации, которые являются ядром современных поисковых технологий Google, включая Knowledge Graph, Rich Results и генерацию информационных блоков (например, сравнительных таблиц в выдаче). Технологии извлечения данных из неструктурированного текста только усилили свою значимость.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он описывает механизмы, с помощью которых Google стремится превратить контент веб-страниц в данные (факты). Для SEO-специалистов это подчеркивает критическую важность оптимизации сущностей (Entity Optimization) и обеспечения того, чтобы информация на сайте была представлена в формате, который легко извлекается и интерпретируется с высокой степенью достоверности (Confidence).

Детальный разбор

Термины и определения

Attribute (Атрибут): Свойство, особенность или характеристика сущности (например, «население» для города или «производитель» для товара).
Confidence (Достоверность/Уверенность): Метрика, оценивающая степень уверенности системы в том, что извлеченное значение (Value) корректно характеризует атрибут сущности.
Favorite Sites (Предпочитаемые сайты): Документы или домены, указанные пользователем (в интерактивном режиме) как надежные источники данных. Данные из этих источников получают повышенный Confidence.
Instance (Сущность/Экземпляр): Индивидуально идентифицируемая сущность (например, конкретный человек, город, модель продукта).
Record (Запись): Структурированный элемент (например, строка в таблице или отдельная карточка), который связывает Instance с его Values.
Structured presentation (Структурированное представление): Организованное, систематическое представление информации (например, таблица или набор карточек), соответствующее структурированному дизайну.
Unstructured electronic document collection (Неструктурированная коллекция электронных документов): Коллекция документов (например, Интернет), где форматирование не является ни ограничительным (restrictive), ни постоянным (permanent). Нет гарантии общей структуры.
Value (Значение): Конкретная характеристика атрибута для данной сущности (например, «4 миллиона» или «Honda»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ответа на поисковый запрос путем генерации структурированного представления.

Система получает поисковый запрос от пользователя.
Система отвечает инструкциями для отображения structured presentation релевантных instances.
Визуальное представление показывает ассоциации между instances и values их attributes за счет их расположения.
Ключевое условие: Данные извлекаются из двух или более документов в unstructured collection.

Claim 3 (Зависимый от 1): Детализирует процесс агрегации данных из разных источников для одной сущности.

Извлечение значения Атрибута А Сущности 1 из Документа 1.
Извлечение значения Атрибута Б Сущности 1 из Документа 2 (отличного от Документа 1).
Ассоциация обоих значений с Сущностью 1 в единой записи (Record).

Это ключевой механизм, позволяющий Google формировать полный профиль сущности, собирая разные характеристики с разных веб-сайтов.

Claim 7 и 9 (Зависимые от 1): Описывают интерактивность.

Система может получать триггер и предлагать новые сущности для добавления (Claim 7) или добавлять новые атрибуты (Claim 9) в структурированное представление.

Claim 13 (Независимый пункт): Описывает метод расширения существующего структурированного представления (в отличие от создания с нуля по Claim 1).

Получение описания существующего (preexisting) structured presentation.
Извлечение идентификатора новой сущности с первого веб-сайта.
Извлечение значения атрибута этой сущности со второго веб-сайта.
Добавление новой записи (Record) в представление.

Где и как применяется

Изобретение затрагивает ключевые этапы извлечения и представления информации в поиске.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексации система анализирует неструктурированные документы для идентификации Instances, Attributes и Values. На этом этапе также рассчитываются предварительные оценки Confidence. Эти структурированные данные сохраняются в Data Center для последующего использования (например, в Knowledge Graph). Патент упоминает возможность использования «already found» данных (ранее извлеченных значений).

QUNDERSTANDING – Понимание Запросов
Система интерпретирует запрос пользователя, чтобы определить, какие типы сущностей и атрибутов ищутся и требуется ли генерация structured presentation.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На финальных этапах система принимает решение о генерации Structured presentation (например, SERP feature в виде сравнительной таблицы или блока с фактами). Происходит динамическая сборка представления с использованием извлеченных данных и уровня их Confidence. Также патент описывает высоко интерактивный интерфейс, позволяющий пользователю модифицировать представление.

Входные данные:

Неструктурированные электронные документы (веб-страницы).
Поисковый запрос пользователя.
База данных предварительно извлеченных данных (Data Center).
Пользовательский ввод для модификации (в интерактивном режиме).

Выходные данные:

Инструкции для отображения Structured presentation (таблицы или карточек).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на контент, богатый сущностями с четко определимыми атрибутами — eCommerce (товары), автомобили, путешествия (отели, города), медиа. Везде, где требуется сравнение характеристик.
Специфические запросы: Информационные и коммерческие запросы, которые подразумевают сравнение или поиск конкретных фактов (например, «лучшие гибридные автомобили», «характеристики iphone X»).

Когда применяется

Триггеры активации: Когда запрос подразумевает сравнение сущностей или поиск фактов, И система может извлечь достаточное количество данных с приемлемым уровнем Confidence. Также активируется в интерактивном режиме, когда пользователь расширяет существующее представление.

Пошаговый алгоритм

Процесс А: Начальная генерация структурированного представления (по запросу)

Получение запроса: Система получает поисковый запрос.
Идентификация документов: Идентифицируются релевантные документы в неструктурированной коллекции.
Извлечение информации: Система собирает Instances, Attributes и Values из идентифицированных документов (напрямую или через индекс).
Агрегация данных: Разные атрибуты одной сущности могут быть взяты из разных документов и объединены в одну запись.
Формирование представления: Система генерирует инструкции для отображения structured presentation.

Процесс Б: Добавление новых сущностей (Instance Addition) (Интерактивный режим)

Получение триггера: Пользователь активирует триггер добавления новой сущности.
Выбор метода: Пользователю предлагаются опции: автоматический поиск похожих сущностей, поиск с ограничениями (constraints) или ручной ввод.
Поиск и добавление: Система предлагает или добавляет новые сущности на основе выбранного метода и характеристик текущего представления.

Процесс В: Добавление новых атрибутов и заполнение значений (Attribute Addition and Value Population) (Интерактивный режим)

Получение триггера и спецификации: Пользователь добавляет атрибут и указывает его характеристики (имя, ключевые слова, favorite sites и класс атрибута).
Добавление структуры: Новый атрибут (например, столбец) добавляется в представление.
Определение стратегии заполнения (на основе класса атрибута):
- Already Found: Заполнение ранее извлеченными данными из Data Center.
- Search Results: Генерация поисковых запросов и извлечение значений из результатов.
- Review: Поиск обзоров и извлечение значений (включая мнения) из них.
- Note: Заполнение вручную пользователем.
Идентификация и оценка кандидатов: Для каждого извлеченного Candidate Value определяется оценка Confidence.
Заполнение представления (на основе Confidence):
- High Confidence: Значение автоматически добавляется.
- Medium Confidence: Кандидаты предлагаются пользователю для выбора.
- Low Confidence: В представлении выделяется недостаток данных (deficiency).

Какие данные и как использует

Данные на входе

Система в первую очередь полагается на контент, извлеченный из неструктурированных источников.

Контентные факторы: Текст веб-страниц, содержимое таблиц, списков, заголовков. Это основной источник для извлечения Instances, Attributes и Values.
Структурные факторы: HTML-структура документа (например, теги таблиц, списков) может использоваться для облегчения процесса извлечения данных с помощью шаблонов (extraction patterns).
Пользовательские факторы (Ввод данных): Поисковые запросы. В интерактивном режиме: явное указание сущностей/атрибутов, ключевые слова (Key Words), указание доверенных источников (Favorite sites) или недоверенных (Disfavored sites).

Какие метрики используются и как они считаются

Confidence (Достоверность): Ключевая метрика для оценки корректности извлеченного значения. Патент указывает, что она может основываться на:
- Количестве раз, когда значение используется для характеристики атрибута (частотность).
- Качестве документов (quality of the documents), из которых извлечено значение.
Классификация Confidence: Система использует пороговые значения (High, Medium, Low) для определения способа обработки данных (автоматическое принятие, запрос пользователя или выделение недостатка данных).

Выводы

Структурирование неструктурированного контента: Патент описывает фундаментальное стремление Google извлекать и организовывать информацию из хаотичной веб-среды. Система не полагается на то, что издатели будут следовать единому формату.
Агрегация данных на уровне сущностей: Подтверждается способность системы собирать информацию о сущности по частям из разных источников (Claim 3). Цена может быть взята с сайта A, а вес — с сайта B, и объединены в одном Structured Record.
Критичность достоверности данных (Confidence): Система не просто извлекает данные, но и активно оценивает их достоверность. Confidence Score определяет, насколько агрессивно данные будут использоваться. Низкая достоверность рассматривается как deficiency (недостаток).
Влияние авторитетности источника: Confidence зависит от качества источника (quality of the documents). Это напрямую связывает авторитетность сайта (E-E-A-T) с достоверностью извлеченных из него данных.
Основа для современных SERP-фич: Описанная технология является фундаментом для функций, которые структурируют информацию в выдаче, таких как сравнительные таблицы, панели знаний и некоторые виды расширенных сниппетов.

Практика

Best practices (это мы делаем)

Четкое представление атрибутов сущностей (Extractability): Обеспечьте, чтобы ключевые характеристики (атрибуты) ваших сущностей были представлены в легко извлекаемом формате. Используйте семантически понятные HTML-структуры: таблицы (<table>), списки определений (<dl>/<dt>/<dd>) и структурированные списки.
Последовательное именование и точность данных: Используйте стандартную терминологию для атрибутов и поддерживайте точность данных. Консистентность информации на вашем сайте и в авторитетных внешних источниках повышает Confidence.
Использование микроразметки (Schema.org): Хотя патент фокусируется на неструктурированных данных, использование Schema.org значительно упрощает процесс извлечения и повышает Confidence, предоставляя данные в уже структурированном виде.
Полнота данных (Data Comprehensiveness): Предоставляйте максимально полную информацию о сущностях. Поскольку система агрегирует данные из разных источников, наличие полных данных на вашем сайте повышает его ценность как источника для structured presentation.
Укрепление авторитетности источника (E-E-A-T): Работайте над повышением авторитетности сайта, чтобы система считала извлеченные с него данные более достоверными (с высоким Confidence).

Worst practices (это делать не надо)

Скрытие данных в нетекстовых форматах: Размещение ключевых атрибутов в изображениях или сложных JavaScript-приложениях, которые трудно анализировать, препятствует извлечению данных.
Непоследовательная или неоднозначная разметка: Использование разметки для визуального форматирования, а не для семантической структуры, может запутать системы извлечения.
Использование жаргона или неоднозначных названий атрибутов: Использование нестандартных терминов для описания характеристик снижает вероятность их корректного распознавания системой.
Предоставление противоречивой информации: Публикация разных данных об одной и той же сущности может запутать систему и снизить Confidence в данных с вашего сайта.

Стратегическое значение

Этот патент подтверждает стратегический переход Google от простого поиска документов к извлечению и представлению ответов и фактов (Things, not Strings). Для SEO это означает, что необходимо думать о своем контенте как о базе данных, из которой Google будет извлекать Instances, Attributes и Values. Стратегия должна быть направлена на то, чтобы стать лучшим источником достоверных (High Confidence) данных о сущностях в вашей нише.

Практические примеры

Сценарий: Оптимизация карточки товара для точного извлечения характеристик

Цель: Обеспечить высокий Confidence при извлечении атрибутов товара для потенциального отображения в сравнительных таблицах Google.

Определение Сущности и Атрибутов: Четко определить товар (Instance) и его ключевые характеристики (Attributes): Процессор, Память, Экран, Цена.
Структурирование HTML: Разместить характеристики не в абзаце текста, а в структурированном виде. Использовать список определений (<dl>) для пар Атрибут-Значение.

Пример реализации:

<dl> <dt>Процессор</dt><dd>Intel Core i7-12345</dd> <dt>Память</dt><dd>16 GB DDR5</dd> <dt>Цена</dt><dd>$999</dd> </dl>

Ожидаемый результат: Система извлечения Google сможет легко идентифицировать Attributes и Values. Это повышает Confidence в данных и увеличивает вероятность использования информации с вашего сайта в структурированных представлениях на SERP.

Вопросы и ответы

Требуется ли разметка Schema.org для работы этой системы?

Нет. Патент специально фокусируется на извлечении информации из unstructured electronic document collection, то есть система предназначена для работы с обычным веб-контентом без специальной разметки. Однако использование Schema.org значительно облегчает задачу и повышает Confidence score извлекаемых данных, поскольку предоставляет явные сигналы о структуре контента.

Как система определяет достоверность (Confidence) извлеченных данных?

Патент указывает ключевые факторы для расчета Confidence: частотность использования значения для характеристики атрибута в различных источниках и общее качество (quality of the documents) самих источников. Авторитетность и консистентность данных играют решающую роль.

Может ли Google объединять информацию о моем товаре с данными с сайта конкурента?

Да, это одна из ключевых функций, описанных в патенте (Claim 3). Система может извлечь название товара и описание с вашего сайта, а, например, цену или технические характеристики — с другого сайта, объединив все это в одну запись (Record) в структурированном представлении.

Как лучше всего форматировать контент, чтобы помочь системе извлечь данные?

Лучше всего использовать четкие пары «атрибут-значение» и локальное структурирование. Структуры, которые явно представляют такие пары, наиболее эффективны. К ним относятся HTML-таблицы (<table>), списки определений (<dl>) и семантически организованные списки (<ul>/<ol>) с четкими заголовками.

Что происходит, если система не уверена в извлеченном значении (Low Confidence)?

Патент описывает механизм «Highlight Deficiency» (Подсветка недостатка). Если Confidence низкий, система помечает это в структурированном представлении. Это может выглядеть как пустая ячейка или использование цветового индикатора, сигнализируя о нехватке достоверных данных.

Как система определяет, какие атрибуты важны для конкретной категории сущностей?

Система может определять важные атрибуты, анализируя, какие характеристики часто используются в документах неструктурированной коллекции для описания этих сущностей. Также она может использовать онтологии или исторические записи предыдущих структурированных представлений, сохраненные в Data Center, чтобы понять общие характеристики категории.

Как этот патент связан с E-E-A-T?

Связь прямая через метрику Confidence. Система оценивает достоверность данных, основываясь на качестве источников (quality of the documents). Сайты с высоким уровнем экспертизы, авторитетности и надежности (E-E-A-T) будут генерировать данные с высоким Confidence, что увеличивает вероятность их использования в структурированных представлениях.

Может ли эта система извлекать субъективную информацию, например, мнения из обзоров?

Да. В патенте описан класс атрибутов Review. При его использовании система специально ищет обзоры и может извлекать из них контент, включая сегменты, сфокусированные на выражении мнений (sentiment focused segments), такие как позитивные или негативные оценки продукта или услуги.

Патент описывает интерактивный интерфейс для редактирования таблиц. Это функция в поиске Google?

Описанный интерфейс для активного построения и редактирования таблиц пользователем не был реализован в публичном поиске именно в таком виде. Однако, для SEO важна не сама реализация UI, а лежащие в ее основе технологии извлечения, агрегации и валидации данных, которые Google активно использует в своих алгоритмах.

Насколько актуален этот патент, учитывая развитие нейронных сетей (BERT, MUM)?

Патент закладывает концептуальную основу и цели системы. Современные нейронные сети являются инструментами, которые позволяют реализовать описанные в патенте задачи (извлечение Instances, Attributes, Values из текста) гораздо эффективнее, чем технологии 2009 года. Таким образом, патент остается высокоактуальным на стратегическом уровне.