Как Google находит, объединяет и обогащает связанные таблицы, разбросанные по разным веб-страницам

Google использует механизм для идентификации связанных таблиц («stitchable tables») на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу («union table») для лучшего понимания структурированных данных в вебе.

Описание

Какую задачу решает

Патент решает проблему фрагментации структурированных данных в интернете. Часто единый набор данных разбит на несколько таблиц, расположенных на разных веб-страницах (например, статистика по разным регионам или годам). Стандартные методы извлечения рассматривают эти фрагменты изолированно, что затрудняет анализ всего набора данных. Кроме того, при изолированном извлечении теряется важный контекст, который часто содержится не в самой таблице, а в окружающем ее тексте, заголовке страницы или URL.

Что запатентовано

Запатентована система для автоматического синтеза полных наборов данных из разрозненных фрагментов. Изобретение описывает методы идентификации связанных таблиц (Stitchable Tables) на основе семантической эквивалентности их заголовков. Ключевым элементом является механизм извлечения Hidden Attributes (скрытых атрибутов) из контекста исходных страниц с использованием сегментации и выравнивания текста. В результате система создает единую Union Table, обогащенную извлеченным контекстом.

Как это работает

Система работает в несколько этапов:

Идентификация Stitchable Tables: Система анализирует извлеченные таблицы и определяет, какие из них можно объединить. Это делается путем проверки Semantic Equivalence заголовков колонок (учитываются синонимы, акронимы, вариации) и наличия взаимно однозначного соответствия между ними.
Извлечение Hidden Attributes: Для связанных таблиц система анализирует контекст исходных веб-страниц. Текст сегментируется (Segmentation) с помощью различных эвристик (пунктуация, HTML-теги, связь с сущностями). Затем последовательности сегментов с разных страниц выравниваются (Alignment). Атрибуты, которые различаются между страницами (например, название региона), идентифицируются как Hidden Attributes.
Синтез Union Table: Исходные таблицы объединяются. Извлеченные Hidden Attributes добавляются в виде новых колонок.
Маркировка: Система автоматически определяет названия для новых колонок (например, «Регион»), используя базу данных меток классов (Class Label Database), чтобы понять тип извлеченных данных.

Актуальность для SEO

Высокая. Извлечение и структурирование данных из веба является центральной задачей для Google, питающей Knowledge Graph, Featured Snippets и специализированные поисковые сервисы. Методы, описанные в патенте, направлены на повышение полноты и точности извлечения данных из таблиц и списков. Участие Алона Халеви (Alon Halevy), одного из ведущих исследователей в области структурированных данных, подчеркивает важность этого направления.

Важность для SEO

Влияние на SEO – Высокое (7/10). Хотя это не патент о ранжировании, он критически важен для понимания того, как Google извлекает и интерпретирует структурированную информацию с веб-сайтов, даже без разметки Schema.org. Качественное представление данных в табличном формате и четкий контекст на странице напрямую влияют на способность Google использовать этот контент для обогащения Knowledge Graph и формирования расширенных результатов поиска.

Детальный разбор

Термины и определения

Alignment (Выравнивание): Процесс сопоставления последовательностей сегментов, извлеченных с разных веб-страниц, для идентификации общих паттернов и различающихся элементов (скрытых атрибутов). Может использоваться Iterative Pairwise Alignment.
Class Label Database (База данных меток классов): Репозиторий сущностей и связанных с ними меток классов (например, сущности «Арканзас» и «Массачусетс» связаны с меткой «Штат»). Используется для автоматического наименования новых колонок в Union Table.
Hidden Attributes (Скрытые атрибуты): Контекстуальные данные, которые относятся к таблице, но находятся вне ее структуры (например, в окружающем тексте, URL, заголовке страницы). Эти атрибуты извлекаются и добавляются в Union Table для обогащения данных.
Segmentation (Сегментация): Процесс разделения контекстного текста веб-страницы на отдельные фрагменты (сегменты) с использованием эвристик, таких как пунктуация, HTML-теги, самые длинные общие подпоследовательности (longest common subsequences) или привязка текста к репозиторию сущностей.
Semantic Equivalence (Семантическая эквивалентность): Критерий для определения связи между заголовками таблиц. Заголовки считаются эквивалентными, если они являются синонимами, акронимами или семантически сохраняющими вариациями (например, «Number of Students» и «# of Students»).
Stitchable Tables (Сшиваемые таблицы): Две или более таблицы (часто с разных страниц), которые идентифицированы как части одного набора данных. Критерий сшиваемости — наличие взаимно однозначного соответствия (one-to-one mapping) между семантически эквивалентными заголовками таблиц.
Union Table (Объединенная таблица): Итоговая таблица, синтезированная путем объединения данных из Stitchable Tables и обогащенная Hidden Attributes.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс синтеза таблиц.

Система получает две или более таблицы, извлеченные из веб-документов, причем документы содержат текстовые части (контекст), отдельные от таблиц.
Проводится сравнение заголовков таблиц и определяется их семантическая эквивалентность.
На основе этой эквивалентности таблицы идентифицируются как Stitchable Tables.
Для каждой таблицы определяются соответствующие текстовые части (контекст) на исходных веб-страницах.
Из этого контекста извлекается как минимум один Hidden Attribute, связанный с контентом таблиц.
Создается Union Table путем объединения Stitchable Tables, при этом Hidden Attribute добавляется в новую колонку.

Claim 4 (Зависимый от 3): Детализирует критерии для определения Stitchable Tables.

Определение семантической эквивалентности требует строгого взаимно однозначного соответствия (one-to-one mapping): каждый заголовок из первой таблицы должен быть семантически эквивалентен ровно одному соответствующему заголовку из второй таблицы, и наоборот.

Claim 5 (Зависимый от 4): Уточняет, что такое семантическая эквивалентность.

Заголовок из первой таблицы семантически эквивалентен заголовку из второй таблицы, если они являются синонимами, акронимами или семантически сохраняющими вариациями.

Claim 7 (Зависимый от 1): Описывает механизм извлечения Hidden Attributes.

Текст, ассоциированный с веб-документом, сегментируется (Segmentation) для получения последовательностей сегментов.
Оцениваются (scoring) возможные варианты выравнивания (Alignment) между этими последовательностями.
Сегменты выравниваются на основе этой оценки для получения выровненных сегментов (из которых извлекаются атрибуты).

Claim 8 (Зависимый от 7): Уточняет эвристики для сегментации.

Сегментация использует эвристики, включающие: пунктуацию, HTML-разделители, самые длинные общие подпоследовательности или связь текста с репозиторием сущностей (entity repository).

Claim 10 (Зависимый от 7): Описывает фильтрацию выровненных сегментов.

Выровненный сегмент отбрасывается, если он содержит значения, которые одинаковы для всех таблиц, И это значение не найдено в корпусе заголовков таблиц, идентифицированных как значимые (meaningful table headers).

Claim 11 (Зависимый от 1): Описывает процесс маркировки извлеченных атрибутов.

Процесс включает определение метки класса (Class Label) для Hidden Attribute и добавление этой метки в Union Table для наименования новой колонки.

Где и как применяется

Изобретение применяется на этапе обработки и структурирования собранного контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает исходные данные: веб-страницы, содержащие HTML-таблицы, а также полный контекст этих страниц (HTML, текст, URL).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. В рамках индексирования (в частности, подсистемами Information Extraction) происходит:

Извлечение таблиц: Парсинг HTML для извлечения сырых табличных данных.
Анализ и структурирование: Идентификация Stitchable Tables, извлечение Hidden Attributes с помощью NLP-техник (Segmentation и Alignment) и синтез Union Tables.
Обогащение Знаний: Использование Class Label Database (вероятно, часть Knowledge Graph или репозитория сущностей) для маркировки атрибутов. Полученные структурированные данные используются для пополнения базы знаний.

Входные данные:

Извлеченные таблицы (Extracted Tables) из корпуса веб-документов.
Полный контент (текст, HTML) и URL исходных веб-страниц.
Class Label Database (репозиторий сущностей).
Корпус значимых заголовков таблиц (для фильтрации).

Выходные данные:

Union Tables — обогащенные, структурированные наборы данных, объединяющие информацию из нескольких источников.

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, представленный в виде HTML-таблиц. Также может быть применимо к спискам (<ul>, <ol>), если они используются для представления структурированных данных.
Определенные форматы контента: Списки сущностей, сравнения продуктов, статистические данные, директории (например, списки школ, компаний, спортивных результатов).
Конкретные ниши или тематики: Наибольшее влияние в нишах, где данные часто представлены в табличном виде и фрагментированы: E-commerce (характеристики товаров), финансы, спорт, недвижимость, локальные данные (муниципальная статистика).

Когда применяется

Условия работы алгоритма: Применяется в процессе индексирования после того, как таблицы были извлечены из веб-страниц.
Триггеры активации: Обнаружение двух или более таблиц, которые удовлетворяют критериям Stitchable Tables (взаимно однозначное соответствие семантически эквивалентных заголовков).

Пошаговый алгоритм

Процесс синтеза Union Table:

Получение данных: Система получает набор таблиц, извлеченных из веб-страниц, и сохраняет связь с исходными страницами.
Определение Stitchable Tables:
- Сравнение заголовков пар таблиц для определения Semantic Equivalence (учет синонимов, акронимов).
- Проверка наличия строгого взаимно однозначного соответствия между всеми заголовками двух таблиц.
- Группировка таблиц, удовлетворяющих этим условиям.
Извлечение Hidden Attributes: Для каждой группы Stitchable Tables:
- Сегментация контекста: Извлечение контекстного текста (вокруг таблицы, заголовок страницы, URL) с исходных страниц. Применение эвристик (HTML-теги, пунктуация, связь с сущностями) для разделения текста на сегменты.
- Выравнивание (Alignment): Использование Iterative Pairwise Alignment для сопоставления последовательностей сегментов с разных страниц. Вычисление оценок соответствия сегментов (Segment Matching Scores).
- Фильтрация: Удаление выровненных сегментов, которые имеют одинаковое значение на всех страницах И это значение не найдено в корпусе значимых заголовков таблиц (например, удаление навигационных элементов типа «Home»).
- Идентификация атрибутов: Оставшиеся выровненные сегменты, которые различаются между страницами, определяются как Hidden Attributes.
Объединение таблиц (Stitching):
- Объединение данных (строк) из Stitchable Tables в единую Union Table.
- Переупорядочивание колонок при необходимости для соответствия единой схеме.
Обогащение и Маркировка:
- Добавление новых колонок в Union Table для Hidden Attributes и заполнение их соответствующими значениями из контекста.
- Определение типа значений атрибутов и поиск соответствующей метки в Class Label Database.
- Присвоение имен новым колонкам.

Какие данные и как использует

Данные на входе

Система использует несколько типов данных для анализа и синтеза таблиц:

Структурные факторы: Структура HTML-таблиц (<table>, <tr>, <th>, <td>). Заголовки колонок (Headers) являются ключевыми для определения Stitchable Tables. HTML-теги окружающего контента (включая теги форматирования, меняющие шрифт, цвет, размер) используются для сегментации.
Контентные факторы: Текст внутри ячеек таблиц. Текст, окружающий таблицу на веб-странице (contextual data), заголовки страницы (Title). Этот контент используется для извлечения Hidden Attributes.
Технические факторы: URL страницы. Может использоваться для извлечения Hidden Attributes.
Внешние данные (Системные):
- Class Label Database (репозиторий сущностей): используется для маркировки новых колонок и как эвристика для сегментации (Entity Linking).
- Корпус значимых заголовков таблиц: используется для фильтрации незначимых атрибутов.

Какие метрики используются и как они считаются

Semantic Equivalence Score: Метрика, определяющая, являются ли два заголовка синонимами, акронимами или семантически сохраняющими вариациями. Используется для установления соответствия схем.
Segment Matching Score (Оценка соответствия сегментов): Оценка соответствия между парой сегментов во время процесса выравнивания. Патент предлагает конкретные веса:
- $\lambda_h$ : если сегменты сгенерированы одной и той же эвристикой.
- $\lambda_{gap}$ : если один из сегментов пуст (null segment). (При этом $\lambda_h$ > $\lambda_{gap}$ ).
Meaningfulness (Значимость атрибута): Определяется путем проверки наличия значения атрибута в корпусе часто встречающихся заголовков таблиц. Если атрибут одинаков для всех таблиц и не является значимым заголовком, он отбрасывается.
Class Label Confidence: Определение наиболее подходящей метки класса для набора значений Hidden Attribute путем запроса к Class Label Database.

Выводы

Google активно реконструирует фрагментированные данные: Система не полагается только на то, как данные представлены на одной странице. Если данные концептуально связаны, но физически разделены (например, пагинация или разные страницы для категорий), Google попытается «сшить» их обратно в единый набор данных (Union Table).
Контекст определяет данные (Hidden Attributes): Информация, расположенная вне самой HTML-таблицы (в окружающем тексте, заголовках, URL), критически важна для интерпретации данных внутри таблицы. Система использует сложные методы (Segmentation и Alignment) для извлечения этого контекста.
Семантическое понимание структуры: Google анализирует схемы таблиц (заголовки колонок) на семантическом уровне (Semantic Equivalence), понимая синонимы и вариации. Это позволяет объединять таблицы с разными, но эквивалентными схемами.
Важность HTML-структуры и верстки: Эвристики сегментации явно полагаются на HTML-теги (включая теги форматирования) и структуру документа. Консистентная и чистая верстка облегчает работу системы по извлечению и объединению данных.
Автоматическое обогащение через Knowledge Graph: Система активно использует внешние базы знаний (Class Label Database / Репозиторий сущностей) для распознавания сущностей в тексте и для автоматической маркировки новых атрибутов, что необходимо для интеграции данных в Knowledge Graph.

Практика

Best practices (это мы делаем)

Использование четких и описательных заголовков таблиц: Используйте стандартные, недвусмысленные названия для колонок (<th>). Это повышает вероятность того, что Google корректно определит Semantic Equivalence и сможет использовать ваши данные.
Размещение контекста рядом с таблицей: Критически важная информация, которая применяется ко всей таблице (например, год, регион, категория), должна быть размещена в непосредственной близости от таблицы — в теге <caption>, в предшествующем заголовке (Hn), абзаце текста или в хлебных крошках. Это облегчает извлечение Hidden Attributes.
Последовательность при фрагментации данных: Если большой набор данных разбит на несколько страниц (например, пагинация или разделы по категориям):
- Сохраняйте абсолютно идентичную структуру таблиц на всех страницах.
- Убедитесь, что дифференцирующий контекст (например, название категории) четко указан на каждой странице в схожем формате и схожей HTML-структуре.
Это позволит Google успешно применить механизм Stitching.
Использование нативных HTML-таблиц для данных: Представляйте структурированные данные с помощью тега <table>, а не через <div>, CSS-Grid или Flexbox, если цель — максимальная доступность для извлечения поисковыми системами.

Worst practices (это делать не надо)

Использование неоднозначных или пустых заголовков: Отсутствие заголовков или использование неинформативных названий (например, «Колонка 1», «Данные») делает невозможным определение Semantic Equivalence и блокирует процесс объединения таблиц.
Отделение таблицы от ее контекста: Размещение таблицы в документе далеко от текста, который ее описывает, или использование сложных скриптов для динамической загрузки контекста может помешать извлечению Hidden Attributes.
Непоследовательные схемы для связанных данных: Изменение порядка колонок, добавление или удаление колонок в таблицах, которые являются частью одного набора данных (например, на разных страницах пагинации). Это нарушает требование взаимно однозначного соответствия.
Сложная и неконсистентная верстка вокруг таблиц: Избыточная вложенность и непоследовательное использование HTML-тегов или стилей на похожих страницах могут ухудшить работу эвристик сегментации и выравнивания, что приведет к ошибкам при извлечении контекста.

Стратегическое значение

Патент подтверждает стратегическое направление Google на извлечение и понимание структурированных данных из веба любыми доступными способами, далеко выходя за рамки микроразметки Schema.org. Для SEO-специалистов это означает, что качественное, чистое и семантически понятное представление данных в HTML-таблицах является значимым активом. Эти данные могут напрямую использоваться для формирования ответов в поиске (Featured Snippets) и для пополнения Knowledge Graph, повышая видимость и авторитетность ресурса как источника данных.

Практические примеры

Сценарий: Оптимизация директории филиалов компании

Компания имеет филиалы в нескольких регионах и представляет их списком на сайте, разделяя по страницам (например, /branches/moscow, /branches/spb).

Структура данных: На каждой странице используется HTML-таблица с заголовками: «Название филиала», «Адрес», «Телефон», «Часы работы». Структура идентична на всех страницах.
Контекст (Hidden Attributes): На странице /branches/moscow над таблицей расположен заголовок H1 «Филиалы в Москве». На странице /branches/spb — H1 «Филиалы в Санкт-Петербурге». Верстка заголовков идентична.
Действия Google (согласно патенту):
- Google определяет таблицы как Stitchable Tables (схемы идентичны).
- Система сегментирует контекст (H1) и выравнивает его. Она идентифицирует, что «Москва» и «Санкт-Петербург» являются переменными значениями в схожем контексте (H1 «Филиалы в [Значение]»).
- Google извлекает их как Hidden Attributes.
- Система создает Union Table, объединяя все филиалы.
- Используя Class Label Database, Google определяет, что «Москва» и «Санкт-Петербург» — это «Город», и добавляет новую колонку «Город» в объединенную таблицу.
Результат: Google получает полный и структурированный набор данных о всех филиалах компании, что может быть использовано в локальном поиске или для прямых ответов на запросы о филиалах.

Вопросы и ответы

Означает ли этот патент, что разметка Schema.org для таблиц (Dataset) не нужна?

Нет, не означает. Schema.org предоставляет явный и недвусмысленный способ указания структурированных данных, который всегда предпочтительнее. Описанный в патенте механизм — это способ Google извлекать данные, когда явная разметка отсутствует или недостаточна. Лучшая стратегия — использовать чистые HTML-таблицы И дополнять их разметкой Dataset.

Как Google определяет, что заголовки таблиц семантически эквивалентны?

Патент упоминает, что учитываются синонимы, акронимы и семантически сохраняющие вариации (например, «Date of Birth» и «D.O.B.», или «Number of Students» и «# of Students»). На практике это реализуется с помощью моделей обработки естественного языка (NLP) и базы знаний о взаимосвязях между терминами и сущностями, чтобы установить строгое взаимно однозначное соответствие.

Что такое «Hidden Attributes» и откуда они берутся?

Hidden Attributes — это данные, которые применяются ко всей таблице, но находятся вне ее структуры. Они извлекаются из контекста веб-страницы: окружающего текста, заголовков (H1-H6), тега <title>, URL страницы или тега <caption> таблицы. Например, если на странице есть таблица со статистикой за 2025 год, то «2025» может быть извлечено как скрытый атрибут.

Как повлиять на то, какие именно данные Google извлечет как «Hidden Attributes»?

Ключевым фактором является размещение контекстной информации близко к таблице и использование чистого, последовательного форматирования и верстки. Система использует эвристики, основанные на HTML-тегах (включая теги форматирования) и пунктуации, для сегментации текста. Чем четче и консистентнее структура вашего контента вокруг таблицы, тем точнее будет извлечение.

Может ли Google объединить таблицы с моего сайта с таблицами с другого сайта?

Да, патент не ограничивает применение механизма одним доменом. Если система обнаружит таблицы на разных сайтах, которые удовлетворяют критериям Stitchable Tables (имеют семантически эквивалентные схемы), она может попытаться их объединить для формирования более полного набора данных в своей базе знаний.

Что делать, если я использую пагинацию для большой таблицы?

Это идеальный сценарий для применения этого патента. Чтобы помочь Google корректно «сшить» таблицу, критически важно сохранять абсолютно идентичную структуру таблицы (порядок и названия колонок) на всех страницах пагинации. Также убедитесь, что контекст страницы (например, номер страницы) понятен и консистентен.

Как работает механизм «Segmentation»?

Segmentation разделяет текст на фрагменты, используя различные эвристики. К ним относятся: разделители в виде пунктуации или HTML-тегов (например, изменение стиля шрифта или <br>), обнаружение самых длинных общих подпоследовательностей текста или разметки, а также привязка текста к известным сущностям в репозитории (Entity Linking).

Что такое «Class Label Database» и как она используется?

Это база знаний (вероятно, связанная с Knowledge Graph), которая хранит сущности и их типы (метки классов). Когда система извлекает значения скрытых атрибутов (например, «Арканзас» и «Массачусетс»), она обращается к этой базе, чтобы определить общий тип данных («Штат»), и использует его для наименования новой колонки в объединенной таблице.

Влияет ли этот патент на ранжирование моего сайта?

Напрямую нет, это не алгоритм ранжирования. Однако он влияет на то, насколько хорошо Google понимает контент вашего сайта. Если Google может успешно извлечь и синтезировать высококачественные структурированные данные с вашего ресурса, это может повысить его авторитетность как источника информации и улучшить видимость через Featured Snippets или результаты, основанные на Knowledge Graph.

Работает ли этот механизм для списков (UL/OL), а не только для таблиц?

Хотя в патенте основное внимание уделяется HTML-таблицам, в описании упоминается, что подходы могут использоваться для извлечения данных из списков (lists). Если списки используются для представления структурированных данных (например, список характеристик продукта), система потенциально может применить аналогичную логику для их анализа и объединения.