
Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу ("union table") для лучшего понимания структурированных данных в вебе.
Патент решает проблему фрагментации структурированных данных в интернете. Часто единый набор данных разбит на несколько таблиц, расположенных на разных веб-страницах (например, статистика по разным регионам или годам). Стандартные методы извлечения рассматривают эти фрагменты изолированно, что затрудняет анализ всего набора данных. Кроме того, при изолированном извлечении теряется важный контекст, который часто содержится не в самой таблице, а в окружающем ее тексте, заголовке страницы или URL.
Запатентована система для автоматического синтеза полных наборов данных из разрозненных фрагментов. Изобретение описывает методы идентификации связанных таблиц (Stitchable Tables) на основе семантической эквивалентности их заголовков. Ключевым элементом является механизм извлечения Hidden Attributes (скрытых атрибутов) из контекста исходных страниц с использованием сегментации и выравнивания текста. В результате система создает единую Union Table, обогащенную извлеченным контекстом.
Система работает в несколько этапов:
Semantic Equivalence заголовков колонок (учитываются синонимы, акронимы, вариации) и наличия взаимно однозначного соответствия между ними.Segmentation) с помощью различных эвристик (пунктуация, HTML-теги, связь с сущностями). Затем последовательности сегментов с разных страниц выравниваются (Alignment). Атрибуты, которые различаются между страницами (например, название региона), идентифицируются как Hidden Attributes.Hidden Attributes добавляются в виде новых колонок.Class Label Database), чтобы понять тип извлеченных данных.Высокая. Извлечение и структурирование данных из веба является центральной задачей для Google, питающей Knowledge Graph, Featured Snippets и специализированные поисковые сервисы. Методы, описанные в патенте, направлены на повышение полноты и точности извлечения данных из таблиц и списков. Участие Алона Халеви (Alon Halevy), одного из ведущих исследователей в области структурированных данных, подчеркивает важность этого направления.
Влияние на SEO – Высокое (7/10). Хотя это не патент о ранжировании, он критически важен для понимания того, как Google извлекает и интерпретирует структурированную информацию с веб-сайтов, даже без разметки Schema.org. Качественное представление данных в табличном формате и четкий контекст на странице напрямую влияют на способность Google использовать этот контент для обогащения Knowledge Graph и формирования расширенных результатов поиска.
Iterative Pairwise Alignment.Union Table.Union Table для обогащения данных.longest common subsequences) или привязка текста к репозиторию сущностей.Stitchable Tables и обогащенная Hidden Attributes.Claim 1 (Независимый пункт): Описывает основной процесс синтеза таблиц.
Stitchable Tables.Hidden Attribute, связанный с контентом таблиц.Union Table путем объединения Stitchable Tables, при этом Hidden Attribute добавляется в новую колонку.Claim 4 (Зависимый от 3): Детализирует критерии для определения Stitchable Tables.
Определение семантической эквивалентности требует строгого взаимно однозначного соответствия (one-to-one mapping): каждый заголовок из первой таблицы должен быть семантически эквивалентен ровно одному соответствующему заголовку из второй таблицы, и наоборот.
Claim 5 (Зависимый от 4): Уточняет, что такое семантическая эквивалентность.
Заголовок из первой таблицы семантически эквивалентен заголовку из второй таблицы, если они являются синонимами, акронимами или семантически сохраняющими вариациями.
Claim 7 (Зависимый от 1): Описывает механизм извлечения Hidden Attributes.
Segmentation) для получения последовательностей сегментов.scoring) возможные варианты выравнивания (Alignment) между этими последовательностями.Claim 8 (Зависимый от 7): Уточняет эвристики для сегментации.
Сегментация использует эвристики, включающие: пунктуацию, HTML-разделители, самые длинные общие подпоследовательности или связь текста с репозиторием сущностей (entity repository).
Claim 10 (Зависимый от 7): Описывает фильтрацию выровненных сегментов.
Выровненный сегмент отбрасывается, если он содержит значения, которые одинаковы для всех таблиц, И это значение не найдено в корпусе заголовков таблиц, идентифицированных как значимые (meaningful table headers).
Claim 11 (Зависимый от 1): Описывает процесс маркировки извлеченных атрибутов.
Процесс включает определение метки класса (Class Label) для Hidden Attribute и добавление этой метки в Union Table для наименования новой колонки.
Изобретение применяется на этапе обработки и структурирования собранного контента.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает исходные данные: веб-страницы, содержащие HTML-таблицы, а также полный контекст этих страниц (HTML, текст, URL).
INDEXING – Индексирование и извлечение признаков
Основное применение патента. В рамках индексирования (в частности, подсистемами Information Extraction) происходит:
Stitchable Tables, извлечение Hidden Attributes с помощью NLP-техник (Segmentation и Alignment) и синтез Union Tables.Class Label Database (вероятно, часть Knowledge Graph или репозитория сущностей) для маркировки атрибутов. Полученные структурированные данные используются для пополнения базы знаний.Входные данные:
Extracted Tables) из корпуса веб-документов.Class Label Database (репозиторий сущностей).Выходные данные:
Union Tables — обогащенные, структурированные наборы данных, объединяющие информацию из нескольких источников.<ul>, <ol>), если они используются для представления структурированных данных.Stitchable Tables (взаимно однозначное соответствие семантически эквивалентных заголовков).Процесс синтеза Union Table:
Semantic Equivalence (учет синонимов, акронимов).Stitchable Tables: Iterative Pairwise Alignment для сопоставления последовательностей сегментов с разных страниц. Вычисление оценок соответствия сегментов (Segment Matching Scores).Hidden Attributes.Stitchable Tables в единую Union Table.Union Table для Hidden Attributes и заполнение их соответствующими значениями из контекста.Class Label Database.Система использует несколько типов данных для анализа и синтеза таблиц:
<table>, <tr>, <th>, <td>). Заголовки колонок (Headers) являются ключевыми для определения Stitchable Tables. HTML-теги окружающего контента (включая теги форматирования, меняющие шрифт, цвет, размер) используются для сегментации.contextual data), заголовки страницы (Title). Этот контент используется для извлечения Hidden Attributes.Hidden Attributes.Class Label Database (репозиторий сущностей): используется для маркировки новых колонок и как эвристика для сегментации (Entity Linking).null segment). (При этом λh > λgap).Hidden Attribute путем запроса к Class Label Database.Union Table).Segmentation и Alignment) для извлечения этого контекста.Semantic Equivalence), понимая синонимы и вариации. Это позволяет объединять таблицы с разными, но эквивалентными схемами.Class Label Database / Репозиторий сущностей) для распознавания сущностей в тексте и для автоматической маркировки новых атрибутов, что необходимо для интеграции данных в Knowledge Graph.<th>). Это повышает вероятность того, что Google корректно определит Semantic Equivalence и сможет использовать ваши данные.<caption>, в предшествующем заголовке (Hn), абзаце текста или в хлебных крошках. Это облегчает извлечение Hidden Attributes.Stitching.<table>, а не через <div>, CSS-Grid или Flexbox, если цель — максимальная доступность для извлечения поисковыми системами.Semantic Equivalence и блокирует процесс объединения таблиц.Hidden Attributes.Патент подтверждает стратегическое направление Google на извлечение и понимание структурированных данных из веба любыми доступными способами, далеко выходя за рамки микроразметки Schema.org. Для SEO-специалистов это означает, что качественное, чистое и семантически понятное представление данных в HTML-таблицах является значимым активом. Эти данные могут напрямую использоваться для формирования ответов в поиске (Featured Snippets) и для пополнения Knowledge Graph, повышая видимость и авторитетность ресурса как источника данных.
Сценарий: Оптимизация директории филиалов компании
Компания имеет филиалы в нескольких регионах и представляет их списком на сайте, разделяя по страницам (например, /branches/moscow, /branches/spb).
Stitchable Tables (схемы идентичны).Hidden Attributes.Union Table, объединяя все филиалы.Class Label Database, Google определяет, что "Москва" и "Санкт-Петербург" — это "Город", и добавляет новую колонку "Город" в объединенную таблицу.Означает ли этот патент, что разметка Schema.org для таблиц (Dataset) не нужна?
Нет, не означает. Schema.org предоставляет явный и недвусмысленный способ указания структурированных данных, который всегда предпочтительнее. Описанный в патенте механизм — это способ Google извлекать данные, когда явная разметка отсутствует или недостаточна. Лучшая стратегия — использовать чистые HTML-таблицы И дополнять их разметкой Dataset.
Как Google определяет, что заголовки таблиц семантически эквивалентны?
Патент упоминает, что учитываются синонимы, акронимы и семантически сохраняющие вариации (например, "Date of Birth" и "D.O.B.", или "Number of Students" и "# of Students"). На практике это реализуется с помощью моделей обработки естественного языка (NLP) и базы знаний о взаимосвязях между терминами и сущностями, чтобы установить строгое взаимно однозначное соответствие.
Что такое "Hidden Attributes" и откуда они берутся?
Hidden Attributes — это данные, которые применяются ко всей таблице, но находятся вне ее структуры. Они извлекаются из контекста веб-страницы: окружающего текста, заголовков (H1-H6), тега <title>, URL страницы или тега <caption> таблицы. Например, если на странице есть таблица со статистикой за 2025 год, то "2025" может быть извлечено как скрытый атрибут.
Как повлиять на то, какие именно данные Google извлечет как "Hidden Attributes"?
Ключевым фактором является размещение контекстной информации близко к таблице и использование чистого, последовательного форматирования и верстки. Система использует эвристики, основанные на HTML-тегах (включая теги форматирования) и пунктуации, для сегментации текста. Чем четче и консистентнее структура вашего контента вокруг таблицы, тем точнее будет извлечение.
Может ли Google объединить таблицы с моего сайта с таблицами с другого сайта?
Да, патент не ограничивает применение механизма одним доменом. Если система обнаружит таблицы на разных сайтах, которые удовлетворяют критериям Stitchable Tables (имеют семантически эквивалентные схемы), она может попытаться их объединить для формирования более полного набора данных в своей базе знаний.
Что делать, если я использую пагинацию для большой таблицы?
Это идеальный сценарий для применения этого патента. Чтобы помочь Google корректно "сшить" таблицу, критически важно сохранять абсолютно идентичную структуру таблицы (порядок и названия колонок) на всех страницах пагинации. Также убедитесь, что контекст страницы (например, номер страницы) понятен и консистентен.
Как работает механизм "Segmentation"?
Segmentation разделяет текст на фрагменты, используя различные эвристики. К ним относятся: разделители в виде пунктуации или HTML-тегов (например, изменение стиля шрифта или <br>), обнаружение самых длинных общих подпоследовательностей текста или разметки, а также привязка текста к известным сущностям в репозитории (Entity Linking).
Что такое "Class Label Database" и как она используется?
Это база знаний (вероятно, связанная с Knowledge Graph), которая хранит сущности и их типы (метки классов). Когда система извлекает значения скрытых атрибутов (например, "Арканзас" и "Массачусетс"), она обращается к этой базе, чтобы определить общий тип данных ("Штат"), и использует его для наименования новой колонки в объединенной таблице.
Влияет ли этот патент на ранжирование моего сайта?
Напрямую нет, это не алгоритм ранжирования. Однако он влияет на то, насколько хорошо Google понимает контент вашего сайта. Если Google может успешно извлечь и синтезировать высококачественные структурированные данные с вашего ресурса, это может повысить его авторитетность как источника информации и улучшить видимость через Featured Snippets или результаты, основанные на Knowledge Graph.
Работает ли этот механизм для списков (UL/OL), а не только для таблиц?
Хотя в патенте основное внимание уделяется HTML-таблицам, в описании упоминается, что подходы могут использоваться для извлечения данных из списков (lists). Если списки используются для представления структурированных данных (например, список характеристик продукта), система потенциально может применить аналогичную логику для их анализа и объединения.

Knowledge Graph
Семантика и интент
Структура сайта

Семантика и интент
Индексация
SERP

Структура сайта
Индексация

Индексация
Ссылки

Knowledge Graph
Семантика и интент

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
Семантика и интент

Поведенческие сигналы
Мультимедиа
SERP

Ссылки
SERP

Local SEO
Поведенческие сигналы

Поведенческие сигналы
Антиспам
SERP

Персонализация
EEAT и качество
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Ссылки

Knowledge Graph
Свежесть контента
Семантика и интент

Свежесть контента
Поведенческие сигналы
SERP
