Как Google классифицирует веб-таблицы, определяя их тематику и структуру для улучшения поиска по структурированным данным

Google использует механизм для понимания семантики таблиц в интернете. Система автоматически определяет главную колонку таблицы (Subject Column), содержащую сущности, и классифицирует эти сущности с помощью иерархии знаний (Instance-Class Hierarchy), извлеченной из веба. Это позволяет поисковой системе находить и ранжировать таблицы в ответ на запросы, ищущие структурированные данные (например, класс и свойство).

Описание

Какую задачу решает

Патент решает проблему сложности поиска релевантных таблиц в интернете и других репозиториях. Традиционные методы поиска плохо подходят для таблиц, так как семантика (смысл и структура данных) таблицы часто не является явной – у таблиц могут отсутствовать заголовки или метаданные. Изобретение улучшает поиск, позволяя системе автоматически восстанавливать семантическую информацию из таблиц и использовать ее для идентификации и ранжирования табличных данных в ответ на запрос пользователя.

Что запатентовано

Запатентована система для автоматического восстановления семантической информации из коллекций таблиц и использования этой информации в поиске. Суть изобретения заключается в методе классификации таблиц путем идентификации Subject Column (главной колонки, содержащей сущности) и определения класса этих сущностей с помощью внешней Instance-Class Hierarchy (иерархии Класс-Сущность). Таблицы помечаются этими классами, что позволяет системе отвечать на запросы, состоящие из класса и свойства (например, «президенты, политическая партия»), находя соответствующие таблицы.

Как это работает

Система работает в два основных этапа: индексирование и поиск.

Индексирование (Офлайн):

Сбор таблиц: Система собирает таблицы из веба, фильтруя нерелевантные (например, календари, пустые таблицы, таблицы для верстки).
Идентификация Subject Column: Для каждой таблицы определяется колонка, содержащая основные сущности. Это делается с помощью SVM-классификатора или эвристик (например, первая колонка без чисел/дат).
Классификация: Сущности из Subject Column сопоставляются с Instance-Class Repository (базой знаний, построенной на основе анализа текстов и логов запросов).
Маркировка: Таблица помечается наиболее релевантными классами.

Поиск (Онлайн):

Анализ запроса: Система получает запрос, который интерпретируется как пара (Класс, Свойство).
Поиск: Идентифицируются таблицы, помеченные данным классом и содержащие искомое свойство.
Ранжирование: Таблицы ранжируются по различным критериям, включая размер таблицы (полноту) и авторитетность источника (например, PageRank).

Актуальность для SEO

Высокая. Понимание и извлечение структурированных данных из веба является ключевым направлением развития поиска (например, для формирования Featured Snippets с таблицами, Google Dataset Search). Методы, описанные в патенте, лежат в основе способности Google интерпретировать и использовать табличные данные, даже если они не размечены с помощью Schema.org. Участие таких изобретателей, как Alon Halevy и Marius Pasca, подчеркивает важность этого направления для семантического поиска.

Важность для SEO

Патент имеет высокое значение для SEO (85/100), особенно в контексте работы со структурированными данными. Он раскрывает механизмы, с помощью которых Google понимает содержание таблиц. Если таблица структурирована так, что система может легко идентифицировать Subject Column и классифицировать ее содержимое, такая таблица имеет больше шансов ранжироваться по запросам, ищущим структурированную информацию, и потенциально попадать в специальные блоки выдачи.

Детальный разбор

Термины и определения

Class (Класс): Категория или концепция, к которой принадлежат сущности (например, «азиатские страны», «президенты»).
Instance (Сущность / Экземпляр): Конкретный объект, принадлежащий классу (например, «Сингапур», «Обама»). В таблице это обычно значение ячейки в Subject Column.
Instance-Class Hierarchy (Иерархия Класс-Сущность): Структура данных, содержащая пары (Instance, Class). Строится путем извлечения информации из текстовых паттернов в веб-документах и логов запросов. Отражает иерархические отношения между классами.
Instance-Class Repository: Хранилище пар (Instance, Class), используемое для построения иерархии и классификации таблиц.
MergedScore (Объединенная оценка): Метрика для ранжирования потенциальных классов для таблицы. Рассчитывается на основе относительных рангов класса в списках, сгенерированных для каждой отдельной сущности в Subject Column.
Property (Свойство): Атрибут или характеристика класса (например, для класса «президенты» свойством может быть «политическая партия»).
Subject Column (Главная колонка / Колонка субъекта): Колонка в таблице, которая содержит названия основных сущностей (Instances), описываемых в таблице. Например, в таблице ВВП стран, колонка с названиями стран является Subject Column.
SVM Classifier (Support Vector Machine Classifier): Классификатор на основе метода опорных векторов. Используется в патенте как один из методов для автоматического определения Subject Column в таблице на основе признаков этой колонки.

Ключевые утверждения (Анализ Claims)

Патент содержит две основные группы независимых утверждений: первая (Claim 1) описывает процесс обработки и классификации таблиц, вторая (Claim 10) описывает процесс поиска по этим таблицам.

Claim 1 (Независимый пункт): Описывает метод восстановления семантической информации из таблиц (Офлайн-процесс).

Система получает коллекцию таблиц.
Для каждой таблицы восстанавливается семантическая информация. Это включает:
- Идентификацию Subject Column в каждой таблице.
- Определение класса для таблицы в соответствии с Instance-Class Hierarchy (на основе Subject Column).
Каждая таблица в коллекции помечается (маркируется) соответствующим классом.

Claim 4 (Зависимый от 1): Уточняет метод идентификации Subject Column.

Subject Column идентифицируется с использованием SVM classifier.

Claim 8 (Зависимый от 1): Описывает источник данных для иерархии.

Instance-Class Hierarchy генерируется из Instance-Class Repository, который формируется путем идентификации паттернов из коллекции текстов и коллекции запросов.

Claim 9 (Зависимый от 1): Детализирует процесс классификации.

Система вычисляет кандидатов в классы для каждой ячейки в Subject Column, а затем назначает метки классов для всей колонки как объединенный ранжированный список (merged ranked list) из этих кандидатов.

Claim 10 (Независимый пункт): Описывает метод поиска по таблицам (Онлайн-процесс).

Система получает запрос, содержащий термины, идентифицирующие Класс (Class) и Свойство (Property) этого класса.
Идентифицируются таблицы, которые помечены тем же классом, что и в запросе.
Среди этих таблиц идентифицируются те, которые также включают свойство из запроса.
Эти таблицы ранжируются.

Claim 14 (Зависимый от 10): Уточняет метод ранжирования.

Таблицы ранжируются в соответствии с их размером (size of the one or more tables).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, фокусируясь на обработке структурированных данных.

CRAWLING – Сканирование и Сбор данных
На этом этапе система обнаруживает и загружает веб-страницы, содержащие таблицы. Происходит первичная фильтрация (удаление layout-таблиц, пустых таблиц и т.д.). Также собираются тексты и логи запросов для построения Instance-Class Repository.

INDEXING – Индексирование и извлечение признаков
Основная часть офлайн-обработки происходит здесь:

Извлечение Признаков (Feature Extraction): Вычисление признаков колонок (уникальность, тип данных и т.д.) для SVM.
Идентификация Subject Column: Система анализирует структуру и содержание колонок (используя SVM или эвристики) для определения главной колонки.
Классификация и маркировка: Сущности из Subject Column сопоставляются с Instance-Class Hierarchy, вычисляются MergedScore для классов, и таблицы маркируются соответствующими метками.
Построение Instance-Class Repository (Офлайн): Параллельный процесс, включающий анализ текстов и логов запросов для извлечения пар (Instance, Class).

QUNDERSTANDING – Понимание Запросов
На этапе обработки запроса система должна распознать намерение пользователя найти структурированную информацию и интерпретировать запрос как пару (Class, Property).

RANKING – Ранжирование
Если запрос интерпретирован как поиск по таблицам, запускается специализированный процесс:

Отбор кандидатов: Отбор таблиц, маркированных соответствующим классом и содержащих свойство.
Ранжирование таблиц: Применение специфических сигналов ранжирования (размер таблицы, PageRank страницы-источника, анкорный текст, окружающий текст).

METASEARCH – Метапоиск и Смешивание
Результаты поиска по таблицам могут быть смешаны с обычными результатами поиска (non-table search results) или показаны как отдельный блок.

На что влияет

Конкретные типы контента: В первую очередь влияет на веб-страницы, содержащие HTML-таблицы со списками сущностей и их свойств (например, списки товаров, рейтинги, статистические данные).
Специфические запросы: Влияет на информационные и исследовательские запросы, где пользователь ищет структурированные данные или сравнения (например, «ВВП азиатских стран», «побочные эффекты антибиотиков»).
Конкретные ниши или тематики: Любые ниши, где данные часто представляются в табличном виде: E-commerce, финансы, здоровье (YMYL), наука, спорт.

Когда применяется

Триггеры активации (Индексирование): При обнаружении HTML-таблицы, которая проходит первичные фильтры качества. Патент упоминает фильтрацию очень маленьких таблиц (например, с одной колонкой или менее пяти строк).
Триггеры активации (Поиск): Когда запрос пользователя может быть интерпретирован как поиск пары (Class, Property) и в индексе существуют релевантные таблицы.

Пошаговый алгоритм

Процесс А: Построение Instance-Class Repository (Офлайн)

Сбор данных: Сбор коллекции текстов и анонимизированных запросов.
Идентификация паттернов: Поиск в текстах паттернов вида «[…] C [such as|including] I […]» (например, «страны, такие как X, Y и Z»).
Извлечение Классов (C) и Сущностей (I): Определение границ C (например, с помощью POS-tagging) и I (валидация через логи запросов).
Расчет оценок: Вычисление Score(I,C) для каждой пары. Формула: Score(I,C) = Size({Pattern(I,C)})^2 * Freq(I,C). Учитывается количество паттернов и частота встречаемости (с контролем дубликатов предложений).
Сохранение: Сохранение пар в репозиторий.

Процесс Б: Индексирование и Классификация Таблиц (Офлайн)

Сбор и фильтрация таблиц: Идентификация и очистка коллекции таблиц.
Идентификация Subject Column: Для каждой таблицы определяется главная колонка.
1. Метод 1 (Эвристика): Сканирование слева направо, выбор первой колонки, не являющейся числом или датой.
2. Метод 2 (SVM): Вычисление признаков для каждой колонки (уникальность контента, доля чисел, индекс колонки и т.д.) и применение обученного SVM-классификатора. Выбирается колонка с наивысшей оценкой.
Извлечение Сущностей (IL): Получение списка сущностей из Subject Column.
Получение Кандидатских Классов: Для каждой сущности извлекается список релевантных классов из Репозитория (Процесс А).
Объединение списков (MergeLists): Вычисление MergedScore(C) для каждого класса на основе его ранга в списках разных сущностей. Формула: MergedScore(C) = (Σ Rank(C, L)) / |{L}| (средний ранг).
Маркировка таблицы: Присвоение таблице ранжированного списка классов (классы с наименьшим MergedScore считаются лучшими).

Процесс В: Поиск по таблицам (Онлайн)

Получение запроса: Получение запроса в форме (Class C, Property P).
Идентификация таблиц по классу: Поиск таблиц в индексе, маркированных классом C.
Фильтрация по свойству: Отбор таблиц, которые содержат свойство P.
Ранжирование таблиц: Ранжирование отобранных таблиц. Критерии включают:
1. Размер (Size): Предпочтение более длинным таблицам или таблицам, размер которых близок к оценочному размеру класса C.
2. Внешние сигналы: PageRank, входящий анкорный текст.
3. Контентные сигналы: Количество строк, окружающий текст.
Представление результатов: Отображение ранжированного списка таблиц.

Какие данные и как использует

Данные на входе

Контентные факторы: Содержимое ячеек таблицы (текст, числа, даты). Текст, окружающий таблицу (surrounding text). Текстовые данные из большого корпуса документов (для построения репозитория).
Структурные факторы: Структура таблицы (строки, колонки). Индекс колонки (Column index from the left). Размер таблицы (количество строк/колонок).
Ссылочные факторы: Упоминаются как возможные факторы ранжирования найденных таблиц: PageRank, входящий анкорный текст (incoming anchor text).
Поведенческие факторы: Логи запросов (collection of queries) используются для валидации сущностей (Instances) при построении Instance-Class Repository.

Какие метрики используются и как они считаются

Метрики для идентификации Subject Column (SVM Features): Патент выделяет 5 ключевых признаков, которые показали наилучшие результаты для SVM:

Fraction of cells with unique content (Доля ячеек с уникальным контентом).
Fraction of cells with numeric content (Доля ячеек с числовым контентом).
Variance in the number of date tokens in each cell (Дисперсия количества токенов даты в ячейках).
Average number of words in each cell (Среднее количество слов в ячейке).
Column index from the left (Индекс колонки слева).

Метрики для классификации:

Score(I,C): Оценка релевантности класса C для сущности I. Формула: Score(I,C) = Size({Pattern(I,C)})^2 * Freq(I,C).
MergedScore(C): Агрегированная оценка класса C для всей таблицы. Вычисляется как средний ранг класса C по всем сущностям в колонке. Формула: MergedScore(C) = (Σ Rank(C, L)) / |{L}|. Цель – минимизировать эту оценку, так как меньший ранг (ближе к 1) лучше.

Метрики для ранжирования таблиц:

Размер таблицы (Size): Количество строк. Используется для предпочтения более полных таблиц (Claim 14).
Стандартные метрики ранжирования ресурсов (PageRank, анкоры).

Выводы

Автоматическое понимание таблиц: Google активно инвестирует в технологии, позволяющие понимать семантику таблиц без явной разметки. Система стремится автоматически определить, о чем таблица (Класс) и какие сущности в ней перечислены (Subject Column).
Критичность структуры таблицы и Subject Column: Способность системы идентифицировать Subject Column критически важна для классификации. Для этого используются как эвристики (позиция слева, тип данных), так и машинное обучение (SVM), анализирующее статистические признаки данных в колонках (уникальность, количество слов и т.д.).
Зависимость от внешних знаний (Knowledge Graph): Классификация таблиц напрямую зависит от качества и полноты Instance-Class Repository (по сути, части Knowledge Graph), который строится путем анализа веб-текстов и логов запросов. Таблицы, содержащие известные системе сущности, будут классифицированы точнее.
Поиск структурированных данных: Патент описывает механизм целенаправленного поиска таблиц по запросам типа (Class, Property). Это означает, что Google может использовать веб-таблицы для прямого ответа на запросы, требующие списков или сравнений.
Ранжирование таблиц и важность полноты данных: При ранжировании таблиц учитываются как стандартные сигналы (PageRank, анкоры), так и специфические сигналы, в частности, размер таблицы. Более полные (длинные) таблицы могут получать предпочтение, так как они считаются более репрезентативными для класса.

Практика

Best practices (это мы делаем)

Обеспечивайте четкую структуру таблиц: Проектируйте таблицы так, чтобы Subject Column (главная колонка с сущностями) была легко идентифицируема. В большинстве случаев размещайте ее крайней слева.
Используйте однозначные и известные сущности: В Subject Column используйте стандартные, общепринятые названия сущностей (названия стран, имена людей, наименования продуктов), которые Google может распознать и связать со своим Instance-Class Repository (Knowledge Graph). Это критично для правильной классификации таблицы.
Соблюдайте чистоту данных в колонках: Избегайте смешивания разных типов данных в одной колонке. SVM-классификатор использует признаки, такие как доля уникального контента и доля числового контента, для определения роли колонки. Subject Column должна быть преимущественно текстовой и уникальной.
Создавайте полные и авторитетные таблицы: Поскольку размер таблицы (количество строк) используется как сигнал ранжирования (Claim 14), стремитесь создавать наиболее полные списки по теме. Более длинная таблица часто считается более репрезентативной.
Используйте четкие заголовки свойств (Properties): Колонки свойств должны иметь понятные заголовки (желательно в теге <th>), чтобы система могла корректно идентифицировать их при запросе пользователя типа (Class, Property).
Усиливайте авторитетность страницы: Стандартные сигналы, такие как PageRank и incoming anchor text, используются для ранжирования найденных таблиц. Таблицы на авторитетных страницах будут ранжироваться лучше.

Worst practices (это делать не надо)

Использование таблиц для верстки (Layout Tables): Система пытается отфильтровать такие таблицы. Использование HTML-таблиц не по назначению создает шум.
Сложная и запутанная структура таблиц: Размещение Subject Column в середине таблицы, после числовых колонок или дат, увеличивает риск ошибки идентификации. Использование сложных шапок или частое объединение ячеек также может помешать анализу.
Использование неоднозначных или неизвестных сущностей: Если сущности в таблице неизвестны Google (не присутствуют в Instance-Class Repository), система не сможет классифицировать таблицу. Избегайте использования только внутренних артикулов или аббревиатур в Subject Column.
Создание множества мелких, неполных таблиц: Система фильтрует очень маленькие таблицы (например, менее 5 строк) и может предпочесть более крупные таблицы при ранжировании.

Стратегическое значение

Патент подтверждает стратегическую важность структурированных данных для Google. Способность извлекать и понимать данные из таблиц позволяет поисковой системе напрямую использовать контент веб-страниц для формирования ответов и обогащения выдачи (например, в Featured Snippets или специализированных поисковых вертикалях). Для SEO-специалистов это означает, что оптимизация таблиц – это не только улучшение UX, но и важный элемент семантической оптимизации контента, позволяющий сделать данные доступными для алгоритмов извлечения знаний.

Практические примеры

Сценарий: Оптимизация таблицы сравнения характеристик смартфонов

Задача: Улучшить видимость таблицы сравнения в поиске по запросам типа «характеристики смартфонов» (Class: смартфоны, Property: характеристики).

Действия:

Структурирование Subject Column: Убедиться, что первая колонка слева содержит только названия моделей смартфонов (например, «iPhone 15 Pro», «Samsung Galaxy S25»). Это будет Subject Column.
Валидация сущностей: Использовать полные и официальные названия моделей, которые Google знает и может найти в своем репозитории.
Полнота таблицы: Включить в таблицу как можно больше актуальных моделей для сравнения. Большая таблица может получить преимущество в ранжировании согласно Claim 14.
Четкие свойства (Properties): Использовать понятные заголовки для колонок характеристик (например, «Процессор», «Оперативная память», «Разрешение экрана»).
Чистота данных: Убедиться, что в Subject Column нет чисел или дат, а в колонках свойств данные консистентны (например, только числа в колонке «Оперативная память»).

Ожидаемый результат: Система корректно идентифицирует Subject Column (модели), классифицирует таблицу как относящуюся к классу «смартфоны» и распознает свойства. Это повышает шансы на ранжирование таблицы по релевантным запросам и ее попадание в Featured Snippets.

Вопросы и ответы

Что такое Subject Column и почему это так важно для SEO?

Subject Column – это главная колонка в таблице, которая содержит основные сущности (Instances), описываемые в таблице (например, список стран или моделей товаров). Ее правильная идентификация критически важна, потому что именно на основе анализа сущностей в этой колонке система определяет тематику (Класс) всей таблицы. Если система не сможет определить Subject Column или не распознает сущности в ней, таблица не будет корректно классифицирована и не будет эффективно ранжироваться в поиске по структурированным данным.

Как лучше всего размещать Subject Column в таблице?

Патент описывает два метода определения. Первый – эвристика: выбор первой колонки слева, которая не является числом или датой. Второй – использование SVM-классификатора, который учитывает различные признаки, включая индекс колонки слева. Исходя из этого, наиболее надежная стратегия – размещать Subject Column крайней слева и следить за тем, чтобы она содержала преимущественно текстовые, уникальные и нечисловые данные.

Что такое Instance-Class Hierarchy и как Google ее строит?

Это база знаний, содержащая пары (Сущность, Класс), например («Париж», «Столицы Европы»). Google строит ее автоматически (офлайн), анализируя огромные объемы веб-текстов и логи запросов. Система ищет текстовые паттерны, такие как «Класс, такой как Сущность1, Сущность2…» (например, «Столицы Европы, такие как Париж, Лондон…»). Логи запросов используются для валидации того, что извлеченные сущности действительно являются значимыми объектами.

Как повлиять на классификацию моей таблицы?

Ключевой фактор – это содержимое Subject Column. Убедитесь, что сущности в этой колонке являются известными, однозначными и соответствуют той тематике (Классу), по которой вы хотите ранжироваться. Система сопоставляет эти сущности со своей базой знаний (Instance-Class Repository). Чем чище данные и чем лучше они распознаются, тем точнее будет классификация таблицы.

Имеет ли значение размер таблицы для ранжирования?

Да, имеет. Патент явно указывает (Claim 14), что таблицы могут ранжироваться в соответствии с их размером. В описании патента указано, что предпочтение может отдаваться более длинным таблицам (longer tables), так как они считаются более полными и репрезентативными для класса. Поэтому при прочих равных более полная таблица может ранжироваться выше.

Нужно ли использовать разметку Schema.org (например, Table или Dataset) для таблиц, учитывая этот патент?

Патент описывает механизм, который работает независимо от явной разметки, восстанавливая семантику автоматически. Это позволяет Google понимать неразмеченные таблицы. Однако использование Schema.org всегда рекомендуется, так как это предоставляет системе явные и однозначные сигналы о структуре и содержании данных, что может улучшить точность интерпретации по сравнению с автоматическим восстановлением.

Какие таблицы Google игнорирует согласно этому патенту?

Система применяет фильтры на этапе сбора данных. Упоминается фильтрация пустых таблиц (empty tables), таблиц, используемых для форм (form tables), календарей (calendar tables), очень маленьких таблиц (например, с одной колонкой или менее 5 строк), а также HTML-таблиц, используемых для верстки (HTML layout tables).

Какие сигналы используются для ранжирования найденных таблиц, помимо размера?

Патент упоминает использование стандартных сигналов ранжирования ресурсов. К ним относятся PageRank, входящий анкорный текст (incoming anchor text), а также контент самой таблицы и окружающий текст (surrounding text). Это подчеркивает, что для хорошего ранжирования таблицы она должна находиться на качественной и авторитетной странице.

Как система обрабатывает неоднозначность или ошибки в Subject Column?

Система использует механизм агрегации оценок (MergedScore). Она вычисляет список кандидатских классов для каждой сущности в колонке, а затем объединяет эти списки, учитывая ранг класса для каждой отдельной сущности. Это делает систему устойчивой к единичным ошибкам или шуму, так как класс, который лучше всего описывает большинство сущностей, получит наилучшую итоговую оценку (минимальный MergedScore).

Может ли этот механизм использоваться для генерации Featured Snippets с таблицами?

Хотя патент прямо не упоминает Featured Snippets, описанная технология является фундаментальной для их генерации. Чтобы показать таблицу в Featured Snippet, поисковая система должна сначала понять ее семантику – определить класс, сущности и свойства. Механизмы, описанные в патенте, решают именно эту задачу, позволяя Google находить и ранжировать наиболее релевантные и полные таблицы для ответа на запрос пользователя.