Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

Описание

Какую задачу решает

Патент решает задачу автоматического расширения неполных наборов структурированных данных. Он описывает механизмы, позволяющие системе, имеющей частичный список сущностей (Instances), находить другие релевантные сущности из огромного неструктурированного источника (Unstructured Electronic Document Collection), такого как Интернет. Это реализует задачу, известную в Information Retrieval как Entity Set Expansion, улучшая полноту данных, используемых поисковой системой.

Что запатентовано

Запатентована система для автоматического расширения существующего структурированного представления данных (Structured Presentation), например, таблицы. Система анализирует характеристики существующих данных (сущности, атрибуты) и ищет в неструктурированном интернете новые релевантные экземпляры. Ключевыми запатентованными методами являются анализ шаблонов документов (Document Templates) и извлечение данных из структурированных компонентов (Structured Components), таких как списки и таблицы на веб-страницах.

Как это работает

Система работает путем анализа исходного набора сущностей (seed set) для понимания контекста и последующего поиска новых сущностей в вебе:

Анализ семян: Изучаются существующие Instances и их Attributes.
Поиск источников: Находятся веб-страницы, содержащие эти исходные сущности.
Извлечение кандидатов (Два основных метода):
- (а) Анализ Шаблонов (Template Analysis): Определяется Template (структура HTML) страницы с известной сущностью. Затем система ищет другие страницы с таким же шаблоном и извлекает из них новые сущности.
- (б) Анализ Компонентов: Идентифицируются Structured Components (списки/таблицы) на страницах, содержащие известные сущности, и извлекаются другие сущности из этих же компонентов.
Фильтрация: Кандидаты фильтруются по релевантности контексту (категория, схожесть атрибутов).
Добавление: Новые сущности предлагаются или добавляются в представление.

Актуальность для SEO

Высокая. Технологии извлечения структурированных данных (Information Extraction) и расширения наборов сущностей являются фундаментальными для работы современных поисковых систем. Эти методы лежат в основе построения Knowledge Graph, генерации Knowledge Panels и сравнительных таблиц в результатах поиска. Способность структурировать неструктурированный веб остается ключевым приоритетом.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO-стратегии. Он описывает конкретные механизмы, с помощью которых Google идентифицирует и извлекает сущности с веб-сайтов. Это подчеркивает критическую важность поддержания консистентных шаблонов страниц (Templates) и использования семантической HTML-разметки (таблиц, списков как Structured Components) для обеспечения точного извлечения информации поисковой системой.

Детальный разбор

Термины и определения

Attribute (Атрибут): Свойство или характеристика сущности (например, «Цена», «Режиссер»). В таблице это столбец.
Document Template (Шаблон документа): Паттерн или структура (например, HTML/DOM структура), используемая для организации контента на наборе веб-страниц, обычно исходящих из одного источника. Используется для масштабного извлечения данных (Wrapper Induction).
Instance (Экземпляр, Сущность): Индивидуально идентифицируемая единица данных (например, конкретный продукт или фильм). В таблице это строка.
Instance/Attribute Collection (Коллекция Сущностей/Атрибутов): База данных (аналог Knowledge Graph), хранящая ассоциации между сущностями, их атрибутами и значениями, предварительно извлеченная из веба.
Structured Component (Структурированный компонент): Часть электронного документа, которая имеет внутреннюю структуру. Примеры: HTML-таблица (<table>) или список (<ul>, <ol>) внутри веб-страницы.
Structured Presentation (Структурированное представление): Систематическое расположение информации, например, таблица или набор карточек, где данные организованы по сущностям и атрибутам.
Unstructured Electronic Document Collection (Неструктурированная коллекция электронных документов): Набор документов, формат которых не является единым или постоянным (например, Интернет).
Value (Значение): Конкретное данное, характеризующее атрибут сущности (например, «$100»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод расширения структурированного представления.

Система получает данные, описывающие существующее Structured Presentation.
Система сравнивает характеристики этого представления с контентом в Unstructured Electronic Document Collection для поиска новых релевантных Instances.
Система добавляет идентификатор новой сущности, формируя расширенное представление.
Система выводит инструкции для отображения.

Ключевая деталь (обязательная часть Claim 1): Процесс добавления включает формулирование предложений (Instance Suggestions). Это формулирование ОБЯЗАТЕЛЬНО использует анализ шаблонов:

Идентификация первого документа, который содержит существующую сущность и организован в соответствии с Template.
Идентификация второго документа, который организован в соответствии с тем же Template, но относится к другой (новой) сущности.
Включение этой новой сущности в список предложений.

(Технически, Claim 1 защищает именно метод расширения через анализ шаблонов документов).

Claim 14 (Независимый пункт): Описывает систему с фокусом на взаимодействии с пользователем, но также ОБЯЗАТЕЛЬНО включает механизм Template, аналогичный Claim 1.

Зависимые пункты (например, Claim 3): Уточняют, что сравнение характеристик может также включать идентификацию документов, содержащих Structured Components (таблицы, списки), связанные с исходными сущностями.

Где и как применяется

Изобретение затрагивает этапы извлечения и структурирования информации.

CRAWLING – Сканирование и Сбор данных
Краулеры собирают сырые данные из Unstructured Electronic Document Collection.

INDEXING – Индексирование и извлечение признаков
Это ключевой этап для применения патента. На этом этапе система:

Анализирует Document Templates для извлечения данных в масштабе (Wrapper Induction).
Идентифицирует Structured Components (таблицы, списки) в документах.
Строит Instance/Attribute Collection – базу знаний (Knowledge Graph), связывающую сущности и атрибуты, извлеченные из веба.

RANKING / METASEARCH
Механизмы извлечения, описанные в патенте, используются Google для генерации ответов и SERP features на лету:

Генерация структурированных сниппетов (Featured Snippets), особенно табличных и списочных.
Дополнение данных в Панелях Знаний (Knowledge Panels) и сравнительных таблицах.

Входные данные:

Существующее Structured Presentation (исходный набор сущностей).
Unstructured Electronic Document Collection (Веб-контент).
Instance/Attribute Collection (Предварительно обработанная база знаний).

Выходные данные:

Instance Suggestions (Список предлагаемых новых сущностей).
Expanded Structured Presentation (Дополненный набор данных).

На что влияет

Типы контента и форматы: Наибольшее влияние на контент, представленный в виде HTML-таблиц (<table>), списков (<ul>, <ol>) и страниц, использующих консистентные шаблоны (например, карточки товаров, профили).
Конкретные ниши: Влияет на все ниши с наборами сущностей: E-commerce, базы знаний (фильмы, книги, персоны), каталоги, справочники.

Когда применяется

Алгоритмы извлечения применяются постоянно на этапе индексирования для пополнения базы знаний Google. Также они активируются при генерации поисковой выдачи, когда система идентифицирует интент, требующий списка или сравнения сущностей (Entity Set Expansion).

Пошаговый алгоритм

Процесс расширения структурированного представления новыми сущностями.

Получение исходных данных: Система получает описание существующего Structured Presentation (исходные сущности).
Генерация кандидатов (Potential Instances): Система генерирует набор потенциальных новых сущностей, используя методы поиска и извлечения (описаны ниже).
Методы поиска и извлечения:
Метод 1: Анализ Шаблонов (Template Analysis):
1. Поиск документа, релевантного существующей сущности.
2. Извлечение Document Template этого документа (анализ HTML-структуры).
3. Поиск других документов с таким же шаблоном.
4. Извлечение новых сущностей из этих документов (например, из тега H1).
Метод 2: Анализ Структурированных Компонентов:
1. Поиск документов, содержащих Structured Components (таблицы, списки), в которых упоминаются существующие сущности.
2. Анализ контекста компонента (например, заголовков колонок).
3. Извлечение других сущностей из этого же компонента.
Применение фильтров (Filtering Pipeline): Для сокращения списка кандидатов применяются фильтры:
1. Фильтр по Категории (Category Filter): Отбор кандидатов из той же семантической категории.
2. Фильтр по Атрибутам (Related Attribute Filter): Отбор кандидатов, которые характеризуются схожими атрибутами.
3. Фильтр по Значениям (Related Value Filter): Отбор кандидатов, чьи значения атрибутов попадают в схожий диапазон (требует нормализации единиц измерения).
Итеративная настройка (Refinement): Если количество предложений слишком велико или мало, система может автоматически корректировать параметры фильтров (например, расширить диапазон значений).
Вывод и Обновление: Система предоставляет отфильтрованный список Instance Suggestions и обновляет представление.

Какие данные и как использует

Данные на входе

Патент фокусируется на извлечении данных и использует следующие факторы:

Структурные факторы (Критически важно):
- HTML-теги и DOM-структура: Последовательность и вложенность тегов (<div>, <h1>, <title>) используются для определения и сравнения Document Template.
- Семантические элементы: Теги <table>, <tr>, <td>, <ul>, <ol>, <li> используются для идентификации Structured Components.
Контентные факторы: Текст внутри структурных элементов. Используется для идентификации названий Instances, Attributes (заголовков) и Values (содержимого).
Системные данные: Instance/Attribute Collection (предварительно собранная база знаний).

Какие метрики используются и как они считаются

Патент не приводит конкретных формул ранжирования, но описывает качественные метрики и процессы фильтрации:

Соответствие шаблона (Template Match): Метрика, определяющая, насколько структура двух документов совпадает. Основана на анализе HTML-тегов.
Релевантность структурированного компонента: Оценка того, насколько Structured Component соответствует контексту. Учитывает совпадение известных Instances и Attributes.
Схожесть атрибутов (Attribute Similarity): Метрика, определяющая пересечение наборов атрибутов между сущностями.
Схожесть значений (Value Similarity): Метрика, определяющая близость значений атрибутов. Патент явно упоминает необходимость нормализации и конвертации единиц измерения (например, метры в футы) перед сравнением.
Категоризация (Categorization): Классификация сущностей по категориям для фильтрации кандидатов.

Выводы

Google активно использует анализ шаблонов для извлечения данных (Wrapper Induction). Патент подтверждает, что Google автоматически анализирует HTML-структуру сайта (Template), чтобы понять организацию данных. Этот шаблон используется для масштабного извлечения информации со всех похожих страниц сайта, даже без микроразметки.
Критическая важность нативных структурированных элементов HTML. Система активно ищет Structured Components (HTML-таблицы и списки) для идентификации наборов связанных сущностей. Использование семантической верстки облегчает Google извлечение данных.
Контекст и категория определяются через атрибуты. Для разрешения неоднозначности сущностей (например, «Чикаго» город или мюзикл) система анализирует связанные атрибуты («Население» или «Рейтинг»). Это ключевой механизм для точной классификации.
Зависимость от предварительных вычислений. Google поддерживает Instance/Attribute Collection (аналог Knowledge Graph), где хранятся извлеченные связи, что позволяет быстро находить похожие сущности без необходимости анализа веба в реальном времени.
Адаптивная фильтрация. Процесс извлечения является итеративным, система может смягчать или ужесточать критерии (например, диапазоны значений атрибутов), чтобы найти оптимальный набор связанных сущностей.

Практика

Best practices (это мы делаем)

Использование консистентных и чистых шаблонов (Templates). Убедитесь, что все страницы одного типа (например, карточки товаров) используют идентичный HTML-шаблон с семантической версткой. Это напрямую поддерживает механизм Template Analysis и облегчает Google извлечение данных со всех страниц этого типа.
Применение нативных HTML-таблиц и списков. Для представления наборов данных или перечней связанных сущностей используйте теги <table>, <ul>, <ol>, <dl>. Патент прямо указывает на использование этих Structured Components для извлечения связанных сущностей.
Четкое определение атрибутов и значений. Используйте явные и описательные названия для характеристик сущностей (заголовки таблиц, метки в списках определений). Указывайте единицы измерения для числовых значений. Это помогает системе корректно идентифицировать Attributes и сравнивать Values.
Создание авторитетных списков и сравнений. Публикация качественных структурированных списков (например, Топ-10, сравнения продуктов) помогает Google понять связи между сущностями в вашей нише и может служить источником данных для расширения Knowledge Graph.

Worst practices (это делать не надо)

Неконсистентная верстка однотипных страниц. Использование разных HTML-структур для страниц одного типа затрудняет определение Document Template и мешает масштабному извлечению данных.
Использование верстки вместо структурных элементов (Div Soup). Представление табличных данных или списков с помощью <div> и CSS вместо нативных тегов <table> или <ul>. Это снижает вероятность того, что система распознает контент как Structured Component.
Частое изменение HTML-структуры шаблонов. Постоянные изменения в DOM-структуре однотипных страниц ломают механизм Template Extraction, заставляя систему переучиваться и потенциально приводя к потере извлеченных данных.

Стратегическое значение

Этот патент иллюстрирует технические основы того, как Google превращает неструктурированный веб в структурированную базу знаний. Для SEO это означает, что оптимизация под извлечение данных (Extraction Optimization) критически важна. Стратегический приоритет должен отдаваться техническому SEO: семантической верстке, консистентности шаблонов и четкой архитектуре сайта. Это необходимые условия для того, чтобы контент был корректно извлечен и использован в Knowledge Graph и структурированных результатах поиска.

Практические примеры

Сценарий 1: Оптимизация E-commerce сайта (Template Analysis)

Задача: Улучшить извлечение данных о товарах системами Google.
Действие: Провести аудит шаблона карточки товара. Убедиться, что все товары используют идентичную HTML-структуру. Название товара всегда в <h1>, цена в предсказуемом элементе (например, <span class=»price»>), характеристики всегда в списке определений (<dl>).
Ожидаемый результат: Система Google идентифицирует шаблон, распознает все страницы как товары одного класса и корректно извлекает атрибуты для всех товаров сайта, используя механизм Template Analysis.

Сценарий 2: Создание сравнительной статьи (Structured Components Analysis)

Задача: Помочь Google понять связь между несколькими продуктами в обзоре (например, сравнение CRM-систем).
Действие: Включить в статью сводную HTML-таблицу (<table>), где строки – это названия CRM (Instances), а колонки – их характеристики (Attributes: Цена, Функции, Интеграции).
Ожидаемый результат: Google распознает таблицу как Structured Component, извлекает все упомянутые CRM как набор связанных сущностей и понимает их атрибуты. Это повышает вероятность показа статьи в виде табличного Featured Snippet.

Вопросы и ответы

Что в контексте этого патента подразумевается под «Шаблоном» (Template) и почему он важен для SEO?

Template — это повторяющаяся структура HTML или DOM страницы. Патент показывает, что Google использует эти шаблоны для массового извлечения данных (Wrapper Induction): если система понимает структуру одной страницы, она может применить это знание ко всем страницам с таким же шаблоном. Для SEO это означает, что абсолютно последовательная HTML-структура однотипных страниц критически важна для корректного извлечения информации.

Что такое «Структурированный компонент» (Structured Component) и как его использовать на сайте?

Structured Component — это блок внутри веб-страницы с явной структурой, например, HTML-таблица (<table>) или список (<ul>, <ol>). Система ищет эти компоненты, чтобы найти связанные элементы. SEO-специалистам следует использовать эти семантические элементы для представления наборов данных или перечисления связанных объектов, вместо того чтобы перечислять их текстом в абзаце.

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Нет, не заменяет. Schema.org предоставляет явные данные для поисковых систем. Однако этот патент описывает, как Google извлекает данные автоматически, когда разметка отсутствует, некорректна или недостаточна. Лучшая стратегия — комбинировать качественную микроразметку с чистой, консистентной HTML-структурой.

Как система определяет категорию сущностей (например, что это список фильмов, а не городов)?

Система определяет контекст через анализ атрибутов и значений. Если существующие элементы имеют атрибуты «Режиссер» и «Рейтинг», система ищет новые элементы, которые также обладают этими атрибутами (Related Attribute Filter). Это позволяет системе различать разные типы сущностей, даже если они имеют одинаковые названия (например, «Филадельфия» как город и как фильм).

Что такое «Instance/Attribute Collection» и как это связано с Графом Знаний?

Instance/Attribute Collection — это внутренняя база данных, хранящая извлеченные из интернета сущности и их характеристики. Это, по сути, описание механизма построения и использования внутренней базы знаний, которую мы знаем как Граф Знаний (Knowledge Graph). Патент описывает, как эта коллекция пополняется и используется для поиска связанных сущностей.

Как влияют JavaScript-фреймворки и рендеринг на работу этого механизма?

Механизм зависит от анализа DOM после рендеринга. Если JavaScript значительно изменяет структуру страницы или генерирует неконсистентный HTML-код, это может помешать как идентификации шаблона, так и обнаружению структурированных компонентов. Важно убедиться, что финальный отрендеренный HTML является чистым, семантичным и консистентным на разных страницах одного типа.

Как система обрабатывает разные единицы измерения (например, метры и футы)?

Патент явно упоминает, что при сравнении значений атрибутов (Value Similarity) система может конвертировать значения в общую единицу измерения перед сравнением. Это подчеркивает важность указания единиц измерения рядом с числовыми данными на ваших страницах, чтобы облегчить эту конвертацию и сравнение.

Как система обрабатывает ситуацию, когда найдено слишком много или слишком мало новых экземпляров?

Патент описывает итеративный процесс корректировки (Refinement). Если найдено слишком мало совпадений, система может смягчить критерии фильтрации (например, расширить диапазон допустимых значений). Если найдено слишком много совпадений, система ужесточает критерии (например, требует больше совпадений атрибутов).

Может ли система использовать авторитетные источники для определения важных атрибутов?

Да, патент упоминает механизм, при котором система идентифицирует Authoritative Sources (авторитетные источники) для данной темы и анализирует, какие атрибуты они используют для описания сущностей. Эти атрибуты затем используются для более точного поиска и фильтрации новых экземпляров в общей коллекции данных. Это связано с концепцией E-E-A-T.

Какова основная рекомендация для технических SEO-специалистов на основе этого патента?

Основная рекомендация — поддерживать максимальную семантичность верстки и абсолютную консистентность шаблонов. Используйте единые HTML-шаблоны для однотипных страниц и применяйте соответствующие семантические теги (списки, таблицы) для структурирования информации внутри страниц. Это напрямую помогает алгоритмам извлечения данных Google.