Как Google использует нейронные сети для извлечения структурированных данных напрямую из HTML без рендеринга и разметки

Google применяет двухэтапную нейронную архитектуру (CNN, BiLSTM) для извлечения структурированных данных (например, цен, характеристик) напрямую из HTML-кода. Система анализирует текст узла, предшествующий текст и структуру DOM/XPath. Это позволяет Google понимать информацию на сайте, даже если отсутствует микроразметка Schema.org, обучаясь на одних сайтах и применяя модель к другим.

Описание

Какую задачу решает

Патент решает проблему эффективного и масштабируемого извлечения структурированных данных (machine-actionable structured data) из веб-документов. Традиционные методы имеют ограничения: системы на основе правил (wrappers) требуют ручной настройки под каждый сайт и плохо масштабируются; системы, основанные на визуальном рендеринге, вычислительно затратны. Изобретение позволяет автоматически извлекать данные без ручного вмешательства и без необходимости рендеринга, создавая переносимые модели (transferable models), которые работают в разных доменах на основе необработанного HTML.

Что запатентовано

Запатентована система и метод использования переносимой нейронной архитектуры для извлечения структурированных данных из HTML. Система использует двухэтапный подход: первый модуль (Node-level module) анализирует отдельные узлы DOM Tree, учитывая их текст, контекст и HTML-признаки. Второй модуль (Second-stage module) уточняет результаты, анализируя взаимосвязи между узлами (структурную схожесть XPath и позиционное расположение). Модели обучаются на исходных сайтах (seed websites) и затем применяются к новым сайтам.

Как это работает

Система анализирует HTML-код страницы, преобразуя его в DOM Tree.

На первом этапе (Node-level) для каждого значимого текстового узла извлекаются признаки с помощью нейронных сетей:

Текст узла и предшествующий текст: Анализируются с использованием как векторных представлений слов (Word-level vectors), так и символьных представлений (Character-level vectors, генерируемых через CNN). Затем они обрабатываются через Bidirectional LSTM для понимания контекста.
Дискретные признаки: Учитываются HTML-теги (например, <h1>, <li>) и типы данных.

Эти признаки объединяются в комплексный вектор (comprehensive vector), который классифицируется (например, является ли узел ценой или названием).

На втором этапе (Second-stage) система уточняет классификацию, анализируя пары узлов. Она оценивает их структурную схожесть (через анализ XPath с помощью LSTM) и относительное расположение на странице (positional vector). Это позволяет скорректировать ошибки первого этапа.

Актуальность для SEO

Высокая. Извлечение структурированных данных является фундаментальной задачей для поисковых систем, необходимой для наполнения Knowledge Graph, формирования расширенных сниппетов и работы вертикальных поисков. Учитывая публикацию в 2024 году (с приоритетом от 2020 года), описанные методы, использующие современные архитектуры (CNN, BiLSTM), являются крайне актуальными для обработки веб-контента.

Важность для SEO

Патент имеет высокое значение для SEO (85/100). Он описывает конкретный механизм, как Google может понимать и извлекать ключевую информацию со страницы (цены, атрибуты, характеристики) без явной микроразметки Schema.org. Это подчеркивает критическую важность семантической верстки, чистой структуры HTML и четкого позиционирования данных и их меток (preceding text) в коде для корректной интерпретации контента поисковой системой.

Детальный разбор

Термины и определения

Bidirectional LSTM (BiLSTM, Двунаправленная сеть долгой краткосрочной памяти): Тип рекуррентной нейронной сети, используемый для обработки последовательностей данных (например, текста или HTML-тегов) в прямом и обратном направлениях для лучшего понимания контекста.
Character-level Word Vector (Символьный вектор слова): Векторное представление слова, созданное на основе последовательности его символов, обычно с помощью CNN. Позволяет распознавать паттерны (например, числа, форматы цен) даже для слов, отсутствующих в словаре.
CNN (Convolutional Neural Network, Сверточная нейронная сеть): В данном патенте используется для кодирования последовательностей символов в словах для выявления локальных паттернов.
Comprehensive Vector (Комплексный вектор): Итоговое векторное представление узла (на Этапе 1) или пары узлов (на Этапе 2), полученное путем конкатенации различных признаков (текстовых, структурных, позиционных).
Discrete Features (Дискретные признаки): Специфические признаки узла в HTML, такие как тип тега (например, <h1>, <div>, <li>) или тип данных контента (например, дата, почтовый индекс, URL).
DOM Tree (Объектная модель документа): Древовидное представление HTML-документа, где каждый элемент является узлом.
Fields-of-interest (Поля интереса): Заранее определенные категории информации для извлечения (например, «Название модели», «Цена»).
MLP (Multi-Layer Perceptron, Многослойный персептрон): Тип нейронной сети прямого распространения, используемый в патенте для финальной классификации векторов узлов или пар.
Node-level module (Модуль уровня узла, Этап 1): Первый этап архитектуры, который извлекает признаки и выполняет начальную классификацию для каждого узла независимо.
Nodes-of-interest (Узлы интереса): Текстовые узлы DOM Tree, отфильтрованные для дальнейшего анализа (обычно исключая шаблонный контент).
Second-stage module (Модуль второго этапа, Этап 2): Второй этап архитектуры, который уточняет предсказания Этапа 1, анализируя взаимосвязи (структурные и позиционные) между парами узлов.
Seed Websites (Исходные/Обучающие сайты): Набор сайтов (часто хорошо структурированных или аннотированных), используемых для первоначального обучения нейронных сетей и создания переносимой модели.
Transferable Model (Переносимая модель): Модель машинного обучения, обученная на одном наборе данных (Seed Websites) и применяемая к другому набору данных (новые сайты) без переобучения.
XPath (XML Path Language): Язык запросов к элементам XML или HTML документа. Используется как идентификатор узла и для анализа структуры документа.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов формулы изобретения, описывающих два основных этапа процесса.

Claim 1 (Независимый пункт) – Описание Этапа 1 (Node-Level): Описывает метод генерации метки узла.

Система генерирует word-level vectors и character-level word vectors для слов первого текстового узла и второго текстового узла (предшествующего текста).
Генерируется comprehensive vector для первого узла на основе этих векторов И predefined features (дискретных признаков) в контенте первого узла.
Генерируется метка (node label) для первого узла на основе его comprehensive vector.

Это ядро системы кодирования признаков. Ключевым является многомодальный подход: использование как семантики слов, так и символьных паттернов, а также учет контекста (предшествующего текста) и структурных признаков для классификации содержимого узла.

Зависимые пункты (Уточнение архитектуры):

Claim 2: Уточняет, что генерация character-level word vectors включает кодирование символьных векторов с использованием нейронной сети (в описании указано CNN).
Claims 5 и 7: Уточняют, что генерация вектора уровня последовательности для текста узла и предшествующего текста включает кодирование с использованием Bidirectional LSTM.
Claim 8: Уточняет, что генерация метки узла включает кодирование comprehensive vector с использованием MLP для классификации.

Claims 10-16 (Зависимые) – Описание Этапа 2 (Relational Refinement): Описывают процесс уточнения предсказаний через анализ взаимосвязей.

Генерируется предсказание для узлов (Этап 1).
Генерируются позиционные векторы (positional vector) для узлов на основе их относительного положения (Claim 12).
Генерируется вектор уровня пары (pair-level vector) на основе комплексных векторов узлов и их позиционных векторов (Claim 13). Также могут учитываться XPath vectors (описано в патенте).
Генерируется метка пары (pair label) на основе вектора уровня пары (Claim 14).
Итоговая метка узла определяется на основе метки пары (Claim 15).

Этот механизм описывает, как система уточняет извлечение данных, учитывая контекст всей страницы (взаимосвязи между узлами), а не только локальный контекст отдельного узла.

Где и как применяется

Изобретение применяется на этапе индексирования для глубокого анализа содержимого веб-страниц.

INDEXING – Индексирование и извлечение признаков

Это основной этап применения патента. Система работает как продвинутый экстрактор признаков.

Обработка контента: После получения сырого HTML и его преобразования в DOM Tree (возможно, после рендеринга), система анализирует структуру и текст для извлечения структурированных данных.
Feature Extraction: Система извлекает текстовые, контекстные, структурные (XPath, теги) и позиционные признаки, используя сложные нейронные сети (CNN, BiLSTM).
Структурирование данных: Результатом работы является идентификация ключевых полей (Fields-of-interest) и связанных с ними значений. Эти данные используются для наполнения Knowledge Graph, баз данных продуктов, событий и т.д.

Входные данные:

Сырой HTML или DOM Tree веб-страницы.
Предобученные векторные представления слов (например, GloVe).
Определенный набор Fields-of-interest для извлечения.
Параметры нейронных сетей (CNN, BiLSTM, MLP), обученные на Seed Websites.

Выходные данные:

Структурированные данные в формате ключ-значение (Метка поля : Контент узла). Например, {Цена: \$100, Название: Товар А}.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на страницы с четко выраженными атрибутами: карточки товаров (e-commerce), профили организаций, рецепты, события, статьи с фактами (даты, характеристики).
Форматы контента: Влияет на контент, представленный в виде списков характеристик, таблиц, а также на ключевые элементы в основном тексте.
Конкретные ниши: E-commerce, Недвижимость, Авто, Путешествия – ниши, где критически важно извлечение точных характеристик и цен.

Когда применяется

Условия работы: Алгоритм применяется во время индексирования или переиндексирования веб-страниц.
Триггеры активации: Активируется для сайтов или типов страниц, для которых у Google есть задача извлечь специфические Fields-of-interest.
Переносимость: Ключевая особенность – модель не требует переобучения для каждого нового сайта. Она применяется универсально, благодаря обучению на Seed Websites.

Пошаговый алгоритм

Процесс извлечения структурированных данных состоит из подготовки и двух основных этапов.

Подготовка и Фильтрация (Отсеивание шаблонного контента)

Парсинг HTML: Сырой HTML страницы преобразуется в DOM Tree.
Идентификация текстовых узлов: Определяются все узлы, содержащие текст.
Фильтрация (Генерация Nodes-of-interest): Система анализирует все XPaths текстовых узлов на сайте. XPaths ранжируются по количеству *различных* текстовых значений, связанных с ними на разных страницах. Выбираются Топ-N XPaths, имеющие два или более разных значения. Это отсеивает шаблонный контент (меню, футеры).

Этап 1: Node-Level Module (Извлечение признаков и начальная классификация)

Для каждого Node-of-interest:

Кодирование текста узла:
- Текст разбивается на слова и символы.
- Для каждого слова генерируется Word-level vector (из предобученной модели) и Character-level word vector (с помощью CNN для анализа паттернов).
- Векторы конкатенируются и обрабатываются через Bidirectional LSTM для учета последовательности и контекста.
- Результаты усредняются (Mean Pooling) для получения финального вектора текста узла.
Кодирование предшествующего текста: Тот же процесс (шаг 1) применяется к тексту, непосредственно предшествующему узлу (например, к метке или заголовку характеристики).
Кодирование дискретных признаков: Определяются Discrete Features (HTML-теги, типы данных) и кодируются в вектор.
Генерация Comprehensive Vector: Три полученных вектора (текст узла, предшествующий текст, дискретные признаки) конкатенируются.
Начальная классификация: Comprehensive Vector подается на вход MLP с функцией SoftMax для предсказания метки поля (например, «Цена», «Название» или «None»).

Этап 2: Second-Stage Module (Реляционное уточнение)

Разделение полей и Генерация пар: Поля делятся на «Определенные» (где Этап 1 нашел узел) и «Неопределенные». Формируются пары узлов (node-pairs) из предсказанных узлов и Топ-m кандидатов для Неопределенных полей.
Кодирование структуры (XPath): Последовательность HTML-тегов в XPath каждого узла в паре кодируется с помощью LSTM для оценки структурной схожести.
Кодирование позиции: Относительное положение каждого узла на странице кодируется в позиционный вектор (positional vector).
Генерация вектора пары: Конкатенируются XPath vectors, позиционные векторы и Comprehensive Vectors (из Этапа 1) обоих узлов пары.
Классификация пары: Вектор пары подается на вход второго MLP для классификации взаимосвязи (например, «value-value», «value-none» и т.д.).
Финальное предсказание: Для Неопределенных полей, если узел-кандидат хотя бы раз был классифицирован как «value» в паре, ему присваивается соответствующая метка поля.
Извлечение данных: Система извлекает контент узлов, которым были присвоены метки, формируя структурированные данные.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Текст внутри Node-of-interest.
- Текст, предшествующий Node-of-interest (Preceding text). Критически важен для понимания контекста данных (например, текст «Цена:» перед числом).
Структурные и Технические факторы:
- Raw HTML и DOM Tree: Исходный код и структура документа.
- XPath: Полный путь к узлу. Используется для фильтрации шаблонного контента и для анализа структурной схожести между узлами.
- HTML Tags: Типы тегов (например, <h1>, <li>, <span>) используются как Discrete Features.
- Позиция узла: Относительное расположение узла в коде по отношению к другим узлам.

Какие метрики используются и как они считаются

Патент описывает архитектуру нейронной сети и методы обработки данных, а не конкретные метрики ранжирования. Используются следующие методы вычислений:

Векторные представления (Embeddings):
- Word-level vectors: Предобученные (например, GloVe).
- Character-level vectors: Генерируются с помощью CNN.
- Discrete Features vectors и Positional vectors: Обучаются в процессе работы модели.
Нейронные сети:
- CNN: Используется для анализа символьных последовательностей и выявления паттернов форматирования.
- Bidirectional LSTM: Используется для анализа последовательностей слов (в тексте узла и предшествующем тексте) для понимания контекста.
- LSTM: Используется для анализа последовательностей HTML-тегов (в XPath) для понимания структуры.
- MLP: Используется для финальной классификации на обоих этапах.
Операции с векторами:
- Конкатенация: Объединение различных векторов признаков в Comprehensive Vector.
- Mean Pooling: Усреднение выходов BiLSTM для создания финального представления текста.
- SoftMax: Используется для нормализации выходов MLP и получения вероятностей классификации.
Фильтрация по XPath: Метрика вариативности текстовых значений для данного XPath на уровне сайта используется для отделения информативного контента от шаблонного.

Выводы

Google активно извлекает структурированные данные без Schema.org: Система способна идентифицировать и классифицировать ключевую информацию (атрибуты, цены, названия) напрямую из HTML, используя сложные нейронные сети. Это снижает зависимость Google от добровольного внедрения микроразметки владельцами сайтов.
Критичность предшествующего текста (Контекст данных): Патент явно выделяет анализ текста, предшествующего узлу (Preceding Text), как один из трех ключевых компонентов Этапа 1. Наличие четких, описательных меток непосредственно перед данными в коде критически важно для корректного извлечения.
Важность семантической и консистентной HTML-структуры: Система использует DOM Tree и XPath как для фильтрации шума, так и для анализа взаимосвязей между узлами (Этап 2). Чистая, логичная и постоянная структура HTML значительно облегчает работу экстрактора.
Анализ на уровне символов (CNN): Использование Character-level vectors и CNN позволяет системе распознавать паттерны данных (например, форматы цен, телефонные номера, единицы измерения) даже при наличии опечаток, аббревиатур или нестандартных формулировок.
Переносимость моделей (Transfer Learning): Система обучается на Seed Websites и применяет знания к новым сайтам. Это означает, что паттерны верстки и представления данных, используемые на крупных авторитетных сайтах, могут становиться де-факто стандартом, который Google будет искать на других ресурсах.
Двухэтапная валидация: Комбинация анализа отдельных узлов и анализа взаимосвязей между ними (реляционный анализ) позволяет устранять локальные неоднозначности, используя глобальный контекст страницы.

Практика

Best practices (это мы делаем)

Обеспечение чистоты и консистентности HTML-структуры: Используйте стабильные шаблоны для однотипных страниц (например, карточек товаров). Убедитесь, что ключевые данные всегда находятся по одному и тому же или структурно схожему XPath. Это облегчает фильтрацию шума и повышает точность извлечения (особенно для Этапа 2).
Четкое расположение меток и значений (Proximity): Размещайте описательные метки непосредственно перед данными в структуре DOM. Поскольку система анализирует Preceding Text, структура вида «Метка: Значение» (например, в <dl>/<dt>/<dd> или просто в тексте) является оптимальной для извлечения.
Использование семантической верстки: Применяйте HTML-теги по назначению (например, <h1> для названия, <ul>/<li> для списков характеристик, <table> для табличных данных). Эти теги используются как Discrete Features на Этапе 1.
Стандартизация форматов данных: Используйте общепринятые форматы для цен, дат, единиц измерения, телефонных номеров. Character-level анализ (CNN) помогает распознавать эти паттерны.
Анализ лидеров ниши (Потенциальных Seed Websites): Изучайте, как структурируют данные крупные авторитетные сайты в вашей тематике. Поскольку модели переносимы, Google может искать аналогичные паттерны представления информации на вашем сайте.

Worst practices (это делать не надо)

Динамическая или нестабильная структура DOM: Избегайте генерации HTML-структуры, которая меняется при каждой загрузке (например, случайные имена классов, меняющие путь XPath). Это затрудняет идентификацию Nodes-of-interest и анализ взаимосвязей.
Разделение меток и значений в коде: Не размещайте данные далеко от их описания или в нелогичном порядке в DOM. Если Preceding Text нерелевантен данным, точность извлечения резко снизится. Визуальная близость, достигнутая через CSS, не поможет, если элементы далеко в DOM.
Использование нетекстовых форматов для ключевых данных: Представление характеристик или цен в виде изображений делает невозможным их извлечение с помощью описанного метода, так как он работает только с текстовыми узлами HTML.
Чрезмерно сложная и вложенная верстка (Div-soup): Создание избыточно сложных DOM-структур с множеством несемантичных оберток может усложнить анализ XPath и взаимосвязей между элементами.

Стратегическое значение

Этот патент подтверждает стратегическое направление Google на глубокое понимание содержимого страниц на структурном уровне, выходя за рамки простого анализа текста. Для SEO-специалистов это означает, что техническая оптимизация и информационная архитектура становятся неотделимы от контентной стратегии. Недостаточно просто иметь информацию на странице; критически важно, как она структурирована в HTML и насколько легко система может извлечь и интерпретировать эти данные для использования в Knowledge Graph и расширенных результатах поиска.

Практические примеры

Сценарий: Оптимизация карточки товара (PDP) для извлечения характеристик

Задача: Убедиться, что Google корректно извлечет характеристики товара (например, «Размер экрана» и «Разрешение»).

Неправильная реализация (Плохо для извлечения):

Данные представлены в разрозненных блоках, метки далеко от значений в DOM.

<div class="spec-block">
  <div class="label">Экран</div>
  <div class="label">Разрешение</div>
  <!-- Много других элементов DOM -->
  <div class="value">15.6 дюймов</div>
  <div class="value">1920x1080</div>
</div>

Проблема: Preceding Text для значений может быть нерелевантным из-за расстояния в DOM. Системе сложно связать конкретную метку с конкретным значением.

Оптимизированная реализация (Хорошо для извлечения):

Использование списка определений (<dl>) для четкой связи метки и значения.

<dl class="product-specs">
  <dt>Размер экрана</dt>
  <dd>15.6 дюймов</dd>
  
  <dt>Разрешение</dt>
  <dd>1920x1080</dd>
</dl>

Преимущество:

Preceding Text: Текст в <dt> является идеальным предшествующим текстом для узла в <dd>.
Структура: Консистентный XPath для всех значений (/dl/dd[…]).
Discrete Features: Система распознает использование семантических тегов <dl>, <dt>, <dd>.

Ожидаемый результат: Система корректно извлечет данные: {«Размер экрана»: «15.6 дюймов», «Разрешение»: «1920×1080»}.

Вопросы и ответы

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Нет, не заменяет. Микроразметка Schema.org остается наиболее надежным способом предоставить Google структурированные данные, так как это явное указание. Однако описанный механизм позволяет Google извлекать данные с сайтов, где разметка отсутствует или реализована некорректно. Лучшая стратегия – использовать Schema.org и одновременно поддерживать чистую HTML-структуру, оптимизированную для автоматического извлечения.

Что такое «Предшествующий текст» (Preceding Text) и почему он так важен?

Preceding Text – это текст, который находится непосредственно перед анализируемым узлом в HTML-документе (DOM). В патенте он используется как один из ключевых признаков на Этапе 1. Он обеспечивает контекст для данных в узле. Например, если узел содержит только число «100», предшествующий текст (например, «Цена:», «Вес (кг):» или «Артикул:») помогает системе классифицировать это число в нужное поле.

Как система определяет, какой контент является шаблонным (boilerplate), а какой – информативным?

Система использует анализ вариативности XPath на уровне сайта. Если определенный XPath (например, путь к элементу меню или футера) имеет одно и то же текстовое значение на большинстве страниц сайта, он помечается как шаблонный и исключается из анализа. Информативными считаются узлы (Nodes-of-interest), чьи XPaths имеют много разных текстовых значений на разных страницах (например, названия товаров или цены).

Что такое «Дискретные признаки» (Discrete Features) в контексте HTML?

Это специфические атрибуты HTML-узла, которые помогают в классификации. Патент упоминает два основных типа: тип HTML-тега (например, <h1> часто содержит название, <li> – элемент списка характеристик) и тип данных контента (например, система определяет, содержит ли текст дату, почтовый индекс, URL). Эти признаки дополняют текстовый анализ.

Как этот патент влияет на сайты, использующие JavaScript-фреймворки (CSR/SPA)?

Хотя патент упоминает анализ сырого HTML, на практике Google анализирует DOM после рендеринга. Если JavaScript-фреймворк генерирует нестабильную, чрезмерно сложную или несемантичную структуру DOM, это затруднит работу экстрактора. Особенно критично, если XPath к ключевым элементам меняется или если данные и их метки оказываются далеко друг от друга в финальном DOM.

Зачем используются и Word-level, и Character-level векторы одновременно?

Word-level vectors (как GloVe) хорошо улавливают семантику известных слов. Однако они неэффективны для слов с опечатками, редких терминов, аббревиатур, чисел и артикулов. Character-level vectors (генерируемые CNN) позволяют выявлять структурные паттерны внутри слов (например, формат цены «$##.##»). Комбинация дает более полное и устойчивое представление о контенте узла.

В чем разница между Этапом 1 и Этапом 2?

Этап 1 (Node-level) анализирует каждый узел независимо, основываясь на его локальном контексте. Этап 2 (Second-stage) анализирует взаимосвязи между узлами на странице, учитывая их структурную схожесть (XPath) и взаимное расположение. Этап 2 необходим для исправления ошибок Этапа 1 (например, разрешения конфликтов меток) и учета глобального контекста страницы.

Что означает «Переносимость» (Transferable) этой архитектуры?

Это означает, что модель не нужно обучать заново для каждого нового сайта. Она обучается один раз на наборе Seed Websites (обычно крупных и хорошо структурированных) и затем может применяться для извлечения данных с других сайтов. Это позволяет Google масштабировать извлечение данных на весь интернет.

Как использование LSTM помогает в анализе XPath?

XPath представляет собой последовательность HTML-тегов (например, html -> body -> div -> ul -> li). LSTM – это нейронная сеть, предназначенная для анализа последовательностей. Она обрабатывает эту последовательность тегов, чтобы создать векторное представление структуры узла. Сравнивая эти векторы, система может определить, насколько структурно похожи два разных узла на странице.

Должен ли я менять верстку, чтобы соответствовать этому патенту?

Если ваш сайт использует чистый, семантический HTML с логичной структурой и четким соответствием между метками и данными, то радикальных изменений не требуется. Однако, если данные представлены хаотично или структура нестабильна, стоит провести рефакторинг верстки, ориентируясь на лучшие практики использования HTML5 и обеспечения доступности (Accessibility), что часто коррелирует с требованиями этого алгоритма.