Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

Описание

Какую задачу решает

Патент решает проблему трудоемкого ручного извлечения больших объемов данных (например, списков названий продуктов, цен) из структурированных документов, таких как онлайн-каталоги. Основная задача, указанная в патенте, — автоматизировать процесс сбора ключевых слов для менеджеров рекламных кампаний (PPC), устраняя необходимость ручного копирования и вставки каждого элемента по отдельности.

Что запатентовано

Запатентована система и метод для автоматического расширения пользовательского выбора на основе анализа структуры документа. Система представляет собой инструмент (ключевой компонент которого назван Object Crawler), который позволяет пользователю выбрать несколько примеров элементов на веб-странице. На основе этих примеров инструмент анализирует базовую структуру данных (например, DOM-дерево HTML-документа), выявляет структурный шаблон и автоматически выбирает все остальные элементы на странице, соответствующие этому шаблону.

Как это работает

Механизм работает следующим образом:

Захват выбора: Поверх веб-страницы отображается невидимая Transparent Panel, которая перехватывает клики пользователя, не активируя гиперссылки.
Выбор примеров: Пользователь выбирает как минимум два примера элемента (например, два названия товара).
Анализ структуры: Система определяет соответствующие объекты в структурированных данных (Structured Data) и анализирует их расположение в древовидной структуре (Tree Representation).
Определение шаблона: Path Assembler находит Наименьшего Общего Предка (Lowest Common Ancestor) для выбранных объектов и сравнивает пути к ним, выявляя общие элементы и вариации (Variant). На основе этого создается обобщенный Selection Path (шаблон).
Автоматическое расширение: Система находит все остальные объекты в документе, соответствующие этому Selection Path.
Обработка: Результаты отображаются в отдельном окне (Selection Window), могут быть отредактированы (Clean-up Engine) и использованы для генерации ключевых слов (Keyword Generator).

Актуальность для SEO

Средняя. Технологии, описанные в патенте (анализ DOM-дерева, генерация путей, подобных XPath, алгоритмическое выявление шаблонов), являются стандартными и широко используются в инструментах веб-скрейпинга и автоматизации. Вероятно, Google использует подобные механизмы во внутренних инструментах или продуктах типа Google Ads и Merchant Center для облегчения создания фидов данных и списков ключевых слов.

Важность для SEO

Влияние на SEO: 1/10 (Минимальное/Инфраструктура). Патент имеет минимальное значение для органического SEO. Он не описывает алгоритмы ранжирования, индексирования или сканирования Google Search. Он описывает пользовательский инструмент для извлечения данных с целью создания рекламных кампаний (PPC). Понимание этого патента не дает конкурентных преимуществ в органическом поиске.

Детальный разбор

Термины и определения

Clean-up Engine (Механизм очистки): Компонент, который применяет пользовательские инструкции (Instructions) к извлеченным данным для их модификации (например, удаление подстрок, изменение регистра).
Item (Элемент): Визуальное представление объекта (Object) на отрендеренной странице в интерфейсе пользователя.
Keyword Generator (Генератор ключевых слов): Компонент, который обрабатывает извлеченные и очищенные данные для создания списка ключевых слов (Keywords), предназначенных для использования в рекламных кампаниях.
Lowest Common Ancestor (LCA) (Наименьший общий предок): Узел в древовидной структуре, который является общим предком для двух или более выбранных объектов и находится на самом низком уровне иерархии (наиболее близок к этим объектам). Используется как отправная точка для генерации шаблона.
Metadata (Метаданные): Элементы, обеспечивающие структуру данных. В контексте HTML это теги (например, <table>, <tr>, <td>), которые формируют узлы в DOM-дереве.
Object (Объект): Единица данных в Structured Data (например, текст, изображение, гиперссылка), которая отображается пользователю как Item.
Object Crawler (Обходчик объектов): Основной компонент системы, описанной в патенте. Это НЕ Googlebot. Это часть пользовательского инструмента, отвечающая за анализ выборов и поиск похожих объектов.
Path Assembler (Сборщик пути): Компонент, который сравнивает пути к выбранным объектам и определяет обобщенный Selection Path.
Selection Path (Путь выбора): Обобщенный шаблон (например, в формате, похожем на XPath), созданный на основе сравнения путей к выбранным пользователем объектам. Включает общие узлы и Variant.
Structured Data (Структурированные данные): Исходный код документа, имеющий иерархическую структуру (например, HTML, XML).
Transparent Panel (Прозрачная панель): Невидимый слой пользовательского интерфейса, размещаемый поверх отрендеренной страницы. Он перехватывает клики пользователя для выбора элементов, не позволяя браузеру реагировать на них (например, не переходя по гиперссылкам).
Tree Representation (Древовидное представление): Иерархическая модель структурированных данных (например, Document Object Model — DOM-дерево HTML-документа).
Variant (Вариант): Часть пути выбора, которая различается между двумя выбранными пользователем объектами (например, разные индексы в tr[1] и tr[2]).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс работы системы в графическом интерфейсе, состоящем из первого и второго окна.

Рендеринг Transparent Panel поверх первого окна, отображающего множество элементов. Панель невидима и настроена на перехват ввода для выбора элементов, предотвращая активацию гиперссылок под ней.
Получение ввода, указывающего на выбор пользователем первого элемента (соответствующего первому объекту в Structured Data).
Получение ввода, указывающего на выбор второго элемента (соответствующего второму объекту).
Автоматическое определение дополнительных объектов в Structured Data, которые структурно похожи на первый и второй объекты.
Отображение во втором окне индикации выбора первого, второго и дополнительных элементов.

Claim 8 (Зависимый от 1): Детализирует механизм автоматического определения дополнительных объектов (шаг 4 в Claim 1).

Идентификация Наименьшего Общего Предка (Lowest Common Ancestor) для первого и второго объектов в иерархической структуре.
Идентификация первого пути от LCA до первого объекта и второго пути от LCA до второго объекта.
Идентификация идентичных узлов в первом и втором путях.
Идентификация Variant (различия) в первом и втором путях.
Идентификация дополнительных объектов, связанных с LCA через другие пути, которые включают те же идентичные узлы и Variant в той же позиции, где он встречается в первом и втором путях.

Claim 10 (Независимый пункт): Описывает применение метода конкретно к онлайн-каталогу ритейлера.

Отображение в окне браузера информации о продуктах ритейлера на основе структурированных данных.
Отображение Transparent Panel поверх части окна браузера для перехвата ввода и предотвращения активации гиперссылок.
Получение ввода от пользователя, указывающего на выбор первого и второго идентификаторов продуктов.
Автоматическое определение дополнительных идентификаторов других продуктов, которые структурно похожи на первый и второй идентификаторы.

Где и как применяется

ВАЖНОЕ УТОЧНЕНИЕ: Этот патент не описывает механизмы, применяемые в архитектуре органического поиска Google (сканирование, индексирование, ранжирование).

Описанная система применяется исключительно в контексте пользовательского интерфейса, например, как браузерное расширение или функция внутри рекламных платформ Google (Google Ads, Merchant Center).

Среда выполнения: Клиентская сторона (Client-side) в браузере пользователя.

Взаимодействие с компонентами:

Система взаимодействует с отрендеренным представлением веб-страницы и ее базовой структурой (Tree Representation / DOM-дерево).
Transparent Panel взаимодействует с браузером для перехвата событий мыши.
Object Crawler анализирует DOM-дерево для извлечения данных.

Входные данные:

Структурированные данные (HTML/XML) загруженной веб-страницы.
Координаты кликов пользователя по элементам страницы (Selections).
Инструкции пользователя по очистке данных (Instructions).

Выходные данные:

Список извлеченных элементов (текст, данные).
Список ключевых слов (Keywords) для рекламных кампаний.

На что влияет

Конкретные типы контента: Наиболее эффективно работает с контентом, имеющим повторяющуюся структуру: каталоги товаров (явно указано в патенте), списки, таблицы, результаты поиска на любом сайте (пример на FIG. 6).
Специфические запросы: Не применимо к поисковым запросам. Применимо к задаче извлечения данных (Data Extraction).
Конкретные ниши или тематики: Особенно полезно для E-commerce и любых сайтов с большими каталогами или базами данных, отображаемыми онлайн.

Когда применяется

Условия работы: Алгоритм активируется пользователем, когда ему необходимо извлечь массив данных со страницы (например, нажатием кнопки «Record»).
Триггеры активации: Автоматическое расширение выбора срабатывает после того, как пользователь выбрал как минимум два примера элемента, и система смогла определить между ними структурную закономерность.
Временные рамки: Патент упоминает возможность работы с несколькими страницами (Pages 146), позволяя извлекать данные из наборов, распределенных по страницам пагинации.

Пошаговый алгоритм

Процесс работы инструмента извлечения данных:

Инициализация: Веб-страница загружается в браузер. Система отображает интерфейс инструмента и накладывает Transparent Panel поверх страницы.
Активация записи: Пользователь активирует режим записи.
Получение примеров: Пользователь кликает на первый и второй примеры элементов. Transparent Panel перехватывает координаты кликов.
Маппинг на структуру: Selection Handler и Object Locator определяют, каким объектам в Structured Data (DOM-дереве) соответствуют эти клики.
Анализ путей: Data Parser определяет метаданные (теги), связанные с этими объектами, формируя пути в Tree Representation.
Определение LCA: Система находит Наименьшего Общего Предка (LCA) для выбранных объектов.
Генерация шаблона: Path Assembler сравнивает пути от LCA до объектов. Он идентифицирует общие узлы и различия (Variant). На основе этого генерируется обобщенный Selection Path. (Например, если выбраны /table/tr[1]/td[2] и /table/tr[2]/td[2], LCA это /table, а шаблон – /tr[X]/td[2]).
Поиск соответствий: Selection Logic применяет Selection Path ко всему документу (или его части, начиная с LCA) и находит все объекты, соответствующие шаблону.
Отображение результатов: Delivery Engine отображает все найденные элементы (исходные и дополнительные) в Selection Window и подсвечивает их на странице.
Очистка данных (Опционально): Пользователь вводит инструкции для Clean-up Engine (например, «удалить символ валюты»), и данные модифицируются.
Генерация ключевых слов (Опционально): Keyword Generator обрабатывает финальный список для использования в рекламе.

Какие данные и как использует

Данные на входе

Система использует исключительно данные, доступные в браузере пользователя.

Структурные факторы: Это основной тип данных. Используются HTML/XML теги (Metadata) и иерархическая структура документа (DOM-дерево или Tree Representation). Структура используется для определения путей и шаблонов.
Контентные факторы: Содержимое узлов (Objects) — это данные, которые извлекаются системой (например, текст названия продукта, цена).
Пользовательские факторы: Действия пользователя критичны для работы системы: клики для выбора примеров (Selections) и правила для очистки данных (Instructions).

Другие факторы (ссылочные, поведенческие, временные и т.д.) в этом патенте не упоминаются и не используются.

Какие метрики используются и как они считаются

Патент не использует метрики ранжирования или оценки качества. Он использует алгоритмы структурного анализа:

Сравнение путей (Path Comparison): Алгоритм сравнивает последовательности узлов (метаданных) в древовидной структуре.
Наименьший Общий Предок (Lowest Common Ancestor — LCA): Вычисляемый узел в дереве, используемый как база для сравнения.
Идентификация Варианта (Variant Identification): Определение точки расхождения в путях после LCA.
Сопоставление с шаблоном (Pattern Matching): Проверка соответствия структуры других объектов сгенерированному Selection Path.

Выводы

Инструмент для PPC, а не алгоритм SEO: Патент описывает пользовательский инструмент для автоматизированного извлечения данных (Data Extraction Tool), а не алгоритм органического поиска Google. Его основное назначение — упрощение сбора ключевых слов для рекламных кампаний (PPC).
Зависимость от структуры документа: Метод полностью полагается на анализ структурированных данных (DOM-дерева/HTML) отображаемой страницы. Система ищет повторяющиеся структурные шаблоны.
Алгоритмическое обобщение выбора: Ключевым механизмом является использование алгоритма Наименьшего Общего Предка (LCA) и идентификация вариаций (Variant) для генерации обобщенного пути выбора (Selection Path) на основе всего двух примеров от пользователя.
Клиентская реализация: Описанный механизм работает на стороне клиента, в браузере пользователя, и включает элементы интерфейса (Transparent Panel) для удобного взаимодействия с контентом без его модификации или активации ссылок.
Отсутствие прямых выводов для SEO: Патент не дает практических рекомендаций по оптимизации сайтов для лучшего ранжирования в органическом поиске, так как не касается работы поисковых роботов или факторов ранжирования.

Практика

Практическое применение в SEO

ВАЖНО: Патент является инфраструктурным (описывает инструмент) и не дает прямых практических выводов для органического SEO. Однако он дает важное понимание того, как автоматизированные системы Google анализируют структуру страниц.

Best practices (это мы делаем)

Использование чистой семантической верстки: Хотя патент описывает инструмент для пользователей, он демонстрирует, как легко алгоритмически извлекать данные из хорошо структурированных документов. Это подтверждает важность использования чистого, валидного и семантически размеченного HTML. Такая структура облегчает анализ контента любыми системами, включая поисковые роботы Googlebot.
Структурирование каталогов и списков: Убедитесь, что повторяющиеся элементы (товары, статьи) имеют идентичную и предсказуемую HTML-структуру. Это улучшает как пользовательский опыт, так и возможность автоматизированного парсинга.

Worst practices (это делать не надо)

Патент не направлен против каких-либо SEO-тактик и не описывает механизмы пессимизации.

Использование непредсказуемой или «сломанной» верстки: Хотя это не приведет к пессимизации в контексте данного патента, это усложняет автоматический анализ структуры страницы, что потенциально может затруднить работу поисковых систем при попытке понять контент страницы.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент подтверждает способность Google эффективно анализировать и понимать структуру документа (DOM-дерево) на алгоритмическом уровне. Однако он не дает никакой информации о сигналах ранжирования, оценке качества контента или поведении поисковых роботов в органическом поиске.

Практические примеры

Практических примеров для органического SEO нет. Патент описывает инструмент для PPC-специалистов или менеджеров по рекламе.

Сценарий: Использование инструмента PPC-специалистом для сбора ключевых слов

Задача: Менеджеру нужно быстро собрать названия всех 500 товаров из онлайн-каталога для запуска новой рекламной кампании.
Действие: Менеджер открывает страницу каталога в браузере и активирует инструмент (Object Crawler). Включается режим записи.
Выбор примеров: Менеджер кликает на название первого товара («Кроссовки Модель А») и второго товара («Кроссовки Модель Б»). Transparent Panel перехватывает клики.
Анализ: Инструмент анализирует HTML-структуру. Он определяет, что оба элемента находятся по пути типа /body/div[1]/ul/li[X]/h3/a.
Автоматическое извлечение: Инструмент автоматически находит и выбирает названия всех остальных товаров на этой странице (и, возможно, на следующих страницах), которые соответствуют этому пути.
Очистка: В Selection Window появляется список из 500 названий. Менеджер использует Clean-up Engine, чтобы удалить артикулы из названий.
Результат: Менеджер получает готовый список ключевых слов для загрузки в Google Ads.

Вопросы и ответы

Описывает ли этот патент, как Googlebot сканирует веб-сайты?

Нет. Патент описывает пользовательский инструмент для извлечения данных. Компонент, названный Object Crawler в этом патенте, является частью этого инструмента и не имеет отношения к основному поисковому краулеру Google (Googlebot).

Влияет ли описанный механизм на ранжирование сайта в органическом поиске?

Нет. Патент не касается алгоритмов ранжирования, факторов E-E-A-T или оценки качества контента. Он сосредоточен исключительно на методе автоматического извлечения структурированных данных для использования в рекламных кампаниях (PPC).

Какова основная цель изобретения?

Основная цель — автоматизировать трудоемкий процесс сбора ключевых слов для рекламных кампаний. Инструмент позволяет менеджерам быстро извлекать большие списки продуктов или других элементов из онлайн-каталогов без ручного копирования и вставки.

Какие технологии лежат в основе этого инструмента?

Инструмент использует анализ древовидной структуры документа (DOM-дерева), алгоритм поиска Наименьшего Общего Предка (LCA) и логику сравнения путей (похожую на XPath) для выявления структурных шаблонов и обобщения пользовательского выбора.

Что такое «Transparent Panel» и зачем она нужна?

Это невидимый слой интерфейса, который накладывается поверх веб-страницы. Он нужен для перехвата кликов пользователя, когда тот выбирает примеры элементов. Это позволяет выбрать элемент (например, ссылку), не активируя его (т.е. браузер не перейдет по ссылке).

Может ли этот инструмент работать с данными на нескольких страницах?

Да, в патенте упоминается (Pages 146), что интерфейс может отображать несколько страниц, и пользователь может делать выбор на разных страницах, а Object Crawler может обрабатывать выбор и возвращать результаты, охватывающие любое количество страниц.

Что такое «Clean-up Engine»?

Это компонент, который позволяет пользователю модифицировать уже извлеченные данные. Например, можно автоматически удалить определенные слова, символы, числа или изменить регистр текста в списке результатов перед их использованием в качестве ключевых слов.

Как система определяет, какие элементы похожи?

Система определяет похожесть исключительно на основе структуры HTML-кода. Она сравнивает пути в DOM-дереве к выбранным элементам. Если пути идентичны, за исключением определенного вариативного участка (Variant), элементы считаются структурно похожими.

Подтверждает ли этот патент важность чистого HTML-кода для SEO?

Косвенно. Хотя патент не о SEO, он демонстрирует, что алгоритмы могут легко и точно извлекать данные из хорошо структурированных документов. Логично предположить, что чистый, семантический HTML также облегчает работу и поисковым роботам при анализе контента страницы.

Где на практике может применяться этот инструмент?

Наиболее вероятно, что этот инструмент или его вариации используются внутри платформ Google Ads или Google Merchant Center, чтобы помочь ритейлерам автоматически создавать или обновлять фиды данных о продуктах и генерировать списки ключевых слов.