
Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.
Патент решает проблему трудоемкого ручного извлечения больших объемов данных (например, списков названий продуктов, цен) из структурированных документов, таких как онлайн-каталоги. Основная задача, указанная в патенте, — автоматизировать процесс сбора ключевых слов для менеджеров рекламных кампаний (PPC), устраняя необходимость ручного копирования и вставки каждого элемента по отдельности.
Запатентована система и метод для автоматического расширения пользовательского выбора на основе анализа структуры документа. Система представляет собой инструмент (ключевой компонент которого назван Object Crawler), который позволяет пользователю выбрать несколько примеров элементов на веб-странице. На основе этих примеров инструмент анализирует базовую структуру данных (например, DOM-дерево HTML-документа), выявляет структурный шаблон и автоматически выбирает все остальные элементы на странице, соответствующие этому шаблону.
Механизм работает следующим образом:
Transparent Panel, которая перехватывает клики пользователя, не активируя гиперссылки.Structured Data) и анализирует их расположение в древовидной структуре (Tree Representation).Path Assembler находит Наименьшего Общего Предка (Lowest Common Ancestor) для выбранных объектов и сравнивает пути к ним, выявляя общие элементы и вариации (Variant). На основе этого создается обобщенный Selection Path (шаблон).Selection Path.Selection Window), могут быть отредактированы (Clean-up Engine) и использованы для генерации ключевых слов (Keyword Generator).Средняя. Технологии, описанные в патенте (анализ DOM-дерева, генерация путей, подобных XPath, алгоритмическое выявление шаблонов), являются стандартными и широко используются в инструментах веб-скрейпинга и автоматизации. Вероятно, Google использует подобные механизмы во внутренних инструментах или продуктах типа Google Ads и Merchant Center для облегчения создания фидов данных и списков ключевых слов.
Влияние на SEO: 1/10 (Минимальное/Инфраструктура). Патент имеет минимальное значение для органического SEO. Он не описывает алгоритмы ранжирования, индексирования или сканирования Google Search. Он описывает пользовательский инструмент для извлечения данных с целью создания рекламных кампаний (PPC). Понимание этого патента не дает конкурентных преимуществ в органическом поиске.
Instructions) к извлеченным данным для их модификации (например, удаление подстрок, изменение регистра).Object) на отрендеренной странице в интерфейсе пользователя.Keywords), предназначенных для использования в рекламных кампаниях.Structured Data (например, текст, изображение, гиперссылка), которая отображается пользователю как Item.Selection Path.Variant.tr[1] и tr[2]).Claim 1 (Независимый пункт): Описывает основной процесс работы системы в графическом интерфейсе, состоящем из первого и второго окна.
Transparent Panel поверх первого окна, отображающего множество элементов. Панель невидима и настроена на перехват ввода для выбора элементов, предотвращая активацию гиперссылок под ней.Structured Data).Structured Data, которые структурно похожи на первый и второй объекты.Claim 8 (Зависимый от 1): Детализирует механизм автоматического определения дополнительных объектов (шаг 4 в Claim 1).
Lowest Common Ancestor) для первого и второго объектов в иерархической структуре.Variant (различия) в первом и втором путях.Variant в той же позиции, где он встречается в первом и втором путях.Claim 10 (Независимый пункт): Описывает применение метода конкретно к онлайн-каталогу ритейлера.
Transparent Panel поверх части окна браузера для перехвата ввода и предотвращения активации гиперссылок.ВАЖНОЕ УТОЧНЕНИЕ: Этот патент не описывает механизмы, применяемые в архитектуре органического поиска Google (сканирование, индексирование, ранжирование).
Описанная система применяется исключительно в контексте пользовательского интерфейса, например, как браузерное расширение или функция внутри рекламных платформ Google (Google Ads, Merchant Center).
Среда выполнения: Клиентская сторона (Client-side) в браузере пользователя.
Взаимодействие с компонентами:
Tree Representation / DOM-дерево).Transparent Panel взаимодействует с браузером для перехвата событий мыши.Object Crawler анализирует DOM-дерево для извлечения данных.Входные данные:
Selections).Instructions).Выходные данные:
Keywords) для рекламных кампаний.Pages 146), позволяя извлекать данные из наборов, распределенных по страницам пагинации.Процесс работы инструмента извлечения данных:
Transparent Panel поверх страницы.Transparent Panel перехватывает координаты кликов.Selection Handler и Object Locator определяют, каким объектам в Structured Data (DOM-дереве) соответствуют эти клики.Data Parser определяет метаданные (теги), связанные с этими объектами, формируя пути в Tree Representation.Path Assembler сравнивает пути от LCA до объектов. Он идентифицирует общие узлы и различия (Variant). На основе этого генерируется обобщенный Selection Path. (Например, если выбраны /table/tr[1]/td[2] и /table/tr[2]/td[2], LCA это /table, а шаблон – /tr[X]/td[2]).Selection Logic применяет Selection Path ко всему документу (или его части, начиная с LCA) и находит все объекты, соответствующие шаблону.Delivery Engine отображает все найденные элементы (исходные и дополнительные) в Selection Window и подсвечивает их на странице.Clean-up Engine (например, «удалить символ валюты»), и данные модифицируются.Keyword Generator обрабатывает финальный список для использования в рекламе.Система использует исключительно данные, доступные в браузере пользователя.
Metadata) и иерархическая структура документа (DOM-дерево или Tree Representation). Структура используется для определения путей и шаблонов.Objects) — это данные, которые извлекаются системой (например, текст названия продукта, цена).Selections) и правила для очистки данных (Instructions).Другие факторы (ссылочные, поведенческие, временные и т.д.) в этом патенте не упоминаются и не используются.
Патент не использует метрики ранжирования или оценки качества. Он использует алгоритмы структурного анализа:
Selection Path.Variant) для генерации обобщенного пути выбора (Selection Path) на основе всего двух примеров от пользователя.Transparent Panel) для удобного взаимодействия с контентом без его модификации или активации ссылок.ВАЖНО: Патент является инфраструктурным (описывает инструмент) и не дает прямых практических выводов для органического SEO. Однако он дает важное понимание того, как автоматизированные системы Google анализируют структуру страниц.
Патент не направлен против каких-либо SEO-тактик и не описывает механизмы пессимизации.
Стратегическое значение для SEO минимально. Патент подтверждает способность Google эффективно анализировать и понимать структуру документа (DOM-дерево) на алгоритмическом уровне. Однако он не дает никакой информации о сигналах ранжирования, оценке качества контента или поведении поисковых роботов в органическом поиске.
Практических примеров для органического SEO нет. Патент описывает инструмент для PPC-специалистов или менеджеров по рекламе.
Сценарий: Использование инструмента PPC-специалистом для сбора ключевых слов
Object Crawler). Включается режим записи.Transparent Panel перехватывает клики./body/div[1]/ul/li[X]/h3/a.Selection Window появляется список из 500 названий. Менеджер использует Clean-up Engine, чтобы удалить артикулы из названий.Описывает ли этот патент, как Googlebot сканирует веб-сайты?
Нет. Патент описывает пользовательский инструмент для извлечения данных. Компонент, названный Object Crawler в этом патенте, является частью этого инструмента и не имеет отношения к основному поисковому краулеру Google (Googlebot).
Влияет ли описанный механизм на ранжирование сайта в органическом поиске?
Нет. Патент не касается алгоритмов ранжирования, факторов E-E-A-T или оценки качества контента. Он сосредоточен исключительно на методе автоматического извлечения структурированных данных для использования в рекламных кампаниях (PPC).
Какова основная цель изобретения?
Основная цель — автоматизировать трудоемкий процесс сбора ключевых слов для рекламных кампаний. Инструмент позволяет менеджерам быстро извлекать большие списки продуктов или других элементов из онлайн-каталогов без ручного копирования и вставки.
Какие технологии лежат в основе этого инструмента?
Инструмент использует анализ древовидной структуры документа (DOM-дерева), алгоритм поиска Наименьшего Общего Предка (LCA) и логику сравнения путей (похожую на XPath) для выявления структурных шаблонов и обобщения пользовательского выбора.
Что такое "Transparent Panel" и зачем она нужна?
Это невидимый слой интерфейса, который накладывается поверх веб-страницы. Он нужен для перехвата кликов пользователя, когда тот выбирает примеры элементов. Это позволяет выбрать элемент (например, ссылку), не активируя его (т.е. браузер не перейдет по ссылке).
Может ли этот инструмент работать с данными на нескольких страницах?
Да, в патенте упоминается (Pages 146), что интерфейс может отображать несколько страниц, и пользователь может делать выбор на разных страницах, а Object Crawler может обрабатывать выбор и возвращать результаты, охватывающие любое количество страниц.
Что такое "Clean-up Engine"?
Это компонент, который позволяет пользователю модифицировать уже извлеченные данные. Например, можно автоматически удалить определенные слова, символы, числа или изменить регистр текста в списке результатов перед их использованием в качестве ключевых слов.
Как система определяет, какие элементы похожи?
Система определяет похожесть исключительно на основе структуры HTML-кода. Она сравнивает пути в DOM-дереве к выбранным элементам. Если пути идентичны, за исключением определенного вариативного участка (Variant), элементы считаются структурно похожими.
Подтверждает ли этот патент важность чистого HTML-кода для SEO?
Косвенно. Хотя патент не о SEO, он демонстрирует, что алгоритмы могут легко и точно извлекать данные из хорошо структурированных документов. Логично предположить, что чистый, семантический HTML также облегчает работу и поисковым роботам при анализе контента страницы.
Где на практике может применяться этот инструмент?
Наиболее вероятно, что этот инструмент или его вариации используются внутри платформ Google Ads или Google Merchant Center, чтобы помочь ритейлерам автоматически создавать или обновлять фиды данных о продуктах и генерировать списки ключевых слов.

Google Shopping
SERP
Индексация

Структура сайта
Краулинг

Knowledge Graph
Семантика и интент

Knowledge Graph
Семантика и интент
Структура сайта

Структура сайта
SERP
Ссылки

Семантика и интент
SERP
Поведенческие сигналы

Ссылки
Антиспам
EEAT и качество

Семантика и интент
EEAT и качество
SERP

Структура сайта
SERP
Ссылки

Ссылки
SERP
Техническое SEO

Local SEO
SERP
Ссылки

EEAT и качество
Индексация
Семантика и интент

Семантика и интент
Персонализация
SERP

Ссылки
Структура сайта
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы
