
Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.
Патент решает проблему автоматического извлечения структурированной информации о товарах (цена, изображение, версия, SKU) из огромного количества неструктурированных или слабоструктурированных веб-документов (например, HTML-страниц). Это позволяет создать систему сравнения товаров без необходимости ручного сбора данных или зависимости исключительно от структурированных фидов продавцов. Система также направлена на то, чтобы отличать страницы, продающие товар, от страниц, просто обсуждающих его (например, обзоров).
Запатентована система автоматического извлечения атрибутов товаров из документов, идентифицированных как shopping articles (торговые документы). Изобретение использует анализ структуры документа (например, дерева HTML DOM), сигналы форматирования (размер и начертание шрифта) и метрики близости (proximity metrics) между терминами запроса, потенциальными ценами и потенциальными изображениями для идентификации и извлечения корректных данных о товаре.
Система работает в несколько этапов:
shopping document, анализируя механические аспекты, такие как наличие строк "add to cart", "checkout" в URL или элементах форм (<FORM>, <INPUT>), а также наличие корректно отформатированных цен.Attribute processor анализирует структуру страницы и форматирование для поиска потенциальных цен (price signals) и изображений (image signals) вблизи терминов запроса.Высокая. Этот патент описывает фундаментальные технологии, лежащие в основе Google Shopping (ранее Froogle). Хотя современные системы Google, вероятно, используют более продвинутые модели машинного обучения для извлечения информации (Information Extraction), описанные принципы использования структурных сигналов, анализа DOM-дерева и близости элементов остаются критически важными для понимания того, как Google интерпретирует страницы электронной коммерции, особенно в качестве запасного механизма при отсутствии или ошибках в структурированных данных (Schema.org).
Патент имеет критическое значение для SEO в сфере E-commerce. Он раскрывает конкретные механизмы, которые Google использует для понимания предложений товаров на странице. Понимание логики извлечения позволяет оптимизировать структуру и код страниц (PDP), чтобы гарантировать, что Google корректно идентифицирует товар, его основную цену и главное изображение для отображения в результатах поиска по товарам и обогащенных сниппетах.
Distance Metrics) или структурное расстояние в дереве документа (Structure Metrics).Claim 1 (Независимый пункт): Описывает основной метод автоматического извлечения и отображения информации о товаре.
price signal.proximity metric определяется, указывает ли price signal на то, что это действительная цена товара.Claim 10 (Зависимый): Детализирует процесс извлечения изображения.
Потенциальное изображение идентифицируется на основе извлеченной цены. Затем идентифицируется image signal, связанный с этим изображением. Система определяет, указывает ли image signal на то, что это действительное изображение товара, и если да, извлекает его.
Claims 14, 15, 16 (Зависимые): Уточняют использование древовидной структуры HTML для анализа близости.
Метрики (image signals или price signals) могут включать: расстояние до closest common ancestor между ценой/изображением и термином запроса; количество узлов в наименьшем поддереве (smallest tree), содержащем цену, изображение и термин запроса; глубину этого наименьшего поддерева.
Claim 20 (Зависимый): Описывает процесс ранжирования потенциальных атрибутов.
Выбирается несколько потенциальных цен и изображений. Выбор основывается на терминах запроса и расстоянии между локациями цен и изображений внутри статьи. Создается ранжированный список потенциальных цен и изображений, причем те пары, которые расположены ближе друг к другу в статье, ранжируются выше.
Изобретение в первую очередь применяется на этапе индексирования для извлечения структурированных данных из контента.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает необработанные HTML-документы. Патент упоминает, что идентификация shopping documents может происходить во время или после сканирования.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Attribute Processor анализирует собранные документы для выполнения двух ключевых задач:
shopping document, путем поиска механических признаков (строки в формах/ссылках) и представлений цен.METASEARCH – Метапоиск и Смешивание
Извлеченные структурированные данные используются для формирования специализированной выдачи по товарам (например, Google Shopping) или обогащенных сниппетов в основной выдаче.
Входные данные:
Выходные данные:
shopping document или нет).shopping documents.Этап 1: Идентификация торгового документа
<FORM>, <INPUT>, <IMAGE>) или тегов <A>.shopping document.Этап 2: Извлечение атрибутов (для релевантного товара)
Price Signals для каждого кандидата: Price Representation Score, размер и начертание шрифта, предшествующие/последующие слова.Image Signals: размер, соотношение сторон, частота использования (для исключения логотипов).<FORM>, <INPUT>) и ссылок (<A>).strikethrough может указывать на неактуальную цену).aspect ratio) изображения (необычные соотношения могут указывать на логотипы или баннеры).frequency of occurrence) в документе или сети (частое использование может указывать на логотип).Distance Metric).closest common ancestor в дереве документа (Structure Metric).smallest tree), содержащего оба элемента (Structure Metric).Structure Metric).Global Information).Tree Structure) и использует метрики, такие как Closest Common Ancestor, чтобы определить, какие элементы связаны между собой.Price Signal), а зачеркнутый шрифт — отрицательным.Closest Common Ancestor).Price Signals (таких как слова "Save" или "Rebate" в непосредственной близости).Occurrence Value).Shopping Document.Патент подчеркивает важность технического SEO и чистой структуры кода для E-commerce. Хотя использование структурированных данных (Schema.org/Product) является современной рекомендуемой практикой для передачи атрибутов товара Google, этот патент показывает, что у Google есть мощные механизмы для извлечения этой информации самостоятельно. Стратегия SEO должна включать оптимизацию структуры шаблонов страниц товаров (PDP) для обеспечения надежного резервного механизма извлечения данных, гарантируя корректное представление товаров в Google Shopping и других сервисах.
Сценарий: Оптимизация шаблона страницы товара (PDP)
Проблема: Товар не появляется в Google Shopping, или отображается неверная цена/изображение. Анализ показывает, что в текущем HTML-шаблоне между H1 товара и ценой вставлен большой блок "Похожие товары".
Применение патента:
Proximity Metrics и Closest Common Ancestor, мы видим, что блок "Похожие товары" увеличивает структурное расстояние между названием и ценой.Attribute Processor корректно идентифицирует и извлечет правильные атрибуты, так как Price Signals и Image Signals стали сильнее за счет улучшенных метрик близости.Как этот патент соотносится с использованием микроразметки Schema.org/Product?
Schema.org является предпочтительным и более современным способом передачи структурированных данных поисковым системам. Однако этот патент описывает механизмы, позволяющие Google извлекать данные без разметки. Это служит важным резервным механизмом (fallback) в случае ошибок в разметке или ее отсутствия. Для максимальной надежности необходимо использовать Schema.org И оптимизировать структуру HTML, как описано в патенте.
Как Google определяет главное изображение товара, если на странице их несколько?
Система ищет изображение, которое имеет наилучшие Image Signals и метрики близости к названию товара и извлеченной цене. Также используются глобальные сигналы: предпочтение отдается изображениям адекватного размера, со стандартным соотношением сторон, которые не используются слишком часто на сайте (чтобы исключить логотипы). Изображение, структурно ближайшее к цене, имеет преимущество.
Что делать, если товар на скидке? Как Google поймет, какая цена актуальна?
Патент учитывает это через Price Signals. Зачеркнутый шрифт (strikethrough) или слова типа "was" (было) являются отрицательными сигналами для текущей цены. Актуальная цена должна быть визуально заметнее (например, крупнее шрифт) и иметь положительные сигналы (например, слова "sale price" или "our price"). Важно, чтобы актуальная цена была структурно ближе к названию товара и кнопке покупки.
Влияет ли скорость загрузки или Core Web Vitals на этот механизм извлечения?
Патент не упоминает скорость загрузки. Он фокусируется исключительно на анализе контента и структуры документа после его загрузки. Однако, если страница загружается слишком медленно или если ключевые элементы (цена/изображение) загружаются с задержкой через JavaScript и недоступны во время индексирования, система не сможет извлечь данные.
Как система обрабатывает варианты товаров (разные цвета, размеры) с разными ценами?
Патент не детализирует обработку вариантов. Он описывает извлечение атрибутов для "товара, релевантного запросу". Если варианты представлены как отдельные блоки в HTML, система может попытаться извлечь данные для каждого блока. Если цена меняется динамически через JavaScript при выборе варианта, система может извлечь только цену по умолчанию, видимую при загрузке страницы.
Что такое "Closest Common Ancestor" и почему это важно для SEO?
Это ближайший общий родительский элемент в HTML DOM-дереве для двух разных элементов (например, цены и изображения). Чем ближе этот общий предок к самим элементам, тем теснее они структурно связаны. Для SEO это означает, что связанные элементы должны быть сгруппированы в коде (например, в одном <div>), чтобы поисковая система могла легко определить их взаимосвязь.
Как убедиться, что Google классифицирует мою страницу как "Shopping Document"?
Патент предлагает искать "механические" признаки покупки. Убедитесь, что на странице присутствуют функциональные элементы (формы, кнопки, ссылки), содержащие в коде или URL параметры с терминами вроде "add to cart", "basket", "checkout", а также текстовое представление цены в стандартном формате.
Может ли этот механизм использоваться для извлечения других атрибутов, кроме цены и изображения?
Да. Хотя патент фокусируется на цене и изображении как на основных примерах, в описании упоминается возможность извлечения других атрибутов, таких как SKU номер и версия товара. Логика остается той же: использование сигналов форматирования и метрик близости к названию товара и другим уже извлеченным атрибутам.
Влияет ли использование CSS Grid или Flexbox на извлечение данных?
Если CSS используется только для визуального расположения, а порядок элементов в DOM остается логичным (название, изображение, цена идут последовательно), проблем быть не должно. Однако, если CSS используется для радикального изменения порядка отображения по сравнению с порядком в DOM (например, цена в коде идет первой, а отображается последней), это может ухудшить метрики близости и затруднить извлечение.
Насколько важны окружающие цену слова?
Они являются важной частью Price Signals. Слова вроде "Our Price" или "Sale Price" повышают уверенность системы в том, что это актуальная цена. Напротив, слова вроде "Save" (Экономия), "Rebate" (Скидка) или "Shipping" (Доставка), расположенные вплотную к числу, могут привести к тому, что система неверно интерпретирует это число как цену самого товара.

Семантика и интент
Структура сайта
Поведенческие сигналы

Структура сайта

Индексация
Мультимедиа

Индексация
Краулинг
Семантика и интент

Мультимедиа
Индексация
Google Shopping

Поведенческие сигналы
SERP
Семантика и интент

SERP
EEAT и качество
Персонализация

Семантика и интент
Поведенческие сигналы
SERP

EEAT и качество
Антиспам
SERP

Ссылки
Индексация
Техническое SEO

Мультиязычность
Поведенческие сигналы
Персонализация

Персонализация
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация

SERP
Поведенческие сигналы
Семантика и интент

Индексация
Ссылки
Техническое SEO
