Как Google извлекает идентификаторы продуктов (Object IDs) из URL и заголовков страниц для индексации товаров и таргетинга

Google использует систему для автоматического определения того, какой именно продукт просматривает пользователь, анализируя URL и заголовок страницы. Система извлекает идентификаторы объектов (например, SKU или GTIN) с помощью правил парсинга, специфичных для домена, и создает «Индекс идентификаторов объектов». Это позволяет Google точно индексировать товары и понимать интересы пользователей без необходимости сложной настройки тегов со стороны владельца сайта.

Описание

Какую задачу решает

Патент решает проблему точной идентификации конкретных объектов (например, продуктов), которыми интересуется пользователь на веб-сайте, без использования динамических тегов (dynamic script tag). Динамические теги требуют индивидуальной настройки для каждого сайта, подвержены ошибкам и сложны в поддержке. Изобретение позволяет автоматически определять идентификатор объекта (Object Identifier), используя стандартизированный статический тег (static script tag), что упрощает внедрение и повышает надежность сбора данных.

Что запатентовано

Запатентована система для создания и использования «Индекса идентификаторов объектов» (Object Identifier Index). Система получает данные от статического тега, размещенного на странице (URL, заголовок страницы, ID клиента). Ключевым элементом является механизм автоматического извлечения идентификатора объекта из URL с использованием специфичной для домена логики парсинга (executable logic for parsing), которая изучается путем анализа шаблонов URL на этом домене. Извлеченный идентификатор затем связывается в индексе с дескриптором объекта и пользователем.

Как это работает

Система работает следующим образом:

Сбор данных: Когда пользователь посещает страницу продукта, static script tag отправляет системе URL (Network Address) и заголовок страницы (Content Title).
Извлечение правил: Система (Mapping Engine System) определяет домен и загружает соответствующие, заранее изученные правила парсинга (Rules).
Парсинг URL: Parsing Engine применяет эти правила к URL, чтобы извлечь Object Identifier (например, SKU продукта).
Семантический анализ: Система также может анализировать Content Title и сравнивать его с известными названиями продуктов (Object Titles) для валидации.
Индексация: Извлеченный ID, заголовок страницы и название продукта связываются в Object Identifier Index. ID пользователя также добавляется к этому объекту.
Применение: Индекс используется платформой оценки (Evaluation Platform System, например, рекламной системой) для таргетинга контента на основе интересов пользователя.

Актуальность для SEO

Высокая. Автоматическое извлечение структурированных данных из веб-страниц является критически важным направлением для Google, особенно в сфере E-commerce (например, для Google Shopping и рекламного ретаргетинга). Описанные методы парсинга URL на уровне домена и семантического анализа заголовков для идентификации сущностей (продуктов) являются актуальными механизмами индексации и сбора данных.

Важность для SEO

Патент имеет среднее значение для SEO (6/10), но высокое значение для специалистов по E-commerce. Он не описывает алгоритмы органического ранжирования. Однако он детально раскрывает технические механизмы того, как Google может идентифицировать и индексировать конкретные продукты, полагаясь на структуру URL и заголовки страниц, даже без явных сигналов (микроразметки или динамических тегов). Понимание этого процесса критически важно для обеспечения корректной индексации товарного ассортимента.

Детальный разбор

Термины и определения

Object Identifier Index (Индекс идентификаторов объектов): База данных или индекс, который хранит связи (mapping) между идентификаторами объектов, заголовками контента (страниц), названиями объектов и списками идентификаторов клиентских устройств, проявивших интерес к объекту.
Object Identifier (ID) (Идентификатор объекта): Уникальный код (например, SKU, GTIN, product ID), который идентифицирует конкретный объект (продукт или услугу).
Content Title (Заголовок контента): Заголовок цифрового контента, в котором упоминается объект. В контексте патента часто подразумевается Title веб-страницы.
Object Title (Название объекта): Дескриптор объекта, который отличает его от других. Например, точное название продукта, которое может храниться в товарном фиде (object feed).
Static Script Tag (Статический тег скрипта): Стандартизированный фрагмент кода, встроенный в контент. В отличие от динамического тега, он не требует ручной настройки или передачи динамических параметров (например, Product ID) со стороны владельца сайта.
Mapping Engine System (Система механизма сопоставления): Система, ответственная за анализ полученных данных (URL, Title), извлечение идентификаторов и генерацию записей в Object Identifier Index.
Parsing Engine (Механизм парсинга): Компонент, который выполняет логику (правила) для извлечения Object Identifier из сетевого адреса (URL).
Executable Logic / Rules (Выполняемая логика / Правила): Набор правил парсинга, часто специфичный для конкретного домена (domain data), используемый для идентификации паттернов в структуре URL.
Evaluation Platform System (Система платформы оценки): Система (например, рекламная биржа или система рекомендаций), которая использует Object Identifier Index для определения того, какой таргетированный контент (Digital Content Item) показывать пользователю.

Ключевые утверждения (Анализ Claims)

Анализ основан на независимых пунктах, представленных в патенте (Claim 1 отменен).

Claim 2 (Независимый пункт): Описывает основной метод работы системы от сбора данных до таргетинга.

Получение данных от static script tag, выполненного на клиентском устройстве. Данные включают: (i) идентификатор устройства (device identifier) и (ii) сетевой адрес (URL) просматриваемого контента.
Извлечение из URL идентификатора объекта (identifier of an object), представленного в контенте.
Поиск в индексе первой записи, содержащей дескриптор (descriptor) этого объекта.
Создание в индексе связи (mapping) между этой записью и идентификатором устройства.
Последовательность действий после создания связи:
Получение запроса на контент от этого клиентского устройства.
Идентификация device identifier в индексе.
Возврат контента (например, рекламы), который был выбран с использованием дескриптора или идентификатора объекта, связанного с этим устройством в индексе.

Ядро изобретения — это процесс автоматического связывания устройства пользователя с конкретным продуктом путем анализа URL (полученного через статический тег) и последующее использование этой связи для таргетинга контента. Механизм извлечения ID из URL является ключевым для работы этой системы.

Claim 6 (Зависимый от 2): Уточняет, как определяются правила для извлечения идентификаторов.

Определение одного или нескольких правил (one or more rules) для домена основывается на анализе сетевых адресов (URL) этого домена. Система автоматически изучает структуру URL на уровне домена, чтобы вывести правила парсинга и понять, где в URL находится идентификатор продукта.

Где и как применяется

Изобретение затрагивает этапы сбора данных, индексации и применения данных для таргетинга.

CRAWLING / INDEXING – Сбор данных и извлечение признаков
Система собирает данные (URL, Title) не только через стандартный краулинг, но и через выполнение static script tags при посещении страниц пользователями. На этом этапе происходит извлечение ключевого признака — Object Identifier — из URL и его индексация в специализированном Object Identifier Index. Это форма извлечения сущностей (Entity Extraction) и признаков.

QUNDERSTANDING (Понимание структуры домена)
Система выполняет фоновый анализ множества URL одного домена. Сравнивая их (часто с использованием машинного обучения), она автоматически выводит паттерны и генерирует правила парсинга (Executable Logic/Rules) для этого домена.

RANKING / RERANKING (Применительно к таргетингу контента)
Evaluation Platform System использует созданный индекс для определения интересов пользователя (связь Client ID и Object ID) и выбора (ранжирования) наиболее релевантного таргетированного контента (Digital Content Item) для показа.

Входные данные:

Данные от статического скрипта (Script Data): URL (Network Address), Заголовок страницы (Content Title), ID клиента (Client Device ID).
Правила парсинга для домена (Executable Logic).
База данных известных объектов/продуктов (Object Feed или Data Repository) с их Object Titles.

Выходные данные:

Заполненный Object Identifier Index.
Список подходящего таргетированного контента (Eligible Content Items List).

На что влияет

Конкретные типы контента: В первую очередь влияет на страницы, представляющие конкретные объекты с идентификаторами. Это преимущественно страницы продуктов (PDP) в E-commerce, каталоги товаров, страницы бронирования услуг.
Конкретные ниши или тематики: Наибольшее влияние оказывается на E-commerce и любые другие вертикали, где важно отслеживать интерес пользователя к конкретному товару или услуге (например, авто, недвижимость).

Когда применяется

Триггеры активации: Алгоритм активируется каждый раз, когда пользователь посещает страницу, содержащую static script tag, и этот тег успешно выполняется и отправляет данные.
Условия применения: Применяется, если система может успешно применить правила парсинга для домена и извлечь Object Identifier из URL, или если семантический анализ Content Title позволяет надежно определить объект.
Исключения и особые случаи: Система включает механизмы для предотвращения ошибок. Если Content Title является слишком общим (generic) — например, главная страница, страница категории или страница «товар распродан» — и оказывается связанным со слишком большим количеством разных объектов, он может быть исключен из индекса.

Пошаговый алгоритм

Процесс А: Индексация Объекта и Интереса Пользователя (Real-time/Near Real-time)

Сбор данных: Получение Script Data (URL, Content Title, Client ID) от static script tag при загрузке страницы пользователем.
Получение правил: Определение домена из URL и извлечение из репозитория специфичных для этого домена правил парсинга (Executable Logic).
Извлечение ID (Парсинг): Применение правил к URL с помощью Parsing Engine для извлечения Object Identifier.
Семантический анализ (Опционально): Анализ Content Title и его сравнение с известными Object Titles (например, с использованием edit distance) для подтверждения идентификации объекта или как альтернативный метод идентификации.
Валидация уникальности: Проверка, не является ли Content Title слишком общим. Если он связан с количеством объектов выше порога (в патенте упоминаются примеры порога в 2 или 3 объекта), он может быть отброшен.
Индексация: Поиск объекта в индексе по ID или дескриптору. Создание или обновление записи в Object Identifier Index, устанавливая связь между Object ID, Content Title, Object Title и добавляя Client ID в список заинтересованных пользователей.

Процесс Б: Генерация Правил Парсинга (Офлайн/Фоновый режим)

Анализ домена: Сбор и анализ множества URL (сетевых адресов) одного домена.
Поиск паттернов: Сравнение URL между собой для выявления общих структурных элементов и изменяющихся частей, которые могут содержать идентификаторы. Например, система ищет паттерны вида «/productid12345», «/id=12345» или идентификаторы в последнем компоненте пути. Могут использоваться методы машинного обучения.
Генерация правил: Автоматическое формирование Executable Logic (правил парсинга) для извлечения ID на основе найденных паттернов.
Сохранение: Сохранение правил для последующего использования в Процессе А.

Какие данные и как использует

Данные на входе

Технические факторы:
- URL (Network Address): Критически важный элемент. Используется как основной источник для извлечения Object Identifier с помощью правил парсинга.
- Домен (Domain Data): Используется для выбора соответствующего набора правил парсинга.
Контентные факторы:
- Заголовок страницы (Content Title): Например, HTML Title. Используется для семантического анализа и сопоставления с Object Title для идентификации продукта.
Пользовательские факторы:
- ID клиента (Client Device ID) и Cookie Data: Используются для идентификации устройства пользователя и отслеживания его интересов к объектам.

Какие метрики используются и как они считаются

Правила парсинга (Executable Logic): Логика, основанная на паттернах URL, специфичных для домена. Генерируется автоматически путем анализа множества URL домена с применением машинного обучения.
Семантический анализ и Сопоставление: Система сравнивает Content Title и Object Title. В патенте упоминается использование edit distance (редакционное расстояние) между заголовками как метрики для оценки их семантической связи. Если расстояние превышает порог, заголовки считаются не связанными.
Порог уникальности (Generic Title Detection): Метрика для оценки качества индекса. Если один Content Title связан с количеством объектов, превышающим порог (например, больше 2 или 3), он классифицируется как слишком общий (generic) и удаляется из индекса.
Группировка объектов: Система может группировать похожие объекты (например, варианты товара разного размера или цвета) на основе общих частей их идентификаторов (используя Group Identifier). Это позволяет избежать ошибочной классификации похожих заголовков как общих.

Выводы

Автоматизация извлечения структурированных данных: Google активно развивает механизмы для извлечения структурированных данных (в частности, Product ID) без зависимости от действий владельцев сайтов (таких как внедрение микроразметки, предоставление фидов или настройка динамических тегов).
Критичность структуры URL: Структура URL является первичным источником для идентификации объектов. Система автоматически обучается (используя Machine Learning) понимать паттерны URL на уровне домена для извлечения идентификаторов.
Роль заголовков страниц (Title): Заголовки страниц (Content Title) используются как важный сигнал для идентификации продукта через семантическое сопоставление с известными названиями продуктов (Object Title).
Механизмы контроля качества индексации: Система имеет встроенные механизмы защиты от ошибок, такие как игнорирование общих страниц (например, главная, категории), которые могут быть ошибочно связаны со многими продуктами (например, из-за некорректных редиректов).
Фокус на E-commerce: Хотя основное применение, описанное в патенте, связано с таргетингом контента (рекламой), описанные механизмы извлечения и индексации объектов крайне релевантны для понимания того, как товары попадают в товарный индекс Google (например, Google Shopping).

Практика

Best practices (это мы делаем)

Проектирование чистой и стабильной структуры URL: Для E-commerce критически важно использовать логичную структуру URL для страниц продуктов. Включение уникального идентификатора продукта (SKU, MPN, GTIN) непосредственно в URL в явном и стабильном паттерне (например, /p/12345 или ?id=12345) значительно упрощает для Parsing Engine задачу извлечения Object ID.
Оптимизация Title страниц продуктов: Заголовки (Content Title) должны быть уникальными и точно соответствовать названию продукта (Object Title), включая бренд, модель и ключевые варианты (цвет, размер). Это повышает надежность семантического сопоставления.
Обеспечение консистентности идентификаторов: Необходимо поддерживать соответствие между идентификаторами, используемыми в URL, микроразметке Schema.org/Product и товарных фидах. Это обеспечивает единое представление объекта для систем Google.
Использование групповых идентификаторов для вариантов: Для вариантов продуктов (цвет, размер) используйте как уникальный ID варианта, так и общий ID группы продуктов в архитектуре сайта. Это поможет системе понять взаимосвязь между вариантами и корректно их сгруппировать.

Worst practices (это делать не надо)

Использование сложных и неинформативных URL: Использование URL, которые не содержат идентификаторов продукта или используют нестабильные параметры (например, ID сессии), затрудняет автоматическое извлечение Object ID.
Неуникальные или общие заголовки (Title): Использование одинаковых Title для разных продуктов или слишком общих заголовков может привести к ошибкам семантического анализа. Страница может быть классифицирована как «generic» и исключена из Object Identifier Index.
Редиректы удаленных товаров на общие страницы: Настройка редиректов с несуществующих товаров на главную страницу или страницу категории может привести к тому, что эта общая страница будет ассоциирована со многими разными Object IDs. Это активирует механизм защиты (Generic Title Detection), и страница будет игнорироваться системой.

Стратегическое значение

Патент подтверждает долгосрочную стратегию Google на автоматизацию извлечения и структурирования данных о товарах. Для E-commerce SEO это подчеркивает, что хотя предоставление данных через фиды и микроразметку остается приоритетным методом, Google активно развивает способность индексировать ассортимент самостоятельно. Обеспечение чистоты и логичности базовых онтологических элементов сайта (структуры URL и заголовков Title) является фундаментальным требованием для успешной индексации товаров.

Практические примеры

Сценарий: Оптимизация структуры URL для улучшения извлечения Object ID

Владелец интернет-магазина хочет убедиться, что Google может корректно индексировать его товары.

Существующая структура (Плохо): example.com/product.php?session=abc&item_ref=xyz99. Идентификатор неясен (xyz99?), присутствует шум (параметры сессии). Parsing Engine может испытывать трудности с генерацией надежных правил.
Улучшенная структура (Хорошо): example.com/clothes/shirts/red-polo-sku12345. Человекопонятный URL, идентификатор (sku12345) включен явно.
Оптимальная структура (Отлично): example.com/products/id/12345. Существует явный и стабильный паттерн (/products/id/), который Parsing Engine легко обнаружит при анализе домена.

Действие: Провести аудит текущей структуры URL и переработать ее так, чтобы Object Identifier присутствовал в URL и был легко извлекаем по стабильному паттерну на всем домене.

Вопросы и ответы

Означает ли этот патент, что микроразметка Product и товарные фиды больше не нужны?

Нет, это не так. Фиды и микроразметка остаются наиболее надежными способами передачи структурированных данных о товарах в Google. Однако этот патент показывает, что Google активно развивает альтернативные методы извлечения этих данных напрямую из URL и заголовков страниц. Для максимального охвата и точности индексации следует использовать все доступные методы, но при этом обеспечить чистоту базовых элементов (URL, Title).

Как Google определяет правила парсинга URL для моего домена?

Патент описывает автоматический процесс. Система анализирует множество URL вашего домена (analyzing a plurality of network addresses of a domain) и сравнивает их друг с другом. Она ищет общие паттерны и выявляет изменяющиеся части, которые соответствуют идентификаторам объектов. Например, если большинство URL имеют вид /product/ID/XXXXX, система автоматически создаст правило для извлечения XXXXX как Object Identifier.

Что произойдет, если я изменю структуру URL на своем сайте?

Изменение структуры URL может временно нарушить работу этого механизма. Существующие правила парсинга перестанут работать. Системе потребуется время, чтобы проанализировать новую структуру URL и сгенерировать новые правила. В этот период точность идентификации продуктов может снизиться. Поэтому важно поддерживать стабильную структуру URL и использовать 301 редиректы при изменениях.

Как система определяет, что Title слишком общий (generic)?

Система отслеживает, сколько различных Object Identifiers ассоциируется с одним и тем же Content Title. Если количество превышает определенный порог (в патенте упоминаются примеры 2 или 3), заголовок помечается как общий. Это часто происходит с главными страницами или страницами категорий, на которые могут вести редиректы с удаленных товаров.

Насколько важен Title страницы по сравнению с URL для идентификации продукта?

Патент описывает два основных механизма: парсинг URL и семантический анализ Title. Парсинг URL с использованием специфичных для домена правил выглядит как более детерминированный метод для извлечения точного ID. Семантический анализ Title используется для сопоставления с известными названиями продуктов и может служить подтверждением или альтернативой. Для надежной работы лучше оптимизировать оба элемента.

Используется ли этот индекс для органического ранжирования?

Патент явно фокусируется на использовании Object Identifier Index для таргетинга цифрового контента (рекламы или рекомендаций) через Evaluation Platform System. Он не описывает использование этого индекса в алгоритмах органического ранжирования. Однако сам факт того, что Google точно идентифицирует и индексирует объект, является необходимым условием для его появления в товарных вертикалях (Google Shopping) и расширенных сниппетах.

Что такое «edit distance» и как оно используется?

Edit distance (редакционное расстояние) — это метрика, измеряющая схожесть между двумя строками (минимальное количество операций вставки, удаления или замены символов, необходимых для преобразования одной строки в другую). Система использует его для сравнения заголовка страницы (Content Title) с известным названием продукта (Object Title). Если расстояние мало, система считает, что они семантически связаны.

Влияет ли этот механизм на индексацию вариантов товара (разные цвета/размеры)?

Да. Патент упоминает, что система может группировать похожие объекты (group similar content titles), которые принадлежат к одному классу, используя Group Identifier. Это позволяет системе понять, что разные Object ID (например, для разных размеров) относятся к одному и тому же продукту, и не классифицировать их заголовки как слишком общие, если они похожи.

Что такое статический тег (static script tag) в контексте этого патента?

Это фрагмент кода (например, тег Google Analytics или Google Ads), который размещается на всех страницах сайта в неизменном виде. Он не требует от владельца сайта динамически подставлять в него информацию о продукте (например, Product ID). Система использует данные, которые этот тег собирает по умолчанию (URL и Title), и самостоятельно извлекает нужную информацию.

Как я могу помочь Google лучше извлекать Object ID с моего сайта?

Ключевая рекомендация — использовать явные и стабильные паттерны URL, включающие уникальный идентификатор продукта. Структуры вида /product/12345 или /p?id=12345 значительно облегчают автоматическое создание правил парсинга для вашего домена по сравнению со сложными или неинформативными URL.