Как Google группирует варианты товаров (цвет, размер) от разных продавцов, анализируя заголовки и структуру данных

Google использует этот механизм для автоматической идентификации и группировки вариантов одного продукта (например, разных цветов или размеров), предлагаемых разными продавцами. Система анализирует заголовки товаров в фидах, выявляет закономерности и создает глобальный каталог вариантов. Для разрешения конфликтов в названиях система выбирает терминологию того продавца, который наиболее полно и последовательно описал все варианты.

Описание

Какую задачу решает

Патент решает проблему дезорганизации данных в электронных каталогах (например, Google Shopping), когда один и тот же продукт и его варианты (цвет, размер, объем памяти) предлагаются множеством продавцов с использованием разных структур данных и названий (например, «Красный» vs «Red» vs «Rd»). Это затрудняет сравнение предложений и создает высокую когнитивную нагрузку на пользователя. Система стремится автоматически определить, какие товары являются вариантами друг друга, и нормализовать их представление.

Что запатентовано

Запатентована система для автоматической идентификации вариантов продукта (Product Variants) в большом каталоге, получающем данные от множества продавцов. Изобретение описывает двухэтапный процесс: сначала варианты идентифицируются на уровне отдельного продавца путем анализа заголовков товаров (Product Titles), а затем эти данные агрегируются для построения глобального представления вариантов и разрешения конфликтов в наименованиях и структуре.

Как это работает

Механизм работает следующим образом:

Анализ на уровне продавца: Система анализирует заголовки товаров одного продавца. Она извлекает значения атрибутов (например, «Синий») и заменяет их типами атрибутов (например, «Цвет»), создавая Variant Key (например, «Плеер — Цвет»). Если несколько товаров имеют одинаковый Variant Key, но уникальные значения атрибутов, они группируются в Merchant Cluster.
Глобальный анализ (Уровень каталога): Все предложения от всех продавцов группируются в Product Catalog Entries (одна запись на уникальный вариант товара).
Построение графа и группировка: Каждая Product Catalog Entry аннотируется идентификаторами Merchant Cluster, к которым принадлежат ее предложения. Строится граф, связывающий Product Catalog Entries, которые имеют общие Merchant Cluster IDs.
Нормализация и разрешение конфликтов: Внутри каждой группы связанных вариантов (Graph Component) система определяет, какой Merchant Cluster охватывает наибольшее количество Product Catalog Entries. Этот доминирующий кластер используется как канонический источник для определения структуры вариантов и их названий.

Актуальность для SEO

Высокая. Организация и структурирование товарных данных является фундаментальной задачей для Google Shopping, Rich Results и общего поиска по товарам. По мере роста электронной коммерции точность идентификации и группировки вариантов остается критически важной для обеспечения качественного пользовательского опыта и эффективного сравнения предложений.

Важность для SEO

Патент имеет критическое значение для SEO в E-commerce (85/100). Он описывает базовый механизм, с помощью которого Google структурирует товарные предложения в Google Shopping и товарных блоках поиска. Если система не сможет корректно идентифицировать и сгруппировать варианты товаров сайта, это приведет к фрагментированному представлению ассортимента, ухудшению видимости и снижению качества пользовательского опыта при взаимодействии с SERP.

Детальный разбор

Термины и определения

Graph Component / Connected Component (Компонент графа / Связный компонент): Подграф, в котором Product Catalog Entries (вершины) связаны, потому что они имеют общие Merchant Cluster IDs (ребра). Представляет собой группу глобально идентифицированных вариантов продукта.
Merchant Cluster / Merchant Variant Product Group (Кластер продавца / Группа вариантов продукта продавца): Группа товарных предложений (Product Offers) от одного конкретного продавца, которые система идентифицировала как варианты одного и того же базового продукта.
Merchant Cluster Identifier (Идентификатор кластера продавца): Уникальный идентификатор, присваиваемый Merchant Cluster.
Product Catalog Entry (Запись каталога продуктов): Запись, созданная системой, представляющая один уникальный вариант продукта. Она агрегирует предложения от нескольких продавцов для этого конкретного варианта.
Product Offer (Товарное предложение): Данные, предоставленные продавцом для конкретного продукта, который он продает (включает заголовок, цену, идентификаторы).
Variant Attribute Type (Тип атрибута варианта): Категория атрибута (например, «Цвет», «Размер», «Память»).
Variant Attribute Value (Значение атрибута варианта): Конкретное значение атрибута (например, «Синий», «XL», «8GB»).
Variant Key (Ключ варианта): Нормализованный заголовок продукта, в котором значения атрибутов заменены их типами (например, «Бренд Модель [Цвет]»). Используется для выявления потенциальных вариантов в фиде продавца.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс идентификации и представления вариантов продукта.

Система получает товарные предложения (Product Offers) от множества продавцов, содержащие заголовки и значения атрибутов вариантов.
Для каждого продавца система идентифицирует наборы предложений, которые, вероятно, являются вариантами (на основе заголовков), и присваивает каждому набору Merchant Cluster Identifier.
Система группирует предложения в Product Catalog Entries, где каждая запись соответствует конкретному варианту продукта.
Система ассоциирует Merchant Cluster Identifier из предложения с Product Catalog Entry, к которой оно принадлежит.
Система группирует Product Catalog Entries, которые имеют пересекающиеся (общие) Merchant Cluster Identifiers.
Ключевой механизм нормализации: Для каждой такой группы система определяет, какой Merchant Cluster Identifier ассоциирован с наибольшим количеством Product Catalog Entries.
Система классифицирует записи, связанные с этим доминирующим идентификатором, как официальный набор вариантов одного продукта.
Система определяет значения атрибутов для этого набора и обеспечивает их представление (Claim 4 уточняет, что используются значения из доминирующего кластера).

Ядро изобретения (пункты 6 и 7) — это механизм разрешения конфликтов. Если Продавец А считает, что у товара есть варианты Красный и Синий, а Продавец Б считает, что есть варианты Алый и Лазурный, система смотрит, чей кластер (А или Б) охватывает большее количество уникальных продуктов (Product Catalog Entries). Кластер с наибольшим охватом «побеждает» и определяет канонические варианты и их названия.

Claim 3 (Зависимый от 1): Детализирует, как происходит идентификация вариантов на уровне продавца (Шаг 2 в Claim 1).

Идентификация предложений продавца, у которых заголовки имеют совпадающие названия продуктов и совпадающие *типы* атрибутов вариантов (т.е. одинаковый Variant Key).
Проверка, имеют ли эти предложения *различные* *значения* атрибутов.
Если да, классификация их как вероятных вариантов.

Это подтверждает, что система полагается на выявление шаблонов в заголовках, где изменяются только определенные атрибуты.

Где и как применяется

Изобретение в основном применяется на этапе индексирования и обработки данных, критически важных для E-commerce поиска (например, Google Shopping).

CRAWLING – Сканирование и Сбор данных
Система получает данные о товарах (Product Offers). Это происходит преимущественно через загрузку продуктовых фидов (например, Google Merchant Center).

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Происходит обработка сырых товарных данных для создания структурированного каталога.

Нормализация и NLP: Анализ заголовков (Product Titles), извлечение атрибутов, генерация Variant Keys.
Кластеризация (Уровень продавца): Идентификация Merchant Clusters и присвоение им ID.
Генерация каталога: Агрегация Product Offers в Product Catalog Entries (дедупликация и группировка на основе идентификаторов GTIN/MPN и других данных).
Идентификация вариантов (Глобальный уровень): Построение графа связей, идентификация Connected Components, определение канонических групп вариантов и нормализация значений атрибутов.

RANKING / METASEARCH
Патент не описывает процесс ранжирования, но структурированные данные о вариантах, полученные на выходе этого процесса, напрямую влияют на то, как продукты отображаются в ответ на запрос (например, объединение вариантов в один сниппет с возможностью выбора цвета).

Входные данные:

Product Offers (Заголовки, Идентификаторы, Описания).
Словари значений и шаблонов атрибутов (используются для извлечения данных из заголовков).

Выходные данные:

Product Catalog Entries, аннотированные канонической информацией о вариантах (к какой группе они принадлежат и каково их нормализованное значение атрибута).

На что влияет

Конкретные типы контента: Влияет исключительно на товарные предложения (E-commerce).
Специфические запросы: Влияет на коммерческие запросы, где пользователи ищут продукты с определенными характеристиками (например, «синие кроссовки Nike Air Max»).
Форматы контента: Влияет на представление данных в Google Shopping, товарных каруселях и Rich Results, позволяя группировать варианты в единый интерфейс.
Конкретные ниши или тематики: Наибольшее влияние в нишах с широким ассортиментом вариантов: одежда, обувь, электроника.

Когда применяется

Алгоритм применяется в процессе обработки и индексации товарных фидов или при обновлении продуктового каталога. Он активируется, когда система обнаруживает множественные предложения от одного или нескольких продавцов, которые потенциально относятся к вариантам одного и того же продукта.

Пошаговый алгоритм

Алгоритм состоит из двух основных фаз: группировка на уровне продавца и глобальная группировка.

Фаза А: Группировка вариантов на уровне продавца

Извлечение атрибутов: Для каждого товарного предложения продавца анализируется заголовок. Используются словари или сопоставление с шаблонами (например, регулярные выражения для размеров, рекурсивные определения типа «светлый [Цвет]») для извлечения Variant Attribute Values (например, «Красный»).
Генерация Variant Key: Извлеченные значения заменяются соответствующим Variant Attribute Type (например, «Цвет»). Полученный нормализованный заголовок становится Variant Key (например, «Музыкальный Плеер — Цвет»).
Идентификация вариантов: Группируются все предложения, имеющие одинаковый Variant Key.
Проверка уникальности: Анализируются извлеченные значения атрибутов внутри группы. Если каждое предложение имеет уникальный набор значений атрибутов (например, одно Красное, другое Синее, дубликатов нет), процесс продолжается.
Присвоение кластера: Если значения уникальны, эти предложения классифицируются как варианты. Этой группе (Merchant Cluster) присваивается уникальный Merchant Cluster Identifier.

Фаза Б: Глобальная группировка вариантов и нормализация

Генерация каталога: Все товарные предложения (от всех продавцов) агрегируются в Product Catalog Entries. Каждая запись представляет один уникальный вариант продукта (используя GTIN, MPN и т.д. для идентификации).
Аннотирование: Для каждой Product Catalog Entry определяются все Merchant Cluster Identifiers, связанные с предложениями, которые она содержит. Создаются пары (Merchant Cluster ID, Catalog Entry ID).
Построение графа (Связывание): Создается связь (ребро графа) между любыми двумя Product Catalog Entries, которые имеют хотя бы один общий Merchant Cluster Identifier.
Анализ связных компонентов: Запускается алгоритм для идентификации Graph Components (групп записей, связанных прямо или косвенно). Каждый компонент представляет собой набор связанных вариантов продукта.
Выбор доминирующего кластера (Нормализация/Разрешение конфликтов): Для каждого Graph Component подсчитывается, сколько Product Catalog Entries связано с каждым присутствующим в компоненте Merchant Cluster Identifier.
Определение канонического варианта: Выбирается Merchant Cluster Identifier, связанный с наибольшим количеством записей. Это «доминирующий кластер».
Нормализация значений атрибутов: Значения атрибутов, извлеченные из доминирующего кластера, используются как канонические значения для представления вариантов в пользовательском интерфейсе. (Например, если доминирующий кластер использует «Синий», используется это значение, а не «Blu» из меньшего кластера).

Какие данные и как использует

Данные на входе

Контентные факторы: Product Title (Заголовок товара) является основным источником данных, используемым для идентификации вариантов в этом патенте.
Технические факторы (Идентификаторы): Упоминаются Product Identifiers (GTIN, UPC, MPN, ISBN, EAN, JAN, Бренд/Модель). Они используются на этапе генерации каталога для группировки предложений в Product Catalog Entries.

Какие метрики используются и как они считаются

Сопоставление с шаблонами / Регулярные выражения (Pattern Matching/Regex): Используется для извлечения значений атрибутов из заголовков (например, поиск соответствия шаблону «D’xD»» для размеров).
Поиск по словарю (Dictionary Lookups): Сравнение терминов в заголовках с известными значениями атрибутов.
Проверка уникальности (Uniqueness Check): Определение уникальности значений атрибутов внутри группы с одинаковым Variant Key.
Анализ графа (Connected Components): Алгоритм теории графов, используемый для глобальной группировки связанных вариантов.
Подсчет частоты (Dominant Cluster): Ключевая метрика нормализации. Кластер, связанный с наибольшим количеством Product Catalog Entries, определяет каноническую структуру и наименования.

Выводы

Критичность заголовков товаров (Titles): Патент подчеркивает, что Product Titles играют ключевую роль в идентификации вариантов, даже при наличии структурированных данных. Система активно анализирует текст заголовков для понимания структуры ассортимента.
Внутренняя консистентность данных продавца: Процесс начинается на уровне отдельного продавца. Google полагается на последовательность и консистентность в данных (особенно в шаблонах заголовков) внутри фида продавца для формирования Merchant Clusters. Неконсистентные данные затрудняют этот процесс.
Глобальная идентификация как задача теории графов: Для объединения данных от разных продавцов Google строит граф, связывая продукты на основе того, как их группируют сами продавцы. Это позволяет системе находить связи между вариантами, даже если продавцы используют разную терминологию.
Нормализация по принципу большинства (Dominant Cluster): Разрешение конфликтов в названиях и структуре вариантов основано на «правиле большинства» или полноте данных. Продавец (или группа продавцов), который предоставляет наиболее полный и последовательно структурированный набор вариантов, часто определяет каноническое представление для всего каталога Google.
Важность корректных идентификаторов: Хотя анализ заголовков используется для определения *связей* между вариантами, корректные уникальные идентификаторы (GTIN, MPN) для *каждого* варианта необходимы для точного формирования Product Catalog Entries, которые являются основой для глобальной группировки.

Практика

Best practices (это мы делаем)

Рекомендации сфокусированы на оптимизации товарных фидов (например, Google Merchant Center) и структуры данных на сайте E-commerce.

Оптимизация Product Titles для ясности вариантов: Убедитесь, что заголовки товаров четко включают ключевые атрибуты вариантов (Цвет, Размер, Объем). Используйте последовательные и консистентные шаблоны (например, Бренд + Линейка + Продукт + Атрибут варианта). Это помогает системе генерировать корректные Variant Keys.
Обеспечение абсолютной внутренней консистентности: Варианты одного и того же продукта должны использовать абсолютно одинаковую базовую структуру заголовка, различаясь только значениями атрибутов. Например, «Рубашка Поло Хлопок — Синий» и «Рубашка Поло Хлопок — Красный», а не «Синяя Рубашка Поло» и «Красная рубашка из хлопка».
Использование четких и недвусмысленных значений атрибутов: Избегайте непонятных сокращений или внутреннего жаргона (например, используйте «Зеленый», а не «Зел» или код цвета). Это увеличивает вероятность того, что ваша терминология будет принята как каноническая (если ваш кластер станет доминирующим).
Предоставление полного охвата вариантов: Предложение полного ассортимента вариантов, четко и последовательно описанных, увеличивает размер вашего Merchant Cluster. Это повышает вероятность его выбора в качестве доминирующего/канонического источника данных.
Точность уникальных идентификаторов (GTIN/MPN): Убедитесь, что для *каждого отдельного варианта* (SKU) указан корректный и уникальный идентификатор. Это критически важно для того, чтобы система могла правильно сгруппировать предложения в Product Catalog Entries.

Worst practices (это делать не надо)

Неконсистентные структуры заголовков: Использование разных форматов заголовков для разных вариантов одного и того же продукта. Это мешает системе идентифицировать их как Merchant Cluster.
Пропуск информации о вариантах в заголовках: Полагаться исключительно на структурированные данные (атрибуты в фиде или schema.org) для дифференциации вариантов, не указывая их в Product Title. Патент показывает, что заголовки активно анализируются.
Использование двусмысленных атрибутов или сокращений: Использование терминологии, которая может быть непонятна системе или конфликтовать с общепринятыми названиями.
Некорректные идентификаторы: Использование GTIN базового продукта для всех его вариантов. Это приводит к некорректному формированию Product Catalog Entries и разрушает группировку вариантов.

Стратегическое значение

Патент подтверждает, что качество, консистентность и полнота данных в электронной коммерции являются прямыми факторами успеха. Он демонстрирует, как Google пытается нормализовать хаотичные данные продавцов, находя консенсус. Продавцы с высококачественными, последовательными и полными данными получают преимущество, поскольку они фактически «обучают» систему тому, как должны быть структурированы и представлены их продукты в экосистеме Google. Это напрямую влияет на пользовательский опыт и видимость в товарных вертикалях поиска.

Практические примеры

Сценарий: Оптимизация фида для группировки вариантов футболок

Ситуация ДО оптимизации (Плохо):
Продавец предоставляет фид с неконсистентными заголовками.

Offer 1: Title: «Крутая футболка ACME, Красная, L», GTIN: 111
Offer 2: Title: «ACME Футболка Синяя Размер М», GTIN: 222
Offer 3: Title: «Зеленая футболка ACME (S)», GTIN: 333

Результат: Система не может надежно сгенерировать Variant Key из-за разных структур. Товары отображаются в поиске как отдельные продукты, не связанные друг с другом.

Ситуация ПОСЛЕ оптимизации (Хорошо):
Продавец стандартизирует заголовки по шаблону: Продукт + Бренд + Цвет + Размер.

Offer 1: Title: «Футболка Classic Хлопок ACME — Красный — L», GTIN: 111
Offer 2: Title: «Футболка Classic Хлопок ACME — Синий — M», GTIN: 222
Offer 3: Title: «Футболка Classic Хлопок ACME — Зеленый — S», GTIN: 333

Процесс системы:

Извлечение: Система извлекает значения (Красный, L; Синий, M; Зеленый, S).
Генерация Variant Key: Система генерирует ключ: «Футболка Classic Хлопок ACME — [Цвет] — [Размер]».
Группировка: Все три предложения имеют одинаковый ключ и уникальные значения. Они группируются в Merchant Cluster.
Результат: Товары корректно идентифицируются как варианты. В Google Shopping и Поиске они отображаются как один продукт с возможностью выбора цвета и размера.

Вопросы и ответы

Являются ли заголовки (Titles) товаров действительно важными, если я уже предоставляю все атрибуты вариантов через структурированные данные (Schema.org или атрибуты фида)?

Да, заголовки критически важны в контексте этого патента. Он демонстрирует, что Google активно использует анализ Product Titles как основной механизм для идентификации и группировки вариантов на уровне продавца (формирование Merchant Cluster). Хотя структурированные данные также важны, консистентность и информативность заголовков необходимы для обеспечения корректной работы описанного алгоритма.

Как Google решает, какие названия цветов использовать, если я называю цвет «Лазурный», а мой конкурент «Синий»?

Google использует механизм «доминирующего кластера». Система определяет, какой Merchant Cluster (набор вариантов от одного продавца или группы продавцов с одинаковой структурой) охватывает наибольшее количество уникальных вариантов продукта (Product Catalog Entries). Терминология этого доминирующего кластера принимается как каноническая. Если большинство продавцов используют «Синий», Google, вероятно, выберет его.

Что такое Variant Key и почему он важен для SEO?

Variant Key — это нормализованная версия заголовка вашего продукта, где конкретные значения атрибутов заменены их типами (например, «Рубашка — [Цвет]»). Это внутренний механизм Google для идентификации товаров, которые отличаются только вариантами. Для SEO это означает, что структура ваших заголовков должна быть максимально последовательной для всех вариантов, чтобы система могла легко сгенерировать этот ключ и сгруппировать товары.

Что произойдет, если я использую один и тот же GTIN для всех вариантов продукта?

Это серьезная ошибка. На этапе глобальной группировки (Фаза Б) система использует идентификаторы (такие как GTIN) для создания Product Catalog Entries, каждая из которых должна представлять уникальный вариант. Если все варианты имеют один GTIN, система может ошибочно объединить их в одну запись каталога, что приведет к путанице в данных, некорректному отображению и проблемам с отслеживанием.

Как я могу повысить вероятность того, что Google будет использовать именно мою структуру и названия вариантов как канонические?

Чтобы стать «доминирующим кластером», необходимо обеспечить три вещи: 1) Полноту ассортимента (предлагать как можно больше вариантов продукта); 2) Абсолютную консистентность в структуре данных и заголовков для всех этих вариантов; 3) Использование четкой, общепринятой терминологии для названий атрибутов. Чем больше и чище ваш Merchant Cluster, тем выше его авторитет для системы.

Влияет ли этот патент на обычный веб-поиск или только на Google Shopping?

Он в первую очередь влияет на Google Shopping и любые функции поиска, которые отображают структурированные данные о товарах, такие как Rich Results, товарные карусели и панели знаний о продуктах. Корректная группировка вариантов улучшает представление вашего ассортимента в этих блоках, что косвенно влияет на общий трафик и конверсии из органического поиска.

Что такое Merchant Cluster?

Merchant Cluster — это группа товаров от одного продавца, которые система идентифицировала как варианты одного базового продукта. Например, если вы продаете одну модель футболки в трех цветах и последовательно их называете, эти три товара сформируют Merchant Cluster. Эти кластеры затем используются для глобальной группировки вариантов между разными продавцами.

Как система извлекает атрибуты из заголовков?

Патент упоминает использование словарей и сопоставление с шаблонами. Это может включать поиск известных названий цветов, использование регулярных выражений для идентификации размеров или объемов (например, «8GB», «12×24»), и даже рекурсивные определения (например, распознавание «Светло-зеленый», если известны «Светлый» и «Зеленый»).

Что произойдет, если мои данные о вариантах противоречат данным производителя?

Система ищет консенсус на основе всех полученных данных. Если данные производителя предоставлены (напрямую или через других продавцов) и они формируют более крупный и последовательный Merchant Cluster, чем ваш, то данные производителя, вероятно, будут выбраны как канонические. Рекомендуется придерживаться терминологии и структуры данных производителя.

Насколько быстро система реагирует на изменения в моем товарном фиде?

Описанный процесс происходит на этапе индексирования и обработки данных каталога. Изменения будут отражены после того, как Google обработает обновленный фид и проведет повторную кластеризацию и анализ графа. Это не происходит в реальном времени и зависит от частоты обновления данных в Google Merchant Center и скорости индексации продуктового каталога.