
Google использует механизм машинного обучения для решения проблемы несогласованности данных в фидах мерчантов. Система анализирует пары товарных предложений с одинаковыми идентификаторами (GTIN, MPN), но разными названиями брендов. Путем расчета метрик схожести (цены, заголовка) и статистического анализа система определяет, являются ли разные названия (например, «HP» и «Hewlett-Packard») синонимами одного и того же бренда для корректной группировки товаров.
Патент решает проблему неоднозначности и несогласованности в данных о товарных предложениях, получаемых от разных продавцов. Мерчанты часто используют разные названия для одного и того же бренда (например, «LEXAR» и «LEXAR MEDIA», или сложные случаи как «BAND-AID» и «JOHNSON & JOHNSON»). Кроме того, использование идентификаторов продуктов (GTIN, MPN) также непоследовательно. Это затрудняет агрегацию и сравнение товаров в электронных каталогах (например, Google Shopping). Изобретение улучшает качество каталога, позволяя системе автоматически определять синонимичные названия брендов (Brand Name Synonymy).
Запатентована система и метод для автоматического выявления синонимии названий брендов в каталоге продуктов. Система анализирует пары товарных предложений (Product Offer Pairs), которые имеют схожие идентификаторы продуктов (Product Identifiers), но разные названия брендов. Путем вычисления различных параметров сходства и применения модели машинного обучения (machine learned classifier model, например, логистической регрессии), система определяет вероятность того, что два разных названия бренда относятся к одному и тому же объекту.
Система работает путем анализа агрегированных данных из каталога продуктов:
MPN или GTIN) и формирует из них пары (Product Offer Pairs).Brand Pair Group).Product Parameters, например, сходство заголовков, цен). Для каждой группы пары брендов вычисляются агрегированные метрики (Brand Parameters, например, строковое сходство названий, степень пересечения GTIN/MPN).Высокая. Реконсиляция сущностей (Entity Reconciliation) и нормализация данных являются фундаментальными задачами для Google, особенно в контексте Google Shopping и построения графа знаний о товарах (Product Knowledge Graph). Способность точно идентифицировать бренды и товары, несмотря на «шумные» данные от мерчантов, критически важна для качества поиска товаров.
Патент имеет высокое значение для E-commerce SEO (8/10). Он раскрывает механизм, как Google использует уникальные идентификаторы (GTIN, MPN) в качестве основного анкоря для понимания структуры каталога и идентификации брендов. Это подчеркивает критическую важность предоставления точных и полных структурированных данных о товарах. Если идентификаторы отсутствуют или неверны, система не сможет корректно связать предложения и определить бренд, что приведет к потере видимости в товарной выдаче.
Product Offer Pairs), которые имеют одну и ту же пару названий брендов.Brand Pair Group. Включают сходство названий брендов (Brand Name Similarity) и метрики перекрытия (Overlap Parameters).Product Identifier.MPN или GTIN), по которому были связаны два товарных предложения. Более длинные совпадения считаются более надежными.Product Identifier.Brand Overlap, GTIN Overlap, MPN Overlap), оценивающие степень совпадения данных между двумя брендами в каталоге. Рассчитываются с использованием геометрического среднего для нормализации.GTIN, MPN, SKU).Product Offer Pair. Включают сходство заголовков (Title Similarity), сходство GTIN, сходство цен (Price Similarity) и сложность идентификатора.Claim 1 (Независимый пункт): Описывает основной метод идентификации связанных названий брендов.
similar) идентификаторами продукта.Product Offer Pairs).Brand Name Pairs).Brand Pair Groups).Product Parameter), основанный на атрибутах предложений в паре.Brand Parameter).machine learned classifier model) к вычисленным параметрам.Claims 2-5 (Зависимые): Уточняют, что может входить в Product Parameters.
Title Similarity).GTIN.Price Similarity).Identifier Complexity).Claims 6-9 (Зависимые): Уточняют, что может входить в Brand Parameters.
Brand Name Similarity).geometric mean) общего количества предложений для каждого из двух брендов в каталоге.GTIN в группе, деленное на геометрическое среднее количества уникальных GTIN для каждого из двух брендов в каталоге.MPN.Claim 10 (Зависимый): Указывает, что параметры модели классификатора могут быть определены с использованием логистической регрессии (logistic regression).
Изобретение применяется в системах управления каталогами продуктов (например, Google Shopping) для нормализации и структурирования данных.
CRAWLING – Сканирование и Сбор данных
Система собирает товарные предложения от множества продавцов через фиды данных (Merchant Feeds), сканирование веб-сайтов или API. Это «сырье» для анализа.
INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Полученные данные обрабатываются и структурируются. Процесс идентификации синонимии брендов является частью этапа извлечения признаков и реконсиляции сущностей (Entity Reconciliation).
RANKING / METASEARCH – Ранжирование и Метапоиск
Результаты работы алгоритма напрямую влияют на отображение продуктов в Google Shopping и Product Knowledge Panels. Корректная группировка предложений позволяет пользователю увидеть полный набор вариантов покупки для искомого продукта.
Входные данные:
Product Catalog).GTIN, MPN), Заголовок, Цена.Выходные данные:
Процесс А: Идентификация синонимов брендов
Product Offer Pairs) на основе совпадения или схожести идентификаторов продуктов (например, MPN или GTIN).Brand Name Pairs) и создание соответствующих групп (Brand Pair Groups). Назначение пар предложений в эти группы.Product Parameters): Для каждой пары товарных предложений вычисляются метрики: Title Similarity): например, косинусное сходство токенов в заголовках.GTIN: например, отношение длины самого длинного общего префикса к длине самого длинного GTIN.Price Similarity): например, отношение меньшей цены к большей.Identifier Complexity): например, длина совпадающего идентификатора.Brand Parameters): Для каждой пары брендов вычисляются метрики: Brand Name Similarity): например, на основе расстояния редактирования или косинусного сходства токенов.Brand Overlap): Общее количество пар в группе, нормализованное (через геометрическое среднее) на общее количество предложений для каждого бренда в каталоге.GTIN (GTIN Overlap): Количество уникальных GTIN в группе, нормализованное на количество уникальных GTIN для каждого бренда.MPN (MPN Overlap): Аналогичный расчет для MPN.confidence threshold) для разделения классификаций на приемлемые (синонимичные) и неприемлемые пары брендов.Процесс Б: Использование синонимов для кластеризации продуктов
Система использует данные, извлеченные из товарных предложений в каталоге (Merchant Feeds).
Title Similarity. Текст токенизируется, может нормализоваться.Brand Name Similarity.GTIN Similarity и GTIN Overlap.Identifier Complexity и MPN Overlap.Price Similarity.Патент детально описывает вычисление метрик для модели машинного обучения.
Title Similarity и Brand Name Similarity (на основе токенов).Brand Name Similarity (на основе строк).GTIN к длине самого длинного GTIN (возможно, игнорируя ведущие нули).geometric mean) общего количества элементов для каждого бренда. Это обеспечивает нормализацию, учитывающую размер бренда.confidence threshold) для финальной классификации на основе вывода модели ML.GTIN и MPN как на основной сигнал для связи товарных предложений. Именно совпадение этих идентификаторов запускает процесс анализа синонимии брендов.Title Similarity, Price Similarity, Overlap Parameters) и принятия финального решения о синонимии.Overlap Parameters используется геометрическое среднее. Это критично для нормализации, чтобы избежать перекоса в сторону крупных брендов с большим количеством предложений.GTIN/MPN не позволят системе корректно идентифицировать пары предложений и, следовательно, точно определить бренд и сгруппировать товар.Schema.org/Product. Эти идентификаторы являются основными ключами для анализа брендов.Title Similarity (рассчитывается через косинусное сходство) является признаком в модели классификатора, это помогает системе подтвердить связь между предложениями.brand. Данные в фидах должны совпадать с данными в микроразметке на сайте.parentOrganization), чтобы помочь системе идентифицировать связь.GTIN) лишает систему возможности связать ваши предложения с другими и корректно проанализировать бренд.brand, если вы не производитель. Это создает шум в данных и затрудняет идентификацию реального бренда.Title Similarity с другими предложениями того же продукта, ухудшая сигналы для классификатора.Price Similarity является фактором, аномальные цены могут снизить уверенность системы в том, что предложения относятся к одному и тому же продукту.Этот патент подчеркивает стратегическую важность качества данных (Data Quality) и управления данными о продуктах (PIM) в E-commerce SEO. Google активно строит структурированный Product Knowledge Graph, и точность данных напрямую влияет на то, как система понимает ассортимент ритейлера. Техническая оптимизация товарных фидов и микроразметки является необходимым условием для обеспечения максимальной видимости в Google Shopping и товарных блоках выдачи.
Сценарий: Обеспечение корректной идентификации суббренда
Задача: Интернет-магазин продает ноутбуки линейки «Omen», которая является суббрендом «HP». Необходимо убедиться, что Google корректно связывает эти сущности, даже если другие продавцы указывают бренд по-разному.
Действия:
GTIN (UPC/EAN) и MPN, предоставленные HP. Это самый важный шаг.Ожидаемый результат (Работа системы Google):
Google находит совпадения по GTIN/MPN с фидами других ритейлеров, которые могут указывать бренд как «HP» или «Omen». Система создает Brand Pair Groups. Рассчитываются высокие значения Title Similarity, Price Similarity и Overlap Parameters. Модель классификатора определяет, что эти пары являются синонимами в контексте этих товаров. Товар корректно группируется в выдаче.
Насколько критично наличие GTIN и MPN в контексте этого патента?
Критически важно. GTIN и MPN являются основными анкорями (Product Identifiers), которые система использует для создания пар товарных предложений. Если идентификаторы отсутствуют или неверны, система не сможет надежно связать предложения от разных мерчантов, что делает невозможным анализ синонимии брендов и корректную группировку товаров в каталоге.
Как Google понимает, что «Band-Aid» и «Johnson & Johnson» — это один и тот же бренд, если названия совершенно разные?
Система не полагается на сходство названий. Она находит множество пар товаров, где один продавец указал «Band-Aid», а другой «Johnson & Johnson», но при этом у товаров одинаковый GTIN или MPN. Если таких пар много, заголовки похожи (высокая Title Similarity), а цены близки (высокая Price Similarity), система фиксирует сильное пересечение (GTIN Overlap). На основе этих данных модель машинного обучения классифицирует названия как синонимы.
Как рассчитывается схожесть заголовков (Title Similarity) и как это использовать?
В патенте упоминается косинусное сходство (cosine similarity) токенов в заголовках. Это означает, что система оценивает, насколько пересекаются слова (токены) в двух заголовках. Для SEO это подчеркивает важность включения ключевых, описательных терминов и атрибутов товара в заголовок, чтобы он был похож на то, как этот же товар называют другие авторитетные ритейлеры.
Что такое «Сложность идентификатора» (Identifier Complexity) и почему она важна?
Это метрика, оценивающая длину и сложность совпадающего идентификатора (например, MPN). Логика в том, что совпадение коротких или простых идентификаторов (например, «123») может быть случайным, тогда как совпадение длинного и сложного идентификатора (например, «XJ9-00345-B2») является гораздо более сильным сигналом того, что предложения относятся к одному и тому же товару.
Влияет ли цена товара на идентификацию бренда?
Да, косвенно. Price Similarity (схожесть цен) является одним из признаков, подаваемых в модель машинного обучения. Если два предложения имеют одинаковый MPN, но сильно различающиеся цены, это может снизить уверенность системы в том, что это один и тот же товар, что, в свою очередь, повлияет на анализ синонимии брендов, связанных с этими предложениями.
Какой метод машинного обучения использует Google согласно патенту?
Патент явно упоминает Логистическую регрессию (Logistic Regression) как один из методов для обучения модели классификатора. Также упоминаются другие варианты, такие как деревья решений, SVM (метод опорных векторов) и нейронные сети. Система использует контролируемое обучение на основе размеченных тренировочных данных.
Что такое параметры перекрытия (Overlap Parameters) и зачем используется геометрическое среднее?
Параметры перекрытия измеряют, насколько часто два бренда встречаются вместе в парах с одинаковыми идентификаторами. Геометрическое среднее используется для нормализации этой метрики, чтобы учесть размер (популярность) брендов. Это предотвращает ситуацию, когда связь с очень крупным брендом автоматически получает высокий балл только из-за большого количества его предложений в каталоге.
Означает ли этот патент, что можно не беспокоиться о консистентности названия бренда в фидах?
Нет. Хотя система разработана для решения проблемы несогласованности, предоставление чистых и консистентных данных всегда предпочтительнее. Использование канонического названия бренда снижает вероятность ошибок классификации и уменьшает зависимость от статистических моделей для идентификации вашего бренда. Чистые данные повышают общую надежность обработки вашего фида.
Какова роль этого патента в контексте Product Knowledge Graph?
Этот патент описывает ключевой механизм реконсиляции сущностей (Entity Reconciliation) на уровне брендов и товаров. Для построения точного Графа Знаний о товарах необходимо уметь связывать разрозненные и шумные данные от мерчантов с каноническими сущностями. Описанный алгоритм обеспечивает эту связь.
Что делать, если мои товары неправильно группируются в Google Shopping?
Необходимо провести аудит качества данных в ваших товарных фидах и микроразметке. В первую очередь, проверить корректность и полноту GTIN и MPN. Также следует проверить консистентность названий брендов и убедиться, что заголовки товаров достаточно информативны. Исправление ошибок в идентификаторах является наиболее эффективным способом решения проблем с группировкой.

Google Shopping
SERP
Семантика и интент

Google Shopping
Индексация

Семантика и интент
Структура сайта
Поведенческие сигналы

Индексация
Краулинг
Семантика и интент

Индексация

Персонализация
Поведенческие сигналы
SERP

Ссылки
Поведенческие сигналы
EEAT и качество

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

SERP
Поведенческие сигналы
Семантика и интент

SERP
EEAT и качество
Поведенческие сигналы
