
Google использует систему для обнаружения и фильтрации почти дублирующихся товаров в системах онлайн-покупок (например, Google Shopping). Система вычисляет «расстояние» между товарами одного и того же продавца на основе их атрибутов (название, модель, описание, изображение). Похожие товары объединяются в кластеры, и при формировании выдачи система ограничивает количество товаров из одного кластера, чтобы повысить разнообразие продуктов на странице результатов.
Патент решает проблему снижения разнообразия (diversity) в результатах поиска системы онлайн-шоппинга (например, Google Shopping), когда выдача перенасыщена почти идентичными товарами (near-duplicate entries). Особый фокус сделан на дубликатах от одного и того же продавца (intra-company near duplicates), так как их доминирование в SERP мешает пользователю увидеть предложения других продавцов или другие продукты этого же мерчанта.
Запатентован метод и система для сокращения количества почти дубликатов от одного продавца в результатах поиска по товарам. Суть изобретения заключается в вычислении метрики «расстояния» (distance) между всеми парами товаров продавца на основе их атрибутов и последующей кластеризации похожих товаров. При ответе на запрос система применяет фильтры на основе идентификатора кластера (cluster identifier) или рассчитанного расстояния, чтобы ограничить показ дубликатов.
Механизм работает в два основных этапа:
distance) как взвешенная сумма редакционных расстояний (edit distance) их атрибутов (название, модель, описание, изображение). Строится граф схожести. Товары, расстояние между которыми меньше порога (например, 0.05, что означает 95% схожести), объединяются в кластеры. Каждый товар аннотируется идентификатором кластера (cluster_id).Высокая для E-commerce и Google Shopping. Управление вариантами товаров, дедупликация фидов и обеспечение разнообразия выдачи остаются критически важными задачами для агрегаторов товаров. Описанные методы кластеризации на основе атрибутов активно используются для улучшения качества поиска по товарам.
Патент имеет высокое значение для SEO-специалистов, работающих с Google Shopping и крупными E-commerce площадками. Он напрямую влияет на видимость товаров: если продавец загружает множество вариаций продукта без существенных различий в ключевых атрибутах, этот механизм может привести к тому, что только одна вариация будет показана в основной выдаче. Это требует стратегического подхода к управлению ассортиментом и оптимизации продуктовых фидов.
name (название), model (модель), description (описание), thumbnail key (ключ-отпечаток миниатюры) и category (категория).Q-score в кластере.Hamming), Левенштейна (Levenshtein), Дамерау-Левенштейна и Джаро-Винклера.cluster_id. NDTH используется для фильтрации по min_score.cluster_id, min_score и num_products (количество товаров в кластере).importance score) товара. Используется для выбора идентификатора кластера.Claim 1 (Независимый пункт): Описывает метод сокращения почти дубликатов от одного и того же продавца (same merchant) в результатах поиска.
distance) между записями в векторном пространстве количественных атрибутов.Ядром изобретения является процесс кластеризации товаров на основе метрики схожести и последующее использование этой кластеризации для принудительного повышения разнообразия выдачи путем ограничения показа похожих товаров от одного источника.
Claim 2 (Зависимый от 1): Уточняет метод расчета расстояния.
Расстояние определяется как взвешенная сумма (weighted sum) редакционного расстояния (edit distance) между количественными атрибутами пары записей.
Claim 4 (Зависимый от 1): Уточняет метод определения кластеров.
Кластеры определяются как группы записей, связанных с другой записью расстоянием, меньшим предопределенного порогового расстояния.
Claim 6 (Зависимый от 1): Описывает функциональность пользовательского интерфейса.
Для результата в списке возвращается ссылка (например, «Похожие товары»), при выборе которой система возвращает список товаров из того же кластера.
Изобретение применяется в контексте Online Shopping System (например, Google Shopping) и затрагивает этапы индексирования и переранжирования.
INDEXING – Индексирование и извлечение признаков
Основная часть алгоритма выполняется на этом этапе в офлайн-режиме с использованием параллельной обработки (MapReduce).
same merchant).Distance) между товарами одного продавца.Cluster Identifier.cluster_id, min_score, num_products.RERANKING – Переранжирование
На этом этапе применяется логика фильтрации для повышения разнообразия (Diversity).
cluster_id, чтобы ограничить максимальное количество товаров на кластер.min_score ниже определенного порога (параметр NDTH).Входные данные:
Entries) с атрибутами (Название, Модель, Описание, Изображение, Категория).Q-score).Выходные данные:
ProductNeardupInfo и объединенными категориями.fingerprint).NDTH).Процесс А: Офлайн-обработка (Индексирование и Кластеризация)
Q-score.Формула:
cluster_id (на основе товара с наивысшим Q-score). Для каждого товара вычисляются min_score и num_products.ProductNeardupInfo) сохраняются в индексе.Процесс Б: Онлайн-обработка (Поиск и Фильтрация)
cluster_id и min_score. min_score (исключить товары, слишком похожие на другие).NDCL для показа всех товаров этого кластера.Система использует структурированные данные о товарах для вычисления расстояний и кластеризации:
Name (Название товара).Model (Модель товара).Description (Описание товара).Category (Категория товара).Thumbnail key (Ключ или отпечаток миниатюры изображения товара).Company identifier (Идентификатор продавца).Q-score (Статическая оценка важности продукта).Значение в диапазоне [0, 1].
same merchant). Цель — повысить разнообразие как продуктов, так и продавцов в выдаче, а не скрывать идентичные товары от разных поставщиков.Q-score (статической важностью) имеет приоритет при выборе представителя в выдаче.MapReduce), что позволяет быстро применять фильтры в реальном времени.Рекомендации применимы для оптимизации товарных фидов для Google Shopping и аналогичных систем.
Title, Description и Image. Различия должны превысить порог кластеризации (предположительно >5% различий).Q-score для определения лидера кластера, необходимо сосредоточить усилия на оптимизации и продвижении основного (наиболее важного или популярного) варианта товара. Этот вариант, скорее всего, станет представителем кластера в выдаче.Category Merging) внутри кластера, важно убедиться, что каждый вариант товара имеет максимально точную категорию. Это гарантирует, что представитель кластера унаследует все релевантные категории.thumbnail key). Это увеличивает общее расстояние между записями.thumbnail key) является фактором расчета расстояния.Патент подчеркивает стремление Google обеспечить разнообразие в коммерческой выдаче и бороться с захламлением SERP похожими предложениями. Для E-commerce SEO это означает, что стратегия должна быть направлена не на максимизацию количества записей в индексе, а на качество, уникальность и четкую дифференциацию каждого предложения. Успех зависит от способности представить ассортимент таким образом, чтобы минимизировать нежелательную кластеризацию.
Сценарий 1: Оптимизация фида для магазина одежды (Рубашки разных цветов)
Сценарий 2: Использование слияния категорий (Гибридный ноутбук)
Category Merging.Q-score) теперь принадлежит к обеим категориям. Он будет показываться при поиске в любой из них, но займет только одну позицию в SERP, сохраняя разнообразие.Применяется ли этот патент к обычному органическому поиску (веб-страницам)?
Нет. Патент явно сфокусирован на Online Shopping System (системах онлайн-покупок), таких как Google Shopping. Механизмы основаны на сравнении структурированных атрибутов товаров (Model, Description, Name) и применяются для дедупликации предложений от одного продавца.
Будет ли Google скрывать мой товар, если его продает кто-то еще?
Нет, согласно этому патенту. Механизм фокусируется исключительно на сокращении почти дубликатов, предоставляемых одним и тем же продавцом (intra-company). Цель состоит в том, чтобы повысить разнообразие продавцов, а не скрыть идентичные товары от разных поставщиков, что полезно для сравнения цен.
Как система определяет, насколько похожи два товара?
Система вычисляет «расстояние» (Distance) между парами товаров одного продавца. Это расстояние является взвешенной суммой схожести их атрибутов (название, модель, описание, изображение), рассчитанной с помощью редакционного расстояния (например, Левенштейна). Если общее расстояние ниже порога (например, менее 5% различий), товары считаются похожими.
Если у меня много вариантов товара (цвета, размеры), они все будут скрыты?
Если варианты оформлены как отдельные записи (SKU) и их атрибуты очень похожи, они будут объединены в кластер. Система ограничит количество отображаемых результатов из этого кластера в основной выдаче (часто до одного). Остальные варианты могут быть доступны по ссылке "Похожие товары".
Как система выбирает, какой товар показать из кластера дубликатов?
Патент упоминает использование Q-score — статической оценки важности товара. Товар с наивысшим Q-score в кластере имеет приоритет и, вероятно, будет тем товаром, который отображается в SERP, когда применяется фильтрация (crowding).
Как я могу избежать кластеризации моих товаров?
Необходимо увеличить «расстояние» между ними, чтобы оно превысило порог кластеризации (например, 0.05). Для этого нужно обеспечить существенные различия в названиях, создать уникальные описания, использовать разные основные изображения и точно указывать разные модели. Шаблонных изменений недостаточно.
Что такое механизм "Слияния категорий" (Category Merging), упомянутый в патенте?
Это защитный механизм для сохранения поискового покрытия. Если система объединяет товары A и B в кластер, она берет все категории, присвоенные A и B, объединяет их и присваивает этот полный набор категорий каждому из товаров. Это гарантирует, что даже если в выдаче будет показан только товар A, он будет релевантен запросам, нацеленным на категории товара B.
Какие атрибуты наиболее важны при расчете схожести?
Патент упоминает Название (Name), Модель (Model), Описание (Description) и Ключ миниатюры (Thumbnail key). Конкретные весовые коэффициенты не указаны, но все они участвуют в расчете итогового расстояния. Уникализация всех этих полей важна.
Как часто происходит пересчет кластеров?
Процесс выполняется офлайн (например, ежедневно) с использованием MapReduce. Патент описывает оптимизацию: система проверяет, изменились ли данные о товарах продавца (используя fingerprint). Пересчет запускается только в случае обнаружения изменений, что экономит ресурсы.
Использует ли система машинное обучение для определения дубликатов в этом патенте?
Патент не описывает использование сложных моделей машинного обучения для этой задачи. Он полагается на детерминированные алгоритмы, основанные на расчете редакционных расстояний (string metrics) и стандартных алгоритмах кластеризации графов (например, Union-Find).

Google Shopping
Индексация

Индексация
Краулинг
Семантика и интент

Персонализация
Семантика и интент
SERP

Индексация
Мультимедиа

Персонализация
Поведенческие сигналы

Семантика и интент
Персонализация
EEAT и качество

Персонализация
Поведенческие сигналы
SERP

SERP
Персонализация
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
SERP
Персонализация

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Ссылки

Ссылки
Поведенческие сигналы
Антиспам

SERP
Поведенческие сигналы
EEAT и качество

Ссылки
Поведенческие сигналы
EEAT и качество
