Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует анализ изображений и историю поисковых запросов для сопоставления товарных предложений в Product Catalog (Google Shopping)

    AGGREGATING PRODUCT INFORMATION FOR ELECTRONIC PRODUCT CATALOGS (Агрегирование информации о продуктах для электронных каталогов продуктов)
    • US8548878B1
    • Google LLC
    • 2013-10-01
    • 2011-03-11
    2011 Google Shopping Мультимедиа Патенты Google

    Патент Google описывает систему агрегации товарных предложений от разных продавцов в единый каталог продуктов (например, Google Shopping). Система использует анализ «почти дубликатов» изображений и данные о совместном появлении товаров в результатах поиска (Query Search Result Relationships) для точного сопоставления предложений с продуктами, даже если уникальные идентификаторы (GTIN, UPC) отсутствуют или ошибочны.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточного агрегирования товарных предложений в электронных каталогах (например, Google Shopping), вызванную отсутствием, ошибками или неоднозначностью в уникальных идентификаторах продуктов (Strong Identifiers), таких как GTIN, UPC, ISBN. Цель — повысить точность сопоставления конкретного предложения от продавца (Merchant Offer) с правильной карточкой продукта в каталоге, используя альтернативные методы валидации.

    Что запатентовано

    Запатентована система для агрегации информации о продуктах, которая не полагается исключительно на текстовые идентификаторы. Ядром изобретения является использование анализа изображений (Near-duplicate image analysis) для подтверждения того, что товарное предложение соответствует определенному продукту в каталоге. Система определяет «репрезентативное изображение» (Representative Image) для продуктов в каталоге и сравнивает его с изображением в новом предложении для валидации совпадения.

    Как это работает

    Система работает в двух основных процессах:

    1. Определение репрезентативных изображений: Для каждого продукта в каталоге система анализирует все доступные изображения, кластеризует похожие и выбирает наиболее типичное (Representative Image), отсеивая аномалии (Trivial Clusters).
    2. Обработка новых предложений: При получении нового Merchant Offer система ищет потенциальные совпадения в каталоге на основе Strong Identifiers или Query Search Result Relationships (совместное появление в результатах поиска).
    3. Валидация: Изображение из нового предложения сравнивается с Representative Image потенциального совпадения с помощью Near-duplicate image analysis.
    4. Агрегация: Если изображение совпадает и совпадение однозначно, предложение добавляется к продукту в каталоге.

    Актуальность для SEO

    Высокая. Точное сопоставление и дедупликация товаров являются критически важными задачами для Google Shopping и любых агрегаторов. С развитием компьютерного зрения (например, Google Lens) использование анализа изображений для идентификации продуктов становится все более распространенным и мощным инструментом, дополняющим анализ структурированных данных.

    Важность для SEO

    Патент имеет высокое значение (8.5/10) для E-commerce SEO и оптимизации под Google Shopping. Он демонстрирует, что качество, стандартность и репрезентативность изображений продукта критически важны не только для пользователей, но и для алгоритмов идентификации и сопоставления Google. Некорректные или нетипичные изображения могут привести к ошибкам агрегации, даже если текстовые данные верны. Также подчеркивается важность понимания того, как Google использует данные из основного поиска (Query Search Result Relationships) для организации своего каталога продуктов.

    Детальный разбор

    Термины и определения

    Electronic Product Catalog (Электронный каталог продуктов)
    База данных, агрегирующая информацию о продуктах, доступных для продажи онлайн различными продавцами (например, Google Shopping).
    Merchant Offer (Предложение продавца)
    Информация о конкретном продукте, предоставляемая продавцом (например, через фид данных), включающая изображение, идентификаторы, цену и т.д.
    Strong Identifiers (Сильные идентификаторы)
    Уникальные идентификаторы продукта, такие как GTIN, UPC, ISBN, EAN, комбинация бренда и номера модели.
    Near-duplicate image analysis (Анализ почти дубликатов изображений)
    Технология компьютерного зрения для измерения степени схожести между изображениями. Может включать SIFT, обнаружение признаков, оценку контекста формы и т.д.
    Representative Image (Репрезентативное изображение)
    Изображение, выбранное системой как наилучший образец для представления продукта в каталоге. Используется как эталон для сравнения с новыми предложениями.
    Query Search Result Relationships (Связи результатов поисковых запросов)
    Метод идентификации потенциальных совпадений. Если предложение продавца и продукт из каталога часто показываются и/или получают клики в ответ на одни и те же поисковые запросы, это указывает на потенциальное совпадение.
    Trivial Clusters (Тривиальные кластеры)
    Небольшие группы изображений (например, менее трех), которые сильно отличаются от большинства других изображений продукта. Считаются аномалиями или ошибками и игнорируются при выборе Representative Image.
    Ambiguous Match (Неоднозначное совпадение)
    Ситуация, когда изображение из Merchant Offer соответствует Representative Images более чем одного продукта в каталоге.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод агрегации информации.

    1. Выбор Representative Image для каждого продукта в каталоге.
    2. Получение Merchant Offer с изображением.
    3. Идентификация одного или нескольких потенциальных совпадений в каталоге на основе полученной информации.
    4. Определение фактического соответствия путем выполнения image analysis (сравнения) между изображением из предложения и Representative Image каждого потенциального совпадения.
    5. При подтверждении совпадения с конкретным продуктом – добавление информации о предложении в каталог и ассоциация его с этим продуктом.

    Claim 3 (Зависимый от 1): Уточняет метод идентификации потенциальных совпадений (Шаг 3 в Claim 1).

    Потенциальное совпадение идентифицируется, если информация о предложении и информация о продукте из каталога были включены в набор результатов поиска, отображаемых в ответ на один и тот же поисковый запрос (Query Search Result Relationships).

    Claim 4 (Зависимый от 1): Детализирует процесс выбора Representative Image (Шаг 1 в Claim 1).

    1. Идентификация всех известных изображений для продукта.
    2. Измерение схожести между этими изображениями.
    3. Идентификация кластеров схожих изображений.
    4. Выбор Representative Image из каждого кластера.

    Claim 7 (Независимый пункт): Альтернативное описание основного процесса, фокусирующееся на валидации конкретного совпадения.

    1. Получение Merchant Offer с изображением.
    2. Идентификация потенциального совпадения в каталоге, у которого есть Representative Image.
    3. Определение фактического соответствия путем проверки, совпадает ли полученное изображение с Representative Image.
    4. Добавление информации в каталог при подтверждении соответствия.

    Где и как применяется

    Этот патент описывает инфраструктуру и процессы, лежащие в основе систем управления электронными каталогами продуктов, таких как Google Shopping, а не алгоритмы ранжирования веб-поиска.

    INDEXING – Индексирование (в контексте Product Catalog)
    Это основной этап применения патента. Система обрабатывает входящие данные (фиды) от продавцов.

    • Сбор данных: Получение Merchant Offers, включая изображения и Strong Identifiers.
    • Анализ и сопоставление: Система выполняет описанные алгоритмы для сопоставления предложений с существующими продуктами. Это включает идентификацию кандидатов и их валидацию с помощью Near-duplicate image analysis.
    • Обновление каталога: Периодический пересчет Representative Images для поддержания актуальности эталонов.

    QUNDERSTANDING / RANKING (в контексте Web Search)
    Система использует данные, генерируемые на этих этапах веб-поиска, для улучшения индексации каталога продуктов.

    • Анализ логов поиска: Система анализирует, какие предложения и продукты показываются (и, возможно, кликаются) в ответ на конкретные поисковые запросы. Эти данные используются для установления Query Search Result Relationships, которые служат сигналом для идентификации потенциальных совпадений товаров.

    Входные данные:

    • Новые Merchant Offers (изображения, идентификаторы, текст).
    • Существующий Product Catalog с изображениями продуктов.
    • Данные о Query Search Result Relationships (из логов поисковой системы).

    Выходные данные:

    • Обновленный Product Catalog с корректно агрегированными предложениями.
    • Набор Representative Images для продуктов.

    На что влияет

    • Конкретные типы контента: Товарные предложения (Product Offers), фиды данных E-commerce.
    • Конкретные ниши или тематики: Все категории E-commerce, представленные в Google Shopping. Особенно важно для категорий, где визуальная идентификация критична (одежда, электроника, товары для дома) или где часто встречаются ошибки в Strong Identifiers.

    Когда применяется

    • Триггеры активации: Обработка новых или обновленных данных от продавцов (например, загрузка фида в Merchant Center).
    • Частота применения: Процесс сопоставления применяется постоянно при поступлении новых данных. Процесс выбора Representative Images может выполняться периодически в офлайн-режиме.
    • Особые случаи: Механизм особенно полезен, когда Strong Identifiers отсутствуют, ошибочны или ненадежны.

    Пошаговый алгоритм

    Процесс А: Определение Representative Images (Периодический/Офлайн)

    1. Сбор данных: Идентификация всех изображений, известных системе для конкретного продукта в каталоге.
    2. Анализ схожести: Применение Near-duplicate image analysis для измерения схожести между всеми парами изображений. Это включает обнаружение и описание признаков (например, с помощью SIFT) и вычисление количества общих признаков.
    3. Кластеризация: Группировка схожих изображений в кластеры на основе вычисленных метрик схожести.
    4. Фильтрация: Удаление Trivial Clusters (кластеров с количеством изображений ниже порога). Это отсеивает аномалии, ошибки и непопулярные изображения.
    5. Выбор эталона: Для каждого оставшегося кластера выбор наиболее Representative Image (например, изображение, имеющее наибольшую схожесть с остальными изображениями в кластере).

    Процесс Б: Обработка нового Merchant Offer (Постоянный/Онлайн)

    1. Получение данных: Прием нового предложения, включая изображение и идентификаторы.
    2. Идентификация кандидатов: Поиск потенциальных совпадений в каталоге. Кандидаты определяются на основе совпадения Strong Identifiers И/ИЛИ на основе Query Search Result Relationships.
    3. Валидация изображений: Сравнение изображения из предложения с Representative Image(s) каждого кандидата с помощью Near-duplicate image analysis. Вычисление Similarity Score.
    4. Проверка совпадения: Определение, превышает ли Similarity Score пороговое значение.
    5. Проверка на однозначность (Ambiguity Check): Система проверяет, совпадает ли изображение предложения только с одним продуктом в каталоге.
      • Если совпадений > 1 (Ambiguous Match): Предложение не добавляется в каталог автоматически. Может использоваться дополнительный не-имиджевый анализ или ручная проверка.
      • Если совпадение = 1: Предложение добавляется в каталог и ассоциируется с этим продуктом.
      • Если совпадений = 0: Выполняется не-имиджевый анализ или предложение отклоняется (либо добавляется как новый продукт, если система это допускает).

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Изображения продукта. Являются основным объектом анализа в патенте. Система анализирует пиксельные данные и извлекаемые из них признаки.
    • Структурные/Контентные факторы (из фидов): Strong Identifiers (GTIN, UPC, ISBN, EAN, Brand, Model Number). Используются для первичной идентификации кандидатов на совпадение.
    • Поведенческие факторы (из поиска): Данные о Query Search Result Relationships. Система использует информацию о том, какие результаты поиска (предложения и продукты) показывались или кликались в ответ на одни и те же запросы.

    Какие метрики используются и как они считаются

    • Similarity Score (Оценка схожести): Метрика, определяющая степень сходства между двумя изображениями. Упоминается возможный расчет как отношение числа совпадающих точек интереса (признаков) к общему числу точек интереса.
    • Threshold Score (Пороговая оценка): Минимальное значение Similarity Score, необходимое для подтверждения совпадения изображений.
    • Euclidean distance (Евклидово расстояние): Упоминается как метрика для сравнения признаков изображений. Признаки считаются близкими, если расстояние меньше определенного порога.
    • Cluster Size (Размер кластера): Количество изображений в кластере. Используется для идентификации и удаления Trivial Clusters (например, если размер < 3).
    • Алгоритмы машинного обучения и анализа: Патент упоминает конкретные техники для реализации Near-duplicate image analysis:
      • SIFT (Scale-Invariant Feature Transform)
      • Harris corner detection
      • Hough Transform (для верификации кластеров)

    Выводы

    1. Изображения как фактор идентификации продукта: Патент подтверждает, что Google использует компьютерное зрение как ключевой механизм для валидации и агрегации данных о продуктах, особенно когда текстовые идентификаторы ненадежны.
    2. Требование к качеству и стандартности изображений: Система активно фильтрует аномальные или нетипичные изображения (Trivial Clusters) и выбирает эталон (Representative Image). Использование нестандартных изображений в фидах снижает вероятность корректного сопоставления.
    3. Использование данных веб-поиска для организации каталога: Механизм Query Search Result Relationships демонстрирует, как Google использует поведенческие данные из основного поиска (совместное появление/клики по запросам) для понимания связей между товарами, даже без Strong Identifiers.
    4. Стремление к однозначности: Система включает защиту от Ambiguous Match. Если изображение предложения соответствует нескольким разным продуктам, оно не будет автоматически принято. Это подчеркивает важность предоставления изображений, уникальных для конкретного варианта товара.
    5. Комплексный подход к сопоставлению: Сопоставление — это многоэтапный процесс, включающий анализ идентификаторов, анализ поведения пользователей в поиске и финальную валидацию с помощью анализа изображений.

    Практика

    Best practices (это мы делаем)

    • Инвестировать в качество и стандартность изображений: Использовать высококачественные, четкие и общепринятые изображения продукта (например, студийные фото на белом фоне). Это повышает вероятность совпадения с Representative Image, выбранным Google.
    • Предоставлять несколько ракурсов: Так как система может выбрать несколько Representative Images (по одному на каждый значимый кластер), предоставление изображений продукта с разных сторон увеличивает покрытие и надежность сопоставления.
    • Обеспечивать точность Strong Identifiers: Хотя система может работать без них, правильные GTIN/UPC значительно упрощают первый этап идентификации кандидатов и повышают общую точность сопоставления.
    • Оптимизировать под релевантные запросы: Убедиться, что страницы продуктов и данные в фидах оптимизированы под точные поисковые запросы. Это помогает генерировать корректные Query Search Result Relationships, которые Google использует для идентификации потенциальных совпадений.
    • Следить за уникальностью изображений вариантов: Если товар имеет варианты (цвет, размер), использовать уникальные изображения для каждого SKU, чтобы избежать Ambiguous Match с другими вариантами.

    Worst practices (это делать не надо)

    • Использовать «заглушки» или стоковые изображения: Изображения типа «Фото скоро будет» или нерелевантные стоковые фото не пройдут валидацию Near-duplicate image analysis.
    • Использовать изображения низкого качества: Размытые, темные или маленькие изображения могут не позволить системе извлечь достаточно признаков для надежного сравнения.
    • Использовать сильно отличающиеся или «креативные» фото для стандартных товаров: Если изображение сильно отличается от того, что предоставляют другие продавцы или производитель, оно может быть классифицировано как Trivial Cluster и не совпасть с Representative Image.
    • Игнорировать ошибки в Strong Identifiers: Полагаться только на анализ изображений рискованно. Ошибки в идентификаторах могут привести к неправильной идентификации кандидатов на первом этапе.

    Стратегическое значение

    Для E-commerce стратегия управления визуальным контентом становится неотъемлемой частью SEO. Патент подтверждает, что точность данных в продуктовых фидах, включая изображения, напрямую влияет на способность Google корректно обрабатывать и отображать товары в Google Shopping. Кроме того, интеграция сигналов из веб-поиска (Query Search Result Relationships) подчеркивает синергию между стандартным SEO и оптимизацией под продуктовые вертикали: хорошая видимость в поиске по релевантным запросам способствует лучшему пониманию ваших товаров системами Google Catalog.

    Практические примеры

    Сценарий: Коррекция ошибок сопоставления из-за неверного GTIN

    1. Ситуация: Продавец загружает фид для смартфона «Samsung Galaxy S25 Black 128GB». По ошибке в поле GTIN указан код от модели на 256GB.
    2. Действие продавца: Продавец замечает, что его предложение либо не отображается, либо привязано к неверной карточке товара. Он проверяет фид и убеждается, что изображение в фиде соответствует модели на 128GB (например, совпадает с фото на сайте производителя).
    3. Работа системы (по патенту):
      • Система изначально может идентифицировать модель 256GB как кандидата на основе GTIN.
      • Однако на этапе валидации система сравнивает изображение из фида (128GB) с Representative Image модели 256GB. Если они визуально различимы (например, разная упаковка или маркировка), совпадение не подтверждается.
      • Параллельно система может идентифицировать правильную модель 128GB как кандидата на основе Query Search Result Relationships (по запросам, включающим «128GB»).
      • Система сравнивает изображение из фида с Representative Image модели 128GB. Совпадение подтверждается.
    4. Результат: Благодаря анализу изображений и данным из поиска, система может преодолеть ошибку в GTIN и корректно сопоставить предложение с моделью 128GB.

    Вопросы и ответы

    Что такое Representative Image (Репрезентативное изображение)?

    Это изображение, которое система выбирает как лучший или наиболее типичный образец для конкретного продукта в каталоге. Оно используется как эталон для сравнения с изображениями из новых товарных предложений от продавцов, чтобы подтвердить их идентичность.

    Как Google выбирает Representative Image?

    Система анализирует все доступные изображения для продукта, использует Near-duplicate image analysis для измерения их схожести и группирует похожие изображения в кластеры. Затем она удаляет аномалии (Trivial Clusters) и выбирает наиболее центральное или типичное изображение из каждого значимого кластера.

    Что такое Query Search Result Relationships и как это используется?

    Это данные о связях, основанные на истории поисковых запросов. Если два разных товарных предложения часто появляются или кликаются в результатах поиска по одним и тем же запросам, система считает их потенциально относящимися к одному и тому же продукту. Это используется как способ найти кандидатов на совпадение, даже если Strong Identifiers (GTIN) отсутствуют.

    Что произойдет, если изображение в моем фиде не совпадет с Representative Image?

    Если система не сможет подтвердить совпадение с помощью анализа изображений, ваше предложение может быть не добавлено к карточке продукта автоматически. Система может попытаться использовать другие методы анализа (не основанные на изображениях) или отклонить предложение. Это может привести к потере видимости в Google Shopping для этого продукта.

    Влияет ли этот патент на ранжирование в обычном веб-поиске?

    Напрямую нет. Патент описывает процесс индексации и агрегации данных в Electronic Product Catalog (например, Google Shopping), а не алгоритмы ранжирования веб-страниц. Однако он использует данные из веб-поиска (Query Search Result Relationships) для улучшения качества каталога.

    Что важнее для Google Shopping: правильный GTIN или правильное изображение?

    Важны оба элемента. GTIN (Strong Identifier) обычно используется для быстрого поиска кандидатов на совпадение. Изображение используется для финальной валидации этого совпадения, особенно если GTIN ненадежен. Наличие обоих корректных элементов обеспечивает наиболее надежное сопоставление.

    Что такое Trivial Cluster и почему Google их удаляет?

    Это очень маленькая группа изображений (например, 1-3), которые отличаются от большинства других изображений данного продукта. Это могут быть ошибочные фото, заглушки, изображения аксессуаров или просто неудачные ракурсы. Google удаляет их, чтобы они не были ошибочно выбраны в качестве эталона (Representative Image).

    Что произойдет, если мое изображение совпадет с несколькими разными продуктами?

    Это называется Ambiguous Match (Неоднозначное совпадение). В этом случае патент указывает, что система не будет автоматически добавлять предложение в каталог, чтобы избежать ошибок агрегации. Необходимо использовать уникальные изображения для каждого конкретного SKU или варианта товара.

    Какие технологии анализа изображений упоминаются в патенте?

    Патент упоминает несколько методов, которые могут использоваться для реализации Near-duplicate image analysis и извлечения признаков, включая SIFT (Scale-Invariant Feature Transform), Harris corner detection и Hough Transform для верификации.

    Как я могу оптимизировать свои изображения под этот алгоритм?

    Используйте высококачественные, четкие и стандартные изображения, которые точно представляют продукт и похожи на те, что используют производитель и другие авторитетные продавцы. Это увеличит вероятность того, что ваше изображение попадет в основной кластер и совпадет с Representative Image.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.