Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует компьютерное зрение для анализа, сегментации и визуального поиска товаров в E-commerce

    SYSTEM AND METHOD FOR USING IMAGE ANALYSIS AND SEARCH IN E-COMMERCE (Система и метод использования анализа изображений и поиска в электронной коммерции)
    • US8732030B2
    • Google LLC
    • 2014-05-20
    • 2007-11-07
    2007 Google Shopping Индексация Мультимедиа Патенты Google

    Патент описывает комплексную систему Google для визуального поиска товаров. Система автоматически обрабатывает изображения: отделяет объект от фона (сегментация), выравнивает его, извлекает визуальные признаки (цвет, форма, текстура) и создает цифровые подписи (векторы). Это позволяет пользователям искать похожие товары, используя изображение в качестве запроса (CBIR), уточнять поиск по визуальным характеристикам и находить товары на сторонних сайтах.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности традиционного поиска изображений, который полагается преимущественно на текстовые метаданные. В контексте E-commerce этот подход не позволяет эффективно находить товары на основе их внешнего вида. Изобретение направлено на создание системы, способной понимать визуальное содержимое изображений товаров (Content-Based Image Retrieval, CBIR) и использовать это понимание для обеспечения релевантного визуального поиска (visual similarity search).

    Что запатентовано

    Запатентована система для анализа, индексации и поиска изображений товаров в E-commerce. Ядром изобретения является конвейер обработки изображений, включающий автоматическую сегментацию объекта от фона, его выравнивание (alignment), извлечение глобальных и локальных визуальных признаков (Global Features, Local Features) и генерацию визуальных сигнатур (Signatures). Также описаны методы использования этих сигнатур для поиска по сходству и интерфейсы для интерактивного уточнения запросов.

    Как это работает

    Система функционирует в несколько этапов:

    • Сбор данных (Procurement): Система собирает content items (изображения, текст, метаданные) с сайтов электронной коммерции или других источников.
    • Анализ контента (Content Analysis):
      • Изображения проходят сегментацию (отделение объекта от фона) и выравнивание.
      • Object Determinator классифицирует объект, используя анализ текста/метаданных и анализ изображения.
      • Feature Extraction определяет визуальные характеристики: Глобальные (цвет, форма, текстура) и Локальные (признаки в ключевых точках или регионах).
    • Индексация: Извлеченные признаки преобразуются в количественные сигнатуры (векторы) и индексируются.
    • Поиск (Search): Пользователь может инициировать поиск, используя изображение или выбирая визуальные атрибуты. Система генерирует запрос на основе визуальных признаков входных данных.
    • Ранжирование по сходству (Similarity Search): Система сравнивает сигнатуру запроса с индексом, используя функции расстояния (distance functions) для количественной оценки визуального сходства.

    Актуальность для SEO

    Крайне высокая. Этот патент описывает фундаментальные технологии визуального поиска, которые лежат в основе современных систем, таких как Google Images, Google Shopping и Google Lens. Технологии извлечения признаков, сегментации и поиска по сходству активно развиваются и критически важны для E-commerce в 2025 году.

    Важность для SEO

    Патент имеет критическое значение (9/10) для SEO в сфере E-commerce. Он раскрывает механизмы, с помощью которых Google интерпретирует и ранжирует изображения товаров на основе их визуального содержания, а не только текстовых данных. Понимание этих процессов необходимо для эффективной оптимизации изображений (Image SEO) и обеспечения видимости товаров в визуальном поиске.

    Детальный разбор

    Термины и определения

    Alignment (Выравнивание)
    Процесс нормализации ориентации сегментированного изображения для приведения его к каноническому виду (canonical view).
    CBIR (Content-Based Image Retrieval)
    Поиск изображений на основе их визуального содержания (признаков), а не текстовых метаданных.
    Content Item (Контентная единица)
    Файл или запись (например, о товаре), содержащая изображение, а также связанный текст и/или метаданные.
    CSH (Color Spatial Histogram)
    Дескриптор локальных признаков, фиксирующий распределение цветов в пространстве вокруг ключевой точки.
    EHD (Edge Histogram Distributions)
    Дескриптор гистограммы границ. Представляет локальное распределение границ (вертикальных, горизонтальных) в изображении. Используется для описания формы и текстуры.
    Feature (Признак)
    Визуальная характеристика объекта (цвет, форма, текстура), которая извлекается и представляется в виде данных (вектора или текста).
    Feature Distance (Расстояние между признаками)
    Числовая метрика, измеряющая несходство между двумя изображениями относительно конкретного визуального признака.
    Global Features (Глобальные признаки)
    Признаки, описывающие объект в целом (например, доминирующий цвет, общая форма).
    HOG (Histogram of Oriented Gradients)
    Гистограмма ориентированных градиентов. Дескриптор локальных признаков, используемый для определения формы.
    Local Features (Локальные признаки)
    Признаки, локализованные в определенной части объекта (key points/regions).
    Manual Enrichment (Ручное обогащение)
    Процесс использования людей-операторов для подтверждения или исправления программно определенных данных (например, результатов сегментации).
    Object Determinator (Определитель объекта)
    Модуль, который определяет информацию об объекте (например, классификацию) путем анализа данных изображения, текста и метаданных.
    Segmentation (Сегментация)
    Процесс разделения изображения на передний план (объект) и фон.
    Signature (Сигнатура)
    Количественное представление (например, вектор) набора извлеченных признаков. Используется для индексации и сравнения.

    Ключевые утверждения (Анализ Claims)

    Примечание: Полный текст Claims (Формулы изобретения) отсутствует в предоставленном фрагменте PDF, который обрывается на странице 46. Анализ основан исключительно на Abstract, Detailed Description и схемах, представленных в документе.

    Направление 1: Система анализа изображений и ручного обогащения (Основано на FIG. 1, FIG. 4A/B)

    Защищается система для создания коллекции распознанных изображений. Ключевые компоненты:

    1. Модуль анализа изображений для программного анализа коллекции изображений.
    2. Интерфейс редактора (Editor Interface), который отображает результаты анализа в виде множества панелей (plurality of panels, grouped presentation).
    3. Механизм, позволяющий редакторам взаимодействовать с панелями для исправления или удаления неверно определенной информации (Manual Enrichment).

    Это защищает архитектуру, сочетающую автоматический анализ с эффективной системой ручной проверки для контроля качества данных.

    Направление 2: Применение визуального анализа в E-commerce (Основано на Abstract, FIG. 11, FIG. 21)

    Защищается метод предоставления товаров:

    1. Получение изображения товара (merchandise item).
    2. Программный анализ изображения для определения информации о нем. Это включает сегментацию, извлечение признаков и классификацию.
    3. Использование этой информации для генерации представления (presentation) товара, например, в результатах визуального поиска.

    Это защищает применение технологий CBIR для автоматического понимания и каталогизации товаров.

    Направление 3: Методы извлечения признаков и поиска по сходству (Основано на FIGS. 7-10, FIG. 14)

    Защищаются технические методы анализа и сравнения:

    1. Извлечение глобальных признаков (цвет, форма, текстура) и локальных признаков (вокруг ключевых точек с помощью дескрипторов типа HOG, CSH).
    2. Количественная оценка сходства с помощью функций расстояния (distance functions).
    3. Использование взвешенной комбинации расстояний отдельных признаков (Total Distance), где веса определяются на основе машинного обучения (например, LDA) и человеческих оценок сходства.

    Где и как применяется

    Изобретение охватывает ключевые этапы поисковой архитектуры, формируя основу для систем визуального поиска (Visual Search).

    CRAWLING – Сканирование и Сбор данных
    Модуль Procurement (105, 1130) сканирует сайты E-commerce или получает фиды для сбора Content Items (изображений товаров и метаданных).

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Система Content Analysis (1140) выполняет глубокую обработку:

    • Сегментация и Выравнивание: Image Segmenter (110) и Align/Pre-process (115) изолируют объект от фона и нормализуют его вид.
    • Извлечение Признаков (Feature Extraction): Модуль (120) вычисляет Global Features и Local Features (HOG, CSH).
    • Классификация: Object Determinator (140) анализирует изображение и метаданные для классификации товара.
    • Генерация Сигнатур: Quant/Vectorization (132) создает визуальные сигнатуры (Signatures 128).
    • Контроль Качества: Editor Interface (160) используется для Manual Enrichment.
    • Индексация: Indexer (160) сохраняет данные в Index (164).

    QUNDERSTANDING – Понимание Запросов
    Когда пользователь предоставляет ввод через User-Interface (1110) – будь то новое изображение, выбор региона или спецификация атрибута (цвет) – Query Generator (1330) формирует запрос на основе визуальных критериев. Если изображение новое (unprocessed), оно анализируется на лету.

    RANKING – Ранжирование
    Модуль Search (1120) выполняет Similarity Search. Он сравнивает сигнатуру запроса с индексом, используя distance functions для количественной оценки визуального сходства и ранжирования.

    Входные данные:

    • Content Items (Изображения товаров, текст, метаданные).
    • Пользовательский ввод (изображения, выбор регионов, атрибуты).
    • Данные от операторов (для Manual Enrichment и обучения моделей).

    Выходные данные:

    • Индекс визуальных сигнатур и метаданных (Index Data 162).
    • Результаты поиска (Search Result Presentation 1128) визуально похожих товаров.

    На что влияет

    • Типы контента и ниши: В первую очередь E-commerce, особенно ниши, зависимые от визуального восприятия: мода (одежда, обувь, аксессуары), ювелирные изделия, мебель, декор.
    • Специфические запросы: Запросы визуального поиска («найти похожее») или запросы, инициированные через изображение (Google Lens, Image Search).

    Когда применяется

    • При индексации: При обработке новых или обновленных изображений товаров из источников E-commerce.
    • При поиске: Когда пользователь инициирует визуальный поиск или использует функции уточнения результатов по визуальным атрибутам (цвет, форма).

    Пошаговый алгоритм

    Процесс А: Backend (Индексация и Анализ Товаров)

    1. Сбор данных: Получение Content Items.
    2. Предварительная классификация: Анализ метаданных для определения категории товара (используя Object Determinator).
    3. Сегментация изображения: Отделение объекта от фона (например, с помощью статистического анализа пикселей или MRF).
    4. Выравнивание: Нормализация ориентации объекта в канонический вид (например, с помощью PCA).
    5. Извлечение Глобальных Признаков: Определение цвета (k-means clustering), формы (EHD, PCA), текстуры (фильтры Габора).
    6. Извлечение Локальных Признаков: Определение ключевых точек/регионов и вычисление дескрипторов (HOG, CSH) вокруг них.
    7. Генерация Сигнатуры: Векторизация признаков в компактную визуальную сигнатуру.
    8. Ручное Обогащение (Опционально): Проверка результатов операторами через Editor Interface.
    9. Индексация: Сохранение сигнатур и метаданных.

    Процесс Б: Frontend (Обработка Запроса и Поиск)

    1. Получение ввода: Пользователь предоставляет изображение или выбирает атрибуты.
    2. Анализ запроса: Извлечение признаков из ввода (если это новое изображение) или использование существующих.
    3. Поиск по сходству: Сравнение сигнатуры запроса с индексом. Вычисление feature distances.
    4. Ранжирование: Сортировка результатов на основе общего расстояния (Total Distance), которое является взвешенной суммой расстояний отдельных признаков. Веса определяются моделью (например, LDA).
    5. Отображение результатов: Возврат результатов.
    6. Интерактивное уточнение (Relevance Feedback): Пользователь использует слайдеры или Color Picker для изменения весов признаков, результаты обновляются (возможно, на стороне клиента).

    Какие данные и как использует

    Данные на входе

    • Контентные/Мультимедиа факторы (Изображения): Пиксельные данные изображений (RGB, HSV, CIE-L*a*b*). Источник для сегментации и извлечения визуальных признаков.
    • Текстовые и Структурные факторы (Метаданные): Название, описание, бренд, цена, категории источника, ключевые слова (buzzwords). Используются для классификации (Object Determinator) и как отдельные признаки (Metadata Features).
    • Пользовательские факторы (Данные от операторов): Ввод через Editor Interface для контроля качества. Оценки сходства (similarity judgments) для обучения моделей ранжирования.

    Какие метрики используются и как они считаются

    • Feature Distance (Расстояние признака): Измеряет несходство по конкретному признаку. Используются метрики L1, L2 (Евклидово расстояние), Bhattacharya coefficient, KL divergence.
    • Расстояние цвета: Может включать L2 расстояние между RGB векторами и угол между векторами (для устойчивости к изменению освещения).
    • IDF (Inverse Document Frequency): Используется для оценки важности текстовых терминов (buzzwords) в метаданных.

    Выводы

    1. Визуальное содержание как ключевой сигнал ранжирования: Патент подтверждает, что Google анализирует фактическое визуальное содержимое изображений (цвет, форма, текстура) для понимания и ранжирования товаров в E-commerce, выходя за рамки только текстовых данных.
    2. Критичность предобработки изображений: Сегментация (отделение объекта от фона) и выравнивание являются фундаментальными этапами. Качество исходного изображения напрямую влияет на способность системы корректно извлечь признаки.
    3. Многоуровневый анализ признаков: Система анализирует как общий вид объекта (Global Features), так и его детали (Local Features). Это позволяет осуществлять поиск как по общему сходству, так и по конкретным элементам дизайна.
    4. Синергия визуальных и текстовых данных: Метаданные не игнорируются; они используются для классификации объекта и комбинируются с визуальными признаками при расчете сходства (например, анализ buzzwords с помощью IDF).
    5. Машинное обучение для определения сходства: Определение «похожести» не задается жестко, а вычисляется с помощью моделей (например, LDA), обученных на человеческих оценках, для оптимального взвешивания различных визуальных признаков.
    6. Важность контроля качества (AI + Human): Патент подчеркивает роль Manual Enrichment, где операторы проверяют и исправляют ошибки алгоритмов, обеспечивая высокое качество данных в индексе.

    Практика

    Best practices (это мы делаем)

    • Оптимизация изображений для чистой сегментации: Используйте высококачественные изображения товаров на контрастном, чистом фоне (предпочтительно белом или нейтральном). Это критически важно для того, чтобы Image Segmenter мог точно отделить товар от фона.
    • Демонстрация ключевых деталей (Local Features): Предоставляйте крупные планы уникальных деталей, текстур и фурнитуры товара. Система извлекает Local Features из этих регионов (используя дескрипторы типа HOG, CSH), что позволяет находить товар при поиске по фрагментам или деталям.
    • Использование стандартных ракурсов: Предоставляйте изображения в канонических ракурсах. Это помогает процессу выравнивания (Alignment) и улучшает качество извлечения признаков формы.
    • Точность и согласованность метаданных: Убедитесь, что метаданные (Title, Description, атрибуты фида) точно соответствуют визуальному контенту. Object Determinator использует текст для классификации, а система ранжирования комбинирует текстовые и визуальные сигналы. Включайте точные названия цветов, материалов и форм (buzzwords).

    Worst practices (это делать не надо)

    • Использование перегруженного фона: Размещение товаров на сложном или пестром фоне затрудняет сегментацию, что приводит к ошибкам в извлечении признаков и снижению видимости в визуальном поиске.
    • Изображения низкого разрешения: Низкое качество не позволяет точно определить текстуру и мелкие детали (Local Features), ухудшая качество визуального сопоставления.
    • Нестандартные или художественные ракурсы как основное фото: Может привести к ошибкам выравнивания и неправильному определению базовой формы объекта.
    • Игнорирование Image SEO: Полагаться только на текстовую оптимизацию страницы товара. Визуальные характеристики товара индексируются и напрямую влияют на его обнаружение через инструменты визуального поиска (Google Lens, Google Images).

    Стратегическое значение

    Этот патент фундаментально подтверждает, что для Google визуальное представление товара является полноценным фактором ранжирования в E-commerce. Для SEO-стратегии это означает необходимость интеграции стандартов качества фотоконтента, ориентированных не только на пользователя, но и на требования систем компьютерного зрения (сегментация, извлечение признаков). Image SEO становится критически важной дисциплиной для интернет-магазинов.

    Практические примеры

    Сценарий: Оптимизация карточки товара (Кроссовки с уникальным узором)

    1. Задача: Улучшить видимость кроссовок в визуальном поиске по их уникальному боковому узору.
    2. Действия (на основе патента):
      • Сделать основное фото на белом фоне (для segmentation и alignment).
      • Сделать четкое фото сбоку и крупный план узора (для извлечения Local Features и Texture Features узора).
      • Включить в описание точные термины, описывающие узор (например, «геометрический принт», «сине-белый»).
    3. Ожидаемый результат: Система точно извлечет признаки узора. Когда пользователь ищет похожие кроссовки, используя фото или выделяя узор на другом изображении, система сможет точно сопоставить локальные визуальные сигнатуры и показать этот товар в выдаче.

    Вопросы и ответы

    Что такое сегментация изображения и почему она критична для SEO в E-commerce?

    Сегментация — это процесс отделения товара (передний план) от фона изображения. Это критически важно, потому что система извлекает визуальные признаки (цвет, форму, текстуру) именно из сегментированного объекта. Если из-за сложного фона или низкого контраста сегментация произойдет с ошибками, система проанализирует неверные данные, и товар не будет корректно ранжироваться в визуальном поиске.

    В чем разница между глобальными и локальными признаками?

    Глобальные признаки (Global Features) описывают объект в целом, например, его доминирующий цвет или общий силуэт. Локальные признаки (Local Features) описывают специфические детали в ключевых точках изображения, например, узор на ткани, форму фурнитуры или логотип. Использование обоих типов позволяет находить сходство как по общему виду, так и по конкретным элементам дизайна.

    Как система определяет цвет товара? Это просто анализ RGB?

    Система использует более сложный подход. Она применяет алгоритмы кластеризации, такие как k-means, в различных цветовых пространствах (RGB, HSV, Lab) для определения доминирующих цветов и их весов. Также может использоваться машинное обучение для соотнесения цветов с их человеческими названиями (например, «бирюзовый», «терракотовый»).

    Какую роль играют текст и метаданные (Title, Description) в этой системе визуального поиска?

    Текст и метаданные играют важную роль. Они используются для первоначальной классификации объекта (понять, что это – туфля или сумка). Кроме того, система анализирует текстовые описания (buzzwords), используя метрики типа IDF, и комбинирует эти текстовые сигналы с визуальными для определения общей релевантности и сходства.

    Что такое HOG и EHD, и что они значат для моих изображений?

    HOG (Histogram of Oriented Gradients) и EHD (Edge Histogram Distributions) – это технические дескрипторы, которые система использует для понимания формы, структуры и текстуры объекта путем анализа границ и градиентов. Для SEO это означает, что четкость изображения, хорошее разрешение и видимость деталей критически важны, чтобы система могла точно вычислить эти дескрипторы.

    Как работает функция поиска по части изображения (Local Region Selection)?

    Когда пользователь выделяет область на изображении (например, каблук туфли), система фокусируется на локальных признаках (Local Features), извлеченных именно из этого региона. Затем выполняется поиск, в котором приоритет отдается совпадению этих локальных дескрипторов, что позволяет найти другие туфли с похожей формой каблука.

    Как система определяет, какие товары являются «похожими»?

    Сходство определяется путем расчета «расстояния» (Feature Distance) между визуальными сигнатурами запроса и изображений в базе. Система не просто сравнивает один признак, а вычисляет общее расстояние (Total Distance) как взвешенную сумму расстояний по цвету, форме и текстуре. Веса для этой суммы определяются с помощью машинного обучения.

    Какие требования к фотографиям товаров следуют из этого патента?

    Ключевые требования: высокое качество, контрастный и чистый фон (для успешной сегментации), стандартные ракурсы (для корректного выравнивания) и хорошая детализация, позволяющая рассмотреть текстуру и мелкие элементы. Изображения должны быть оптимизированы для машинного зрения.

    Что такое «Manual Enrichment» и как он влияет на поиск?

    Manual Enrichment (Ручное обогащение) — это процесс, когда люди-операторы проверяют и исправляют ошибки автоматических алгоритмов (например, неправильную сегментацию) через специальный интерфейс. Это повышает качество данных в индексе, гарантируя, что визуальные признаки извлечены корректно, что в итоге улучшает точность поиска.

    Может ли эта система распознать товар на lifestyle-фотографии (например, на человеке)?

    Да, патент описывает механизмы для этого (FIG. 24). Система может использовать обнаружение лиц (Face detection) как отправную точку, затем определить местоположение одежды (Clothing segmentation), исключая цвет кожи, и после этого извлечь признаки этой одежды для поиска похожих товаров.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.