Как Google анализирует изображения продуктов, комбинируя автоматическую сегментацию, извлечение признаков и ручную проверку для визуального поиска

Патент описывает инфраструктуру Google для анализа и индексации изображений, особенно товаров. Система автоматически сегментирует объекты, извлекает визуальные признаки (цвет, форма, текстура) и классифицирует их, используя как изображение, так и метаданные. Критическим элементом является высокопроизводительный интерфейс для ручной проверки (Manual Enrichment), который обеспечивает точность данных. Это основа для систем визуального поиска (Google Lens, Google Shopping), позволяющих искать похожие товары по внешнему виду.

Описание

Какую задачу решает

Патент решает проблему создания масштабируемой и точной системы для поиска изображений на основе их визуального содержания (Content-based Image Retrieval, CBIR), а не только окружающего текста. Основная задача — преодолеть ограничения и ошибки автоматических алгоритмов анализа изображений (сегментации, классификации, извлечения признаков) при обработке больших объемов разнообразных изображений, например, товаров в электронной коммерции.

Что запатентовано

Запатентована система для создания коллекции распознанных изображений, сочетающая программный анализ с эффективным ручным обогащением (Manual Enrichment). Система автоматически анализирует изображения для определения информации о них (сегментация, выравнивание, извлечение глобальных и локальных признаков). Ключевым элементом является интерфейс, позволяющий редакторам одновременно просматривать и корректировать множественные результаты программного анализа в пакетном режиме (plurality of panels concurrently), обеспечивая высокую точность итоговых данных для визуального поиска.

Как это работает

Система функционирует как конвейер обработки изображений:

Сбор данных (Procurement): Получение контента (изображения, текст, метаданные), например, с сайтов электронной коммерции.
Классификация (Object Determinator): Определение типа объекта с использованием анализа текста/метаданных (токенизация, взвешивание терминов) и/или анализа изображения.
Сегментация и Выравнивание: Отделение объекта от фона (Image Segmentation) и приведение его к каноническому виду (Alignment).
Извлечение Признаков (Feature Extraction): Определение глобальных (цвет, форма, текстура всего объекта) и локальных признаков (характеристики отдельных частей).
Векторизация: Преобразование признаков в числовые векторы (Signatures).
Ручное Обогащение (Manual Enrichment): Быстрая проверка и исправление результатов автоматической обработки (например, подтверждение правильности сегментации) человеком-редактором через специальный интерфейс.
Индексация и Поиск: Индексация векторов и метаданных для обеспечения быстрого поиска визуально похожих объектов (Similarity Search).

Актуальность для SEO

Высокая. Описанные технологии являются фундаментальными для современных систем визуального поиска Google, таких как Google Lens, поиск по картинкам и Google Shopping. Процессы сегментации, извлечения визуальных признаков и классификации продуктов постоянно развиваются, но базовая архитектура, сочетающая автоматический анализ с системами обеспечения качества (включая ручную или полуавтоматическую проверку), остается критически важной для масштабирования понимания визуального контента.

Важность для SEO

Патент имеет высокое значение (8.5/10) для SEO, особенно в сфере электронной коммерции (e-commerce) и контента, богатого изображениями. Он детально описывает, как Google технически анализирует изображения продуктов: от отделения от фона до понимания цвета, формы и текстуры. Это напрямую влияет на то, как товары будут ранжироваться и отображаться в Google Images, Shopping и результатах поиска, основанных на визуальном сходстве. Понимание этих механизмов критично для оптимизации изображений и метаданных товаров.

Детальный разбор

Термины и определения

Alignment (Выравнивание): Процесс нормализации сегментированного изображения, приведение объекта к каноническому виду (стандартной ориентации) для облегчения анализа и извлечения признаков.
CBIR (Content-based Image Retrieval): Поиск изображений на основе их визуального содержания, а не только метаданных или текста.
CSH (Color-Spatial Histograms): Локальные дескрипторы цвета. Учитывают не только цвет, но и его пространственное расположение в локальной области.
EHD (Edge Histogram Distribution): Дескриптор, представляющий локальное распределение границ (edges) в изображении. Используется для определения формы и текстуры.
Feature Extraction (Извлечение признаков): Процесс определения и представления визуальных характеристик объекта (цвета, формы, текстуры) в виде данных.
Global Features (Глобальные признаки): Характеристики, применяемые к объекту в целом (например, доминирующий цвет, общая форма).
HOG (Histogram of Oriented Gradients): Дескриптор признаков, учитывающий распределение направлений градиентов интенсивности в изображении. Используется для определения формы.
Image Segmentation (Сегментация изображения): Процесс разделения изображения на передний план (объект) и фон.
Local Features (Локальные признаки): Характеристики, локализованные в определенной части или ключевой точке объекта.
Manual Enrichment (Ручное обогащение): Процесс использования человеческого ввода (модераторов) для подтверждения, исправления или дополнения результатов программного анализа.
Object Determinator (Определитель объекта): Модуль системы, определяющий информацию об объекте (например, классификацию) с использованием анализа изображения, текста и/или метаданных.
Signature (Сигнатура): Векторное представление набора признаков (глобальных и/или локальных) для конкретного объекта, используемое для индексации и сравнения.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную архитектуру системы для анализа изображений и обеспечения качества данных.

Система включает модуль анализа изображений (Image analysis module) для программного анализа коллекции изображений.
Система включает ручной интерфейс (Manual interface), настроенный для взаимодействия с модераторами (human editors).
Интерфейс одновременно отображает множество панелей (plurality of panels concurrently).
Каждая панель отображает проанализированное изображение и/или информацию, полученную из него (например, результат сегментации).
Интерфейс позволяет модераторам просматривать панели и взаимодействовать с ними для исправления или удаления информации, которая была определена неверно.

Ядром изобретения является комбинация автоматического анализа изображений с эффективной системой ручной модерации, позволяющей быстро и массово верифицировать результаты работы алгоритмов.

Claim 2, 3, 5, 6 (Зависимые): Уточняют задачи, к которым применяется система.

Программный анализ включает сегментацию изображения (Claim 2). Модератор подтверждает корректность сегментации (Claim 3).
Программный анализ включает классификацию объекта (Claim 5). Модератор подтверждает корректность классификации (Claim 6).

Claim 8 (Зависимый): Уточняет задачу выравнивания.

Программный анализ включает определение ориентации объекта на изображении (Alignment).

Где и как применяется

Изобретение описывает инфраструктуру для анализа визуального контента, затрагивающую преимущественно этапы сбора и индексации данных, но имеющую прямое влияние на качество ранжирования в визуальном поиске.

CRAWLING – Сканирование и Сбор данных
Компонент Procurement отвечает за получение Content Items (изображения, текст, метаданные) из интернета (например, с сайтов e-commerce, блогов) или через прямую загрузку.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Здесь происходит вся обработка:

Классификация: Object Determinator анализирует текст/метаданные и/или изображение для определения типа объекта.
Сегментация и Выравнивание: Image Segmentizer отделяет объект от фона. Align/Pre-process приводит объект к стандартному виду.
Извлечение Признаков: Feature Extract определяет Global Features и Local Features.
Векторизация: Quant/Vectorization создает Signatures.
Ручное Обогащение: Editor Interface используется для верификации и исправления результатов всех предыдущих шагов (классификации, сегментации и т.д.). Это ключевой компонент обеспечения качества.
Индексация: Indexer сохраняет финальные данные в индекс.

RANKING – Ранжирование (Визуальный поиск)
Search модуль использует созданный индекс для выполнения Similarity Search. Описываются алгоритмы измерения сходства (Similarity Measurement), использующие взвешенные расстояния между признаками (Feature Distances) для ранжирования результатов по визуальному сходству с запросом.

Входные данные:

Content Items (необработанные изображения, текст, метаданные).
Знания и правила, созданные людьми (Knowledge base, веса признаков).
Ввод от редакторов (Manual Enrichment feedback).

Выходные данные:

Индекс, содержащий классифицированные объекты, их визуальные сигнатуры (Signatures), извлеченные признаки и метаданные.

На что влияет

Конкретные типы контента и ниши: Критическое влияние на E-commerce, моду, дизайн интерьера. Наибольшее влияние на контент, где визуальные характеристики критичны: товары (одежда, обувь, аксессуары, ювелирные изделия, мебель).
Специфические запросы: Влияет на запросы, где пользователь ищет визуальное сходство (поиск по картинке) или уточняет поиск по визуальным атрибутам (цвет, форма).

Когда применяется

Триггеры активации: Процесс анализа активируется при обнаружении нового или обновленного изображения во время краулинга или при загрузке пользователем. Процесс ручного обогащения активируется после программного анализа для обеспечения качества данных перед индексацией.

Пошаговый алгоритм

Процесс А: Анализ и Индексация Контента

Сбор данных: Система получает Content Item.
Предварительная классификация: Текст и метаданные токенизируются. Классификатор сравнивает токены с базой знаний (Reference Records), учитывая веса (Weighting Influence), чтобы определить категорию объекта.
Сегментация изображения: Применяется статистический анализ распределения пикселей или другие алгоритмы (например, Markov Random Field) для отделения объекта от фона.
Выравнивание: Сегментированный объект нормализуется и приводится к каноническому виду с использованием методов вроде PCA (Principal Component Analysis) или Hough transform (для круглых объектов).
Извлечение признаков:
1. Глобальные признаки: Извлекаются цвет (например, через k-means clustering), форма (например, через EHD или RSD) и текстура (например, через Gabor filters) всего объекта.
2. Локальные признаки: Определяются ключевые точки или регионы. Извлекаются дескрипторы (например, HOG, CSH) для этих локальных областей.
Векторизация: Признаки квантуются и объединяются в Signatures.
Ручное обогащение (Верификация): Результаты (например, сегментация или классификация) группируются и отображаются человеку-редактору через Editor Interface. Редактор быстро подтверждает корректные результаты и отклоняет/исправляет некорректные.
Индексация: Верифицированные данные сохраняются в индексе.

Процесс Б: Выполнение Визуального Поиска

Получение ввода: Пользователь предоставляет ввод (изображение, выбор региона, выбор признака).
Анализ запроса: Если введено новое изображение, оно проходит Процесс А (шаги 3-6) для создания сигнатуры запроса.
Измерение сходства: Система сравнивает сигнатуру запроса с индексом, используя функцию расстояния (Distance Function). Эта функция является взвешенной суммой расстояний по отдельным признакам.
Ранжирование и Отображение: Объекты ранжируются на основе общего расстояния и отображаются пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы (Изображение): Пиксельные данные изображений (RGB, HSV, CIE-L*a*b*). Распределение интенсивности пикселей.
Контентные факторы (Текст/Метаданные): Текст, связанный с изображением (название товара, описание, ключевые слова, бренд, цена, категория на исходном сайте).
Системные данные: Reference Records (определения категорий), Knowledge base (словари терминов), веса для классификации и ранжирования.
Пользовательские факторы (Обратная связь): Данные от редакторов для Manual Enrichment. Данные от пользователей для обучения моделей сходства (оценки похожести пар изображений).

Какие метрики используются и как они считаются

Feature Distance (Расстояние между признаками): Числовое значение, измеряющее несходство по конкретному визуальному признаку.
- Цвет: Используется L2 distance между RGB векторами, угол между векторами и нормализация.
- Текст/Метаданные: Используется косинусное сходство векторов IDF (Inverse Document Frequency) scores.
Total Distance (Общее расстояние): Измерение общего несходства между запросом (Q) и изображением в базе (D). Рассчитывается как взвешенная сумма расстояний по отдельным признакам: TotalDistance(Q,D) = sum(Distance(Q,D,i) * w(i)).
Веса (w(i)): Коэффициенты важности для каждого признака. Определяются с помощью машинного обучения (например, Linear Discriminant Analysis, LDA или регрессии) на основе человеческих оценок сходства.
Дескрипторы признаков:
- EHD (Edge Histogram Distribution): Гистограммы распределения границ.
- HOG (Histogram of Oriented Gradients): Гистограммы распределения направлений градиентов.
- CSH (Color Spatial Histogram): Гистограммы цветов с учетом пространственного расположения.

Выводы

Фундамент визуального поиска Google: Этот патент описывает базовую инфраструктуру, необходимую Google для понимания визуального контента в масштабе, особенно для продуктов и электронной коммерции. Это основа для Google Images, Shopping и Lens.
Критичность сегментации: Успешный анализ изображения начинается с точной сегментации (отделения объекта от фона). Если сегментация не удалась, извлечение признаков (Feature Extraction) будет неточным, что приведет к плохому ранжированию в визуальном поиске.
Гибридный подход к классификации: Система использует как визуальные данные, так и текст/метаданные для определения типа объекта. Метаданные (бренд, описание, категория на сайте) играют важную роль в классификации и могут быть взвешены (Weighting Influence) на основе источника.
Многомерное понимание внешнего вида: Google не просто сопоставляет изображения. Он разбирает их на компоненты: глобальные и локальные признаки (цвет, форма, текстура). Сходство (Similarity) рассчитывается как сложная взвешенная комбинация этих признаков.
Машинное обучение для определения сходства: Веса, определяющие, что считать «похожим» (например, насколько важен цвет по сравнению с формой), не задаются жестко, а изучаются с помощью машинного обучения (LDA, регрессия) на основе человеческих оценок.
Важность ручной верификации (Manual Enrichment): Патент подчеркивает, что автоматические алгоритмы ошибаются. Для обеспечения качества Google использует высокопроизводительные интерфейсы, позволяющие людям быстро проверять и исправлять ошибки автоматизации в пакетном режиме.

Практика

Best practices (это мы делаем)

Обеспечение чистой сегментации изображений: Используйте высококачественные изображения товаров на чистом, контрастном фоне (предпочтительно белом или однотонном). Это критически важно, так как Image Segmentation является первым шагом анализа. Четкое разделение переднего и заднего плана облегчает извлечение точных признаков.
Предоставление богатых и точных метаданных: Обеспечьте точные и описательные названия, описания, бренды и категории товаров. Система использует эти данные (Metadata Features) для классификации объекта (Object Determinator) и как один из факторов в измерении сходства. Используйте релевантные термины и «buzzwords» для описания визуальных характеристик.
Использование стандартных ракурсов (Alignment): Фотографируйте товары в ожидаемых, канонических ракурсах. Это помогает процессу Alignment и гарантирует корректное сравнение формы объекта с другими товарами в индексе.
Оптимизация под локальные признаки: Убедитесь, что ключевые детали и текстуры товара четко видны на изображениях. Это позволяет системе точно определить Local Features (например, с помощью HOG или CSH), что важно для поиска по деталям.

Worst practices (это делать не надо)

Использование «зашумленных» или сложных фонов: Изображения на сложном фоне или с плохим освещением затрудняют сегментацию. Это может привести к неправильной индексации визуальных характеристик товара или потребовать ручного вмешательства.
Неточное или спамное описание товара: Использование нерелевантных ключевых слов или неточных описаний может привести к ошибкам классификации и ухудшить ранжирование, так как текстовые данные используются наряду с визуальными.
Игнорирование визуального качества ради размера файла: Чрезмерное сжатие изображений или низкое разрешение может уничтожить важные детали текстуры и формы, которые используются дескрипторами признаков.
Использование одного изображения для нескольких цветовых вариантов: Если товар доступен в разных цветах, необходимо предоставлять отдельные изображения для каждого варианта, чтобы система могла корректно извлечь Color Features.

Стратегическое значение

Патент подтверждает стратегическое направление Google на развитие поиска, выходящего за рамки текста. Для e-commerce это означает, что оптимизация изображений становится таким же важным элементом SEO, как и текстовый контент. Google стремится понимать продукты так же, как их видят покупатели, позволяя искать по внешнему виду, цвету, стилю и форме. Долгосрочная стратегия должна включать управление цифровыми активами с фокусом на качество, консистентность и полноту метаданных изображений для обеспечения их максимальной видимости в системах визуального поиска.

Практические примеры

Сценарий: Оптимизация карточки товара для визуального поиска (например, кроссовок)

Действие (Изображение): Загрузить главное изображение кроссовка в профиль на чистом белом фоне.
Обоснование (Патент): Это облегчает Image Segmentation (отделение от фона) и Alignment (приведение к каноническому виду), что является первыми шагами анализа.
Действие (Текст и Метаданные): В названии указать бренд, модель и ключевые характеристики. В описании и атрибутах (включая микроразметку) точно указать цвета, материалы и особенности дизайна.
Обоснование (Патент): Object Determinator использует эти данные для классификации. Metadata Features используются в расчете сходства наряду с визуальными признаками.
Ожидаемый результат: Система точно сегментирует кроссовок, извлечет корректные визуальные признаки (форму подошвы, цвета элементов) и классифицирует его. Это повысит шансы товара появиться в релевантных результатах Google Shopping и при поиске похожих товаров через Google Lens или Image Search.

Вопросы и ответы

Насколько важен фон изображения согласно этому патенту?

Он критически важен. Патент описывает процесс Image Segmentation, целью которого является отделение объекта от фона. Для этого используются алгоритмы, которые часто полагаются на статистический анализ пикселей. Чистый, контрастный фон значительно повышает точность сегментации, что, в свою очередь, обеспечивает корректное извлечение визуальных признаков и улучшает видимость в визуальном поиске.

Как система определяет цвет объекта?

Система использует алгоритмы кластеризации, такие как k-means clustering, на пикселях сегментированного объекта. Это позволяет определить доминирующие цвета и их веса (процентное соотношение). Также упоминается возможность создания перцептивного цветового пространства, где оттенки соотносятся с названиями цветов (например, «оранжевый»).

Учитывает ли система текст в описании товара при визуальном поиске?

Да, безусловно. Патент описывает компонент Metadata Features. Система извлекает термины из названия, описания, бренда и использует IDF (Inverse Document Frequency) для оценки их важности. Сходство по метаданным (Metadata Distance) является одним из компонентов при расчете общего сходства (Total Distance) между товарами.

Что такое глобальные и локальные признаки и зачем они нужны?

Global Features описывают объект в целом (например, общий цвет платья или его форма). Local Features описывают отдельные части или ключевые точки (например, узор на ткани или форма каблука). Использование локальных признаков позволяет пользователям выполнять поиск по части изображения (например, искать все туфли с определенным типом каблука).

Как Google определяет, что считать «похожим» товаром?

Сходство рассчитывается как Total Distance — взвешенная сумма расстояний по различным признакам (цвет, форма, текстура, метаданные). Веса для этих признаков не фиксированы; они определяются с помощью машинного обучения (например, LDA) на основе человеческих оценок того, какие пары товаров люди считают похожими.

Что подразумевается под «ручным обогащением» (Manual Enrichment)?

Это процесс контроля качества. Поскольку автоматические алгоритмы могут ошибаться, система предоставляет интерфейс (Editor Interface), где люди-редакторы видят множество результатов работы алгоритма одновременно (например, результаты сегментации). Редакторы быстро просматривают их и отмечают ошибки. Это позволяет Google поддерживать высокую точность данных в индексе.

Влияет ли этот патент на обычный веб-поиск или только на Google Images/Shopping?

Основное влияние — на системы визуального поиска (Images, Shopping, Lens). Однако, поскольку результаты из этих вертикалей часто подмешиваются в основную выдачу (Universal Search), улучшение понимания изображений косвенно влияет и на обычный веб-поиск, особенно по коммерческим и товарным запросам.

Как система обрабатывает изображения, загруженные пользователем для поиска?

Патент описывает обработку Unprocessed Image Input. Когда пользователь загружает новое изображение, оно проходит тот же конвейер анализа: сегментацию, выравнивание и извлечение признаков. Полученная визуальная сигнатура затем используется как запрос для поиска похожих изображений в существующем индексе.

Что такое HOG и EHD, упоминаемые в патенте?

Это технические методы извлечения признаков формы и текстуры. HOG (Histogram of Oriented Gradients) анализирует градиенты изображения для определения формы. EHD (Edge Histogram Distributions) анализирует распределение границ (углов). Для SEO-специалиста это означает, что система детально анализирует контуры и структуру объектов на изображениях, а не только их цвет.

Как система распознает объекты на некоммерческих изображениях (например, одежду на фото в блоге)?

Патент описывает механизм для этого. Система может использовать детекторы объектов (например, детектор лиц). Обнаружение лица служит подсказкой (маркером) для поиска одежды (например, система знает, что одежда находится ниже лица). Затем применяются алгоритмы сегментации для выделения одежды, после чего извлекаются признаки для поиска похожих товаров.