Как Google анализирует визуальные характеристики товаров для построения системы визуального поиска (Visual Search)

Детальный анализ патента, описывающего фундаментальные технологии визуального поиска (Content-Based Image Retrieval). Патент раскрывает полный цикл обработки изображений: сегментацию объектов, выравнивание, извлечение локальных и глобальных визуальных признаков (цвет, форма, текстура) и их индексацию в виде сигнатур. Описаны механизмы поиска по визуальному сходству и интерфейсы для уточнения запросов, критически важные для SEO в e-commerce.

Описание

Какую задачу решает

Патент решает фундаментальную проблему традиционного поиска изображений, который полагается преимущественно на текстовые метаданные и окружающий текст, а не на фактическое визуальное содержание изображения. Он устраняет разрыв между тем, как пользователи воспринимают изображения (визуально), и тем, как поисковые системы их индексируют (текстуально). Основная задача — создать систему, способную понимать визуальные характеристики объектов на изображениях (особенно товаров) и предоставлять пользователям возможность поиска по визуальному сходству (Content-based Image Retrieval, CBIR), включая уточнение поиска по конкретным признакам (цвет, форма) или частям объекта.

Что запатентовано

Запатентована комплексная система для распознавания изображений и обеспечения визуального поиска. Ядром изобретения является автоматизированный анализ изображений для определения и количественной оценки визуальных характеристик (visual characteristics) представленных на них объектов. Система включает механизмы для извлечения этих характеристик, их индексации в виде signatures (векторов) и предоставления пользовательского интерфейса, позволяющего выполнять поиск и уточнять результаты на основе визуального сходства, а не только текста.

Как это работает

Система функционирует как полный конвейер обработки и поиска изображений:

Сбор данных (Procurement): Система собирает контент (изображения и метаданные), например, сканируя сайты электронной коммерции.
Анализ контента (Content Analysis): Изображения сегментируются (отделение объекта от фона), выравниваются в канонический вид. Определяется класс объекта (Object Determinator), часто с помощью комбинации текста и визуального анализа.
Извлечение признаков (Feature Extraction): Система извлекает глобальные признаки (общий цвет, форма, текстура) и локальные признаки (характеристики ключевых точек или регионов).
Индексация: Визуальные признаки преобразуются в количественные данные (signatures) и индексируются.
Поиск (Search): Пользователь предоставляет поисковый критерий (например, изображение-образец). Система сравнивает признаки запроса с индексом, используя метрики визуального сходства (similarity measurements).
Интерфейс и обратная связь (User-Interface): Результаты представляются пользователю, который может уточнить их с помощью инструментов обратной связи (Relevance Feedback), например, слайдеров для изменения веса цвета/формы или выбора региона интереса.

Актуальность для SEO

Критически высокая. Описанные технологии являются фундаментом современных систем визуального поиска, таких как Google Lens, Google Images и Google Shopping. Визуальный поиск стал ключевым элементом пользовательского опыта, особенно в e-commerce. Методы извлечения признаков (Feature Extraction) и поиска по сходству (CBIR), описанные здесь, хотя и эволюционировали (например, с переходом к глубокому обучению и эмбеддингам), концептуально остаются основой работы Google с изображениями.

Важность для SEO

Влияние на SEO, особенно для e-commerce, огромно (95/100). Патент объясняет, как именно поисковая система «видит» и сравнивает товары. Понимание механизмов сегментации, выравнивания и извлечения визуальных признаков напрямую влияет на оптимизацию изображений товаров. Если система не может корректно сегментировать товар или извлечь его ключевые признаки из-за плохого качества изображения, товар не будет эффективно ранжироваться в визуальном поиске, Google Shopping и Google Images.

Детальный разбор

Термины и определения

CBIR (Content-based Image Retrieval): Поиск изображений на основе визуального содержания, а не текстуальных метаданных.
Feature (Признак): Визуальная характеристика изображения или объекта (цвет, форма, текстура). Признак извлекается, когда он идентифицирован и представлен в виде данных (количественных или текстовых), отдельных от самого изображения.
Global Features (Глобальные признаки): Признаки, описывающие объект в целом (например, доминирующий цвет, общая форма).
Local Features (Локальные признаки): Признаки, локализованные в определенной части или регионе изображения (например, форма каблука у туфли).
Segmentation (Сегментация): Процесс разделения изображения на передний план (объект) и фон. Критически важен для точного анализа объекта.
Alignment (Выравнивание): Процесс нормализации ориентации сегментированного изображения в канонический вид (canonical view) для облегчения сравнения.
Signature (Сигнатура): Количественное представление (часто вектор) набора признаков объекта. Используется для индексации и сравнения.
Object Determinator (Определитель объекта): Модуль, который определяет информацию об объекте (например, классификацию), используя анализ изображения, текст, метаданные или их комбинацию.
Manual Enrichment (Ручное обогащение): Процесс использования операторов (human editors) для подтверждения, исправления или дополнения результатов автоматического анализа (например, проверки качества сегментации).
HOG (Histogram of Oriented Gradients): Дескриптор признаков, используемый для обнаружения объектов. Основан на гистограмме ориентированных градиентов в локальных областях изображения.
EHD (Edge Histogram Distributions): Дескриптор, представляющий локальное распределение границ (edges) на изображении. Используется для описания формы и текстуры.
Similarity Measurement (Измерение сходства): Количественная оценка визуального сходства между двумя изображениями, часто основанная на расстоянии между их векторами признаков (feature distance).
Relevance Feedback (Обратная связь по релевантности): Механизм (например, слайдеры), позволяющий пользователю уточнять результаты поиска путем изменения весов различных визуальных признаков.

Ключевые утверждения (Анализ Claims)

Примечание: US20100166339A1 — это заявка на патент (Application Publication), а не выданный патент (Grant). Анализ основан на Claims, приведенных в конце документа.

Claim 1 (Независимый пункт): Описывает основной метод обеспечения поиска по визуальным характеристикам.

Система программно анализирует множество изображений для определения одной или нескольких визуальных характеристик (visual characteristics) объекта на каждом изображении.
Система сохраняет данные, соответствующие этим визуальным характеристикам.
Предоставляется интерфейс, где пользователь может указать один или несколько критериев поиска.
В ответ на получение критериев выполняется операция поиска для идентификации одного или нескольких объектов, обладающих визуальной характеристикой, удовлетворяющей хотя бы части критериев поиска.

Claim 3 (Зависимый от 1): Уточняет тип ввода пользователя.

Интерфейс позволяет пользователю предоставить количественный ввод (quantitative input) в качестве критерия поиска (например, выбор цвета или позицию слайдера).

Claim 6 (Зависимый, в патенте ошибка нумерации, вероятно зависим от 1 или 8): Описывает комбинированный поиск.

Интерфейс позволяет пользователю указать критерии поиска, включающие комбинацию указанного изображения и одного или нескольких признаков (цвет, форма или узор).

Claim 8 (Зависимый, в патенте ошибка нумерации, вероятно зависим от 1): Уточняет источник ввода изображения.

Интерфейс позволяет пользователю указать изображение из предыдущего результата поиска в качестве критерия поиска (поиск похожих на результат).

Claim 12 и 13 (Зависимые от 1): Уточняют формат хранения данных.

Информация, полученная в результате программного анализа, сохраняется как количественное значение (quantitative value), которое соответствует одной или нескольким сигнатурам (signatures), описывающим объект.

Claim 15 (Зависимый от 1): Уточняет формат хранения данных.

Хранение данных включает сохранение текстовых терминов, описывающих визуальные характеристики, причем эти термины определяются на основе программного анализа изображений (например, автоматическое тегирование цвета).

Где и как применяется

Изобретение охватывает почти все этапы поисковой архитектуры, формируя полноценную систему визуального поиска.

CRAWLING – Сканирование и Сбор данных
Модуль Procurement отвечает за сбор контента. Он может сканировать сеть (например, сайты e-commerce), получать фиды или обрабатывать загрузки пользователей (user-input) и контент с внешних сайтов (trigger input).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента, выполняемый системой Content Analysis.

Сегментация и Выравнивание: Image Segmentizer отделяет объект от фона. Alignment process приводит объект к каноническому виду.
Классификация: Object Determinator использует текст/метаданные (Text/Metadata Analyzer) и анализ изображения (Image Data Analysis) для классификации объекта. Упоминается использование машинного обучения (support vector machines, neural networks).
Извлечение Признаков (Feature Extraction): Извлекаются Global Features (цвет, форма, текстура) и Local Features (на основе key points или регионов). Используются дескрипторы типа HOG, EHD.
Векторизация и Индексация: Признаки квантифицируются (Vector Generator) в Signatures. Text Translator также может преобразовывать визуальные признаки в текст. Indexer создает индексные данные.

QUNDERSTANDING – Понимание Запросов
Query Generator на фронтенде преобразует вводы пользователя (текст, выбор изображения, выбор признака, загрузка нового изображения) в структурированный запрос. Если пользователь загружает новое изображение (Unprocessed Image Input), оно сначала проходит анализ (Content Analysis) для извлечения признаков, которые затем используются в запросе.

RANKING – Ранжирование
Модуль Search выполняет поиск по индексу. Ранжирование основано на измерении визуального сходства (Similarity Measurement). Патент описывает методы расчета расстояния (feature distance) между признаками запроса и признаками в индексе. Используется взвешенная комбинация расстояний различных признаков (формула TotalDistance(Q,D) = sum(Distance(Q,D,i)*w(i))). Веса могут определяться с помощью Linear Discriminant Analysis (LDA).

RERANKING – Переранжирование
Переранжирование происходит, когда пользователь использует инструменты обратной связи (Relevance Feedback), такие как слайдеры, выбор цвета или выбор региона. В случае слайдеров переранжирование может происходить на стороне клиента за счет изменения весов (w(i)) в формуле расстояния, используя предварительно загруженные данные о расстояниях.

На что влияет

Типы контента: В первую очередь влияет на изображения товаров в e-commerce (одежда, обувь, аксессуары, ювелирные изделия, предметы интерьера). Также влияет на изображения людей (например, на блогах или новостных сайтах) для идентификации одежды на них.
Специфические запросы: Запросы по визуальному сходству («найти похожее»), запросы с уточнением визуальных атрибутов («такое же, но синее»), запросы по части изображения («найти сумку с такой пряжкой»).
Конкретные ниши: Наибольшее влияние в нишах, где визуальные характеристики являются определяющими: мода (Fashion), дизайн интерьера, ювелирные изделия.

Когда применяется

Триггеры активации (Индексация): При обнаружении нового контента (через краулинг или фиды) или при загрузке изображения пользователем для поиска.
Триггеры активации (Поиск): Когда пользователь инициирует визуальный поиск (Likeness Search), выбирает изображение в качестве запроса или использует инструменты визуального уточнения (выбор цвета, региона).
Активация на внешних сайтах: Система может активироваться на сторонних сайтах (например, блогах) для анализа изображений и создания интерактивных областей (Active Image Portions) вокруг распознанных объектов (например, одежды на знаменитостях).

Пошаговый алгоритм

Процесс А: Индексация контента (Backend)

Сбор: Получение контента (изображение, текст, метаданные) из источника.
Предварительная классификация: Анализ текста и метаданных для определения категории объекта (например, «женская обувь»). Используются Reference records и веса.
Сегментация: Применение статистического анализа распределения пикселей для отделения объекта (foreground) от фона (background).
Валидация сегментации: Опциональное ручное подтверждение качества сегментации через Editor Interface.
Выравнивание: Определение фокусных точек на основе класса объекта и выравнивание изображения в канонический вид (например, по форме эллипсоида или по градиенту для обуви).
Извлечение глобальных признаков: Анализ цвета (например, k-means clustering для определения доминирующих цветов), формы (например, PCA или EHD) и текстуры (например, фильтры Габора).
Извлечение локальных признаков: Нормализация изображения, определение ключевых точек/регионов, вычисление дескрипторов (например, HOG или CSH) вокруг этих точек.
Векторизация и индексация: Преобразование признаков в Signatures (векторы) и сохранение в индексе. Также возможно преобразование признаков в текст.

Процесс Б: Обработка поискового запроса (Runtime)

Получение ввода: Получение критериев поиска от пользователя (текст, изображение, выбор признаков).
Анализ ввода (если это новое изображение): Если введено новое изображение, выполнение шагов 3-7 Процесса А для извлечения его признаков.
Генерация запроса: Формирование поискового запроса, содержащего векторы признаков и/или текстовые ограничения.
Поиск по индексу: Сравнение векторов запроса с векторами в индексе. Расчет расстояний (feature distance).
Ранжирование: Вычисление общего сходства на основе взвешенной суммы расстояний отдельных признаков (TotalDistance). Сортировка результатов.
Отправка результатов: Отправка пользователю отсортированных результатов и (опционально) данных о расстояниях для клиентского уточнения.
Обработка обратной связи (Relevance Feedback): Если пользователь использует слайдеры, пересчет TotalDistance с новыми весами и пересортировка результатов (часто на клиенте). Если используется выбор цвета или региона, генерация нового запроса с модифицированными признаками и повторение шагов 4-6.

Какие данные и как использует

Данные на входе

Контентные факторы (Изображение): Пиксельные данные изображений (RGB, HSV, CIE-L*a*b). Распределение пикселей используется для сегментации. Градиенты и распределение цветов используются для извлечения признаков (HOG, CSH, EHD).
Текстовые и Метаданные факторы: Текст, сопровождающий изображение (название, описание, ключевые слова). Метаданные источника (домен, категория на сайте источника), бренд, цена. Эта информация используется для классификации (Object Determinator) и как Metadata Features при ранжировании.
Пользовательские данные (для обучения и валидации): Данные от операторов (Human Operators) для создания базы знаний классификации (knowledge database), определения весов признаков, валидации сегментации и оценки визуального сходства (perceptual similarity judgments).

Какие метрики используются и как они считаются

Feature Distance (Расстояние между признаками): Численное значение, измеряющее несходство между двумя изображениями по конкретному визуальному признаку. Для цветов может включать L2 расстояние между RGB векторами и угол между векторами. Для дескрипторов (HOG, CSH) используются метрики L2, L1, L-infinity или коэффициент Бхаттачарьи.
TotalDistance (Общее расстояние): Метрика общего несходства. Рассчитывается как взвешенная сумма расстояний отдельных признаков: TotalDistance(Q,D) = sum(Distance(Q,D,i)*w(i)).
IDF (Inverse Document Frequency): Используется для оценки важности текстовых терминов в метаданных. Редкие термины считаются более важными для определения сходства.
Веса признаков (w(i)): Коэффициенты, определяющие вклад каждого признака (цвет, форма, текстура, метаданные) в общее расстояние. Определяются с помощью машинного обучения (например, LDA, logistic regression) на основе человеческих оценок сходства или настраиваются пользователем через слайдеры.
Confidence Score (Оценка уверенности): Метрика, используемая при автоматическом распознавании одежды на людях (например, на блогах). Оценивает качество сегментации одежды, учитывая размер региона, количество лиц на фото и т.д.

Выводы

Визуальные характеристики — это индексируемые данные: Google не просто хранит изображения, он извлекает, квантифицирует (в виде векторов/сигнатур) и индексирует конкретные визуальные признаки: цвет, форму, текстуру и узор. Это основа всего визуального поиска.
Сегментация — критический первый шаг: Способность системы отделить объект от фона (Segmentation) является фундаментальной. Если сегментация не удалась (например, из-за сложного фона или низкого контраста), все последующие этапы анализа будут неточными.
Комбинирование визуальных и текстовых сигналов: Система активно использует текст и метаданные (Metadata Features) как для первичной классификации объекта, так и в качестве признака при ранжировании. Визуальное сходство дополняется текстовым соответствием.
Важность канонического вида (Alignment): Система стремится привести объекты к стандартной ориентации для корректного сравнения. Это особенно важно для товаров, которые могут быть сфотографированы под разными углами (обувь, ювелирные изделия).
Гибкое взвешивание признаков: Сходство не является абсолютным. Система использует веса для определения важности разных признаков (цвет vs форма). Эти веса могут быть обучены автоматически или скорректированы пользователем (через интерфейс Relevance Feedback), что указывает на адаптивность ранжирования.
Роль ручной валидации и обучения: Патент подчеркивает важность человеческого участия (Manual Enrichment, Human Operators) для обучения классификаторов, валидации автоматических процессов (как сегментация) и определения метрик перцептивного сходства.

Практика

Best practices (это мы делаем)

Обеспечение высококачественных изображений товаров: Используйте изображения высокого разрешения с чистым, контрастным фоном (в идеале белым). Это критически важно для успешной автоматической сегментации (Segmentation) объекта.
Стандартизация ракурсов (Alignment): Фотографируйте товары в стандартных, канонических ракурсах. Если система ожидает увидеть обувь сбоку, предоставляйте именно такой ракурс в основном изображении. Это облегчает процесс выравнивания (Alignment) и корректное извлечение признаков формы.
Оптимизация метаданных и описаний: Текст остается важным сигналом (Metadata Features). Обеспечьте точные и подробные описания товаров, включая визуальные характеристики (цвет, материал, узор, форма). Система использует этот текст для классификации и как дополнительный фактор ранжирования при визуальном поиске.
Демонстрация ключевых деталей (Local Features): Предоставляйте дополнительные изображения, демонстрирующие важные локальные признаки (например, текстуру ткани, фурнитуру сумки). Система извлекает Local Features, и эти детали могут быть использованы при поиске по сходству или по региону.
Использование структурированных данных (Schema.org): Размечайте товары (Product), указывая цвет, бренд, материал и ссылки на изображения (ImageObject). Это помогает системе корректно интерпретировать Metadata Features.

Worst practices (это делать не надо)

Использование сложных, «шумных» фонов: Размещение товаров на неоднородном фоне или в окружении других объектов затрудняет сегментацию и может привести к некорректному извлечению признаков (например, цвета фона могут быть ошибочно приняты за цвета товара).
Низкий контраст между товаром и фоном: Использование серого фона для серого товара ухудшает качество сегментации.
Использование только креативных/нестандартных ракурсов: Если основное изображение товара снято под необычным углом, система может не справиться с выравниванием (Alignment), что ухудшит сравнение с другими товарами.
Игнорирование визуального поиска при оптимизации: Оптимизация только под текстовый поиск и игнорирование качества и структуры изображений приведет к потере трафика из Google Images, Shopping и Lens.
Скудные описания товаров: Отсутствие детальных описаний лишает систему важных Metadata Features, необходимых для точной классификации и ранжирования.

Стратегическое значение

Этот патент подтверждает стратегическую важность изображений как первоклассных объектов поиска, наравне с текстом. Для e-commerce SEO это означает, что оптимизация визуальных активов — это не второстепенная задача, а центральный элемент стратегии. Система, описанная в патенте, позволяет Google понимать и каталогизировать мир товаров на основе их внешнего вида. Стратегия должна включать процессы контроля качества и стандартизации изображений, чтобы гарантировать их максимальную совместимость с алгоритмами сегментации, выравнивания и извлечения признаков Google.

Практические примеры

Сценарий: Оптимизация карточки товара (Кроссовки) для улучшения видимости в визуальном поиске.

Действие (Основное изображение): Загрузить изображение кроссовка на идеально белом фоне (для Segmentation), снятое строго сбоку (для Alignment).
Ожидаемый результат: Система корректно отделяет кроссовок от фона и выравнивает его. Это позволяет точно извлечь глобальные признаки формы и цвета.
Действие (Дополнительное изображение): Загрузить макро-фотографию текстуры материала и подошвы.
Ожидаемый результат: Система извлекает Local Features и Texture Features. Товар лучше ранжируется по запросам, где пользователи ищут схожую текстуру или специфический узор подошвы.
Действие (Текст и метаданные): В описании указать «Кроссовки для бега, цвет: неоново-зеленый с черными полосками, материал: дышащая сетка». Разметить это через Schema.org.
Ожидаемый результат: Система использует эти данные как Metadata Features. Это улучшает классификацию и повышает релевантность при комбинированных запросах (текст + изображение) или при фильтрации по цвету.

Вопросы и ответы

Насколько важно иметь белый фон на изображениях товаров согласно этому патенту?

Это критически важно. Патент описывает процесс сегментации (Segmentation) — отделения объекта от фона — как ключевой этап анализа. Для этого используются методы, основанные на анализе распределения пикселей и контраста. Чистый, контрастный фон (например, белый) значительно повышает точность автоматической сегментации. Сложный или схожий по цвету с товаром фон может привести к ошибкам, из-за чего визуальные признаки товара будут определены неверно.

Что такое «Выравнивание» (Alignment) и как оно влияет на SEO изображений?

Выравнивание — это процесс приведения объекта на изображении к стандартному, каноническому виду (ориентации). Например, система стремится развернуть все туфли носком в одну сторону. Это необходимо для корректного сравнения форм разных объектов. Для SEO это означает, что основное изображение товара должно быть снято в стандартном ракурсе, чтобы система могла легко его выровнять и сравнить с другими товарами в индексе.

В чем разница между глобальными и локальными признаками, и какие важнее?

Глобальные признаки (Global Features) описывают объект целиком (общий цвет, форма, текстура). Локальные признаки (Local Features) описывают детали в конкретных областях (например, фурнитура, узор на части ткани). Важны оба типа. Глобальные используются для общего поиска по сходству, а локальные позволяют находить объекты с похожими деталями, даже если общая форма отличается.

Как система использует текст (описания товаров) при визуальном поиске?

Текст и метаданные используются двояко. Во-первых, они помогают на этапе индексации классифицировать объект (понять, что это — туфля или сумка) с помощью Object Determinator. Во-вторых, они используются как отдельный признак (Metadata Features) при расчете сходства. Система комбинирует визуальное и текстовое сходство для финального ранжирования.

Патент упоминает «Сигнатуры» (Signatures). Что это и как они используются?

Сигнатура — это компактное количественное представление (обычно вектор) визуальных признаков объекта. Это «визуальный отпечаток» товара. Вместо того чтобы сравнивать миллионы пикселей, система сравнивает эти сигнатуры, используя метрики расстояния (feature distance), чтобы быстро определить, насколько два товара похожи друг на друга.

Что означают слайдеры (Color/Shape/Pattern) в интерфейсе визуального поиска?

Это механизм обратной связи (Relevance Feedback). Слайдеры позволяют пользователю изменять веса (w(i)) различных признаков в формуле расчета сходства. Например, если пользователь сдвигает слайдер «Shape» вверх, а «Color» вниз, система будет отдавать приоритет объектам с похожей формой, игнорируя различия в цвете.

Как система определяет доминирующий цвет товара?

Патент предлагает использовать алгоритм кластеризации k-средних (k-means clustering) в цветовом пространстве (например, RGB). Пиксели объекта группируются в кластеры. Центры финальных кластеров определяются как доминирующие цвета, а размер кластера определяет вес этого цвета.

Может ли эта система распознавать товары на фотографиях людей (например, в блогах)?

Да. Патент описывает процесс анализа изображений на сторонних сайтах. Он включает этапы обнаружения лиц (Face detection), использования лица как ориентира для поиска одежды, сегментации одежды (Clothing segmentation) с исключением цвета кожи и оценки уверенности в качестве сегментации. Распознанные объекты могут становиться интерактивными для запуска визуального поиска.

Насколько эти технологии актуальны сейчас, учитывая развитие нейронных сетей?

Концепции, описанные в патенте (сегментация, извлечение признаков, индексация, поиск по сходству), остаются фундаментальными. Однако конкретные методы реализации эволюционировали. Если раньше использовались «ручные» дескрипторы (HOG, EHD), то сейчас чаще применяются признаки, извлеченные с помощью глубоких нейронных сетей (эмбеддинги). Тем не менее, общая архитектура системы остается схожей.

Что самое важное действие для улучшения видимости моих товаров в визуальном поиске Google на основе этого патента?

Самое важное — обеспечить идеальные условия для автоматической сегментации. Это означает предоставление высококачественных фотографий товара на чистом, контрастном фоне. Если система не сможет точно определить границы вашего товара, она не сможет корректно извлечь его признаки и сравнить с другими.