
Система Google для визуального поиска товаров, которая анализирует изображения, извлекая глобальные и локальные признаки (цвет, форма, текстура). Патент описывает, как это позволяет пользователям искать похожие товары, выделяя конкретные части объекта (например, узор на сумке или форму каблука), используя технологию, лежащую в основе Google Lens.
Патент решает проблему ограниченности традиционного поиска изображений, который полагается преимущественно на текстовые метаданные или только на глобальные визуальные признаки (Global Features) всего изображения. Это не позволяет пользователю искать по конкретным визуальным атрибутам или уточнять поиск, выбирая специфические части (sub-regions или portions) объекта на изображении-запросе. Основная задача — обеспечить гранулярный визуальный поиск (Content-based Image Retrieval, CBIR), особенно актуальный для e-commerce.
Запатентована система и метод для поиска изображений, сфокусированный на анализе и поиске по локальным частям объектов. Система включает конвейер индексации, который выполняет сегментацию изображений, выравнивание объектов и извлечение как глобальных, так и локальных визуальных признаков (Local Features). Ключевым элементом является возможность пользователя указать конкретный регион на изображении в качестве поискового запроса и получить результаты, где соответствующие объекты имеют схожие локальные признаки в указанной части.
Система работает в двух основных фазах:
Image Segmentation) и нормализует их вид (Alignment). Затем происходит извлечение признаков (Feature Extraction): определяются общие признаки (цвет, форма, текстура) и локальные признаки на основе ключевых точек или регионов (используя дескрипторы типа HOG, CSH). Эти данные сохраняются в индексе как визуальные сигнатуры (Signatures).Similarity Search) путем сравнения дистанции (Feature Distance) между признаками запроса и признаками в индексе. Результаты ранжируются и могут быть уточнены пользователем через механизмы обратной связи (слайдеры, выбор цвета).Критически высокая. Описанные технологии лежат в основе современных систем визуального поиска, таких как Google Lens и поиск по картинкам, особенно в контексте онлайн-шоппинга. Извлечение локальных признаков и поиск по частям объекта являются стандартом для идентификации товаров по фотографиям в 2025 году. Участие ключевых фигур в области компьютерного зрения (Navneet Dalal, Vincent Vanhoucke) подчеркивает фундаментальность патента.
Патент имеет высокое значение (85/100) для SEO, особенно в e-commerce. Он описывает техническую инфраструктуру, позволяющую Google понимать и ранжировать товары на основе их внешнего вида, а не только текстовых данных. Это напрямую влияет на оптимизацию для Google Images, Google Shopping и Google Lens. Понимание механизмов сегментации и извлечения признаков дает конкретные указания по оптимизации изображений товаров для улучшения их видимости в визуальном поиске.
Примечание: Поскольку полный текст раздела Claims (Формула изобретения) отсутствует в предоставленном PDF, анализ основан на Abstract и Detailed Description, которые описывают ядро изобретения.
Ядро изобретения 1: Поиск по частям объектов.
Система позволяет выполнять поиск по частям (portions) объектов на изображениях. Это достигается путем программного анализа коллекции изображений для определения визуальных характеристик, которые представляют одну или несколько частей объекта на каждом изображении. Пользователю предоставляется возможность указать критерии поиска, включающие Image Data (т.е. визуальный ввод или выбор региона), и система определяет результат поиска на основе изображений, содержащих объект, часть которого удовлетворяет пороговому значению, определяемому критериями поиска.
Ядро изобретения 2: Извлечение и использование локальных признаков.
Система реализует механизм Feature Extraction, который определяет как Global Features, так и Local Features. Для извлечения локальных признаков система идентифицирует регионы изображения (Image Regions) или ключевые точки (Key Points) и вычисляет дескрипторы (например, HOG, CSH) вокруг этих точек/регионов. Эти локальные дескрипторы фиксируют форму, цвет или текстуру в конкретной области и используются для измерения сходства (Similarity Measurement) между выбранным регионом запроса и регионами изображений в базе данных.
Ядро изобретения 3: Пользовательский интерфейс для визуального поиска и обратной связи.
Система включает пользовательский интерфейс, позволяющий пользователю уточнять визуальный поиск. Это включает возможность выбора локального региона (Local Region Selection) на изображении запроса (например, обвести часть объекта). Также предоставляются механизмы обратной связи (Relevance Feedback), такие как слайдеры (Sliders) для изменения весов различных признаков (цвет, форма, текстура) и инструменты выбора цвета (Color Picker), позволяющие пользователю модифицировать результаты поиска в реальном времени.
Изобретение охватывает несколько ключевых этапов поисковой архитектуры, фокусируясь на глубоком анализе изображений и обеспечении визуального поиска.
CRAWLING – Сканирование и Сбор данных
Модуль Procurement отвечает за сбор контента (Content Items), включающего изображения, текст и метаданные, с различных источников, включая e-commerce сайты, блоги и медиа-ресурсы. Также обрабатываются загрузки пользователей и триггеры с внешних сайтов.
INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Система (Content Analysis System) выполняет глубокую обработку собранного контента:
Image Segmentizer отделяет объект от фона. Alignment приводит объект к каноническому виду.Object Determinator классифицирует объект, используя анализ текста/метаданных (Text/Metadata Analysis) и анализ изображения (Object Image Data Analysis).Global Features (цвет, форма, текстура) и Local Features. Для локальных признаков определяются Key Points/Regions и вычисляются дескрипторы (HOG, CSH).Vectorization/Signatures) и переводятся в текст (Text Translate).Indexer генерирует Index Data для хранения в индексе.На этом этапе также применяется Manual Enrichment через Editor Interface для контроля качества сегментации и классификации.
QUNDERSTANDING – Понимание Запросов
Query Generator на фронт-энде интерпретирует вводимые пользователем данные. Это может быть текст, загруженное изображение (unprocessed image), выбор существующего изображения (processed image), выбор части изображения или указание визуальных атрибутов (image value input). Если вводится необработанное изображение, оно проходит анализ для извлечения признаков.
RANKING – Ранжирование (Визуальный поиск)
Модуль Search выполняет поиск по сходству (Similarity Search) в индексе. Он сравнивает сигнатуру запроса с сигнатурами в базе данных, используя метрики расстояния (Distance functions). Патент описывает использование взвешенных комбинаций расстояний по разным признакам (цвет, форма, текстура, метаданные) для расчета общей оценки несходства (Total Distance).
RERANKING – Переранжирование
Механизмы обратной связи (слайдеры, выбор цвета) позволяют пользователю изменять веса признаков, что функционирует как механизм переранжирования в реальном времени (часто на стороне клиента).
items of commerce or merchandise).Процесс А: Индексирование и анализ контента (Офлайн)
Markov Random Field) для отделения объекта от фона.Manual Enrichment) для подтверждения качества.Principal Component Analysis или Hough transform).k-means clustering), формы (например, EHD) и текстуры (например, фильтры Габора).HOG или CSH).Процесс Б: Обработка визуального поискового запроса (Онлайн)
feature distances) между признаками запроса и признаками в базе (используя L1, L2 метрики и т.д.).Total Distance) путем взвешенной комбинации расстояний по разным признакам.Object Determinator) и извлечения Metadata Features. Также используется информация об источнике (домене) контента.Manual Enrichment) и для сбора данных о субъективном восприятии сходства (perceptual similarity judgments) для обучения моделей ранжирования.Система использует набор метрик для представления признаков и расчета сходства.
Представление признаков (Метрики):
k-means clustering в цветовом пространстве. Результат — список доминирующих цветов и их весов.Расчет сходства (Метрики расстояния):
w(i) могут определяться с помощью машинного обучения (например, Linear Discriminant Analysis, LDA) на основе человеческих оценок сходства.Signatures). Для e-commerce это означает, что внешний вид продукта напрямую влияет на его видимость в визуальном поиске.Feature Extraction) критически зависит от качества сегментации (отделения объекта от фона) и выравнивания (Alignment). Изображения с четкими границами и чистым фоном имеют преимущество в этой системе.Local Features), используя ключевые точки или регионы. Это позволяет выполнять узкоспециализированные запросы (например, поиск по узору на сумке или форме каблука), что открывает новые пути для поиска товаров.Similarity) определяется не одним признаком, а взвешенной комбинацией глобальных, локальных признаков и метаданных. Веса для этой комбинации могут обучаться на основе пользовательских оценок сходства.Relevance Feedback). Пользовательские интерфейсы (слайдеры, выбор цвета, выбор региона) позволяют динамически изменять веса признаков в запросе, делая визуальный поиск интерактивным процессом.Metadata Features) играют важную роль в классификации объектов и как один из компонентов в расчете общего сходства (используя IDF).Segmentation, которая является основой для всего последующего анализа.Local Features, увеличивая шансы показа товара при поиске по части объекта.Metadata Features) для классификации и как один из факторов сходства. Используйте релевантные "buzzwords" (ключевые фразы, описывающие стиль), так как патент упоминает их важность.Object Determinator корректно классифицировать товар.Alignment) привести объект к каноническому виду для более точного сравнения.Segmentation. Система может ошибочно принять часть фона за часть объекта.HOG, EHD).Feature Extraction и негативно повлиять на расчет визуального сходства, так как система может принять их за часть текстуры или формы объекта.Этот патент подчеркивает стратегическую важность визуального контента в поиске, особенно для электронной коммерции. Он закладывает основу для того, как Google интерпретирует и индексирует мир физических товаров с помощью технологий компьютерного зрения. Долгосрочная SEO-стратегия должна рассматривать изображения не просто как дополнение к тексту, а как основные объекты для поиска. Инвестиции в качество и организацию фотоконтента становятся прямой инвестицией в SEO, обеспечивая видимость в платформах визуального поиска (Google Images, Google Shopping, Google Lens).
Сценарий: Оптимизация карточки товара для визуального поиска (на примере кроссовок)
Segmentation (отделение от фона) и Alignment (приведение к стандартному виду), что является базой для корректного извлечения Global Features (общей формы и цвета).Local Features из этих ключевых регионов. Если пользователь будет искать через Google Lens, выделив только подошву (Local Region Selection), система сможет сопоставить этот запрос с вашим товаром.Metadata Features и использует их для классификации и ранжирования. Точное описание визуальных атрибутов помогает системе сопоставить текстовые данные с визуальными признаками.Что такое сегментация (Segmentation) в контексте этого патента и почему она важна для SEO?
Сегментация — это процесс отделения объекта (например, товара) от фона на изображении. Это критически важный первый шаг в анализе изображения. Для SEO это означает, что использование чистого, контрастного фона напрямую влияет на то, насколько хорошо Google сможет "увидеть" и понять ваш товар. Если сегментация пройдет неудачно (например, из-за сложного фона), все последующие шаги анализа (извлечение цвета, формы) будут некорректными.
В чем разница между глобальными (Global Features) и локальными (Local Features) признаками?
Global Features описывают объект в целом — например, доминирующий цвет платья или его общая форма (А-силуэт). Local Features описывают конкретные детали — например, узор на манжете, форму каблука или дизайн циферблата часов. Патент подчеркивает важность локальных признаков, так как они позволяют пользователям искать товары по конкретным деталям, а не только по общему виду.
Как система определяет локальные признаки?
Система сначала идентифицирует Key Points/Regions (ключевые точки или области) на изображении — это устойчивые и характерные участки (например, углы, границы текстур). Затем вокруг этих точек вычисляются дескрипторы, такие как HOG (Histogram of Oriented Gradients) для формы или CSH (Color Spatial Histogram) для цвета и его расположения. Этот процесс позволяет численно описать внешний вид каждой детали объекта.
Влияет ли текст в описании товара на визуальный поиск, описанный в патенте?
Да, влияет. Патент явно упоминает использование признаков метаданных (Metadata Features), которые включают заголовок, описание, бренд, цену. Эти данные используются для первоначальной классификации объекта (Object Determinator) и как часть общей оценки сходства. Система комбинирует визуальные сигналы и текстовую релевантность для финального ранжирования.
Что означает "Выравнивание" (Alignment) и почему это важно для SEO?
Выравнивание – это приведение объекта на изображении к стандартному, каноническому виду (canonical view). Например, поворот всех изображений туфель так, чтобы они были ориентированы одинаково. Это критически важно, так как облегчает сравнение признаков между разными изображениями. Если ваши изображения представлены в нестандартных ракурсах, точность извлечения признаков может снизиться.
Нужно ли загружать отдельные изображения для каждого цвета товара?
Да, это настоятельно рекомендуется. Хотя патент описывает интерфейс, где пользователь может виртуально "перекрасить" запрос с помощью Color Picker, система работает путем поиска объектов в базе данных, которые уже обладают этим цветом. Чтобы гарантировать нахождение вашего товара по запросу с уточненным цветом, необходимо иметь проиндексированное изображение именно этого цветового варианта.
Как система обрабатывает изображения, на которых показано несколько товаров?
Процесс сегментации может выделять несколько объектов переднего плана. Патент упоминает, что система может отделять объекты друг от друга (например, галстук от пиджака). Однако изображения с несколькими перекрывающимися объектами сложнее для обработки, и точность идентификации отдельных товаров может быть ниже, чем у стандартных товарных фотографий с одним объектом.
Как этот патент связан с Google Lens?
Этот патент описывает фундаментальные технологии, которые используются в Google Lens, особенно для шоппинга. Возможность навести камеру на объект, выделить его часть (например, узор на сумке) и найти похожие товары в интернете напрямую реализует описанные в патенте механизмы сегментации, извлечения локальных признаков и поиска по части объекта.
Может ли эта система анализировать изображения на моем сайте «на лету»?
Да. Патент описывает механизмы для анализа изображений на сторонних веб-страницах (Pre-Analysis), идентификации объектов интереса (например, одежды на людях с использованием детекции лиц) и активации этих областей. Это позволяет инициировать визуальный поиск непосредственно с изображения на сайте, даже если оно ранее не было полностью проиндексировано.
Что такое "Manual Enrichment" и как он используется?
Manual Enrichment — это процесс ручной проверки и исправления результатов работы алгоритмов людьми-операторами. Например, операторы подтверждают правильность автоматической сегментации или классификации товаров. Это используется Google для повышения точности системы, контроля качества данных в индексе визуального поиска и сбора данных для обучения ML-моделей.

Индексация
Мультимедиа

Мультимедиа
Ссылки

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
SERP

Мультимедиа
Google Shopping
Индексация

Семантика и интент
SERP
Поведенческие сигналы

Knowledge Graph
Семантика и интент
EEAT и качество

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Ссылки

Семантика и интент
SERP
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Ссылки
SERP
