SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google разбирает изображения на части для визуального поиска товаров (e.g., Google Lens)

SYSTEM AND METHOD FOR SEARCH PORTIONS OF OBJECTS IN IMAGES AND FEATURES THEREOF (Система и метод поиска частей объектов на изображениях и их признаков)
  • US9008435B2
  • Google LLC
  • 2012-09-14
  • 2015-04-14
  • Мультимедиа
  • Индексация
  • Google Shopping
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Система Google для визуального поиска товаров, которая анализирует изображения, извлекая глобальные и локальные признаки (цвет, форма, текстура). Патент описывает, как это позволяет пользователям искать похожие товары, выделяя конкретные части объекта (например, узор на сумке или форму каблука), используя технологию, лежащую в основе Google Lens.

Описание

Какую проблему решает

Патент решает проблему ограниченности традиционного поиска изображений, который полагается преимущественно на текстовые метаданные или только на глобальные визуальные признаки (Global Features) всего изображения. Это не позволяет пользователю искать по конкретным визуальным атрибутам или уточнять поиск, выбирая специфические части (sub-regions или portions) объекта на изображении-запросе. Основная задача — обеспечить гранулярный визуальный поиск (Content-based Image Retrieval, CBIR), особенно актуальный для e-commerce.

Что запатентовано

Запатентована система и метод для поиска изображений, сфокусированный на анализе и поиске по локальным частям объектов. Система включает конвейер индексации, который выполняет сегментацию изображений, выравнивание объектов и извлечение как глобальных, так и локальных визуальных признаков (Local Features). Ключевым элементом является возможность пользователя указать конкретный регион на изображении в качестве поискового запроса и получить результаты, где соответствующие объекты имеют схожие локальные признаки в указанной части.

Как это работает

Система работает в двух основных фазах:

  • Индексирование (Backend): Система собирает контент (изображения и метаданные), сегментирует объекты от фона (Image Segmentation) и нормализует их вид (Alignment). Затем происходит извлечение признаков (Feature Extraction): определяются общие признаки (цвет, форма, текстура) и локальные признаки на основе ключевых точек или регионов (используя дескрипторы типа HOG, CSH). Эти данные сохраняются в индексе как визуальные сигнатуры (Signatures).
  • Поиск (Frontend): Пользователь предоставляет поисковый ввод, который может включать изображение и выделение конкретного региона на нем. Система генерирует запрос на основе признаков выделенного региона. Выполняется поиск сходства (Similarity Search) путем сравнения дистанции (Feature Distance) между признаками запроса и признаками в индексе. Результаты ранжируются и могут быть уточнены пользователем через механизмы обратной связи (слайдеры, выбор цвета).

Актуальность для SEO

Критически высокая. Описанные технологии лежат в основе современных систем визуального поиска, таких как Google Lens и поиск по картинкам, особенно в контексте онлайн-шоппинга. Извлечение локальных признаков и поиск по частям объекта являются стандартом для идентификации товаров по фотографиям в 2025 году. Участие ключевых фигур в области компьютерного зрения (Navneet Dalal, Vincent Vanhoucke) подчеркивает фундаментальность патента.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO, особенно в e-commerce. Он описывает техническую инфраструктуру, позволяющую Google понимать и ранжировать товары на основе их внешнего вида, а не только текстовых данных. Это напрямую влияет на оптимизацию для Google Images, Google Shopping и Google Lens. Понимание механизмов сегментации и извлечения признаков дает конкретные указания по оптимизации изображений товаров для улучшения их видимости в визуальном поиске.

Детальный разбор

Термины и определения

Alignment (Выравнивание)
Процесс нормализации сегментированного изображения, приведение объекта к каноническому виду (ориентации) для облегчения анализа и извлечения признаков.
CBIR (Content-based Image Retrieval)
Поиск изображений, основанный на визуальном содержимом, а не на текстовых метаданных.
CSH (Color Spatial Histogram)
Гистограммы пространственного распределения цвета. Локальный дескриптор, который фиксирует не только цветовые вариации, но и расположение цветов относительно ключевой точки/региона.
EHD (Edge Histogram Distributions)
Дескриптор распределения границ. Представляет локальное распределение границ (вертикальных, горизонтальных, диагональных) в подизображениях. Используется для захвата формы и текстуры.
Feature Distance (Дистанция признака)
Числовое значение, измеряющее несходство между двумя изображениями относительно конкретного визуального признака (например, цвета или формы).
Feature Extraction (Извлечение признаков)
Процесс идентификации и представления визуальных характеристик изображения (цвета, формы, текстуры) в виде данных (часто векторов или текста), отдельных от самого изображения.
Global Features (Глобальные признаки)
Признаки, описывающие изображение объекта в целом (например, доминирующий цвет, общая форма).
HOG (Histogram of Oriented Gradients)
Гистограммы ориентированных градиентов. Дескриптор формы, основанный на градиентах изображения в локальных регионах.
Image Data (Данные изображения)
Данные, соответствующие дискретным частям захваченного изображения (например, пикселям) или данные, определенные на основе пикселей (например, визуальные сигнатуры или признаки).
Key Points/Regions (Ключевые точки/регионы)
Характерные области изображения с высокой автокорреляцией, которые надежно обнаруживаются даже при изменении угла съемки. Используются как основа для извлечения локальных признаков.
Local Features (Локальные признаки)
Признаки, локализованные в определенной части или регионе сегментированного изображения.
Manual Enrichment (Ручное обогащение)
Процесс использования человеческого труда (операторов/редакторов) для подтверждения, исправления или дополнения программно определенных данных (например, результатов сегментации или классификации).
Segmentation (Сегментация)
Процесс разделения изображения на передний план (объект) и фон.
Signature (Сигнатура)
Векторное (количественное) представление набора признаков для конкретного объекта или его части. Используется для идентификации объекта или описания его характеристик.

Ключевые утверждения (Анализ сути изобретения)

Примечание: Поскольку полный текст раздела Claims (Формула изобретения) отсутствует в предоставленном PDF, анализ основан на Abstract и Detailed Description, которые описывают ядро изобретения.

Ядро изобретения 1: Поиск по частям объектов.

Система позволяет выполнять поиск по частям (portions) объектов на изображениях. Это достигается путем программного анализа коллекции изображений для определения визуальных характеристик, которые представляют одну или несколько частей объекта на каждом изображении. Пользователю предоставляется возможность указать критерии поиска, включающие Image Data (т.е. визуальный ввод или выбор региона), и система определяет результат поиска на основе изображений, содержащих объект, часть которого удовлетворяет пороговому значению, определяемому критериями поиска.

Ядро изобретения 2: Извлечение и использование локальных признаков.

Система реализует механизм Feature Extraction, который определяет как Global Features, так и Local Features. Для извлечения локальных признаков система идентифицирует регионы изображения (Image Regions) или ключевые точки (Key Points) и вычисляет дескрипторы (например, HOG, CSH) вокруг этих точек/регионов. Эти локальные дескрипторы фиксируют форму, цвет или текстуру в конкретной области и используются для измерения сходства (Similarity Measurement) между выбранным регионом запроса и регионами изображений в базе данных.

Ядро изобретения 3: Пользовательский интерфейс для визуального поиска и обратной связи.

Система включает пользовательский интерфейс, позволяющий пользователю уточнять визуальный поиск. Это включает возможность выбора локального региона (Local Region Selection) на изображении запроса (например, обвести часть объекта). Также предоставляются механизмы обратной связи (Relevance Feedback), такие как слайдеры (Sliders) для изменения весов различных признаков (цвет, форма, текстура) и инструменты выбора цвета (Color Picker), позволяющие пользователю модифицировать результаты поиска в реальном времени.

Где и как применяется

Изобретение охватывает несколько ключевых этапов поисковой архитектуры, фокусируясь на глубоком анализе изображений и обеспечении визуального поиска.

CRAWLING – Сканирование и Сбор данных
Модуль Procurement отвечает за сбор контента (Content Items), включающего изображения, текст и метаданные, с различных источников, включая e-commerce сайты, блоги и медиа-ресурсы. Также обрабатываются загрузки пользователей и триггеры с внешних сайтов.

INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Система (Content Analysis System) выполняет глубокую обработку собранного контента:

  1. Сегментация и Выравнивание: Image Segmentizer отделяет объект от фона. Alignment приводит объект к каноническому виду.
  2. Определение объекта: Object Determinator классифицирует объект, используя анализ текста/метаданных (Text/Metadata Analysis) и анализ изображения (Object Image Data Analysis).
  3. Извлечение признаков (Feature Extraction): Извлекаются Global Features (цвет, форма, текстура) и Local Features. Для локальных признаков определяются Key Points/Regions и вычисляются дескрипторы (HOG, CSH).
  4. Генерация данных: Признаки квантуются в векторы/сигнатуры (Vectorization/Signatures) и переводятся в текст (Text Translate).
  5. Индексирование: Indexer генерирует Index Data для хранения в индексе.

На этом этапе также применяется Manual Enrichment через Editor Interface для контроля качества сегментации и классификации.

QUNDERSTANDING – Понимание Запросов
Query Generator на фронт-энде интерпретирует вводимые пользователем данные. Это может быть текст, загруженное изображение (unprocessed image), выбор существующего изображения (processed image), выбор части изображения или указание визуальных атрибутов (image value input). Если вводится необработанное изображение, оно проходит анализ для извлечения признаков.

RANKING – Ранжирование (Визуальный поиск)
Модуль Search выполняет поиск по сходству (Similarity Search) в индексе. Он сравнивает сигнатуру запроса с сигнатурами в базе данных, используя метрики расстояния (Distance functions). Патент описывает использование взвешенных комбинаций расстояний по разным признакам (цвет, форма, текстура, метаданные) для расчета общей оценки несходства (Total Distance).

RERANKING – Переранжирование
Механизмы обратной связи (слайдеры, выбор цвета) позволяют пользователю изменять веса признаков, что функционирует как механизм переранжирования в реальном времени (часто на стороне клиента).

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на изображения товаров в электронной коммерции (одежда, обувь, аксессуары, ювелирные изделия, мебель). Патент явно ориентирован на поиск и идентификацию предметов торговли (items of commerce or merchandise).
  • Специфические запросы: Влияет на визуальные поисковые запросы (поиск по изображению) и запросы, где пользователь хочет найти "что-то похожее на это", особенно когда пользователь уточняет поиск по конкретной части объекта.
  • Конкретные ниши или тематики: Критически важно для ниш Fashion, Home Decor, Jewelry и других сфер, где внешний вид товара является определяющим фактором выбора.

Когда применяется

  • Триггеры активации (Индексирование): Активируется при обнаружении нового контента краулером, по расписанию или при получении триггера (например, при загрузке страницы пользователем, если используется активация контента на лету на сторонних сайтах).
  • Триггеры активации (Поиск): Активируется, когда пользователь инициирует визуальный поиск: загружает изображение, выбирает существующее изображение в качестве запроса или использует инструменты интерфейса для уточнения поиска по визуальным атрибутам (слайдеры, выбор цвета, выбор региона).

Пошаговый алгоритм

Процесс А: Индексирование и анализ контента (Офлайн)

  1. Сбор данных: Система получает элементы контента (изображения, текст, метаданные).
  2. Предварительная классификация: Анализ текста и метаданных для определения категории объекта (например, "обувь"). Используется токенизация текста и сравнение с эталонными записями категорий.
  3. Сегментация изображения: Применение программного статистического анализа распределения пикселей (например, с использованием смеси Гауссовых моделей или Markov Random Field) для отделения объекта от фона.
  4. Ручное подтверждение (Опционально): Результаты сегментации могут быть представлены операторам (Manual Enrichment) для подтверждения качества.
  5. Выравнивание: Приведение объекта к каноническому виду на основе правил, специфичных для его классификации (например, с помощью Principal Component Analysis или Hough transform).
  6. Извлечение глобальных признаков: Анализ всего объекта для определения доминирующих цветов (например, через k-means clustering), формы (например, EHD) и текстуры (например, фильтры Габора).
  7. Идентификация регионов и извлечение локальных признаков: Нормализация изображения, определение ключевых точек или регионов. Вычисление дескрипторов вокруг этих точек (например, HOG или CSH).
  8. Генерация индекса: Квантификация признаков в визуальные сигнатуры, перевод признаков в текст и сохранение данных в индексе.

Процесс Б: Обработка визуального поискового запроса (Онлайн)

  1. Получение ввода: Пользователь предоставляет ввод (текст, изображение, часть изображения, атрибуты).
  2. Анализ ввода (если необходимо): Если введено необработанное изображение, выполняются шаги сегментации и извлечения признаков на лету.
  3. Генерация запроса: Формирование поискового запроса. Если выбрана часть изображения, в запросе используются локальные признаки этой части.
  4. Поиск по сходству (Similarity Search): Сравнение сигнатуры запроса с индексом. Вычисление расстояний (feature distances) между признаками запроса и признаками в базе (используя L1, L2 метрики и т.д.).
  5. Ранжирование: Расчет общей оценки несходства (Total Distance) путем взвешенной комбинации расстояний по разным признакам.
  6. Возврат результатов: Отображение ранжированного списка похожих изображений.
  7. Уточнение поиска (Relevance Feedback): Пользователь может использовать инструменты интерфейса (слайдеры, выбор цвета) для изменения весов признаков. Результаты пересчитываются и обновляются.

Какие данные и как использует

Данные на входе

  • Контентные факторы (Визуальные): Пиксельные данные изображений в различных цветовых пространствах (RGB, HSV, CIE-L*a*b*). Используются для сегментации, выравнивания и извлечения всех визуальных признаков (цвет, форма, текстура).
  • Контентные факторы (Текст и Метаданные): Текст из описаний товаров, заголовков, ключевых слов. Метаданные о бренде, цене, категории товара. Используются для классификации объекта (Object Determinator) и извлечения Metadata Features. Также используется информация об источнике (домене) контента.
  • Пользовательские данные (Обучение/Обогащение): Ввод от операторов для подтверждения сегментации (Manual Enrichment) и для сбора данных о субъективном восприятии сходства (perceptual similarity judgments) для обучения моделей ранжирования.

Какие метрики используются и как они считаются

Система использует набор метрик для представления признаков и расчета сходства.

Представление признаков (Метрики):

  • Dominant Colors (Доминирующие цвета): Определяются через k-means clustering в цветовом пространстве. Результат — список доминирующих цветов и их весов.
  • EHD (Edge Histogram Distributions): Изображение делится на блоки, и для каждого блока строится гистограмма типов границ (вертикальные, горизонтальные и т.д.).
  • Texture Descriptors (Дескрипторы текстуры): Вычисляются с использованием набора сверточных фильтров (например, фильтров Габора) для захвата различных характеристик текстуры.
  • HOG (Histogram of Oriented Gradients): Гистограммы ориентированных градиентов в локальных регионах. Используются как локальные дескрипторы формы.
  • CSH (Color Spatial Histogram): Цветовые гистограммы, вычисленные для ячеек в локальном регионе. Фиксируют цвет и его пространственное расположение.

Расчет сходства (Метрики расстояния):

  • Color Distance: Расстояние между двумя цветами может включать L2 расстояние между RGB векторами и угол между векторами (для нечувствительности к освещению).
  • Feature Distance: Расстояние между двумя изображениями по конкретному признаку. Могут использоваться метрики L1, L2 (Евклидово расстояние), L-infinity, коэффициент Бхаттачарьи.
  • IDF (Inverse Document Frequency): Используется для оценки важности терминов в метаданных. IDF(term)=log(Общее число элементовЧисло элементов, содержащих термин)IDF(term) = log(\frac{\text{Общее число элементов}}{\text{Число элементов, содержащих термин}})IDF(term)=log(Число элементов, содержащих терминОбщее число элементов​).
  • Total Distance (Общее расстояние): Метрика общего несходства между запросом (Q) и изображением в базе (D). Рассчитывается как взвешенная сумма дистанций отдельных признаков: TotalDistance(Q,D)=∑i=1N(Distance(Q,D,i)∗w(i))\text{TotalDistance}(Q,D) = \sum_{i=1}^{N} (\text{Distance}(Q,D,i) * w(i))TotalDistance(Q,D)=∑i=1​N(Distance(Q,D,i)∗w(i)). Веса w(i) могут определяться с помощью машинного обучения (например, Linear Discriminant Analysis, LDA) на основе человеческих оценок сходства.

Выводы

  1. Визуальные признаки как сигналы ранжирования: Патент демонстрирует детальный конвейер для преобразования визуальных характеристик (цвет, форма, текстура) в индексируемые и ранжируемые сигналы (Signatures). Для e-commerce это означает, что внешний вид продукта напрямую влияет на его видимость в визуальном поиске.
  2. Важность сегментации и качества изображений: Успешное извлечение признаков (Feature Extraction) критически зависит от качества сегментации (отделения объекта от фона) и выравнивания (Alignment). Изображения с четкими границами и чистым фоном имеют преимущество в этой системе.
  3. Локальные признаки и поиск по частям: Ключевая возможность системы — индексировать признаки на уровне частей объекта (Local Features), используя ключевые точки или регионы. Это позволяет выполнять узкоспециализированные запросы (например, поиск по узору на сумке или форме каблука), что открывает новые пути для поиска товаров.
  4. Комбинированный подход к сходству: Релевантность (Similarity) определяется не одним признаком, а взвешенной комбинацией глобальных, локальных признаков и метаданных. Веса для этой комбинации могут обучаться на основе пользовательских оценок сходства.
  5. Интерактивное уточнение поиска: Патент подчеркивает важность обратной связи (Relevance Feedback). Пользовательские интерфейсы (слайдеры, выбор цвета, выбор региона) позволяют динамически изменять веса признаков в запросе, делая визуальный поиск интерактивным процессом.
  6. Роль метаданных остается критичной: Несмотря на фокус на визуальном анализе, текст и метаданные (Metadata Features) играют важную роль в классификации объектов и как один из компонентов в расчете общего сходства (используя IDF).

Практика

Best practices (это мы делаем)

  • Обеспечение высокого качества и чистоты изображений: Используйте высококачественные фотографии товаров на контрастном или чистом фоне. Это критично для успешной Segmentation, которая является основой для всего последующего анализа.
  • Демонстрация товара с разных ракурсов и крупным планом: Предоставляйте несколько изображений товара, показывая его с разных сторон и делая акцент на ключевых деталях (фурнитура, текстура материала, логотипы). Это позволит системе извлечь максимум Local Features, увеличивая шансы показа товара при поиске по части объекта.
  • Оптимизация метаданных и текстовых описаний: Убедитесь, что заголовки, описания и атрибуты (alt text) точно описывают визуальные характеристики товара. Система использует эти данные (Metadata Features) для классификации и как один из факторов сходства. Используйте релевантные "buzzwords" (ключевые фразы, описывающие стиль), так как патент упоминает их важность.
  • Использование структурированных данных (Schema.org/Product): Внедряйте микроразметку для товаров, чтобы четко передать поисковой системе метаданные (цвет, материал). Это помогает модулю Object Determinator корректно классифицировать товар.
  • Поддержание консистентности стиля фотографий: Старайтесь использовать стандартные ракурсы для основных фотографий товаров. Это помогает процессу выравнивания (Alignment) привести объект к каноническому виду для более точного сравнения.

Worst practices (это делать не надо)

  • Использование сложных, "шумных" фонов (Cluttered backgrounds): Размещение товаров на фоне других объектов или сложных узоров затрудняет Segmentation. Система может ошибочно принять часть фона за часть объекта.
  • Изображения низкого качества: Размытые, плохо освещенные или изображения с низким разрешением не позволят системе надежно определить ключевые точки и извлечь точные дескрипторы (HOG, EHD).
  • Использование крупных "водяных знаков" и наложений: Размещение логотипов или текста поверх изображения товара может нарушить процесс Feature Extraction и негативно повлиять на расчет визуального сходства, так как система может принять их за часть текстуры или формы объекта.
  • Игнорирование Image SEO в пользу только текстового SEO: Полагаться только на текстовые описания опасно, так как визуальный поиск становится все более важным каналом трафика в e-commerce. Внешний вид товара теперь является фактором ранжирования.

Стратегическое значение

Этот патент подчеркивает стратегическую важность визуального контента в поиске, особенно для электронной коммерции. Он закладывает основу для того, как Google интерпретирует и индексирует мир физических товаров с помощью технологий компьютерного зрения. Долгосрочная SEO-стратегия должна рассматривать изображения не просто как дополнение к тексту, а как основные объекты для поиска. Инвестиции в качество и организацию фотоконтента становятся прямой инвестицией в SEO, обеспечивая видимость в платформах визуального поиска (Google Images, Google Shopping, Google Lens).

Практические примеры

Сценарий: Оптимизация карточки товара для визуального поиска (на примере кроссовок)

  1. Действие (Основное изображение): Разместить фотографию кроссовка в профиль на белом фоне в высоком разрешении.
  2. Обоснование (Патент): Это облегчает Segmentation (отделение от фона) и Alignment (приведение к стандартному виду), что является базой для корректного извлечения Global Features (общей формы и цвета).
  3. Действие (Дополнительные изображения): Добавить крупные планы (close-up) текстуры материала, подошвы, шнурков и логотипа.
  4. Обоснование (Патент): Это позволяет системе извлечь Local Features из этих ключевых регионов. Если пользователь будет искать через Google Lens, выделив только подошву (Local Region Selection), система сможет сопоставить этот запрос с вашим товаром.
  5. Действие (Текстовое описание): Включить в описание фразы: "Белые кожаные кроссовки с красной вставкой на пятке и резиновой подошвой".
  6. Обоснование (Патент): Система извлекает Metadata Features и использует их для классификации и ранжирования. Точное описание визуальных атрибутов помогает системе сопоставить текстовые данные с визуальными признаками.

Вопросы и ответы

Что такое сегментация (Segmentation) в контексте этого патента и почему она важна для SEO?

Сегментация — это процесс отделения объекта (например, товара) от фона на изображении. Это критически важный первый шаг в анализе изображения. Для SEO это означает, что использование чистого, контрастного фона напрямую влияет на то, насколько хорошо Google сможет "увидеть" и понять ваш товар. Если сегментация пройдет неудачно (например, из-за сложного фона), все последующие шаги анализа (извлечение цвета, формы) будут некорректными.

В чем разница между глобальными (Global Features) и локальными (Local Features) признаками?

Global Features описывают объект в целом — например, доминирующий цвет платья или его общая форма (А-силуэт). Local Features описывают конкретные детали — например, узор на манжете, форму каблука или дизайн циферблата часов. Патент подчеркивает важность локальных признаков, так как они позволяют пользователям искать товары по конкретным деталям, а не только по общему виду.

Как система определяет локальные признаки?

Система сначала идентифицирует Key Points/Regions (ключевые точки или области) на изображении — это устойчивые и характерные участки (например, углы, границы текстур). Затем вокруг этих точек вычисляются дескрипторы, такие как HOG (Histogram of Oriented Gradients) для формы или CSH (Color Spatial Histogram) для цвета и его расположения. Этот процесс позволяет численно описать внешний вид каждой детали объекта.

Влияет ли текст в описании товара на визуальный поиск, описанный в патенте?

Да, влияет. Патент явно упоминает использование признаков метаданных (Metadata Features), которые включают заголовок, описание, бренд, цену. Эти данные используются для первоначальной классификации объекта (Object Determinator) и как часть общей оценки сходства. Система комбинирует визуальные сигналы и текстовую релевантность для финального ранжирования.

Что означает "Выравнивание" (Alignment) и почему это важно для SEO?

Выравнивание – это приведение объекта на изображении к стандартному, каноническому виду (canonical view). Например, поворот всех изображений туфель так, чтобы они были ориентированы одинаково. Это критически важно, так как облегчает сравнение признаков между разными изображениями. Если ваши изображения представлены в нестандартных ракурсах, точность извлечения признаков может снизиться.

Нужно ли загружать отдельные изображения для каждого цвета товара?

Да, это настоятельно рекомендуется. Хотя патент описывает интерфейс, где пользователь может виртуально "перекрасить" запрос с помощью Color Picker, система работает путем поиска объектов в базе данных, которые уже обладают этим цветом. Чтобы гарантировать нахождение вашего товара по запросу с уточненным цветом, необходимо иметь проиндексированное изображение именно этого цветового варианта.

Как система обрабатывает изображения, на которых показано несколько товаров?

Процесс сегментации может выделять несколько объектов переднего плана. Патент упоминает, что система может отделять объекты друг от друга (например, галстук от пиджака). Однако изображения с несколькими перекрывающимися объектами сложнее для обработки, и точность идентификации отдельных товаров может быть ниже, чем у стандартных товарных фотографий с одним объектом.

Как этот патент связан с Google Lens?

Этот патент описывает фундаментальные технологии, которые используются в Google Lens, особенно для шоппинга. Возможность навести камеру на объект, выделить его часть (например, узор на сумке) и найти похожие товары в интернете напрямую реализует описанные в патенте механизмы сегментации, извлечения локальных признаков и поиска по части объекта.

Может ли эта система анализировать изображения на моем сайте «на лету»?

Да. Патент описывает механизмы для анализа изображений на сторонних веб-страницах (Pre-Analysis), идентификации объектов интереса (например, одежды на людях с использованием детекции лиц) и активации этих областей. Это позволяет инициировать визуальный поиск непосредственно с изображения на сайте, даже если оно ранее не было полностью проиндексировано.

Что такое "Manual Enrichment" и как он используется?

Manual Enrichment — это процесс ручной проверки и исправления результатов работы алгоритмов людьми-операторами. Например, операторы подтверждают правильность автоматической сегментации или классификации товаров. Это используется Google для повышения точности системы, контроля качества данных в индексе визуального поиска и сбора данных для обучения ML-моделей.

Похожие патенты

Как Google использует компьютерное зрение для анализа, сегментации и визуального поиска товаров в E-commerce
Патент описывает комплексную систему Google для визуального поиска товаров. Система автоматически обрабатывает изображения: отделяет объект от фона (сегментация), выравнивает его, извлекает визуальные признаки (цвет, форма, текстура) и создает цифровые подписи (векторы). Это позволяет пользователям искать похожие товары, используя изображение в качестве запроса (CBIR), уточнять поиск по визуальным характеристикам и находить товары на сторонних сайтах.
  • US8732030B2
  • 2014-05-20
  • Индексация

  • Мультимедиа

Как Google распознает и связывает объекты на изображении с результатами поиска (Архитектура Google Lens)
Google использует систему параллельных поисковых движков (OCR, распознавание лиц, объектов, продуктов) для анализа визуального запроса (изображения). Система создает интерактивный документ, накладывая на исходное изображение визуальные идентификаторы (например, рамки или метки) для распознанных объектов. Эти идентификаторы служат ссылками на конкретные результаты поиска для каждого объекта.
  • US9087059B2
  • 2015-07-21
  • Мультимедиа

  • Ссылки

Как Google использует единый Image Embedding для параллельного поиска по разным вертикалям (Web, Shopping, Local) при визуальном запросе
Google патентует механизм для улучшения визуального поиска (например, Google Lens). Система генерирует единое векторное представление (Image Embedding) для изображения-запроса и использует его для одновременного поиска визуально похожих результатов в нескольких разных базах данных (например, в общем веб-индексе и специализированном индексе товаров или локаций). Контекст пользователя (местоположение, история) помогает системе выбрать, какие специализированные базы активировать для поиска.
  • US20240311421A1
  • 2024-09-19
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google разбирает визуальные запросы, отправляя их одновременно в несколько специализированных поисковых систем (OCR, распознавание лиц, объектов)
Google использует архитектуру для обработки визуальных запросов (изображений), которая одновременно отправляет изображение в несколько параллельных поисковых систем (распознавание текста, лиц, объектов, штрихкодов). Система агрегирует результаты, часто создавая интерактивный документ, где разные части изображения связаны с соответствующими результатами поиска, и использует обратную связь для обучения.
  • US9135277B2
  • 2015-09-15
  • Мультимедиа

  • SERP

Как Google анализирует одежду на изображениях для визуального поиска, игнорируя лица и фон
Google использует систему для визуального поиска похожих товаров. Система обнаруживает лицо на изображении, удаляет фон и участки кожи, чтобы изолировать предмет одежды. Затем, используя размер лица для нормализации масштаба, извлекаются небольшие фрагменты текстуры. Они обрабатываются нейронной сетью для классификации узора (игнорируя цвет) и создается цветовая гистограмма. Это позволяет находить визуально похожие товары.
  • US8873838B2
  • 2014-10-28
  • Мультимедиа

  • Google Shopping

  • Индексация

Популярные патенты

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
  • US9348945B2
  • 2016-05-24
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов
Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.
  • US20170068720A1
  • 2017-03-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

seohardcore