Как Google использует «Модели деформируемых частей» (DPM) для распознавания конкретных объектов и ракурсов на изображениях

Google улучшает визуальный поиск, анализируя, как различные части изображения соотносятся друг с другом (используя Deformable Parts Model). Это позволяет системе кластеризовать изображения по конкретным подклассам и ракурсам (например, «седан, вид сбоку») и точно идентифицировать похожие объекты, даже если общая композиция изображения отличается.

Описание

Какую задачу решает

Патент решает проблему низкой точности традиционных методов определения визуального сходства и обнаружения объектов. Существующие методы часто не могут различить разные подклассы одного и того же объекта или один и тот же объект, снятый с разных ракурсов (perspectives). Например, использование соотношения сторон (aspect ratio) как метрики сходства является ненадежным. Цель изобретения — повысить точность визуального поиска за счет более детального понимания содержимого изображения.

Что запатентовано

Запатентована система для обучения детекторов объектов и определения визуального сходства с использованием Deformable Parts Models (DPM, Модели деформируемых частей). Система автоматически кластеризует обучающие изображения на основе покомпонентного сходства (part-based affinity), формируя группы, соответствующие конкретным подклассам и ракурсам. Затем эти модели используются для точного определения характеристик объекта (Object Value) на изображении-запросе, что позволяет выполнять более релевантный визуальный поиск.

Как это работает

Система работает в два основных этапа: обучение и детекция.

Обучение (Офлайн): Система анализирует коллекцию изображений одного класса (например, «Автомобили»). Она вычисляет part-based affinity между всеми парами изображений: каждое изображение разбивается на части, и система ищет наилучшее соответствие для каждой части на другом изображении. На основе этих данных изображения кластеризуются по визуальному сходству (например, «Внедорожники, вид спереди»). Для каждого кластера обучается детектор (DPM).
Детекция (Онлайн): Когда поступает изображение-запрос (Seed Image), оно также разбивается на части. Система сравнивает его с обученными моделями DPM. Модель с наивысшим сходством определяет Object Value (подкласс и ракурс) изображения-запроса. Этот Object Value используется как критерий для поиска визуально похожих изображений в индексе.

Актуальность для SEO

Высокая. Визуальный поиск (например, Google Lens) и точное распознавание товаров в Product Search являются критически важными направлениями для Google. Хотя Deformable Parts Models (DPM) были передовой технологией на момент подачи заявки и сейчас в значительной степени заменены сверточными нейронными сетями (CNN), заложенные в патенте концепции — анализ на основе частей, кластеризация по ракурсам и точное определение подклассов — остаются фундаментальными для современных систем компьютерного зрения.

Важность для SEO

Влияние на SEO значительно, особенно для Image SEO и E-commerce. Патент описывает механизм, позволяющий Google точно сопоставлять визуальные запросы с конкретными товарами и ракурсами. Это подчеркивает важность наличия высококачественных, репрезентативных изображений продукта с разных углов. Если Google может точно определить Object Value изображения на вашем сайте, вероятность его появления в релевантных визуальных поисковых выдачах значительно возрастает.

Детальный разбор

Термины и определения

Affinity (Сходство, Аффинность): Мера визуального сходства между изображениями или частями изображений. Высокое сходство соответствует малому расстоянию (distance measure).
Agglomerative Clustering (Агломеративная кластеризация): Метод иерархической кластеризации, используемый в патенте для группировки визуально похожих изображений в подклассы и ракурсы на основе матрицы сходства.
Bounding Box (Ограничивающий прямоугольник): Область изображения, выбранная в качестве фокуса для анализа. Обычно охватывает центральную или основную часть изображения.
Deformable Parts Model (DPM) (Модель деформируемых частей): Подход к обнаружению объектов, при котором объект моделируется как совокупность частей (parts), которые могут перемещаться («деформироваться») относительно друг друга.
Generalization Error (Ошибка обобщения): Теоретическая оценка способности обученной модели к обнаружению объектов. Используется для оптимизации количества кластеров (Model Order).
HOG (Histogram of Oriented Gradients) (Гистограмма ориентированных градиентов): Один из возможных типов признаков (feature representation), упомянутых для описания частей изображения при расчете сходства.
Model Order (K) (Порядок модели): Количество кластеров, на которое разбивается обучающая выборка. Соответствует количеству обученных детекторов объектов.
Object Value (Значение объекта): Выходные данные процесса обнаружения. Идентифицирует подкласс (subclass) и ракурс (perspective) объекта на изображении.
Part-based Affinity (Покомпонентное сходство): Метод расчета сходства путем сравнения отдельных частей двух изображений, нахождения наилучших соответствий для каждой части и суммирования этих соответствий.
Seed Image (Исходное изображение): Изображение, используемое в качестве запроса в системе визуального поиска.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс обучения детекторов объектов на основе кластеризации.

Система получает коллекцию изображений, представляющих класс.
Вычисляется покомпонентное сходство (part-based affinity) между каждой парой изображений в коллекции. Этот процесс включает:
- Разбиение первого изображения пары на несколько разделов (partitions).
- Определение сходства для каждого раздела первого изображения. Это сходство основано на мере подобия между разделом и местоположением (location) во втором изображении, которое имеет наивысшую меру подобия с этим разделом.
- Определение part-based affinity между первым и вторым изображением на основе суммы сходств всех разделов первого изображения с соответствующими местоположениями во втором.
Генерируется несколько кластеров изображений на основе вычисленных part-based affinities.
Изображения в каждом кластере выбираются как представители определенного подкласса (subclass) из множества подклассов данного класса.
Для каждого подкласса обучается соответствующая модель деформируемых частей (deformable parts model) с использованием выбранных изображений.

Claim 6 (Зависимый от 1): Детализирует процесс генерации кластеров (Шаг 3 в Claim 1), фокусируясь на оптимизации их количества.

Вычисляется соответствующая ошибка обобщения (generalization error) для каждого из нескольких порядков модели (model orders i), где порядок модели определяет максимальное количество генерируемых кластеров.
Выбирается порядок модели i, ошибка обобщения которого удовлетворяет определенному порогу.

Где и как применяется

Изобретение применяется в инфраструктуре визуального поиска и затрагивает этапы индексирования и ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые процессы подготовки данных:

Обучение (Офлайн): Процесс кластеризации обучающих изображений и тренировки Deformable Parts Models (DPM) происходит офлайн. Результатом являются обученные модели (Samples), готовые к использованию детектором объектов (Object Detector).
Индексирование контента (Онлайн): Индексирующий движок (Indexing Engine) обрабатывает новый контент (Image Content). Компонент обработки изображений (Image Processing) и Object Detector анализируют изображения, вычисляют их признаки (Feature Representation) и определяют Object Value (подкласс и ракурс). Эти данные сохраняются в записи (Record) в Индексе Изображений (Image Index).

RANKING / METASEARCH (В контексте Визуального Поиска)
Механизм активируется при получении визуального запроса (User Query или Program Query).

Обработка запроса: Изображение-запрос (Seed Image) разбивается на части (Partition).
Детекция объекта: Object Detector сравнивает части Seed Image с обученными моделями DPM (Samples), используя логику сходства (Affinity).
Определение значения: Определяется Object Value, соответствующий модели с наивысшим сходством.
Поиск и ранжирование: Компонент сравнения (Comparison) использует Object Value (и, возможно, другую информацию распознавания) для формирования критериев поиска (Search Criteria). Эти критерии используются для извлечения визуально похожих изображений (Similar Set) из Image Index, которые затем ранжируются (Ranking Engine).

На что влияет

Конкретные типы контента: В первую очередь влияет на изображения и кадры из видео.
Специфические запросы: Наибольшее влияние на запросы типа «Поиск по изображению» (image-based queries) и запросы, требующие точной визуальной идентификации (например, поиск конкретной модели товара по фотографии).
Конкретные ниши или тематики: Критически важно для E-commerce (одежда, обувь, автомобили, мебель), каталогов товаров, стоковых фотографий и любых вертикалей, где визуальное сходство играет ключевую роль в принятии решения пользователем.

Когда применяется

Во время индексирования: При обработке новых изображений для определения их Object Value и признаков.
Во время выполнения запроса: При обработке визуального поискового запроса для определения характеристик объекта на изображении-запросе.
Офлайн: Периодически, во время фазы обучения и кластеризации для обновления моделей детекторов объектов.

Пошаговый алгоритм

Процесс А: Обучение и Кластеризация (Офлайн)

Сбор данных: Получение коллекции размеченных примеров одного класса (например, «Обувь»).
Предварительная обработка: Определение Bounding Box для каждого изображения. Нормализация (например, изменение размера или обрезка) области внутри Bounding Box.
Разбиение на части: Разделение области Bounding Box на несколько частей (partitions).
Вычисление матрицы сходства (Affinity Matrix): Определение меры сходства между каждой парой изображений в коллекции с использованием Part-based Affinity.
- Для каждой части Изображения 1 вычисляется сходство со всеми частями Изображения 2 (например, используя признаки HOG и дистанционную меру).
- Определяется Maximum Affinity для каждой части Изображения 1 (наилучшее совпадение на Изображении 2).
- Общее сходство между Изображением 1 и Изображением 2 вычисляется как сумма Maximum Affinities всех частей.
Кластеризация: Применение Agglomerative Clustering к матрице сходства для создания иерархии кластеров (дендрограммы).
Оптимизация порядка модели: Определение оптимального количества кластеров (Model Order K) на основе анализа Generalization Error и стабильности модели.
Обучение детекторов: Каждый из K кластеров определяется как набор для обучения (Training Set) для конкретного подкласса/ракурса. Для каждого набора обучается отдельная Deformable Parts Model (DPM).

Процесс Б: Детекция и Поиск (Онлайн)

Получение запроса: Получение и разбиение на части изображения-запроса (Seed Image).
Обнаружение объекта: Сравнение Seed Image с обученными моделями DPM (Samples) с использованием механизма Part-based Affinity (аналогично шагу 4 Процесса А).
Выбор модели: Выбор модели DPM, которая демонстрирует наивысшее общее сходство с Seed Image.
Определение Object Value: Присвоение Seed Image значения Object Value (подкласс и ракурс), соответствующего выбранной модели.
Формирование критериев поиска: Использование Object Value (и, возможно, других данных распознавания) в качестве критерия поиска.
Выполнение поиска: Поиск в индексе изображений для нахождения записей с аналогичным Object Value и визуальными признаками.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Пиксельные данные изображений (как обучающей коллекции, так и изображений-запросов). Система анализирует содержимое внутри Bounding Box и его разделы (partitions).
Структурные данные (Внутренние): Используются метки для исходной обучающей группы (например, указание общего класса).

Какие метрики используются и как они считаются

Distance Measure (Мера расстояния): Например, Евклидово расстояние (Euclidean distance function). Используется для вычисления сходства между частями изображений.
Affinity (Сходство): Оценка подобия, обратно пропорциональная мере расстояния.
Maximum Affinity (Максимальное сходство): Оценка сходства наилучшей совпадающей части между двумя изображениями.
Feature Representations (Представления признаков): Система использует количественные представления частей изображений для сравнения. Явно упоминаются:
- HOG (Histogram of Oriented Gradient).
- В качестве альтернатив упоминаются SIFT (Scale-Invariant Feature Transform), векторы признаков (feature vectors), мешок слов (bag of words) и ядра Фишера (fisher kernels).
Generalization Error (Ошибка обобщения): Метрика для оптимизации количества кластеров. Рассчитывается как сумма расстояний от каждой точки (изображения) в кластере до центра масс этого кластера.
Inconsistency Coefficient (Z) (Коэффициент несогласованности): Упоминается в контексте анализа дендрограммы для определения стабильности порядка модели (model order stability) при кластеризации.

Выводы

Приоритет точности в визуальном поиске: Google стремится понимать не только общую категорию объекта (например, «автомобиль»), но и его конкретный подкласс («внедорожник») и ракурс («вид спереди»). Это позволяет предоставлять значительно более релевантные результаты визуального поиска.
Анализ на основе частей (DPM) как основа сходства: Сходство определяется не сравнением изображений целиком, а тем, насколько хорошо совпадают их отдельные части (parts). Это позволяет системе распознавать объекты даже при изменении позы, фона или частичной окклюзии, так как части могут «деформироваться» (перемещаться).
Автоматическое обучение через кластеризацию: Система использует неконтролируемое обучение (unsupervised learning methods) для автоматической организации обучающих данных в визуально значимые кластеры. Это эффективнее, чем полагаться на ручную разметку подклассов или слабые метрики, такие как соотношение сторон.
Object Value как ключ точного поиска: Определенный подкласс и ракурс (Object Value) используется как основной ключ для извлечения визуально похожих результатов из индекса.
Оптимизация гранулярности моделей: Система не просто создает кластеры, но и оптимизирует их количество (Model Order) с помощью метрики Generalization Error, чтобы обеспечить баланс между точностью и обобщающей способностью детекторов.

Практика

Best practices (это мы делаем)

Предоставление изображений с разных ракурсов: Для E-commerce критически важно показывать товары с разных углов (спереди, сбоку, сзади, сверху). Согласно патенту, эти ракурсы (perspectives) вероятно соответствуют кластерам, которые Google автоматически идентифицирует и использует для обучения своих моделей DPM.
Использование высококачественных и четких изображений: Качественные изображения облегчают системе извлечение признаков (например, HOG) из отдельных частей (parts) и точное вычисление сходства (Affinity).
Фокус на главном объекте: Основной объект должен быть доминирующим на изображении и располагаться по центру. Это упрощает определение корректного Bounding Box и последующее разбиение на части. Изображения с чистым фоном предпочтительнее.
Оптимизация контекста под визуальное содержание: Атрибуты Alt, заголовки и окружающий текст должны точно описывать то, что изображено на картинке (подкласс и, если применимо, ракурс). Это помогает связать визуальное распознавание (Object Value) с текстовой релевантностью.

Worst practices (это делать не надо)

Использование только одного ракурса: Предоставление только одного угла обзора для сложного продукта ограничивает способность Google сопоставить его с визуальными запросами пользователей, сделанными с других ракурсов.
Использование генерических или стоковых фото: Использование изображений, которые не представляют реальный продукт, может привести к неверному определению Object Value и снижению релевантности в поиске.
Перегруженные изображения: Изображения с большим количеством фонового шума или множеством объектов затрудняют выделение главного объекта и его частей, что снижает эффективность анализа DPM.
Некорректная разметка (Mislabeling): Попытки манипулировать поиском путем присвоения неверных тегов (например, пометка седана как внедорожника). Визуальный анализ на основе DPM, вероятно, будет иметь приоритет над текстовыми тегами при выполнении визуального поиска.

Стратегическое значение

Патент подтверждает стратегическую важность визуальных активов в SEO, особенно в E-commerce и продуктовых нишах. Google инвестирует значительные ресурсы в понимание изображений на гранулярном уровне, выходя за рамки простого тегирования. SEO-стратегии должны рассматривать изображения как основной контент, который требует такой же тщательной оптимизации и проработки, как и текст. Способность Google точно интерпретировать визуальное намерение пользователя меняет подход к оптимизации продуктовых страниц.

Практические примеры

Сценарий: Оптимизация карточки товара в магазине обуви

Задача: Улучшить видимость конкретной модели кроссовок (например, Nike Air Max 90) в визуальном поиске (Google Images, Google Lens).
Действия согласно патенту: Загрузить 6 высококачественных фотографий этой модели на белом фоне: вид спереди, сзади, сверху, подошва, левая сторона, правая сторона.
Как работает механизм: Google индексирует эти изображения. В процессе офлайн-обучения система Google, используя DPM-анализ, кластеризует миллионы изображений обуви. Изображения Air Max 90, вид сбоку, попадают в один кластер. Для этого кластера обучается детектор.
Взаимодействие с пользователем: Пользователь использует Google Lens и фотографирует свой кроссовок сбоку (Seed Image).
Результат: Google анализирует Seed Image, определяет Object Value как «Air Max 90, вид сбоку» (на основе наивысшего Affinity с соответствующей моделью DPM). Система выдает результаты поиска, приоритезируя изображение вида сбоку с оптимизированного сайта и соответствующую продуктовую страницу, что ведет к более высокой конверсии, чем если бы был показан вид спереди.

Вопросы и ответы

Влияет ли этот патент на стандартный веб-поиск (синие ссылки)?

Напрямую — нет. Патент сфокусирован исключительно на механизмах визуального поиска (Image Search), обнаружении объектов на изображениях и определении визуального сходства. Однако косвенное влияние есть: улучшение качества Image Search может влиять на ранжирование блоков с картинками в универсальной выдаче, а также повышать общую привлекательность продуктовых страниц в E-commerce.

Что такое «Модель деформируемых частей» (DPM) простыми словами?

Это способ компьютерного зрения распознавать объекты, рассматривая их не как единое целое, а как набор связанных частей. Например, автомобиль — это колеса, двери, фары. Система ищет эти части и проверяет, как они расположены относительно друг друга. Поскольку части могут перемещаться (например, дверь может быть открыта или закрыта, ракурс может меняться), модель называется «деформируемой». Это позволяет распознавать объект в разных позах.

Чем это отличается от стандартного распознавания изображений?

Стандартное распознавание часто определяет только общий класс (например, «это собака»). Описанный механизм стремится определить точный подкласс и ракурс (например, «это лабрадор, вид сбоку»). Это достигается за счет автоматической кластеризации обучающих данных по визуальному сходству и обучению отдельных детекторов для каждого такого кластера.

Что это означает для SEO в E-commerce?

Это означает, что визуальные характеристики товара имеют первостепенное значение для ранжирования в Image Search и Google Lens. Чтобы быть конкурентоспособными, магазины должны предоставлять высококачественные изображения, которые точно представляют товар. Google будет стараться найти точное визуальное совпадение по модели и ракурсу, а не просто товар из той же категории.

Насколько важно предоставлять изображения товара с разных ракурсов?

Критически важно. Патент явно указывает, что система кластеризует изображения по ракурсам (perspectives) и обучает отдельные модели для них. Если вы предоставляете только вид спереди, вы рискуете проиграть в выдаче пользователю, который ищет изображение, сделанное сбоку, так как Google ищет совпадение по Object Value (подкласс + ракурс).

Имеет ли значение фон изображения согласно этому патенту?

Патент фокусируется на анализе объекта внутри Bounding Box. Хотя он не описывает механизмы удаления фона, система работает эффективнее, если объект четко выделен. Чистый или нейтральный фон помогает системе корректно определить границы объекта, выделить его части и рассчитать признаки (например, HOG), что повышает точность определения сходства (Affinity).

Что такое «Affinity» (Сходство) в контексте изображений?

Это количественная мера того, насколько два изображения или две части изображения похожи друг на друга визуально. В данном патенте Affinity рассчитывается на основе сравнения признаков (например, HOG) с использованием функции расстояния (например, Евклидово расстояние). Чем меньше расстояние, тем выше Affinity.

Актуальна ли эта технология, учитывая современные нейронные сети (CNN)?

Хотя конкретная реализация (DPM) устарела и была заменена более мощными методами на основе глубокого обучения (CNN), заложенные принципы остаются актуальными. Современные системы также решают задачи определения подклассов, оценки позы и ракурса, а также используют кластеризацию для организации данных. Патент дает понимание целей Google в визуальном поиске, даже если технические средства изменились.

Как система решает, сколько подклассов (кластеров) создать?

Система использует процесс оптимизации для определения оптимального количества кластеров (Model Order). Она анализирует иерархическую структуру (дендрограмму), созданную в процессе агломеративной кластеризации, и использует метрику Generalization Error (ошибка обобщения). Цель — найти баланс: достаточное количество кластеров для точности, но не слишком много, чтобы модель сохраняла способность к обобщению.

Какие именно признаки используются для сравнения частей изображений?

Патент не ограничивается одним типом признаков, но явно упоминает HOG (Histogram of Oriented Gradients) как один из вариантов. Также в качестве возможных альтернатив перечислены SIFT, feature vectors, bag of words и fisher kernels. Все это методы преобразования пиксельных данных в количественное представление, удобное для сравнения.