Как Google обучает системы компьютерного зрения распознавать объекты на изображениях с помощью дискриминативных признаков

Патент Google описывает метод машинного обучения для создания моделей обнаружения объектов. Система анализирует положительные (с объектом) и отрицательные (без объекта) примеры, чтобы найти ключевые визуальные признаки (Distinguishing Feature Values) в определенных местах (Distinctive Locations), которые лучше всего отличают объект от фона. Эти признаки используются для построения дерева решений или инициализации модели деформируемых частей (DPM).

Описание

Какую задачу решает

Патент решает задачу повышения точности и эффективности обнаружения конкретных объектов (например, автомобилей, лиц, товаров) на изображениях. Он улучшает процесс обучения моделей компьютерного зрения за счет фокусировки на наиболее информативных (дискриминативных) визуальных признаках, которые позволяют надежно отличить искомый объект от фона или других элементов, даже при вариациях ракурса или освещения.

Что запатентовано

Запатентован метод обучения системы для обнаружения объектов, основанный на дискриминативном подходе. Метод включает итеративный процесс построения Decision Tree (дерева решений) и его потенциальное использование для инициализации Deformable Parts Mixture Model (DPM). Суть заключается в автоматическом выявлении ключевых визуальных признаков (Distinguishing Feature Values) и их локаций (Distinctive Locations), которые обеспечивают максимальное разделение между изображениями с объектом (Positive Images) и без него (Negative Images).

Как это работает

Система обучается итеративно:

Подготовка данных: Используется набор размеченных изображений. Из них извлекаются визуальные характеристики (Image Feature Values), например, HOG или SIFT.
Генерация фильтров: На основе признаков положительных изображений создаются репрезентативные шаблоны (Image Filters).
Оценка дискриминации: Фильтры применяются к различным локациям. Рассчитывается, насколько признак характерен для положительных примеров (Positive Location Feature Score — PLFS) и для отрицательных (Negative Location Feature Score — NLFS).
Выбор лучшего признака: Система находит Distinctive Location, где разница между PLFS и NLFS максимальна. Соответствующие значения выбираются как Distinguishing Feature Values (DFV).
Построение модели: Эти DFV используются как правило разделения (split rule) в узле Decision Tree. Процесс рекурсивно повторяется для дочерних узлов.

Актуальность для SEO

Средняя. Конкретные технологии, описанные в патенте (DPM на основе HOG/SIFT), были передовыми в 2013 году, но сейчас в значительной степени вытеснены глубокими нейронными сетями (CNN, Vision Transformers). Однако фундаментальные принципы, такие как дискриминативное обучение и анализ локальных признаков для распознавания объектов, остаются крайне важными в современном компьютерном зрении Google (Google Images, Google Lens).

Важность для SEO

Влияние на SEO умеренное (6.5/10), но критически важное для Image SEO и визуального поиска. Патент не описывает ранжирование веб-страниц, но раскрывает фундаментальные механизмы того, как Google технически идентифицирует объекты на изображениях. Это имеет прямое отношение к оптимизации визуальных активов, особенно в E-commerce. Он подчеркивает важность четких, репрезентативных изображений для машинного распознавания.

Детальный разбор

Термины и определения

Decision Tree (Дерево решений): Модель машинного обучения для классификации. В патенте используется для определения наличия объекта путем последовательной проверки признаков на основе правил разделения (split rules).
Deformable Parts Mixture Model (DPM) (Смешанная модель деформируемых частей): Модель обнаружения объектов, которая рассматривает объект как набор частей (parts), способных менять свое положение относительно друг друга. Патент описывает, как Decision Tree может использоваться для инициализации DPM.
Distinctive Location (DL) (Отличительная локация): Область на изображении, где разница между Positive Location Feature Score и Negative Location Feature Score превышает заданный порог (часто является максимальной). Это наиболее информативная область для распознавания.
Distinguishing Feature Values (DFV) (Отличительные значения признаков): Конкретные значения визуальных признаков в Distinctive Location, которые выбираются системой как наиболее важные для идентификации объекта.
Image Feature Values (Значения признаков изображения): Числовые представления визуальных характеристик изображения или его части. Примеры, упомянутые в патенте: HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), edge orientation histograms.
Image Filter (Фильтр изображения): Набор значений признаков, используемый как шаблон для оценки визуальных характеристик. Генерируется путем кластеризации признаков из Positive Images.
Location Feature Score (LFS) (Оценка признаков локации): Мера сходства между Image Filter и Image Feature Values в данной локации. Рассчитывается отдельно для положительных (PLFS) и отрицательных (NLFS) изображений.
Negative/Positive Images (Отрицательные/Положительные изображения): Обучающая выборка. Положительные содержат искомый объект, отрицательные — нет.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обучения дискриминативной модели для одного узла.

Система получает набор изображений (положительных и отрицательных) для корневого узла Decision Tree.
Идентифицируются Image filters на основе визуальных признаков из положительных изображений.
Рассчитываются Positive Location Feature Score (PLFS) и Negative Location Feature Score (NLFS) для различных локаций путем сравнения фильтров с признаками изображений.
Идентифицируется первая Distinctive Location (DL), где разница между PLFS и NLFS превышает пороговое значение (difference threshold). Это точка наибольшей дискриминации.
Выбирается первый набор Distinguishing Feature Values (DFV) на основе признаков в этой локации.

Ядро изобретения — это процесс нахождения наиболее дискриминативного признака (комбинации значений и местоположения), который лучше всего отделяет изображения с объектом от изображений без него на текущем этапе обучения.

Claim 2 и 3 (Зависимые): Детализируют процесс итеративного построения Decision Tree.

После нахождения лучшего признака (Claim 1), система создает правило разделения (split rule). Создается положительный дочерний узел (positive descendent node), включающий изображения, у которых признаки в DL имеют пороговое сходство (threshold similarity) с DFV. Остальные попадают в отрицательный узел (Claim 2). Claim 3 описывает рекурсию: процесс повторяется для положительного узла, ищется второй набор DFV/DL. Новый узел требует соответствия как первому, так и второму набору признаков. Это позволяет строить модель объекта из нескольких частей.

Claim 4 (Зависимый от 3): Описывает процесс классификации нового изображения.

Кандидатское изображение классифицируется как положительное, только если его признаки соответствуют и первому, и второму (и всем последующим) набору DFV в соответствующих DL. Это демонстрирует, как обученная модель используется для принятия решения.

Claim 5 и 6 (Зависимые от 1): Описывают альтернативное использование результатов обучения.

Система инициализирует Deformable Parts Mixture Model (DPM) на основе найденных DFV (Claim 5). При этом DFV становятся компонентом смеси (mixture component), а DL – эталонным местоположением (reference location) (Claim 6). Это показывает, что метод построения дерева может служить для инициализации более сложных моделей DPM.

Где и как применяется

Патент описывает процесс обучения моделей компьютерного зрения (Model Training), который происходит офлайн. Результаты (обученные модели) затем применяются в поисковой инфраструктуре.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Обученные модели (Decision Tree или DPM) используются для анализа изображений, найденных Googlebot. Система извлекает Image Feature Values (например, HOG, SIFT) и применяет модель для обнаружения и классификации объектов (например, «автомобиль», «продукт», «логотип»). Эта информация сохраняется в индексе как признаки изображения.

RANKING (в контексте Google Images/Lens)
На этапе ранжирования в поиске по картинкам или при обработке запроса в Google Lens система использует извлеченные на этапе индексирования данные об объектах для оценки релевантности изображений запросу пользователя.

Входные данные (для обучения):

Набор размеченных изображений (Positive Images и Negative Images).
Извлеченные Image Feature Values.

Выходные данные (результат обучения):

Обученная модель: данные Decision Tree (Tree Data) или инициализированная модель DPM.

На что влияет

Конкретные типы контента: Влияет исключительно на визуальный контент: изображения и ключевые кадры видео.
Специфические запросы: Влияет на результаты поиска по картинкам и запросы, требующие визуального понимания (поиск товаров по фото, идентификация сущностей).
Конкретные ниши или тематики: Критически важно для E-commerce (распознавание конкретных моделей товаров), а также в нишах моды, автомобилей, путешествий, где визуальный контент играет ключевую роль.

Когда применяется

Обучение (Офлайн): Алгоритм обучения применяется, когда необходимо создать новую или обновить существующую модель для обнаружения определенного класса объектов. Требует наличия размеченного набора данных.
Классификация (Индексирование/Реальное время): Обученная модель применяется к любому изображению во время его индексирования или при обработке в реальном времени (например, Google Lens) для распознавания содержимого.
Пороговые значения: Используется difference threshold для выбора Distinctive Location и threshold similarity для применения правил разделения в дереве.

Пошаговый алгоритм

Процесс А: Обучение модели (Построение Decision Tree)

Инициализация: Определение набора положительных и отрицательных изображений для корневого узла дерева решений.
Генерация фильтров: Извлечение Image Feature Values из положительных изображений. Кластеризация этих признаков для создания компактного набора Image Filters.
Вычисление оценок локаций: Для каждого фильтра и множества локаций вычисляются Positive Location Feature Score (PLFS) и Negative Location Feature Score (NLFS). Оценки показывают меру сходства фильтра с признаками в данной локации на соответствующих примерах.
Идентификация дискриминатора: Поиск комбинации фильтра и локации, которая дает максимальную разницу между PLFS и NLFS (или превышает порог). Это местоположение определяется как Distinctive Location (DL).
Выбор признаков: Выбор Distinguishing Feature Values (DFV) для найденной DL (например, уточненная версия лучшего фильтра или признаки, давшие наивысший PLFS).
Создание узла и разделение: Формирование правила разделения (split rule) на основе DFV и DL. Создание положительного дочернего узла с изображениями, соответствующими правилу (сходство выше порога), и отрицательного узла.
Рекурсия и Остановка: Проверка условия остановки (например, в узле мало положительных примеров). Если нет, процесс повторяется (шаги 3-6) для дочерних узлов.
Финализация модели: Использование полученного дерева для классификации или для инициализации Deformable Parts Mixture Model.

Процесс Б: Классификация нового изображения

Получение данных: Получение Image Feature Values для кандидатного изображения.
Проверка корневого узла: Определение, соответствуют ли признаки изображения первому набору DFV в соответствующей DL.
Принятие решения:
- Если НЕТ: Классификация изображения как отрицательного. Процесс остановлен.
- Если ДА: Переход к следующему положительному узлу-потомку.
Итеративная проверка: Повторение проверки для следующего набора DFV/DL, связанного с текущим узлом.
Финальная классификация: Если достигнут конечный узел и все проверки пройдены успешно, изображение классифицируется как положительное.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке визуальных данных и разметки для обучения.

Мультимедиа факторы: Основные входные данные — пиксельные данные изображений, которые преобразуются в Image Feature Values.
Данные разметки (Labels/Пользовательские факторы): Информация о том, является ли изображение положительным или отрицательным примером. В описании также упоминается использование Bounding Box (ограничивающей рамки), которая может быть создана на основе обратной связи от пользователей для указания точного местоположения объекта.

Какие метрики используются и как они считаются

Image Feature Values (Методы анализа визуального контента): В патенте явно упоминаются конкретные дескрипторы признаков: Histogram of Oriented Gradients (HOG) feature descriptors, Scale-Invariant Feature Transform (SIFT) descriptors и edge orientation histograms.
Measure of Similarity (Мера сходства): Метрика для сравнения Image Filter и Image Feature Values, а также для кластеризации. Упоминаются методы расчета: dot product (скалярное произведение), cosine distance (косинусное расстояние) и nearest neighbor analysis.
Location Feature Score (PLFS/NLFS): Рассчитывается на основе Measure of Similarity. Может быть максимальным значением сходства в заданной области (в пределах порогового расстояния от эталонной локации), что обеспечивает устойчивость к смещениям.
Difference Threshold: Порог разницы между PLFS и NLFS. Используется для определения Distinctive Location.
Threshold Similarity: Порог сходства, используемый в правилах разделения (split rules) для определения, соответствует ли изображение признакам (DFV).
Алгоритмы машинного обучения:
- Кластеризация (например, agglomerative clustering): Используется для генерации Image Filters.
- Классификаторы: Decision Trees и Deformable Parts Mixture Models (DPM).

Выводы

Фокус на дискриминативных признаках: Ключевая особенность системы — способность находить не просто общие признаки объекта, а именно те признаки (Distinguishing Feature Values), которые лучше всего отличают его от фона или других объектов. Система ищет максимальную разницу в отклике между положительными и отрицательными примерами.
Локализованное обнаружение (Part-based approach): Система не анализирует изображение целиком сразу. Она итеративно идентифицирует Distinctive Locations (части объекта). Это позволяет строить сложные модели, устойчивые к частичному перекрытию или изменениям конфигурации.
Иерархическая и эффективная классификация: Использование Decision Tree позволяет быстро отсеивать отрицательные примеры. Если на раннем этапе ключевой признак не найден, система классифицирует изображение как отрицательное без дальнейшего анализа, что повышает эффективность обработки данных при индексировании.
Связь Decision Trees и DPM: Патент описывает конкретный метод использования Decision Tree не только как классификатора, но и как способа инициализации более сложной модели Deformable Parts Model (DPM), которая лучше учитывает взаимное расположение и деформацию частей объекта.
Значение для SEO: Основной вывод для SEO-специалистов — качество, четкость и репрезентативность визуального контента напрямую влияют на способность системы его распознать и классифицировать. Это фундамент для Image SEO.

Практика

Best practices (это мы делаем)

Рекомендации касаются оптимизации визуального контента (Image SEO) для улучшения распознавания объектов системами компьютерного зрения.

Обеспечение четкости и контрастности объектов: Поскольку система ищет дискриминативные визуальные признаки (Distinguishing Feature Values), основанные на градиентах и формах (например, HOG), объекты на изображениях должны быть четкими, хорошо освещенными и контрастными по отношению к фону. Это облегчает извлечение качественных признаков.
Демонстрация отличительных частей объекта: Система строит модель по частям (Distinctive Locations). Убедитесь, что изображения показывают ключевые, уникальные детали объекта (например, логотип, уникальная форма продукта, специфическая текстура).
Использование репрезентативных изображений и ракурсов: Для основного изображения (например, главного фото товара) используйте наиболее репрезентативный и узнаваемый ракурс. Это повышает вероятность того, что признаки вашего изображения совпадут с DFV, которые модель выучила как типичные.
Высокое качество изображений: Используйте качественные изображения достаточного разрешения, где визуальные признаки хорошо определены. Это улучшает качество извлекаемых Image Feature Values и повышает точность классификации.

Worst practices (это делать не надо)

Агрессивные водяные знаки и перекрытия: Размещение крупных водяных знаков, текста или стикеров поверх ключевых частей объекта может исказить Image Feature Values в Distinctive Locations. Это помешает системе распознать объект.
Низкое качество, размытие, плохой свет: Изображения низкого качества не позволят системе извлечь надежные визуальные признаки, необходимые для дискриминации.
Чрезмерная абстракция или стилизация: Использование слишком абстрактных или художественных изображений для представления конкретных объектов может снизить эффективность распознавания, так как их признаки не совпадут со стандартными Image Filters.
Зашумленный или пестрый фон: Размещение основного объекта на перегруженном фоне затрудняет выделение объекта и может привести к ошибкам классификации, так как фон может содержать признаки, схожие с другими объектами.

Стратегическое значение

Патент подтверждает стратегическую важность визуального поиска (Google Images, Google Lens). Google активно инвестирует в технологии, позволяющие понимать содержание изображений на уровне объектов и их признаков, выходя за рамки анализа метаданных и атрибутов alt. Долгосрочная SEO-стратегия должна включать оптимизацию визуальных активов не только для пользователей, но и для обеспечения их «машиночитаемости» системами компьютерного зрения.

Практические примеры

Сценарий: Оптимизация изображения товара (Наручные часы) для E-commerce

Задача: Улучшить видимость конкретной модели часов в Google Images и Google Shopping.
Анализ на основе патента: Определяем потенциальные Distinctive Locations для часов: циферблат, стрелки, логотип, форма корпуса.
Действие: Загрузить четкое, высококачественное изображение часов на контрастном фоне. Убедиться, что эти ключевые элементы хорошо видны и не перекрыты бликами, текстом или другими объектами.
Как это работает: Система Google сможет извлечь качественные Image Feature Values (HOG/SIFT) и успешно сопоставить их с выученными Distinguishing Feature Values для класса «часы». Разница между PLFS и NLFS будет высокой.
Ожидаемый результат: Более точное распознавание модели часов системой, улучшение ранжирования изображения по релевантным товарным и визуальным запросам.

Вопросы и ответы

Этот патент описывает современный подход Google к распознаванию изображений?

Патент описывает методы (Deformable Parts Models, HOG признаки), которые были передовыми на момент подачи заявки (2013 год). Современные системы Google в основном полагаются на глубокие нейронные сети (CNN и Трансформеры) для задач компьютерного зрения. Однако фундаментальные принципы, такие как дискриминативное обучение и анализ локальных признаков, остаются актуальными, хотя их реализация изменилась.

Что такое «Distinguishing Feature Values» (DFV) и почему это важно для SEO?

Distinguishing Feature Values — это конкретные визуальные признаки (например, узор, текстура, градиент) в определенном месте, которые позволяют системе надежно отличить объект от фона. Для SEO это важно, потому что если ключевые объекты на ваших изображениях (например, товары) обладают четкими и видимыми отличительными признаками, Google с большей вероятностью правильно их идентифицирует и будет ранжировать в Поиске по картинкам.

Что такое «Deformable Parts Model» (DPM) простыми словами?

DPM — это модель, которая представляет объект как набор частей (например, части лица или автомобиля) и их взаимное расположение. Патент описывает, как автоматически найти эти части (Distinguishing Feature Values) и использовать их для инициализации DPM. Это позволяет системе распознавать объект, даже если он частично повернут или деформирован, так как части могут смещаться относительно друг друга.

Что такое HOG и SIFT, упоминаемые в патенте?

Это типы дескрипторов визуальных признаков. HOG (Histogram of Oriented Gradients) фокусируется на анализе направлений градиентов (контуров и краев) для описания формы и структуры объекта. SIFT (Scale-Invariant Feature Transform) фокусируется на ключевых точках. Они преобразуют пиксели в числовые векторы (Image Feature Values), которые система использует для сравнения и классификации.

Как SEO-специалист может повлиять на «Distinguishing Feature Values» (DFV)?

SEO-специалист не может напрямую влиять на DFV, так как это внутренние веса обученной модели Google. Однако можно повлиять на входные данные – признаки вашего изображения. Предоставляя четкие, высококачественные изображения с хорошо видимыми ключевыми характеристиками объекта, вы повышаете вероятность того, что признаки вашего изображения будут соответствовать DFV модели.

Что означает «дискриминативное обучение» в контексте патента?

Это означает, что система целенаправленно ищет признаки, которые максимально *различают* положительные и отрицательные примеры. Вместо того чтобы просто моделировать, как выглядит объект в целом, система фокусируется на том, что отличает его от фона или других объектов (максимизируя разницу между PLFS и NLFS), что делает классификацию более точной.

Как система справляется с разными ракурсами одного и того же объекта?

Патент решает эту проблему двумя способами. Во-первых, при расчете Location Feature Score фильтр может применяться не строго в одном месте, а в некоторой области вокруг него, допуская смещение признака. Во-вторых, использование итоговой модели DPM позволяет учитывать деформацию и изменение взаимного расположения частей объекта при смене ракурса.

Означает ли это, что атрибут alt больше не важен?

Категорически нет. Атрибут alt предоставляет текстовый контекст, используется для доступности (accessibility) и служит важным сигналом для ранжирования в поиске по картинкам. Технологии компьютерного зрения, описанные в патенте, дополняют, а не заменяют традиционные методы текстовой оптимизации изображений.

Как эта технология связана с Google Lens?

Google Lens — это прикладная реализация технологий компьютерного зрения Google для распознавания объектов. Хотя Google Lens использует более современные архитектуры нейронных сетей, задачи, которые он решает (обнаружение и классификация объектов), аналогичны тем, что описаны в патенте. Принципы дискриминативного обучения лежат в основе работы таких систем.

Влияет ли размер и разрешение изображения на работу алгоритма?

Да, влияет. В описании патента упоминается, что признаки могут извлекаться для изображения в разных разрешениях (resolutions) и использоваться блоки пикселей разного размера. Это позволяет модели улавливать как общие, так и детальные визуальные признаки. Высокое качество и достаточное разрешение позволяют извлекать более точные признаки.