Как Google использует семантическое понимание изображений для адаптации алгоритмов визуального поиска

Google использует систему для улучшения визуального поиска (например, Google Lens), которая сначала определяет семантическое значение исходного изображения (например, «собор» или «автомобиль»). Вместо применения универсальной формулы схожести, система создает индивидуальную метрику сравнения (Distance Measure), адаптированную под распознанные классы. Это позволяет находить визуально похожие результаты, акцентируя внимание на признаках, наиболее важных именно для этого семантического контекста.

Описание

Какую задачу решает

Патент решает проблему неточности стандартных алгоритмов поиска похожих изображений. Традиционные методы часто используют универсальные метрики схожести (например, основанные на общих гистограммах цвета и текстуры) с глобально определенными весами. Это неэффективно, так как критерии визуальной схожести сильно зависят от семантического контекста: признаки, важные для сравнения двух соборов, отличаются от признаков, важных для сравнения двух автомобилей. Изобретение улучшает релевантность визуального поиска, адаптируя метрику схожести (Distance Measure) к содержанию изображения.

Что запатентовано

Запатентована система, которая динамически адаптирует способ измерения визуальной схожести на основе семантики контента. Система анализирует исходное изображение (Seed Image), определяет его семантические классы (даже без метаданных) и формирует специфическую метрику расстояния (Distance Measure) для этих классов. Эта кастомная метрика используется для поиска похожих изображений в индексе, повышая точность результатов.

Как это работает

Система работает следующим образом:

Анализ и Классификация: Система получает исходное изображение (Seed Image) и вычисляет его количественное представление. Классификатор определяет один или несколько семантических классов (например, «Собор»).
Получение Функций Расстояния: Для каждого определенного класса извлекается соответствующая функция расстояния (Distance Function) из библиотеки. Эта функция определяет, какие визуальные признаки наиболее важны для сравнения объектов этого класса.
Создание Кастомной Метрики: Функции расстояния комбинируются (например, усредняются или взвешиваются по степени уверенности) для создания итоговой метрики расстояния (Distance Measure), специфичной для исходного изображения.
Поиск Схожести: Исходное изображение сравнивается с изображениями в индексе с использованием этой кастомной метрики.

Актуальность для SEO

Высокая. Технологии визуального поиска (Google Images, Google Lens) и понимания контента изображений без опоры на текст являются ключевыми направлениями развития поиска. Использование семантической классификации для адаптации алгоритмов схожести напрямую соответствует текущим трендам в Computer Vision и Information Retrieval, применяемым в поисковых системах.

Важность для SEO

Патент имеет высокое значение (8.5/10) для Image SEO и стратегий, связанных с визуальным поиском, особенно в E-commerce. Он показывает, что Google не просто ищет похожие цвета и формы, а стремится понять, что изображено, и адаптирует алгоритм схожести под этот контекст. Для SEO это означает, что визуальная четкость, типичность и однозначность изображения критически важны для его корректной семантической классификации и, следовательно, для его видимости в поиске по похожим изображениям.

Детальный разбор

Термины и определения

Seed Image (Исходное изображение): Изображение, предоставленное в качестве входных данных (например, в поисковом запросе), для которого необходимо найти похожие изображения.
Quantitative Representation (Количественное представление): Математическое представление визуальных признаков изображения (цвет, текстура, форма), например, вектор признаков или гистограмма. Также упоминается как Feature Representation. Может быть низкоразмерным (для классификации) или высокоразмерным (для сравнения).
Semantic Classification (Семантическая классификация): Определение смыслового содержания изображения; присвоение изображению меток, описывающих, что на нем изображено (например, «Собор», «Здание»). Система может присваивать несколько положительных (positive) классификаций.
Distance Measure (Метрика расстояния / Мера расстояния): Итоговая формула, используемая для вычисления степени различия (расстояния) между двумя изображениями. В контексте патента эта метрика адаптируется под семантические классы исходного изображения.
Distance Function (Функция расстояния): Предварительно определенная функция, связанная с конкретным семантическим классом. Она определяет веса или методы сравнения признаков, релевантных для этого класса.
Semantic Function Library (Библиотека семантических функций): Хранилище, содержащее Distance Functions для различных семантических классов.
Hierarchy of Classification Labels (Иерархия классификационных меток): Структура организации семантических классов от общих к частным (например, Здание -> Церковь -> Собор). Включает Root Node (корень), Branch Nodes (ветви) и Leaf Nodes (листья).
Ground Truth Data (Эталонные данные для обучения): Данные для обучения классификатора. Включают Selection Data (данные о кликах пользователей по результатам поиска) и Co-Selection Data (данные о совместных кликах).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод выполнения поиска похожих изображений.

Система получает запрос с информацией об исходном изображении (seed image).
Изображение анализируется для определения его количественного представления (quantitative representation).
На основе этого представления определяется набор из одной или нескольких семантических классификаций (semantic classifications).
Определяется метрика расстояния (distance measure), специфичная для этого набора классификаций.
Исходное изображение сравнивается с коллекцией изображений с использованием этой специфичной метрики.
Определяется и предоставляется набор похожих изображений.

Ядро изобретения — шаги 3 и 4: метрика схожести не универсальна, а динамически определяется на основе семантики.

Claim 4 и 6 (Зависимые): Детализируют определение distance measure.

Для каждой определенной семантической классификации определяется соответствующая функция расстояния (distance function). Итоговая distance measure основывается на этих функциях путем их комбинирования (combining). Claim 7 уточняет, что комбинирование может быть усреднением.

Claim 8 (Зависимый): Ключевое утверждение о способе классификации.

Анализ исходного изображения для определения семантических классификаций может выполняться с использованием только данных самого изображения (only image data), т.е. без необходимости в метаданных или окружающем тексте.

Claim 11 и 12 (Зависимые): Описывают использование иерархической структуры классификации.

Используется иерархия меток. Листовые узлы (Leaf Nodes) связаны с наборами репрезентативных изображений.
Представление исходного изображения сравнивается с изображениями на листовых узлах.
Если найдено совпадение (match) с листовым узлом (удовлетворяет критерию), исходному изображению присваиваются все классификационные метки, находящиеся на пути (ветви) от этого листового узла до корневого узла (Root Node). Например, если совпал «Собор», присваиваются также «Церковь» и «Здание».

Где и как применяется

Изобретение применяется в системах визуального поиска (например, Google Images, Google Lens) и затрагивает этапы индексирования и ранжирования.

INDEXING – Индексирование и извлечение признаков

На этом этапе происходят ключевые процессы подготовки данных и офлайн-обучение:

Обучение (Offline): Происходит обучение классификатора (Classifier) с использованием Ground Truth Data (логов кликов). Определяются оптимальные Distance Functions для каждого класса, которые сохраняются в Semantic Function Library. Также строится Hierarchy of Classification Labels.
Извлечение признаков: Indexing Engine анализирует изображения, вычисляет их Quantitative Representations и сохраняет их в Image Index. Патент отмечает, что на этом этапе система может использовать метаданные и текст для классификации изображений в индексе.

RANKING – Ранжирование (в контексте визуального поиска)

Это основной этап применения патента в реальном времени в ответ на запрос пользователя (Seed Image):

Классификация запроса: Ranking Engine классифицирует Seed Image на лету, часто используя только визуальные данные (Claim 8).
Адаптация метрики: Система динамически определяет кастомную Distance Measure на основе полученных классификаций, извлекая и комбинируя Distance Functions.
Сравнение и ранжирование: Выполняется сравнение исходного изображения с кандидатами из Image Index с использованием этой кастомной метрики.

Входные данные:

Исходное изображение (Seed Image).
Обученный классификатор и иерархия классов (Semantic Class Definitions).
Semantic Function Library.
Image Index.

Выходные данные:

Набор похожих изображений (Similar Set), отранжированных по визуальной схожести в семантическом контексте.

На что влияет

Типы контента: Влияет на все типы изображений, которые могут быть семантически классифицированы (фотографии объектов, товаров, достопримечательностей и т.д.).
Специфические запросы: Наиболее заметное влияние на запросы типа «найти похожие» (Image-based queries), где пользователь предоставляет изображение в качестве запроса (например, Google Lens, Reverse Image Search).
Конкретные ниши: Критическое значение для E-commerce, моды, дизайна, недвижимости, где визуальное сходство объектов или товаров является ключевым фактором поиска.

Когда применяется

Условия работы алгоритма: Применяется при выполнении операции поиска визуально похожих изображений.
Триггеры активации: Механизм адаптации активируется, когда система способна определить одну или несколько семантических классификаций для исходного изображения с достаточной степенью уверенности. Если классификация не удалась, может применяться стандартная (generic) метрика.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени (Ранжирование)

Получение и анализ: Система получает Seed Image и вычисляет его Quantitative Representation. Патент упоминает возможность использования низкоразмерного представления (low dimensional representation, например, цветовая гистограмма) для классификации и высокоразмерного (high dimensional representation) для финального сравнения.
Семантическая классификация (Иерархический подход):
- Низкоразмерное представление изображения сравнивается с репрезентативными изображениями на Leaf Nodes иерархии.
- Идентифицируются листовые узлы, которые соответствуют исходному изображению (превышают порог схожести).
- Исходному изображению присваиваются все семантические метки от совпавших листовых узлов до корневого узла (Claim 12).
Определение функций расстояния: Для каждой присвоенной метки из Semantic Function Library извлекается соответствующая Distance Function.
Расчет кастомной метрики расстояния: Система определяет итоговую Distance Measure.
- Комбинирование и Взвешивание: Distance Functions комбинируются (усредняются, взвешиваются). Веса могут зависеть от значения уверенности (Confidence Value) для каждой классификации.
Сравнение и поиск: Система сравнивает Quantitative Representation (потенциально высокоразмерное) исходного изображения с представлениями изображений в индексе, используя рассчитанную кастомную Distance Measure.
Формирование выдачи: Определяется и ранжируется набор похожих изображений (Similar Set).

Процесс Б: Обучение и Подготовка (Офлайн)

Определение классификаций: Определяется пространство семантических классов и их иерархия.
Сбор обучающих данных (Ground Truth Data): Собираются данные для обучения:
- Selection Data: Исторические данные о том, какие изображения пользователи выбирали в ответ на текстовые поисковые запросы.
- Co-Selection Data: Данные о том, какие изображения часто выбирались вместе.
Обучение: Классификатор обучается связывать визуальные признаки с семантическими классами. Для каждого класса определяются оптимальные Distance Functions.

Какие данные и как использует

Данные на входе

Патент фокусируется на визуальных данных и данных, полученных из поведения пользователей.

Мультимедиа факторы (Визуальные данные): Основные данные для анализа Seed Image. Система анализирует цвет, текстуру, паттерны и форму. Эти данные преобразуются в Quantitative Representation (векторы признаков, гистограммы). Система спроектирована так, чтобы работать без необходимости использования текстовых метаданных для классификации исходного изображения (Claim 8).
Поведенческие факторы (для обучения): Selection Data (данные о кликах на изображения в результатах поиска) и Co-Selection Data (данные о совместных кликах). Эти данные используются для формирования обучающей выборки (Ground Truth Data) офлайн.
Контентные факторы (на этапе индексации): Хотя ранжирование Seed Image может работать только с пикселями, в патенте указано, что Indexing Engine может использовать метаданные, теги и связанный текст для классификации изображений при добавлении в индекс.

Какие метрики используются и как они считаются

Distance Function (Функция расстояния): Метрика, специфичная для класса. Представляет признаки, наиболее релевантные для соответствующей классификации. Определяется в процессе обучения.
Distance Measure (Метрика расстояния): Итоговая метрика для сравнения. Рассчитывается динамически как комбинация нескольких Distance Functions (например, среднее, взвешенное среднее).
Confidence Value (Значение уверенности): Метрика, отражающая уверенность классификатора в том, что изображение принадлежит к определенному классу. Может использоваться для взвешивания Distance Functions при их комбинировании. Упоминается, что уверенность может быть основана на степени схожести между низкоразмерным представлением исходного изображения и репрезентативными изображениями класса.

Выводы

Визуальная схожесть контекстуальна: Ключевой вывод патента — не существует универсальной метрики визуальной схожести. Google адаптирует метрику сравнения (Distance Measure) в зависимости от того, что он распознал на изображении. Признаки, важные для сравнения автомобилей, отличаются от признаков, важных для сравнения цветов.
Семантика определяется визуальными признаками: Система способна определять семантические классы, используя исключительно пиксели изображения (Claim 8), без опоры на ALT-теги или окружающий текст. Это критически важно для понимания того, как работает Google Lens и Image Search.
Иерархическое понимание контента: Google организует знания об изображениях в иерархию (Claim 11, 12). Распознав конкретный объект (например, «Собор»), система автоматически понимает его более широкие категории («Церковь», «Здание»). Это позволяет находить похожие изображения как того же класса, так и близких классов, используя комбинированную метрику.
Опора на данные пользователей для обучения: Обучение системы (что есть что и что на что похоже) в значительной степени опирается на агрегированные данные о поведении пользователей (клики и со-клики в поиске). Это формирует Ground Truth Data для алгоритмов машинного обучения.
Важность репрезентативности изображения: Чтобы изображение было корректно классифицировано, оно должно быть визуально похоже на обучающую выборку для этого класса. Четкость и типичность изображения становятся факторами ранжирования в визуальном поиске.

Практика

Best practices (это мы делаем)

Обеспечение визуальной четкости и однозначности (Machine Vision Readability): Изображения должны быть четкими, с хорошим освещением и композицией, чтобы классификатор мог однозначно определить основной объект. Это повышает вероятность корректной классификации и получения высокого Confidence Value.
Использование репрезентативных изображений (E-commerce): При оптимизации под определенный семантический класс (например, товар) используйте изображения, которые визуально соответствуют типичным представлениям этого класса в индексе Google. Если изображение товара сильно отличается от нормы, оно может быть классифицировано неверно.
Фокус на главном объекте: Убедитесь, что главный объект занимает значительную часть кадра и не перекрывается посторонними элементами (водяные знаки, текст). Использование нейтрального фона помогает классификатору сфокусироваться на объекте и применить Distance Measure к признакам товара, а не фона.
Оптимизация для иерархического контекста: Понимайте иерархию вашей тематики. Если вы продаете специфический продукт (Leaf Node), убедитесь, что ваши изображения также содержат визуальные признаки, позволяющие отнести их к более широкой категории (Branch Node). Это может увеличить охват в поиске по смежным категориям.

Worst practices (это делать не надо)

Использование слишком абстрактных или креативных изображений в качестве основных: Если основное изображение товара или статьи слишком абстрактно, система может не справиться с его семантической классификацией, что приведет к использованию глобальной (неспецифической) метрики схожести и снижению релевантности в визуальном поиске.
Создание визуально неоднозначных изображений: Изображения, содержащие множество разных объектов без явного фокуса, могут привести к определению множества семантических классов с низким Confidence Value. Это может «размыть» итоговую Distance Measure.
Игнорирование визуального качества и композиции: Изображения низкого качества, с шумом, плохим освещением или где объект теряется на фоне, затрудняют вычисление точного Quantitative Representation, что негативно влияет как на классификацию, так и на сравнение.
Сокрытие важных признаков: Агрессивные водяные знаки или текст поверх ключевых частей объекта могут помешать анализу визуальных признаков.

Стратегическое значение

Патент подтверждает стратегическую важность визуального контента как самостоятельной единицы информации, не зависящей от текста. Стратегия Image SEO должна фокусироваться на том, как визуальный контент воспринимается алгоритмами Computer Vision. Понимание того, что метрика схожести адаптивна, помогает строить более эффективные стратегии для продвижения в Google Images и Google Lens. Оптимизация изображений становится задачей не только SEO-специалиста, но и дизайнеров и фотографов.

Практические примеры

Сценарий: Оптимизация карточки товара (Кроссовки) для Визуального Поиска

Задача: Улучшить видимость новой модели кроссовок в блоке «Похожие товары» и при поиске через Google Lens.
Применение патента: Мы знаем, что Google будет пытаться классифицировать изображение и применит специфическую метрику схожести (Distance Measure) для класса «Кроссовки».
Действия:
- Сделать основное фото максимально четким и репрезентативным: кроссовок на белом фоне, в стандартном ракурсе (вид сбоку). Это поможет классификатору точно определить класс «Кроссовки» (и родительский класс «Обувь») с высоким Confidence Value.
- Добавить дополнительные фото в других ракурсах (сверху, подошва) для увеличения количества визуальных признаков (Quantitative Representation) для сравнения.
Ожидаемый результат: Система корректно классифицирует изображение. Она применяет Distance Measure, настроенную на сравнение кроссовок (где важны форма, логотип, дизайн подошвы, а не фон). Товар чаще показывается рядом с другими релевантными моделями кроссовок, а не с посторонними объектами похожей цветовой гаммы.

Вопросы и ответы

Как Google определяет семантический класс изображения, если нет текста или ALT-атрибутов?

Система использует обученный классификатор, который анализирует исключительно визуальные данные (пиксели) изображения. Классификатор вычисляет количественное представление изображения (вектор признаков) и сравнивает его с паттернами, изученными в процессе обучения. Claim 8 патента специально подчеркивает способность системы определять класс, используя только данные изображения.

Что такое «Метрика расстояния» (Distance Measure) в контексте этого патента?

Это индивидуальная формула схожести, которую Google создает специально для исходного изображения на основе его семантики. Если Google распознал кошку, он будет использовать метрику, которая придает больший вес признакам, важным для сравнения кошек (например, окрас шерсти, форма ушей), а не признакам, важным для сравнения автомобилей.

Чем отличается «Distance Measure» от «Distance Function»?

Distance Function — это формула схожести, оптимизированная для одного конкретного класса (например, только для «Соборов»). Distance Measure — это итоговая метрика, используемая для сравнения исходного изображения. Если изображение принадлежит к нескольким классам (например, «Собор» и «Здание» согласно иерархии), Distance Measure будет комбинацией Distance Functions от этих классов.

Как система обучается понимать, что изображено на картинках и что на что похоже?

Патент указывает на использование «Ground Truth Data», основанных на поведении пользователей. Система анализирует исторические логи поиска (Selection Data): если пользователи вводили текстовый запрос и кликали на определенные изображения, система учится ассоциировать визуальные признаки этих изображений с этим классом. Также используются данные о совместных кликах (Co-Selection Data) для понимания схожести между изображениями.

Что означает иерархическая классификация для SEO?

Это означает, что Google понимает контекст на разных уровнях (Claim 11, 12). Если вы оптимизируете изображение специфической модели BMW (Leaf Node), Google также понимает, что это «BMW» (Branch Node) и «Автомобиль» (Root Node). Это позволяет вашему изображению появляться в поиске не только по точным запросам, но и в результатах, связанных с более широкими или смежными категориями, улучшая общий охват.

Как повысить шансы на корректную классификацию изображения?

Используйте высококачественные, четкие и репрезентативные изображения. Главный объект должен быть в фокусе и занимать значительную часть кадра. Избегайте визуального шума, водяных знаков, перекрывающих объект, и нестандартных ракурсов для основного изображения. Изображение должно выглядеть как типичный пример того, что оно изображает.

Что произойдет, если на изображении несколько объектов?

Система может определить несколько позитивных семантических классификаций. В этом случае функции расстояния (Distance Functions) для каждого распознанного объекта будут скомбинированы (например, усреднены или взвешены) для создания итоговой метрики расстояния (Distance Measure). Это может привести к поиску изображений, которые содержат похожую комбинацию объектов.

Как Google определяет, какие признаки важны для каждого класса?

Это определяется в процессе офлайн-обучения. Анализируя большие наборы изображений внутри одного класса (используя данные о кликах и со-кликах), система определяет, какие визуальные признаки являются наиболее дискриминативными (отличающими один объект от другого внутри класса). Эти признаки получают больший вес в функции расстояния (Distance Function) для этого класса.

Использует ли система разные уровни детализации при анализе?

Да. Патент предполагает, что для быстрой семантической классификации может использоваться низкоразмерное представление изображения (low dimensional representation), например, простая гистограмма цвета. А для финального, более точного сравнения схожести может применяться высокоразмерное представление (high dimensional representation) с большим количеством деталей.

Как этот патент связан с Google Lens?

Google Lens — это практическая реализация технологий, описанных в этом патенте. Когда пользователь направляет камеру на объект, это изображение становится Seed Image. Система классифицирует его и использует адаптивную метрику расстояния для поиска информации о нем или похожих товаров в индексе Google. Патент описывает базовую механику такого поиска.