Как Google использует Deep Metric Learning и многомасштабные нейросети для понимания тонких визуальных различий между изображениями

Google обучает передовые нейронные сети (Image Embedding Functions) с использованием «триплетов изображений» для отображения картинок в математическое пространство (эмбеддинги). Это позволяет системе понимать нюансы и тонкие визуальные сходства — например, различать почти идентичные товары — путем измерения расстояния между этими эмбеддингами, что улучшает Поиск по картинкам, Google Lens и рекомендации похожих изображений.

Описание

Какую задачу решает

Патент решает задачу точного определения визуального сходства между изображениями на детализированном уровне (fine-grained image similarity). Стандартные модели классификации оптимизированы для определения широких категорий (например, отличить машину от собаки). Данное изобретение фокусируется на различении изображений внутри одной категории (например, отличить одну модель красной спортивной машины от другой). Это критически важно для улучшения качества визуального поиска (например, Google Lens, Поиск по картинкам) и систем рекомендаций товаров (E-commerce).

Что запатентовано

Запатентована система и метод обучения функции встраивания изображений (image embedding function), обычно реализуемой как глубокая нейронная сеть. Эта функция преобразует изображение в плотный вектор (эмбеддинг) в Евклидовом пространстве (Euclidean space). Обучение происходит с использованием image triplets (триплетов изображений). Цель обучения — гарантировать, что в этом пространстве визуально похожие изображения расположены близко друг к другу, а непохожие — далеко.

Как это работает

Ключевым механизмом является обучение с использованием триплетов (Deep Metric Learning). Триплет состоит из анкорного изображения (Q), позитивного примера (P, похож на Q) и негативного примера (N, менее похож на Q).

Архитектура сети: Используется многомасштабная архитектура (multi-scale network structure), сочетающая глубокие CNN для понимания семантики (что на картинке) и более поверхностные CNN для захвата визуальных деталей (как именно это выглядит).
Генерация эмбеддингов: Все три изображения пропускаются через image embedding function для получения их векторных представлений.
Измерение расстояния: Система вычисляет расстояния (Euclidean distance) между Q и P, а также между Q и N в пространстве эмбеддингов.
Оптимизация (Loss Function): Система стремится минимизировать расстояние (Q, P) и максимизировать расстояние (Q, N), используя функцию потерь (например, hinge loss).
Выборка триплетов: Для эффективного обучения используется сложный метод выборки триплетов на основе pairwise relevance scores, чтобы выбирать наиболее информативные примеры из огромных наборов данных.

Актуальность для SEO

Высокая. Технологии визуального поиска и понимания изображений являются критически важными для Google (Google Lens, Image Search, Shopping). Методы Deep Metric Learning и обучение на триплетах являются стандартом де-факто для задач поиска по сходству (similarity search). Описанная многомасштабная архитектура и методы выборки данных остаются актуальными для современных систем машинного зрения.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно в области визуального поиска и e-commerce. Он описывает фундаментальный механизм, с помощью которого Google определяет визуальное сходство на детальном уровне. Понимание этого механизма критично для оптимизации изображений товаров, улучшения их обнаруживаемости через Google Lens и Поиск по картинкам, а также для попадания в блоки «Похожие изображения» или «Похожие товары». Если система не может выделить тонкие визуальные характеристики изображения, оно может проиграть конкурентам с более четкими визуальными сигналами.

Детальный разбор

Термины и определения

Image Embedding Function (f(.)) (Функция встраивания изображений): Модель машинного обучения (обычно нейронная сеть), которая преобразует входное изображение в числовое векторное представление фиксированной размерности (эмбеддинг) в многомерном пространстве (например, Euclidean space).
Image Triplet (Триплет изображений): Набор из трех изображений, используемый для обучения: Query image (Q, анкорное), Positive image (P, похожее на Q) и Negative image (N, отличающееся от Q). Условие: Q более похоже на P, чем на N.
Fine-Grained Image Similarity (Тонко-детализированное сходство изображений): Способность различать объекты, принадлежащие к одной и той же базовой категории (например, разные модели телефонов или разные породы собак).
Deep Metric Learning: Область машинного обучения, целью которой является изучение функции расстояния (метрики) между объектами с использованием глубоких нейронных сетей.
Pairwise Relevance Score (r(i,j)) (Оценка парной релевантности): Метрика, измеряющая степень сходства между двумя изображениями (i и j). Используется для эффективного выбора (sampling) триплетов для обучения.
Pairwise Relevance Total (r_i) (Общая парная релевантность): Сумма всех pairwise relevance scores для изображения i по отношению ко всем остальным изображениям в том же классе. Используется для определения вероятности выбора изображения в качестве анкорного (Q).
Hinge Loss (Функция потерь Хинга): Функция, используемая для оптимизации модели при обучении на триплетах (performance measure). Она штрафует модель, если расстояние между Q и N не превышает расстояние между Q и P на определенную величину (margin/gap).
Multi-scale Network Structure (Многомасштабная структура сети): Архитектура нейронной сети, которая обрабатывает изображение на разных уровнях разрешения одновременно для захвата как семантической информации (через глубокие сети), так и визуальных деталей (через менее глубокие сети).

Ключевые утверждения (Анализ Claims)

Примечание: Патент US10949708B2 является продолжением (continuation) предыдущих патентов (например, US10181091). Он фокусируется на применении уже обученной модели в поисковой системе.

Claim 1 (Независимый пункт): Описывает применение обученной модели в поисковой системе.

Поисковая система получает поисковый запрос, включающий изображение.
Система определяет похожие изображения, используя обученную модель.
Эта модель включает image embedding function, которая генерирует представление признаков (эмбеддинг) для запроса.
Ключевое условие: эта функция была обучена с использованием image triplets, которые были выбраны на основе pairwise relevance scores.
Система предоставляет найденные похожие изображения.

Ядро изобретения здесь — применение функции, обученной специфическим образом (на триплетах, выбранных по релевантности), в контексте поисковой системы.

Claim 4 (Зависимый от 1): Детализирует механизм определения сходства.

Изображение запроса и изображение-кандидат отображаются в точки в Euclidean space с помощью image embedding function.
Вычисляется расстояние между этими двумя точками.
На основе этого расстояния определяется, является ли кандидат похожим. (Claim 5 уточняет, что сходство обратно пропорционально расстоянию).

Это стандартный механизм поиска по сходству в пространстве эмбеддингов.

Claim 6 (Зависимый от 1): Описывает архитектуру image embedding function.

Она включает первую сверточную нейронную сеть (CNN) с большим количеством слоев, обученную классифицировать изображения (для семантики), принимающую изображение в высоком разрешении.
Она также включает вторую CNN с меньшим количеством слоев, обученную извлекать признаки низкого разрешения (для визуальных деталей), принимающую изображение в низком разрешении.

Это подтверждает использование многомасштабной архитектуры.

Claim 11 (Зависимый от 9, который зависит от 1): Детализирует процесс выбора (sampling) триплетов во время обучения.

Используются изображения, сгруппированные по классам.
Для класса вычисляются pairwise relevance totals для каждого изображения.
Первое изображение (Q) выбирается с вероятностью, пропорциональной его pairwise relevance total.
Второе (P) и третье (N) изображения выбираются на основе порога и их парной релевантности к Q.

Этот сложный механизм выборки данных критичен для эффективности обучения на больших наборах данных.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры, связанных с обработкой и поиском визуального контента.

INDEXING – Индексирование и извлечение признаков

Извлечение признаков (Feature Extraction): Основное применение. Обученная image embedding function используется для анализа всех сканированных изображений. Система генерирует эмбеддинги — компактные векторные представления, которые кодируют как семантику, так и тонкие визуальные детали изображения.
Хранение: Эти эмбеддинги сохраняются в индексе (вероятно, специализированном индексе для визуального поиска), оптимизированном для быстрого поиска ближайших соседей.

QUNDERSTANDING – Понимание Запросов (Офлайн-аспект)

Патент описывает метод бутстрэппинга (Bootstrapping) для сбора обучающих данных: система анализирует популярные поисковые запросы и использует Топ-N результатов для формирования классов. Это часть офлайн-процесса обучения модели.

RANKING – Ранжирование (Этап Retrieval / Отбор кандидатов)

Визуальный поиск: Когда пользователь инициирует визуальный запрос (например, через Google Lens или Поиск по картинке), система генерирует эмбеддинг для изображения запроса в реальном времени.
Отбор кандидатов (L1): Система выполняет поиск в индексе эмбеддингов, чтобы найти точки (изображения), которые находятся на наименьшем расстоянии (Euclidean distance) от эмбеддинга запроса.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на изображения товаров (e-commerce), фотографии достопримечательностей, произведений искусства, природы (животные, растения), где тонкие различия имеют значение.
Специфические запросы: Запросы типа «query-by-image» (поиск по образцу), а также текстовые запросы, для которых важен визуальный аспект (например, поиск конкретной модели одежды или техники).
Конкретные ниши или тематики: E-commerce (одежда, электроника, мебель), мода, дизайн.

Когда применяется

Условия работы: Алгоритм генерации эмбеддингов применяется при индексировании изображений. Алгоритм поиска по эмбеддингам применяется при выполнении визуального поиска или когда поисковая система решает найти визуально похожий контент (например, для блока «Related Images»).

Пошаговый алгоритм

Патент описывает три ключевых процесса: Обучение модели, Генерация и выборка данных для обучения, и Применение модели в поиске.

Процесс А: Обучение Image Embedding Function (Итеративный процесс)

Выборка триплетов: Выбрать набор триплетов изображений (Q, P, N), используя Процесс Б.
Генерация эмбеддингов: Подать Q, P, N на вход image embedding function. Получить векторные представления f(Q), f(P), f(N). Это включает обработку через многомасштабную CNN (глубокий путь для семантики, поверхностные пути для деталей) и объединение результатов.
Расчет расстояний: Вычислить Евклидово расстояние D(Q, P) и D(Q, N).
Расчет производительности (Loss): Определить меру производительности (performance measure) для триплета. Например, используя Hinge Loss: max{0, g + D(Q,P) — D(Q,N)}. Цель — чтобы D(Q,N) было больше D(Q,P) как минимум на величину зазора g.
Корректировка весов: Отрегулировать веса параметров функции (например, через backpropagation) для минимизации потерь.
Проверка условий остановки: Проверить, произошло ли событие прекращения (cessation event). Если нет, вернуться к шагу 1.

Процесс Б: Генерация и Выборка Триплетов (Triplet Sampling)

Генерация классов (Bootstrapping): (Опционально) Выбрать популярные текстовые запросы, получить Топ-N изображений из поиска, сформировать из них классы.
Расчет релевантностей: Для изображений внутри класса рассчитать pairwise relevance scores (r(i,j)) и pairwise relevance totals (r_i).
Выбор Анкоря (Q): Выбрать первое изображение (Q) из класса с вероятностью, пропорциональной его r_i.
Выбор Позитивного примера (P): Выбрать второе изображение (P) из того же класса с вероятностью, смещенной в сторону высокого r(Q,P).
Выбор Негативного примера (N): Выбрать третье изображение (N). Оно может быть выбрано из того же класса (с низким r(Q,N)) или из другого класса.

Процесс В: Применение в поиске

Получение запроса: Получить изображение запроса.
Генерация эмбеддинга запроса: Использовать обученную image embedding function для генерации эмбеддинга запроса.
Поиск в индексе: Сравнить эмбеддинг запроса с эмбеддингами в индексе (предварительно рассчитанными).
Ранжирование: Упорядочить кандидатов по возрастанию Euclidean distance (чем меньше расстояние, тем выше сходство).
Вывод результатов: Предоставить наиболее похожие изображения.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке изображений и данных, связанных с их сходством.

Мультимедиа факторы (Изображения): Пиксельные данные изображений являются основным входом. Они обрабатываются в разных разрешениях (например, 256×256 и уменьшенные версии) в многомасштабной архитектуре.
Структурные данные (Организация тренировочных данных): Изображения, сгруппированные по классам. Классы могут быть получены из существующих датасетов или сгенерированы путем бутстрэппинга из результатов поиска.
Данные о сходстве (Pairwise Relevance Scores): Предварительно рассчитанные оценки сходства между парами изображений. Патент упоминает, что эти оценки могут быть основаны на комбинации признаков, таких как HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), LoG (Laplacian of Gaussian).
Контентные факторы (Аннотации): Данные аннотаций изображений (image annotation data), если они доступны, также могут использоваться для расчета Pairwise Relevance Scores.

Какие метрики используются и как они считаются

Image Embedding (f(p)): Вектор фиксированной размерности, являющийся выходом нейронной сети.
Euclidean Distance (D): Основная метрика сходства, основанная на эмбеддингах. Формула: D(f(P), f(Q)) = ||f(P) — f(Q)||^2.
Pairwise Relevance Score (r(i,j)): Оценка сходства, используемая для выборки данных. Может быть взвешенной линейной комбинацией различных визуальных и семантических признаков.
Pairwise Relevance Total (r_i): Сумма парных релевантностей для изображения i в его классе: r_i = Σ_j r(i,j).
Hinge Loss (l): Функция потерь, используемая для оптимизации. Формула: l = max{0, g + D(Q,P) — D(Q,N)}.
Gap Parameter (g): Гиперпараметр, определяющий требуемый зазор (margin) между позитивными и негативными парами.

Выводы

Google понимает изображения через эмбеддинги: Ключевой вывод заключается в том, что Google преобразует визуальный контент в математические векторы (эмбеддинги), где сходство определяется расстоянием (Euclidean distance). Это фундаментальный механизм работы визуального поиска.
Фокус на тонких различиях (Fine-Grained Similarity): Система специально разработана для различения очень похожих объектов внутри одной категории. Это критически важно для E-commerce, где пользователи ищут конкретные товары, а не просто общую категорию.
Многомасштабная архитектура (Семантика + Детали): Патент подчеркивает важность многоуровневого анализа. Google использует глубокие сети для понимания семантики (что это за объект) и одновременно анализирует визуальные детали (как он выглядит). Для ранжирования важно, чтобы изображение было и семантически верным, и визуально отчетливым.
Deep Metric Learning как основа: Обучение на триплетах (Deep Metric Learning) позволяет системе изучать признаки, которые наиболее важны для различения объектов, основываясь на относительных сравнениях (Q ближе к P, чем к N), а не абсолютных метках.
Эффективное обучение и самосовершенствование: Система использует сложный метод выборки триплетов для эффективного обучения на больших данных и может использовать результаты поиска (бутстрэппинг) для сбора обучающих данных, что позволяет ей постоянно совершенствоваться.

Практика

Best practices (это мы делаем)

Обеспечение визуальной четкости и семантической ясности: Изображения должны быть высокого качества, хорошо освещены, а главный объект должен быть четко виден и легко идентифицируем. Это помогает глубокой части CNN правильно понять семантику (объект), что является необходимым условием для дальнейшего анализа деталей.
Акцент на уникальных визуальных характеристиках (E-commerce): Для товаров необходимо демонстрировать детали, которые отличают их от аналогов (текстура, логотипы, специфические элементы дизайна). Многомасштабная архитектура Google специально ищет эти тонкие различия (fine-grained features).
Использование уникальных изображений вместо стоковых: Поскольку система точно измеряет визуальное сходство, использование уникальных, самостоятельно сделанных фотографий повышает шансы на то, что именно ваш контент будет выделен, а не сгруппирован с сотнями других сайтов, использующих то же стоковое фото.
Разнообразие ракурсов для товаров: Предоставление изображений товара с разных сторон и крупных планов деталей помогает системе сформировать более полное визуальное представление (эмбеддинг) объекта, улучшая его распознавание и поиск по сходству.
Оптимизация под Google Lens: Поскольку этот патент лежит в основе технологий визуального поиска, следует тестировать, как Google Lens распознает ваши изображения и какие похожие товары он предлагает. Если распознавание неточное, нужно улучшать визуальное качество и отчетливость изображений.

Worst practices (это делать не надо)

Использование низкокачественных или «зашумленных» изображений: Размытые, плохо освещенные изображения или картинки с чрезмерным количеством отвлекающих элементов затрудняют извлечение четких признаков, что приводит к формированию неточного эмбеддинга.
Сокрытие деталей товара: Использование изображений, на которых не видны ключевые отличительные особенности товара. Система не сможет определить fine-grained similarity.
Чрезмерное использование водяных знаков или наложений: Агрессивные водяные знаки, перекрывающие значительную часть объекта, могут исказить визуальные признаки и повлиять на то, как image embedding function интерпретирует изображение.
Манипуляции для «псевдо-уникализации»: Легкая цветокоррекция, зеркальное отражение или добавление рамок. Модели на базе CNN устойчивы к таким изменениям и распознают сходство, делая эти тактики неэффективными.
Игнорирование визуального контента и фокус только на метаданных: Полагаться только на alt-текст недостаточно. Визуальное сходство является независимым и мощным фактором в современном поиске по картинкам и e-commerce.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на развитие визуального поиска и глубокое понимание изображений. Для SEO-специалистов это означает, что оптимизация изображений перешла от базовых практик (alt-теги, размер файла) к необходимости стратегического управления визуальными активами. В e-commerce изображения становятся не просто иллюстрацией, а основным контентом, который должен быть оптимизирован для машинного зрения. Способность Google различать тонкие детали означает, что сайты с высококачественными, уникальными и детализированными изображениями получают преимущество.

Практические примеры

Сценарий: Оптимизация карточки товара для магазина кроссовок

Магазин продает редкую модель кроссовок Nike Air Max 90 в уникальной расцветке.

Задача: Обеспечить, чтобы при поиске этой модели (текстом или через Google Lens) пользователи находили именно этот товар и отличали его от других Air Max 90.
Применение патента: Google будет использовать image embedding function для анализа семантики (это Air Max 90) и тонких деталей (эта конкретная расцветка и материалы) с помощью многомасштабной сети.
Действия SEO/Контент-менеджера:
- Загрузить высококачественные фото (для четкого извлечения признаков).
- Сделать фото с разных ракурсов (общий вид, вид сбоку, сверху, подошва).
- Сделать макро-фото ключевых деталей: текстура материала, ярлычок с кодом модели, специфические элементы дизайна расцветки. Это даст данные для анализа fine-grained similarity.
- Избегать использования стандартных фото от производителя, которые используют сотни других магазинов. Сделать свою фотосессию.
Ожидаемый результат: Google формирует точный и уникальный эмбеддинг товара. При визуальном поиске система сможет точно сопоставить запрос с этим товаром, опираясь на детали расцветки и текстуры, а не только на общую форму модели.

Вопросы и ответы

Что такое «fine-grained image similarity» и почему это важно для SEO?

Это способность системы различать очень похожие объекты внутри одной категории (например, две разные модели синего платья). Это критически важно для E-commerce SEO, так как пользователи часто ищут конкретный товар. Если Google может понять тонкие визуальные различия с помощью этой технологии, он сможет точнее сопоставить запрос пользователя (особенно визуальный, через Google Lens) с вашим конкретным товаром, а не с похожим товаром конкурента.

Как Google определяет сходство между двумя изображениями согласно этому патенту?

Google использует обученную нейронную сеть (image embedding function) для преобразования каждого изображения в числовой вектор (эмбеддинг) в многомерном пространстве (Euclidean space). Затем он измеряет Евклидово расстояние между этими двумя векторами. Чем меньше расстояние, тем более похожими считаются изображения.

Что такое «Image Triplet» и как он используется?

Image Triplet — это метод обучения (Deep Metric Learning). Он состоит из трех изображений: Анкорь (Q), Позитивный пример (P, похож на Q) и Негативный пример (N, отличается от Q). Система обучается так, чтобы эмбеддинг Q был ближе к эмбеддингу P и дальше от эмбеддинга N. Это позволяет модели научиться выделять признаки, которые важны для различения похожих и непохожих объектов.

Патент упоминает многомасштабную архитектуру сети. Что это значит для оптимизации изображений?

Это значит, что Google анализирует изображения на двух уровнях одновременно. Глубокая часть сети анализирует семантику (что изображено, например, «это кроссовок»). Более поверхностные части анализируют визуальные детали (какой именно это кроссовок, его цвет, текстура). Для SEO это означает, что изображение должно быть оптимизировано для обоих уровней: объект должен быть легко узнаваем (четкий, в фокусе), а его уникальные детали должны быть хорошо видны (высокое качество, хорошее освещение).

Влияет ли этот патент на использование стоковых фотографий?

Да, влияет негативно. Поскольку система ищет визуальное сходство через эмбеддинги, стоковые фотографии, используемые на множестве сайтов, будут иметь идентичные или почти идентичные эмбеддинги. Это затрудняет дифференциацию вашего контента. Использование уникальных, самостоятельно сделанных фотографий позволяет создать уникальный визуальный отпечаток и улучшает видимость в поиске.

Как этот патент связан с Google Lens?

Этот патент описывает базовую технологию, которая лежит в основе Google Lens и Поиска по картинкам. Когда вы используете Google Lens для поиска объекта, система генерирует эмбеддинг для вашего фото и ищет ближайшие эмбеддинги в индексе Google, используя описанный механизм измерения расстояний для определения fine-grained similarity.

Нужно ли мне менять подход к заполнению alt-текстов и метаданных изображений?

Подход менять не нужно, эти данные по-прежнему важны для доступности и контекстного ранжирования. Однако этот патент подчеркивает, что визуальное содержание изображения анализируется независимо и очень глубоко. Нельзя компенсировать плохое качество или нерелевантность изображения только за счет метаданных. Визуальная оптимизация становится такой же важной, как и текстовая.

Как лучше всего подготовить изображения товаров для этой системы?

Лучшая практика — предоставлять несколько высококачественных, четких и хорошо освещенных изображений товара с разных ракурсов. Обязательно включайте крупные планы важных деталей (текстуры, логотипы, специфические элементы дизайна). Это помогает image embedding function захватить уникальные признаки товара.

Как Google собирает данные для обучения этой системы?

Патент описывает метод бутстрэппинга (Bootstrapping): Google анализирует популярные поисковые запросы и берет Топ-N результатов поиска по ним, рассматривая их как временный «класс». Затем он использует эти данные для генерации триплетов и обучения модели. Это означает, что система постоянно учится на актуальных данных из веба.

Может ли эта система распознать манипуляции с изображениями (например, зеркальное отражение или легкую цветокоррекцию)?

Да. Сверточные нейронные сети (CNN), используемые в архитектуре, устойчивы к таким незначительным изменениям. Эмбеддинги оригинального и слегка модифицированного изображения будут очень близки. Это делает тактики искусственной «уникализации» неэффективными для обмана системы визуального сходства.