Как Google использует компактные дескрипторы и пространственное кодирование для выявления и удаления почти дубликатов изображений из поиска

Google использует систему для эффективного обнаружения изображений-почти дубликатов (измененный размер, обрезка, сжатие). Система анализирует локальные особенности контента («визуальные слова») и их точное пространственное расположение («тайлы»), чтобы создать компактные дескрипторы. Сравнивая эти дескрипторы, Google быстро идентифицирует и удаляет дубликаты из результатов поиска для повышения разнообразия выдачи.

Описание

Какую задачу решает

Патент решает проблему наличия в результатах поиска изображений-почти дубликатов (near-duplicate images). Это изображения, являющиеся разными версиями одного и того же исходного контента (например, измененный размер, разная степень сжатия, обрезка или незначительные изменения, такие как добавление текста). Наличие таких дубликатов снижает разнообразие поисковой выдачи и ухудшает пользовательский опыт. Система направлена на эффективное и быстрое выявление этих дубликатов для их фильтрации из SERP.

Что запатентовано

Запатентована система и метод для идентификации изображений-почти дубликатов. Изобретение основано на генерации компактных дескрипторов для каждого изображения, которые кодируют как локальные визуальные особенности (visual words), так и их точное пространственное расположение (image tiles). Изображения классифицируются как почти дубликаты, только если они имеют пороговое количество совпадающих визуальных слов в совпадающих тайлах изображения.

Как это работает

Механизм работает следующим образом:

Извлечение и Квантование: Система определяет ключевые области (feature regions) на изображении и сопоставляет их с ближайшим visual word из заранее определенного словаря.
Пространственное кодирование: Система определяет, в какой тайл (image tile) попадает каждая ключевая область. Ключевая особенность: разбиение на тайлы может быть уникальным (смещенным) для каждого visual word, что повышает точность локализации.
Генерация дескрипторов: Создается компактный Feature Descriptor, кодирующий пары (Visual Word + Image Tile). Также может создаваться Color Descriptor.
Сравнение и Классификация: При сравнении двух изображений система подсчитывает количество совпадающих элементов (совпадение и по слову, и по тайлу). Если количество совпадений превышает порог (и, опционально, если цветовые дескрипторы близки), изображения признаются почти дубликатами.

Актуальность для SEO

Высокая. Эффективное управление дубликатами изображений остается критически важной задачей для Google Images, Google Shopping и других систем, работающих с визуальным контентом. Описанные методы создания компактных дескрипторов для быстрого сравнения (позволяющие проводить анализ «online») актуальны для обеспечения масштабируемости, скорости и разнообразия выдачи.

Важность для SEO

Патент имеет существенное значение (7/10) для стратегий в области SEO для изображений (Image SEO). Он описывает механизм, который напрямую определяет, будет ли изображение показано в выдаче или скрыто как дубликат. Это критически важно для e-commerce и контентных проектов, так как подчеркивает, что незначительные модификации (ресайз, водяные знаки) не обеспечивают уникальности в глазах поисковой системы.

Детальный разбор

Термины и определения

Visual Word (Визуальное слово): Квантованное представление локального признака изображения. Является элементом предопределенного словаря, созданного путем кластеризации пространства признаков (Feature Vectors).
Feature Region (Область признака): Локальная область на изображении (например, эллиптическая), из которой извлекаются визуальные признаки.
Image Tile / Region (Тайл / Регион изображения): Часть изображения, полученная в результате его разбиения (например, сеткой). Используется для кодирования грубого пространственного расположения Feature Region.
Image Tiling (Разбиение на тайлы): Схема разделения изображения на Image Tiles. В патенте описывается возможность использования разных схем разбиения (different image tiling) для разных визуальных слов.
Feature Descriptor (Дескриптор признаков): Компактное представление изображения. Состоит из набора элементов, каждый из которых кодирует пару: Visual Word и связанный с ним Image Tile.
Color Descriptor (Цветовой дескриптор): Компактное представление цветовой информации изображения, например, закодированные репрезентативные значения цветов (средние значения RGB).
Near-duplicate images (Изображения-почти дубликаты): Изображения, которые являются разными версиями одного и того же исходного контента (изменен размер, обрезка, сжатие, незначительные изменения).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации изображений как почти дубликатов.

Генерация множества векторов признаков (feature vectors) для каждого изображения.
Детализация процесса генерации:
- Определение feature region.
- Вычисление feature vector из этой области.
- Квантование вектора в одно из предопределенных visual words.
- Определение image tile, в котором находится feature region.
- Ассоциирование visual word с этим image tile.
Классификация изображений как near-duplicate images, если они имеют по крайней мере пороговое количество совпадающих visual words, связанных с совпадающими image tiles.

Ядро изобретения — требование совпадения не только визуального контента (Visual Word), но и его пространственного расположения (Image Tile) для идентификации дубликата.

Claim 2 (Зависимый от 1): Вводит ключевую техническую особенность для повышения точности.

Определение различного разбиения на тайлы (different image tiling) для каждого visual word в словаре.

Сетка, используемая для определения Image Tile, не фиксирована для всего изображения, а смещается в зависимости от того, какой именно Visual Word анализируется.

Claim 3 (Зависимый от 2): Уточняет реализацию различного разбиения.

Вычисление смещения (offset) на основе индексного номера visual word.

Claim 7 (Независимый пункт): Описывает метод удаления дубликатов относительно конкретного изображения запроса (Query by Image).

Получение изображения запроса (query image) и набора результатов поиска.
Генерация feature vectors (с Visual Words и Image Tiles) для изображения запроса и для каждого изображения в результатах.
Определение того, что одно или несколько изображений в результатах являются near-duplicate images изображения запроса (на основе порога совпадения).
Удаление этих дубликатов из набора результатов поиска.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая качество и разнообразие выдачи изображений.

INDEXING – Индексирование и извлечение признаков
Основная часть вычислений происходит на этом этапе:

Система анализирует изображения из коллекции (Image Collection).
Выполняются процессы извлечения признаков, квантования (Visual Words) и пространственного кодирования (Image Tiles).
Генерируются компактные Feature Descriptors и Color Descriptors для каждого изображения.
Эти дескрипторы сохраняются в Index Database.

RANKING / RERANKING – Ранжирование и Переранжирование
Механизм применяется во время выполнения запроса (online) благодаря компактности дескрипторов.

Удаление дубликатов (Deduplication): При получении набора результатов поиска система быстро сравнивает их дескрипторы, идентифицирует наборы почти дубликатов и выбирает один репрезентативный результат для показа, подавляя остальные. Это улучшает разнообразие (Diversity) выдачи.
Фильтрация Query by Image: Если запрос содержит изображение, система использует этот механизм для удаления из выдачи изображений, которые почти идентичны запрошенному (Claim 7).

Входные данные:

Коллекция изображений (результаты поиска или индекс).
Предварительно вычисленный словарь Visual Words и связанные с ними смещения (offsets) для разбиения на тайлы.

Выходные данные:

Отфильтрованный набор результатов поиска с удаленными дубликатами.
Идентификаторы наборов изображений-почти дубликатов.

На что влияет

Конкретные типы контента: Влияет исключительно на изображения. Наибольшее влияние оказывается на типы контента, где часто встречаются вариации одного изображения: стоковые фотографии, изображения товаров в e-commerce, новостные изображения.
Специфические запросы: Влияет на вертикаль Поиска по Картинкам (Image Search) и обратный поиск по изображению (Reverse Image Search).
Форматы контента: Влияет на все графические форматы. Патент упоминает, что система может адаптировать пороги для разных типов изображений (например, требовать больше совпадений для чертежей/схем – line drawings).

Когда применяется

Триггеры активации: Механизм сравнения активируется при обработке результатов поиска для обеспечения разнообразия или при обработке запроса по изображению.
Пороговые значения: Ключевыми условиями срабатывания являются:
- Порог количества совпадающих элементов дескриптора (threshold number of matching visual words associated with matching image tiles).
- Опционально: Порог цветовой дистанции (threshold color distance).

Пошаговый алгоритм

Процесс А: Генерация дескрипторов (Индексация)

Извлечение признаков: Для каждого изображения определяются Feature Regions и вычисляются Feature Vectors.
Выбор признаков: Выбирается подмножество наиболее значимых Feature Regions (например, на основе размера, контрастности или плотности) для обеспечения компактности дескриптора.
Квантование признаков: Каждый выбранный Feature Vector квантуется в ближайший Visual Word из словаря.
Пространственное квантование: Для каждого Visual Word определяется уникальное разбиение изображения на тайлы (используя смещение/offset, основанное на индексе слова). Определяется Image Tile, в который попадает признак.
Генерация Feature Descriptor: Кодируются пары (Visual Word ID + Image Tile ID) для всех выбранных признаков.
Генерация Color Descriptor: Вычисляются и кодируются репрезентативные цветовые значения (например, средние значения RGB, возможно, с фокусом на центр изображения).
Сохранение: Дескрипторы сохраняются в индексе.

Процесс Б: Обнаружение почти дубликатов (Сравнение)

Выбор пары изображений: Выбирается пара изображений для сравнения.
Сравнение цветов (Опционально): Вычисляется дистанция между Color Descriptors. Если дистанция превышает порог, процесс останавливается (не дубликаты).
Сравнение признаков: Подсчитывается количество совпадающих элементов в Feature Descriptors. Совпадение требует идентичности как Visual Word ID, так и Image Tile ID.
Проверка порога: Определяется, превышает ли количество совпадений установленный порог. Порог может зависеть от типа изображения.
Дополнительные проверки (Опционально): Может проверяться, происходят ли совпадения из разных тайлов изображения (для подтверждения глобального сходства композиции).
Классификация: Если пороги пройдены, изображения классифицируются как почти дубликаты.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Пиксельные данные): Система использует необработанные пиксельные данные изображений для извлечения локальных признаков (Feature Vectors) и глобальной цветовой информации (Color Descriptor). Анализируются контраст, текстуры, формы и цвета.

Какие метрики используются и как они считаются

Visual Word ID: Индекс, полученный путем квантования Feature Vector. Словарь создается офлайн путем кластеризации (например, k-means).
Image Tile ID: Индекс, полученный путем квантования пространственного расположения признака. Используется сетка разбиения, которая может быть смещена уникально для каждого Visual Word (Image Tiling Offset).
Number of Matching Elements (Количество совпадающих элементов): Метрика схожести Feature Descriptors. Подсчитывает количество пар (Visual Word ID + Image Tile ID), которые идентичны в обоих дескрипторах.
Color Distance (Цветовая дистанция): Метрика различия Color Descriptors. Упоминается возможность использования L1 расстояния (сумма абсолютных значений разностей) между соответствующими репрезентативными цветовыми значениями.
Thresholds (Пороги): Предопределенные значения для классификации. Патент упоминает, что пороги могут адаптироваться:
- Порог цветовой дистанции может зависеть от количества совпадающих визуальных слов.
- Порог совпадения признаков может зависеть от типа изображения (например, выше для line drawings).

Выводы

Эффективность и скорость обнаружения дубликатов: Патент фокусируется на создании очень компактных дескрипторов, позволяющих проводить сравнение «online» (во время выполнения запроса) без значительных задержек.
Важность пространственной информации (Композиция): Ключевым элементом является требование совпадения не только локальных признаков (Visual Words), но и их расположения (Image Tiles). Изображения с одинаковым набором объектов, но разной композицией, не будут считаться дубликатами.
Уникальное разбиение на тайлы повышает точность: Использование разного разбиения (different image tiling) для каждого Visual Word (путем смещения сетки) значительно повышает надежность пространственной проверки без увеличения размера дескриптора.
Устойчивость к модификациям: Механизм устойчив к типичным изменениям изображений, таким как изменение размера, сжатие, обрезка и незначительные правки (например, добавление небольшого текста или водяного знака).
Адаптивные пороги: Система способна адаптировать критерии схожести в зависимости от типа контента (фотографии против схем) и степени совпадения признаков.

Практика

Best practices (это мы делаем)

Создание уникального визуального контента: Приоритет отдается созданию собственных фотографий и графики. Если объекты на фото и их композиция уникальны, система не классифицирует контент как дубликат, используя описанный механизм сравнения Visual Words и Image Tiles.
Уникальные фото для E-commerce: Для интернет-магазинов критически важно использовать собственные фотографии товаров, а не стандартные изображения от производителя. Используйте разные ракурсы, уникальный фон и композиции. Это помогает избежать кластеризации с конкурентами и повышает шансы на видимость в Image Search.
Значительная модификация стоковых изображений: Если используются стоковые изображения, их необходимо существенно модифицировать, чтобы изменить базовые Feature Vectors и их расположение. Это должно быть нечто большее, чем просто обрезка или изменение размера (например, интеграция в сложный коллаж или дизайн).
Использование высококачественных изображений: Система выбирает наиболее значимые признаки (feature regions) для генерации дескриптора, часто основываясь на контрастности и размере. Четкие, высококачественные изображения позволяют системе лучше идентифицировать уникальные признаки и могут быть выбраны в качестве канонической версии.

Worst practices (это делать не надо)

Создание псевдо-уникального контента: Попытки «уникализировать» изображения путем незначительных изменений (изменение размера, добавление водяного знака, рамки, изменение сжатия) неэффективны. Описанный механизм классифицирует такие изображения как near-duplicates.
Массовое использование стоковых фото без изменений: Такие изображения с высокой вероятностью будут классифицированы как дубликаты изображений на других сайтах и могут быть подавлены в выдаче.
Использование идентичных изображений для разных товаров: Использование одного и того же изображения для разных SKU (например, отличающихся незначительными деталями) приведет к тому, что только одно из них будет представлено в поиске по картинкам.

Стратегическое значение

Патент подтверждает, что принципы уникальности контента в полной мере распространяются и на изображения. Google обладает эффективным и быстрым механизмом для фильтрации визуального дублированного контента в масштабах веба. Для достижения видимости в Google Images необходимо инвестировать в создание контента, который уникален не только на уровне файла, но и на уровне извлекаемых визуальных признаков и композиции. Стратегии, основанные на переиспользовании чужого визуального контента, неэффективны.

Практические примеры

Сценарий: Дедупликация фотографий товара в E-commerce

Ситуация: Производитель предоставил официальное фото нового смартфона (Изображение А). Десять разных интернет-магазинов используют это фото. Один магазин сделал собственное фото этого же смартфона с другого ракурса и на другом фоне (Изображение Б).
Обработка Google:
- Система индексирует все 11 изображений и вычисляет Feature Descriptors.
- При сравнении дескрипторов 10 копий Изображения А система обнаруживает высокое количество совпадающих Visual Words в одинаковых Image Tiles. Они классифицируются как почти дубликаты.
- При сравнении Изображения А и Изображения Б система обнаружит много совпадающих Visual Words (тот же объект), но из-за изменения ракурса и фона они будут находиться в разных Image Tiles. Они НЕ будут классифицированы как почти дубликаты.
Результат в выдаче: В Google Images по запросу модели смартфона Google покажет Изображение А (выбрав одну каноническую версию из 10 копий) и Изображение Б. Девять дубликатов Изображения А будут отфильтрованы.

Вопросы и ответы

Будет ли изображение считаться дубликатом, если я изменю его размер или сохраню в другом формате (например, JPEG вместо PNG)?

Да, с высокой вероятностью. Описанный механизм устойчив к изменению размера, формата и степени сжатия. Visual Words извлекаются из локальных признаков, которые инвариантны к масштабу, а Image Tiles кодируют их относительное расположение. Эти характеристики не меняются при базовых технических преобразованиях.

Достаточно ли обрезать изображение (crop) или добавить водяной знак, чтобы сделать его уникальным для Google?

В большинстве случаев этого недостаточно. Если обрезка незначительна или водяной знак мал, большинство ключевых Feature Regions останутся неизменными и сохранят свое расположение. Система все равно обнаружит пороговое количество совпадающих элементов в Feature Descriptor и классифицирует изображение как почти дубликат.

Что означает ключевая особенность патента — «Различное разбиение на тайлы для каждого визуального слова» (different image tiling)?

Это технический прием для повышения точности пространственного кодирования. Вместо использования одной фиксированной сетки (например, 2×2) для определения расположения всех признаков, система смещает эту сетку уникальным образом (используя offset) для каждого Visual Word в словаре. Это снижает вероятность случайных совпадений и гарантирует, что совпадение признака в определенном тайле является надежным сигналом схожести композиции.

Как система использует Color Descriptor?

Color Descriptor кодирует общую цветовую информацию и может использоваться как быстрый фильтр первого уровня. Если два изображения сильно отличаются по цвету (дистанция выше порога), система может сразу определить их как не дубликаты, даже не сравнивая Feature Descriptors. Если цвета похожи, система переходит к более детальной проверке признаков.

Как этот патент влияет на SEO для интернет-магазинов, использующих фото от поставщиков?

Он оказывает значительное негативное влияние на такие магазины. Если вы используете те же стоковые фото, что и десятки конкурентов, Google сгруппирует их все вместе и покажет только одну версию (вероятно, с более авторитетного сайта). Для ранжирования в Image Search необходимо создавать уникальные фотографии товаров (с разных ракурсов, в другом окружении).

Применяется ли этот алгоритм во время индексации или во время поиска?

Оба варианта. Вычисление дескрипторов (Feature Descriptor, Color Descriptor) происходит во время индексации и сохраняется в базе данных. Сравнение дескрипторов происходит во время поиска (online) для фильтрации результатов, так как оно выполняется очень быстро благодаря компактности дескрипторов.

Как система обрабатывает изображения с малым количеством деталей (например, однотонный фон или простая графика)?

Патент упоминает, что в таких случаях система может не найти достаточного количества Feature Regions. В этой ситуации система может альтернативно использовать дескрипторы «всего изображения» (whole image content descriptors), которые могут включать гистограммы цветов, расположение углов, текстур и другую геометрическую информацию, не основанную на локальных признаках.

Используются ли разные пороги для разных типов изображений?

Да, патент явно указывает на такую возможность. Например, для чертежей или схем (line drawings) система может требовать более высокого порога количества совпадающих элементов (matching element threshold), чем для обычных фотографий, чтобы подтвердить, что это действительно дубликат.

Влияет ли этот патент на ранжирование текстовых веб-страниц?

Напрямую нет. Патент описывает механизм для улучшения результатов поиска изображений (Google Images). Однако косвенно он может влиять, если наличие уникальных изображений на веб-странице является фактором ранжирования для этой страницы в целом, или если страница получает трафик через блоки Universal Search с изображениями.

Как проверить, считает ли Google мое изображение уникальным?

Самый надежный способ — использовать обратный поиск по изображению (Reverse Image Search) в Google. Если в результатах поиска появляется множество точных или почти точных копий вашего изображения с других сайтов, значит, оно не уникально. Если же система показывает похожие по тематике, но визуально отличные изображения, ваш контент, вероятно, уникален.