
Google использует систему для эффективного обнаружения изображений-почти дубликатов (измененный размер, обрезка, сжатие). Система анализирует локальные особенности контента ("визуальные слова") и их точное пространственное расположение ("тайлы"), чтобы создать компактные дескрипторы. Сравнивая эти дескрипторы, Google быстро идентифицирует и удаляет дубликаты из результатов поиска для повышения разнообразия выдачи.
Патент решает проблему наличия в результатах поиска изображений-почти дубликатов (near-duplicate images). Это изображения, являющиеся разными версиями одного и того же исходного контента (например, измененный размер, разная степень сжатия, обрезка или незначительные изменения, такие как добавление текста). Наличие таких дубликатов снижает разнообразие поисковой выдачи и ухудшает пользовательский опыт. Система направлена на эффективное и быстрое выявление этих дубликатов для их фильтрации из SERP.
Запатентована система и метод для идентификации изображений-почти дубликатов. Изобретение основано на генерации компактных дескрипторов для каждого изображения, которые кодируют как локальные визуальные особенности (visual words), так и их точное пространственное расположение (image tiles). Изображения классифицируются как почти дубликаты, только если они имеют пороговое количество совпадающих визуальных слов в совпадающих тайлах изображения.
Механизм работает следующим образом:
feature regions) на изображении и сопоставляет их с ближайшим visual word из заранее определенного словаря.image tile) попадает каждая ключевая область. Ключевая особенность: разбиение на тайлы может быть уникальным (смещенным) для каждого visual word, что повышает точность локализации.Feature Descriptor, кодирующий пары (Visual Word + Image Tile). Также может создаваться Color Descriptor.Высокая. Эффективное управление дубликатами изображений остается критически важной задачей для Google Images, Google Shopping и других систем, работающих с визуальным контентом. Описанные методы создания компактных дескрипторов для быстрого сравнения (позволяющие проводить анализ "online") актуальны для обеспечения масштабируемости, скорости и разнообразия выдачи.
Патент имеет существенное значение (7/10) для стратегий в области SEO для изображений (Image SEO). Он описывает механизм, который напрямую определяет, будет ли изображение показано в выдаче или скрыто как дубликат. Это критически важно для e-commerce и контентных проектов, так как подчеркивает, что незначительные модификации (ресайз, водяные знаки) не обеспечивают уникальности в глазах поисковой системы.
Feature Vectors).Feature Region.Image Tiles. В патенте описывается возможность использования разных схем разбиения (different image tiling) для разных визуальных слов.Visual Word и связанный с ним Image Tile.Claim 1 (Независимый пункт): Описывает основной метод классификации изображений как почти дубликатов.
feature vectors) для каждого изображения.feature region.feature vector из этой области.visual words.image tile, в котором находится feature region.visual word с этим image tile.near-duplicate images, если они имеют по крайней мере пороговое количество совпадающих visual words, связанных с совпадающими image tiles.Ядро изобретения — требование совпадения не только визуального контента (Visual Word), но и его пространственного расположения (Image Tile) для идентификации дубликата.
Claim 2 (Зависимый от 1): Вводит ключевую техническую особенность для повышения точности.
different image tiling) для каждого visual word в словаре.Сетка, используемая для определения Image Tile, не фиксирована для всего изображения, а смещается в зависимости от того, какой именно Visual Word анализируется.
Claim 3 (Зависимый от 2): Уточняет реализацию различного разбиения.
offset) на основе индексного номера visual word.Claim 7 (Независимый пункт): Описывает метод удаления дубликатов относительно конкретного изображения запроса (Query by Image).
query image) и набора результатов поиска.feature vectors (с Visual Words и Image Tiles) для изображения запроса и для каждого изображения в результатах.near-duplicate images изображения запроса (на основе порога совпадения).Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая качество и разнообразие выдачи изображений.
INDEXING – Индексирование и извлечение признаков
Основная часть вычислений происходит на этом этапе:
Image Collection).Feature Descriptors и Color Descriptors для каждого изображения.Index Database.RANKING / RERANKING – Ранжирование и Переранжирование
Механизм применяется во время выполнения запроса (online) благодаря компактности дескрипторов.
Входные данные:
Visual Words и связанные с ними смещения (offsets) для разбиения на тайлы.Выходные данные:
line drawings).threshold number of matching visual words associated with matching image tiles).threshold color distance).Процесс А: Генерация дескрипторов (Индексация)
Feature Regions и вычисляются Feature Vectors.Feature Regions (например, на основе размера, контрастности или плотности) для обеспечения компактности дескриптора.Feature Vector квантуется в ближайший Visual Word из словаря.Visual Word определяется уникальное разбиение изображения на тайлы (используя смещение/offset, основанное на индексе слова). Определяется Image Tile, в который попадает признак.Процесс Б: Обнаружение почти дубликатов (Сравнение)
Color Descriptors. Если дистанция превышает порог, процесс останавливается (не дубликаты).Feature Descriptors. Совпадение требует идентичности как Visual Word ID, так и Image Tile ID.Feature Vectors) и глобальной цветовой информации (Color Descriptor). Анализируются контраст, текстуры, формы и цвета.Feature Vector. Словарь создается офлайн путем кластеризации (например, k-means).Image Tiling Offset).Feature Descriptors. Подсчитывает количество пар (Visual Word ID + Image Tile ID), которые идентичны в обоих дескрипторах.Color Descriptors. Упоминается возможность использования L1 расстояния (сумма абсолютных значений разностей) между соответствующими репрезентативными цветовыми значениями.line drawings).Visual Words), но и их расположения (Image Tiles). Изображения с одинаковым набором объектов, но разной композицией, не будут считаться дубликатами.different image tiling) для каждого Visual Word (путем смещения сетки) значительно повышает надежность пространственной проверки без увеличения размера дескриптора.Visual Words и Image Tiles.Feature Vectors и их расположение. Это должно быть нечто большее, чем просто обрезка или изменение размера (например, интеграция в сложный коллаж или дизайн).feature regions) для генерации дескриптора, часто основываясь на контрастности и размере. Четкие, высококачественные изображения позволяют системе лучше идентифицировать уникальные признаки и могут быть выбраны в качестве канонической версии.near-duplicates.Патент подтверждает, что принципы уникальности контента в полной мере распространяются и на изображения. Google обладает эффективным и быстрым механизмом для фильтрации визуального дублированного контента в масштабах веба. Для достижения видимости в Google Images необходимо инвестировать в создание контента, который уникален не только на уровне файла, но и на уровне извлекаемых визуальных признаков и композиции. Стратегии, основанные на переиспользовании чужого визуального контента, неэффективны.
Сценарий: Дедупликация фотографий товара в E-commerce
Feature Descriptors.Visual Words в одинаковых Image Tiles. Они классифицируются как почти дубликаты.Visual Words (тот же объект), но из-за изменения ракурса и фона они будут находиться в разных Image Tiles. Они НЕ будут классифицированы как почти дубликаты.Будет ли изображение считаться дубликатом, если я изменю его размер или сохраню в другом формате (например, JPEG вместо PNG)?
Да, с высокой вероятностью. Описанный механизм устойчив к изменению размера, формата и степени сжатия. Visual Words извлекаются из локальных признаков, которые инвариантны к масштабу, а Image Tiles кодируют их относительное расположение. Эти характеристики не меняются при базовых технических преобразованиях.
Достаточно ли обрезать изображение (crop) или добавить водяной знак, чтобы сделать его уникальным для Google?
В большинстве случаев этого недостаточно. Если обрезка незначительна или водяной знак мал, большинство ключевых Feature Regions останутся неизменными и сохранят свое расположение. Система все равно обнаружит пороговое количество совпадающих элементов в Feature Descriptor и классифицирует изображение как почти дубликат.
Что означает ключевая особенность патента — "Различное разбиение на тайлы для каждого визуального слова" (different image tiling)?
Это технический прием для повышения точности пространственного кодирования. Вместо использования одной фиксированной сетки (например, 2x2) для определения расположения всех признаков, система смещает эту сетку уникальным образом (используя offset) для каждого Visual Word в словаре. Это снижает вероятность случайных совпадений и гарантирует, что совпадение признака в определенном тайле является надежным сигналом схожести композиции.
Как система использует Color Descriptor?
Color Descriptor кодирует общую цветовую информацию и может использоваться как быстрый фильтр первого уровня. Если два изображения сильно отличаются по цвету (дистанция выше порога), система может сразу определить их как не дубликаты, даже не сравнивая Feature Descriptors. Если цвета похожи, система переходит к более детальной проверке признаков.
Как этот патент влияет на SEO для интернет-магазинов, использующих фото от поставщиков?
Он оказывает значительное негативное влияние на такие магазины. Если вы используете те же стоковые фото, что и десятки конкурентов, Google сгруппирует их все вместе и покажет только одну версию (вероятно, с более авторитетного сайта). Для ранжирования в Image Search необходимо создавать уникальные фотографии товаров (с разных ракурсов, в другом окружении).
Применяется ли этот алгоритм во время индексации или во время поиска?
Оба варианта. Вычисление дескрипторов (Feature Descriptor, Color Descriptor) происходит во время индексации и сохраняется в базе данных. Сравнение дескрипторов происходит во время поиска (online) для фильтрации результатов, так как оно выполняется очень быстро благодаря компактности дескрипторов.
Как система обрабатывает изображения с малым количеством деталей (например, однотонный фон или простая графика)?
Патент упоминает, что в таких случаях система может не найти достаточного количества Feature Regions. В этой ситуации система может альтернативно использовать дескрипторы "всего изображения" (whole image content descriptors), которые могут включать гистограммы цветов, расположение углов, текстур и другую геометрическую информацию, не основанную на локальных признаках.
Используются ли разные пороги для разных типов изображений?
Да, патент явно указывает на такую возможность. Например, для чертежей или схем (line drawings) система может требовать более высокого порога количества совпадающих элементов (matching element threshold), чем для обычных фотографий, чтобы подтвердить, что это действительно дубликат.
Влияет ли этот патент на ранжирование текстовых веб-страниц?
Напрямую нет. Патент описывает механизм для улучшения результатов поиска изображений (Google Images). Однако косвенно он может влиять, если наличие уникальных изображений на веб-странице является фактором ранжирования для этой страницы в целом, или если страница получает трафик через блоки Universal Search с изображениями.
Как проверить, считает ли Google мое изображение уникальным?
Самый надежный способ — использовать обратный поиск по изображению (Reverse Image Search) в Google. Если в результатах поиска появляется множество точных или почти точных копий вашего изображения с других сайтов, значит, оно не уникально. Если же система показывает похожие по тематике, но визуально отличные изображения, ваш контент, вероятно, уникален.

Индексация
Мультимедиа

Мультимедиа
Семантика и интент

Мультимедиа
SERP

Индексация
Мультимедиа

Мультимедиа
Индексация

Семантика и интент
Поведенческие сигналы
Персонализация

Local SEO
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы

Свежесть контента
Поведенческие сигналы
SERP

EEAT и качество
Свежесть контента
Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

Индексация
Техническое SEO
Структура сайта

SERP
Персонализация
Поведенческие сигналы

Поведенческие сигналы
SERP
