Как Google реализует «Поиск по картинке»: вейвлет-хэширование для дубликатов и текстовые метки для определения темы

Анализ патента Google, лежащего в основе системы «Поиск по картинке» (Search by Image). Описан метод генерации компактных цифровых подписей (хэшей) изображений с помощью вейвлет-преобразований для эффективного поиска почти дубликатов. Также раскрывается архитектура, которая определяет текстовые метки (Labels) для изображения, использует их для поиска и переранжирует веб-страницы, содержащие это изображение, на основе их текстового контекста.

Описание

Какую задачу решает

Патент решает комплексную задачу обработки поисковых запросов, где в качестве входных данных используется изображение (Query Image), а не текст. Это включает две основные проблемы: (1) Эффективное и масштабируемое обнаружение near duplicate images (почти дубликатов), устойчивое к изменениям (размер, сжатие, формат, обрезка). (2) Интерпретация семантики изображения для предоставления релевантных результатов, включая связанные веб-страницы и visually similar images (визуально похожие изображения).

Что запатентовано

Запатентованы система и метод для поиска по изображению. Ядром изобретения является высокоэффективный метод генерации компактной Image Signature (хэш-значения) с использованием вейвлет-преобразований (Wavelet Transformation). Система создает битовый вектор на основе знаков (signs) наиболее значимых вейвлет-коэффициентов изображения и хеширует его. Также описана архитектура, которая интегрирует этот механизм с определением текстовых меток (Labels) и их оценок уверенности (Confidence Scores).

Как это работает

Система реализует функцию поиска по изображению следующим образом:

Нормализация и анализ: Изображение обрабатывается (обрезаются однородные рамки, нормализуется цвет) и подвергается вейвлет-преобразованию (например, Хаара).
Генерация подписи (Хэширование): Отбираются коэффициенты с наибольшей магнитудой. Их знаки (+/-/0) кодируются в битовый вектор, который хэшируется для создания Image Signature.
Поиск совпадений: Эта подпись используется для поиска near duplicates. Параллельно используются алгоритмы локальных признаков (local-feature algorithms) для поиска visually similar images.
Определение темы: Система агрегирует текстовые Labels, связанные с найденными совпадениями, и выбирает «Best Guess» метку с наивысшим Confidence Score.
Формирование выдачи: «Best Guess» метка используется как текстовый запрос. Результаты объединяются. Важно, что страницы, содержащие дубликаты, переранжируются: те, которые также содержат текст «Best Guess» метки, повышаются.

Актуальность для SEO

Высокая. Описанные технологии являются фундаментом для систем обратного поиска изображений, таких как Google Images («Поиск по картинке») и Google Lens. Эффективное сравнение изображений (Image Fingerprinting) и сопоставление визуального контента с семантическими метками остаются критически важными задачами для Google.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в области Image SEO, E-commerce и управления визуальным контентом. Он раскрывает, как Google технически идентифицирует дубликаты изображений и как определяет их тематику (Labels). Ключевое значение имеет понимание того, что контекст страницы критически важен для ранжирования в результатах обратного поиска, даже при использовании неуникального изображения.

Детальный разбор

Термины и определения

Query Image (Изображение-запрос): Изображение, предоставленное пользователем в качестве входных данных для поисковой операции.
Image Signature (Цифровая подпись изображения, Хэш-значение): Компактное представление изображения (hash value), вычисленное на основе его визуальных характеристик. Используется для эффективного поиска дубликатов. В патенте генерируется с помощью вейвлет-анализа.
Near Duplicate Images (Почти дубликаты): Изображения, идентичные исходному, за исключением различий в обработке (разрешение, сжатие, яркость, обрезка границ). Имеют совпадающие Image Signatures.
Visually Similar Images (Визуально похожие изображения): Изображения, имеющие схожие визуальные признаки (цвет, текстура) или изображающие тот же объект с другого ракурса. Идентифицируются с помощью local-feature algorithms.
Wavelet Transformation (Вейвлет-преобразование): Математическая функция (например, вейвлет Хаара), используемая для анализа изображения. Кодирует частотную и пространственную информацию.
Wavelet Coefficients (Коэффициенты вейвлета): Результат вейвлет-преобразования. Система использует подмножество коэффициентов с наибольшей магнитудой (greatest magnitude).
Image Label (Метка изображения) / Best Guess Label: Текстовые данные (Labels), семантически связанные с содержанием изображения. «Best Guess» — метка с наивысшим Confidence Score.
Confidence Score (Оценка уверенности): Метрика, указывающая на вероятность того, что Label точно описывает изображение.
Image Similarity Subsystem: Компонент системы, отвечающий за поиск Near Duplicate и Visually Similar изображений.
Image Label Subsystem: Компонент системы, отвечающий за генерацию, хранение и выбор Image Labels.
Hybrid Query (Гибридный запрос): Поисковый запрос, включающий и изображение, и текст.

Ключевые утверждения (Анализ Claims)

Ядром изобретения, защищенным в Claims, является специфический метод генерации хэшей для поиска дубликатов.

Claim 1 (Независимый пункт): Описывает метод идентификации почти дубликатов.

Система получает Query Image.
Система обращается к базе данных хэш-значений других изображений.
Получается набор Wavelet Coefficients для Query Image.
Идентифицируется подмножество коэффициентов, у которых магнитуда превышает порог (т.е. самые значимые).
Применяется хэш-функция к битовому вектору (bit-vector), представляющему знаки (signs) этого подмножества коэффициентов. Это генерирует хэш-значение (Image Signature) для Query Image.
Хэш-значение Query Image сравнивается с хэшами в базе данных.
На основе совпадения идентифицируется near duplicate image.

Ключевая особенность — использование именно знаков (положительный, отрицательный, ноль) наиболее значимых коэффициентов, что делает хэш устойчивым к изменениям яркости и контраста.

Claim 2 (Зависимый от 1): Уточняет, что битовый вектор использует двухбитовые значения (two-bit values) для кодирования знака.

Claim 4 и 5 (Зависимые от 1): Уточняют, что битовый вектор может также включать данные о среднем цвете (average color) и соотношении сторон (aspect ratio) изображения для повышения точности.

Claim 6 (Зависимый от 1): Описывает предварительный шаг: удаление однородной цветной рамки (uniform color border) перед вычислением хэша. Это делает механизм устойчивым к разной обрезке или наличию рамок.

Где и как применяется

Изобретение обеспечивает инфраструктуру для обратного поиска изображений и затрагивает несколько этапов поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
На этом этапе для каждого изображения в интернете:

Выполняется предварительная обработка (нормализация гистограммы, обрезка рамок).
Вычисляется и сохраняется Image Signature (вейвлет-хэш) в Image Data Store.
Извлекаются локальные признаки (Local Features).
Image Label Subsystem анализирует контекст веб-страниц для генерации Labels и расчета Confidence Scores, сохраняя их в Label Data Store (включая текст, извлеченный из самого изображения).

QUNDERSTANDING & RANKING – Понимание запросов и Ранжирование
Когда пользователь загружает Query Image:

Система вычисляет его Image Signature и извлекает Local Features в реальном времени.
Image Similarity Subsystem ищет Near Duplicates (по хэшу) и Visually Similar Images (по локальным признакам).
Image Label Subsystem определяет релевантные Labels (часто агрегируя метки найденных дубликатов) и выбирает «Best Guess».
«Best Guess» метка используется как текстовый запрос для поиска связанных веб-страниц в Text Search Subsystem.

METASEARCH & RERANKING – Метапоиск, Смешивание и Переранжирование
Результаты объединяются (текстовый поиск по метке, похожие изображения, страницы с дубликатами). Происходит ключевой этап переранжирования: список веб-страниц, содержащих дубликаты, переупорядочивается. Страницы, текст которых содержит идентифицированную Label, повышаются в ранжировании.

На что влияет

Типы контента: Все типы графического контента (фото, иллюстрации, логотипы).
Специфические запросы: Применяется исключительно при обратном поиске изображений (Search by Image) или использовании гибридных запросов (Hybrid Query).
Ниши: Влияет на все ниши, особенно E-commerce (поиск товаров), новости и медиа (поиск источников фото), искусство и путешествия.

Когда применяется

Триггеры активации: Загрузка пользователем изображения в качестве запроса или выбор опции «Search with this image» в браузере.
Условия и пороги: Для генерации хэша используются только вейвлет-коэффициенты, превышающие порог магнитуды. Для использования текстовой метки ее Confidence Score должен превышать установленный порог. Если уверенность низкая, система может запросить уточнение у пользователя.

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов.

1. Получение и первичная обработка запроса

Получение Query Image от пользователя.
Нормализация изображения: нормализация цветовой гистограммы, обрезка однородных рамок (Trim borders), конвертация в цветовое пространство (например, YIQ).

2. Извлечение признаков (Параллельные процессы)

A. Генерация подписи (для дубликатов):
- Применение вейвлет-преобразования (например, Haar wavelet).
- Сортировка полученных коэффициентов по магнитуде и выбор Топ-N коэффициентов.
- Конвертация знаков этих коэффициентов в битовый вектор (используя two-bit values).
- Кодирование дополнительных параметров (средний цвет, соотношение сторон) в вектор.
- Применение хеш-функции для создания Image Signature.
B. Извлечение локальных признаков (для похожих изображений):
- Использование local-feature algorithms для извлечения инвариантных локальных признаков.

3. Поиск совпадений

Поиск Near Duplicates по совпадению Image Signature.
Поиск Visually Similar Images по совпадению Local Features.
Поиск в базе данных компьютерного зрения для высококачественных метаданных (если применимо).

4. Генерация и выбор текстовых меток

Получение сохраненных Image Labels и их Confidence Scores для найденных совпадений.
Агрегация и ранжирование меток.
Выбор метки с наивысшей оценкой в качестве Best Guess Label.

5. Валидация меток и обработка неопределенности

Проверка, превышает ли Confidence Score метки «Best Guess» установленный порог.
Если НЕТ: отправка запроса пользователю на ввод уточняющего текстового запроса. Полученный текст может быть сохранен как новая метка для этого изображения в Label Data Store.
Если ДА: переход к шагу 6.

6. Вторичный поиск

Использование Best Guess Label (или текста, введенного пользователем) в качестве запроса для стандартной системы текстового поиска.

7. Ранжирование и смешивание результатов

Получение списка веб-страниц, содержащих Near Duplicates.
Переранжирование этого списка. Приоритет отдается страницам с более высокими стандартными Search Result Scores И/ИЛИ страницам, в тексте которых присутствует Best Guess Label.
Объединение всех результатов (метка, результаты текстового поиска, похожие изображения, список страниц с дубликатами).

8. Предоставление результатов пользователю.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Визуальные данные): Пиксельные данные изображения являются основным входом. Анализируются цвета, распределение яркости, частотные и пространственные характеристики (через вейвлеты). Используется цветовое пространство YIQ. Средний цвет (average color) и соотношение сторон (aspect ratio) также используются.
Контентные факторы (Текстовые данные): Существующие Labels в базе данных, ассоциированные с дубликатами. Эти метки изначально генерируются из контекста: окружающий текст, имена файлов, anchor-текст, а также текст, извлеченный из самого изображения (OCR). Текст на веб-страницах, содержащих дубликаты, используется при переранжировании.
Пользовательские факторы: Текстовый запрос, введенный пользователем (в гибридном запросе или если система запросила уточнение при низкой уверенности в метках).

Какие метрики используются и как они считаются

Магнитуда вейвлет-коэффициентов: Определяет наиболее значимые визуальные характеристики. Используется для фильтрации коэффициентов (применяется порог).
Знаки вейвлет-коэффициентов (Signs): Используются вместо точных значений для создания устойчивой к изменениям подписи. Кодируются как two-bit values.
Hash Value (Image Signature): Результат хэширования битового вектора признаков. Используется для бинарного сравнения (совпадает/не совпадает) при поиске дубликатов.
Confidence Score (для меток): Оценка вероятности семантической связи метки и изображения. Используется для выбора «Best Guess» и сравнения с порогом (confidence score threshold).
Search Result Score (для веб-страниц): Стандартные метрики ранжирования, используемые для оценки веб-страниц. Используются при ранжировании страниц с дубликатами и могут быть модифицированы наличием Label на странице.

Выводы

Устойчивая идентификация дубликатов: Google использует высокоэффективный метод вейвлет-хэширования для идентификации Near Duplicates. Этот метод устойчив к изменениям разрешения, формата, сжатия, яркости и наличию рамок. Незначительные правки не делают изображение уникальным для системы.
Разделение задач идентификации: Система четко разделяет поиск дубликатов (через хэширование) и поиск визуально похожих изображений (через сопоставление локальных признаков).
Семантика определяется консенсусом меток: Тема изображения (Label) часто определяется не путем прямого распознавания объекта, а путем анализа меток, уже ассоциированных с его дубликатами в индексе. Система ищет консенсус и оценивает его через Confidence Score.
Контекст критичен для ранжирования в обратном поиске: Ключевой вывод для SEO: при отображении списка сайтов, содержащих дубликат изображения, приоритет отдается тем сайтам, чей текстовый контент соответствует идентифицированной теме (Label) изображения.
Обработка неопределенности и обучение: Если система не уверена в метке (низкий Confidence Score), она может запросить ввод у пользователя и использовать его для обучения (ассоциируя введенный текст с изображением).

Практика

Best practices (это мы делаем)

Создание сильного семантического контекста: Размещайте изображения в окружении релевантного текста (заголовки, подписи, основной контент, ALT-текст). Это критически важно для (1) формирования корректных Labels для вашего изображения в базе Google и (2) повышения ранжирования вашей страницы в результатах обратного поиска (блок «Pages that include this image»), благодаря механизму переранжирования.
Обеспечение четкости визуального сигнала: Используйте качественные и четкие изображения. Это облегчает извлечение Local Features и корректное вычисление Image Signature, что повышает шансы на правильную идентификацию контента или товара в визуальном поиске. Убедитесь, что на них нет искусственных широких однородных рамок, так как система их автоматически обрезает (Trim borders).
Мониторинг интерпретации изображений: Используйте обратный поиск для своих ключевых изображений (товаров, логотипов), чтобы проверить, какие Labels («Best Guess») Google ассоциирует с ними. Если интерпретация неверна, необходимо усилить контекстные сигналы на сайте.
Использование уникального визуального контента: Для получения преимущества в поиске создавайте уникальные изображения, так как система крайне эффективно находит дубликаты стоковых фото. Если используются стоковые фото, контекст становится решающим фактором ранжирования.
Использование обратного поиска для линкбилдинга: Отслеживайте использование ваших уникальных изображений на сторонних сайтах для получения обратных ссылок, используя описанный в патенте точный механизм поиска дубликатов.

Worst practices (это делать не надо)

Попытки уникализации через минимальные правки: Изменение размера, яркости, добавление рамок или пересохранение в другом формате не помешают Google идентифицировать изображение как Near Duplicate. Алгоритм вейвлет-хэширования устойчив к этим манипуляциям.
Игнорирование контекста изображений: Размещение изображений на страницах без релевантного текстового сопровождения (например, в галереях без подписей). Это затрудняет присвоение корректных Labels и снижает потенциал ранжирования страницы в обратном поиске.
Размещение изображений в нерелевантном контексте: Попытки манипулировать метками путем размещения изображений на нерелевантных страницах будут неэффективны из-за использования Confidence Scores и анализа консенсуса меток в индексе.

Стратегическое значение

Патент подтверждает стратегию Google по глубокой интеграции визуального и текстового поиска. Для SEO это означает, что оптимизация изображений неотделима от контент-стратегии. Технология обнаружения дубликатов делает контекст ключевым дифференциатором: если одно и то же изображение используется на нескольких сайтах, в результатах обратного поиска выиграет тот, чей контент наиболее полно соответствует теме (Label) изображения. Это фундамент для современных мультимодальных систем, таких как Google Lens.

Практические примеры

Сценарий: Ранжирование страницы товара в обратном поиске (E-commerce)

Магазин А и Магазин Б используют одинаковое фото товара от производителя (например, «Кофемашина Delonghi X1»).

Действие пользователя: Пользователь ищет это фото через «Поиск по картинке».
Действие Google (Обнаружение): Система использует Wavelet Hashing и определяет, что фото на сайтах А и Б являются Near Duplicates.
Действие Google (Интерпретация): Система определяет «Best Guess» Label как «Кофемашина Delonghi X1» на основе анализа всех копий в индексе.
Действие Google (Переранжирование): Система проверяет страницы А и Б.
- Сайт А имеет только цену и кнопку купить (нет текста метки).
- Сайт Б имеет заголовок «Обзор Кофемашины Delonghi X1», подробные характеристики и текст, включающий эту метку.
Результат: Сайт Б будет ранжироваться выше в блоке «Pages that include this image», так как его контекст лучше соответствует определенной метке, согласно механизму переранжирования, описанному в патенте.

Вопросы и ответы

Насколько сильно нужно изменить изображение, чтобы Google перестал считать его дубликатом?

Запатентованный метод на основе вейвлет-хэширования очень устойчив. Он игнорирует изменения разрешения, формата, сжатия, яркости, контрастности и наличие однородных рамок. Чтобы изображение перестало считаться Near Duplicate, необходимы значительные изменения контента, влияющие на основные структурные элементы (например, сильное кадрирование, удаление ключевых объектов или наложение значительной графики).

Как Google определяет, что изображено на картинке (Best Guess Label)?

Согласно патенту, основной метод — это анализ уже существующих текстовых меток (Labels), связанных с дубликатами или похожими изображениями в индексе. Система находит визуальные совпадения, а затем агрегирует их метки. Метка с наивысшей оценкой уверенности (Confidence Score), основанная на консенсусе, выбирается как «Best Guess».

Что важнее для SEO: уникальность самой картинки или ее контекст на странице?

Оба аспекта важны, но контекст критичен, особенно если изображение не уникально. Поскольку Google легко определяет дубликаты с помощью Image Signature, ваша страница получит преимущество в ранжировании (особенно в обратном поиске), если ее текстовый контент будет наиболее релевантен теме изображения (Label), благодаря механизму переранжирования.

Если я использую стоковое изображение, как мне ранжироваться выше других сайтов, использующих его же?

Вы должны предоставить лучший контекст. Патент указывает, что система повышает страницы с дубликатами, если они содержат текст, соответствующий Label изображения. Создайте более качественный, подробный и релевантный текст на странице, окружающий это изображение, по сравнению с конкурентами.

Что происходит, если Google не может уверенно определить тему изображения?

Если все потенциальные метки имеют Confidence Score ниже порога, система может запросить у пользователя текстовый запрос для уточнения поиска. Введенный пользователем текст затем используется для поиска и ассоциируется с этим изображением в базе данных Google (Label Data Store) для обучения системы.

В чем разница между Near Duplicate и Visually Similar Images?

Near Duplicates — это практически то же самое изображение (совпадает вейвлет-хэш), возможно, в другом размере или сжатии. Visually Similar Images — это разные изображения, которые похожи по цвету, текстуре или изображают тот же объект с другого ракурса; они определяются с помощью алгоритмов локальных признаков (local-feature algorithms).

Как работает удаление рамок (Trim borders) и почему это важно?

Это этап предварительной обработки. Система автоматически идентифицирует и обрезает однородные цветные рамки перед генерацией хэша. Это важно для того, чтобы сфокусировать анализ на основном контенте и гарантировать, что два изображения будут признаны дубликатами, даже если они по-разному обрезаны или имеют разные рамки.

Влияет ли наличие водяных знаков или логотипов на обнаружение дубликатов?

Зависит от их размера и контрастности. Метод фокусируется на наиболее значимых вейвлет-коэффициентах. Если водяной знак небольшой или полупрозрачный, он вряд ли существенно изменит Image Signature. Если же знак большой и перекрывает значительную часть контента, сигнатура может измениться, и изображение не будет распознано как дубликат.

Учитывает ли система текст внутри самого изображения (OCR) при определении меток?

Да. В описании патента упоминается, что метка может быть сгенерирована на основе текста, который включен в изображение (text that is included in the image). Это подтверждает использование технологий оптического распознавания символов (OCR) для понимания содержания изображения и генерации релевантных Labels.

Как этот патент связан с Google Lens?

Google Lens является современным развитием технологий, описанных в этом патенте. Lens использует камеру для получения Query Image в реальном времени и применяет усовершенствованные алгоритмы визуального сопоставления (похожие на описанные здесь) для идентификации объектов и генерации Labels, чтобы предоставить релевантную информацию.