Как Google комбинирует текст и изображения в поиске и использует «Визуальные ключи» для нахождения похожих картинок

Патент Google, раскрывающий инфраструктуру поиска визуального контента. Он описывает, как обрабатываются гибридные запросы (текст + изображение), генерируются компактные дескрипторы для оценки сходства и используется структура «Spill Tree» для создания «Визуальных ключей». Эти механизмы позволяют мгновенно находить похожие изображения и эффективно обнаруживать дубликаты в выдаче.

Описание

Какую задачу решает

Патент решает несколько ключевых проблем в области поиска изображений:

Неоднозначность текстовых запросов: Устраняет проблему, когда текстовый запрос имеет несколько значений (например, «Ягуар» как животное и как автомобиль), позволяя уточнить интент с помощью изображения-образца.
Эффективность и масштабируемость визуального поиска: Решает проблему вычислительной сложности сравнения одного изображения с миллиардами других, предлагая механизмы для быстрого поиска визуально похожего контента.
Сжатие данных и хранение: Адресует проблему обработки и хранения огромных векторов признаков, предлагая методы их значительного сжатия в компактные дескрипторы.
Дублирование контента (Near-duplicates): Улучшает качество выдачи за счет эффективного обнаружения и группировки почти идентичных изображений.

Что запатентовано

Запатентована комплексная система поиска визуального контента, включающая несколько ключевых изобретений. Во-первых, это метод создания Visual Keys (Визуальных ключей) с использованием Spill Tree (Дерева с переливами/разливами) для эффективного индексирования и быстрого поиска похожих изображений. Во-вторых, это механизм обработки гибридных запросов, объединяющий результаты поиска по тексту и по изображению-образцу. В-третьих, описаны методы агрессивного сжатия данных (Kernel PCA с аппроксимацией через хеширование и Delta Encoding) для создания компактных Content Descriptors.

Как это работает

Система работает на нескольких уровнях:

Индексирование: Изображения анализируются, из них извлекаются признаки (Feature Vectors), которые сжимаются в компактные Content Descriptors. Параллельно система использует Spill Tree для присвоения изображению одного или нескольких ранжированных Visual Keys, группирующих визуально похожий контент.
Обработка гибридного запроса (Текст + Изображение): Система выполняет поиск по тексту и одновременно ищет похожие изображения (используя Visual Keys для скорости).
Объединение и Ранжирование: Результаты пересекаются (изображение должно соответствовать и тексту, и образцу). Финальное ранжирование часто определяется путем расчета визуального сходства (расстояния между Content Descriptors).
Дедупликация: Visual Keys используются как быстрый фильтр для выявления потенциальных дубликатов перед более точным сравнением Content Descriptors.

Актуальность для SEO

Высокая. Описанные технологии лежат в основе современных систем визуального поиска, таких как Google Lens, и функций поиска по картинкам. Комбинирование текстовых и визуальных сигналов (мультимодальность) является стандартом, а эффективное масштабирование поиска визуального контента критически важно для Google.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в E-commerce и нишах, зависящих от визуального контента. Он подчеркивает, что визуальные характеристики изображения являются мощным фактором ранжирования, особенно при уточнении интента. Понимание того, как Google индексирует визуальные признаки (Visual Keys) и рассчитывает сходство (Content Descriptors), критично для стратегий оптимизации изображений и управления визуальным поиском.

Детальный разбор

Термины и определения

Accumulated Spill (Накопленный перелив/разлив): Метрика, рассчитываемая при обходе Spill Tree. Отражает степень неопределенности при классификации изображения. Используется для ранжирования Visual Keys: чем меньше spill, тем более релевантен ключ.
Content Descriptor (Дескриптор контента): Компактное представление визуального контента изображения (например, 32 байта), полученное путем агрессивного сжатия Feature Vector. Используется для расчета точного визуального сходства между изображениями.
Decisional Feature Representation (Решающее представление признаков): Представление признаков (например, центр кластера), хранящееся в узлах Spill Tree. Используется для определения того, по какой ветке направить изображение при обходе дерева.
Delta Encoding (Дельта-кодирование): Метод сжатия, используемый для уменьшения размера вектора после Kernel PCA. Включает кодирование значений относительно блочных и векторных максимумов.
Feature Vector (Вектор признаков): Многомерный вектор, содержащий числовые представления признаков, извлеченных из изображения (цвета, текстуры, формы и т.д.).
Intersection Kernel (Ядро пересечения): Функция для измерения сходства между двумя векторами признаков. В патенте описывается метод ее быстрой аппроксимации с помощью хеширования.
Kernel PCA (KPCA) (Ядерный метод главных компонент): Метод уменьшения размерности векторов признаков. Используется для сжатия исходного Feature Vector.
Near-duplicates (Почти дубликаты): Изображения, которые визуально почти идентичны. Определяются на основе совпадения Visual Keys и малого расстояния между Content Descriptors.
Spill Tree (Дерево с переливами/разливами): Древовидная структура данных для кластеризации изображений. Позволяет изображению принадлежать нескольким дочерним узлам одновременно (spill), если оно находится близко к границе принятия решений.
Visual Keys (Визуальные ключи): Идентификаторы, присваиваемые листовым узлам Spill Tree. Изображение получает один или несколько Visual Keys. Используются для быстрого поиска похожих изображений.

Ключевые утверждения (Анализ Claims)

Патент US8983941B1 содержит Claims (1-15), фокусирующиеся на механизме Visual Keys и Spill Tree. Механизм комбинированного поиска также подробно описан в тексте патента (Description, FIG. 7).

Анализ механизма Visual Keys и Spill Tree (Claims 1, 8, 15):

Claim 1 (Независимый пункт): Описывает метод поиска похожих изображений.

Получение изображения запроса и генерация его представления признаков (feature representation).
Обход Spill Tree. Обход может привести к двум или более листовым узлам на основе расстояний до решающих представлений (decisional feature representations) в узлах дерева.
Вычисление накопленного перелива (accumulated spill) для каждой пройденной ветви.
Идентификация Visual Keys, соответствующих достигнутым листовым узлам.
Ранжирование Visual Keys на основе accumulated spill (меньше перелив – выше ранг).
Идентификация подмножеств изображений в коллекции, которые индексированы с использованием самых высокоранжированных Visual Keys запроса.
Генерация результатов поиска из этих подмножеств.

Ядром здесь является использование Spill Tree для генерации нескольких ключей и их ранжирование по Accumulated Spill, что позволяет системе определить наиболее репрезентативные визуальные характеристики изображения.

Анализ механизма гибридных запросов (Основано на Description, FIG. 7):

Описание патента четко определяет процесс обработки запроса (Текст + Изображение):

Получение первых результатов по текстовому запросу (с текстовыми оценками).
Получение вторых результатов по изображению-запросу (с оценками визуального сходства, на основе расстояния между Content Descriptors).
Выбор результатов, присутствующих в обоих наборах (пересечение) и удовлетворяющих порогу по текстовой оценке.
Генерация финального набора путем комбинирования оценок (может включать бустинг/демоушен).
Упорядочивание финальных результатов по визуальному сходству (расстоянию) до изображения-запроса.

Где и как применяется

Изобретение затрагивает ключевые этапы работы поиска изображений.

INDEXING – Индексирование и извлечение признаков
Это ключевой этап для применения патента:

Feature Extraction: Извлечение сырых Feature Vectors.
Compression: Применение Kernel PCA (с аппроксимацией через хеширование) и Delta Encoding для генерации компактных Content Descriptors.
Visual Key Generation: Обучение Spill Tree (офлайн) и обход дерева для присвоения каждому изображению ранжированных Visual Keys.
Все эти данные сохраняются в индексе (Image Index Database).

RANKING – Ранжирование (L1 Retrieval)
На этапе отбора кандидатов:

Визуальный поиск: Система использует Visual Keys изображения-запроса для мгновенного извлечения всех изображений из индекса с совпадающими ключами.
Текстовый поиск: Стандартный отбор кандидатов.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На этих этапах происходит точная оценка, смешивание и финальная сортировка:

Обработка гибридных запросов: Система пересекает набор результатов по тексту и набор результатов по изображению (METASEARCH).
Вычисление сходства и Ранжирование: Для кандидатов рассчитывается точное визуальное сходство путем сравнения Content Descriptors. В гибридных запросах результаты переранжируются на основе этого сходства (RERANKING).
Дедупликация (Twiddler): Применяется механизм обнаружения Near-duplicates (используя Visual Keys как фильтр и Content Descriptors для точной проверки) для очистки SERP.

На что влияет

Конкретные типы контента: Изображения, особенно товарные карточки в E-commerce, фотографии, иллюстрации.
Специфические запросы: Неоднозначные информационные и коммерческие запросы, где визуальное уточнение помогает понять интент (например, поиск модели товара или определенного вида объекта). Запросы типа «Search by Image» или Google Lens.
Конкретные ниши: E-commerce, мода, дизайн, искусство – любые ниши, где визуальная составляющая является определяющей.

Когда применяется

При индексации: Всегда, когда в индекс добавляется новое изображение, для него вычисляются Content Descriptor и Visual Keys.
При обработке запроса: Когда пользователь инициирует визуальный поиск или подает гибридный запрос (текст + изображение).
На финальном этапе ранжирования: Всегда, для обнаружения и фильтрации near-duplicates в результатах поиска изображений.

Пошаговый алгоритм

Процесс А: Генерация Content Descriptor (Сжатие) (FIG. 3, 4)

Извлечение признаков: Получение высокоразмерного Feature Vector из изображения.
Генерация хешей: Применение хеш-функций (например, weighted minhash) к вектору для создания вектора хешей.
Kernel PCA (Аппроксимация): Использование вектора хешей для быстрой аппроксимации Intersection Kernels между текущим изображением и тренировочным набором.
Kernel PCA (Проекция): Вычисление проекции признаков в пространство меньшей размерности.
Нормализация (Опционально): Применение матрицы вращения для нормализации дисперсии.
Сжатие (Delta Encoding) (FIG. 4): Применение двухуровневого дельта-кодирования. Вектор разбивается на блоки. Кодируются максимумы вектора и блоков относительно глобальных значений для создания компактного Content Descriptor.

Процесс Б: Генерация Visual Keys (Индексация/Запрос) (FIG. 6)

Генерация представления: Получение представления признаков изображения.
Обход дерева (Spill Tree): Представление проходит через предварительно обученное Spill Tree. На каждом узле вычисляется расстояние до Decisional Feature Representations.
Аккумуляция перелива (Spill): Если система следует не только по ближайшей ветви, но и по альтернативным (из-за близости к границе), разница в расстояниях аккумулируется как Accumulated Spill.
Идентификация Visual Keys: Изображению присваиваются Visual Keys, соответствующие всем достигнутым листьям дерева.
Ранжирование ключей: Visual Keys ранжируются по величине Accumulated Spill (ключ с минимальным spill – самый главный).

Процесс В: Обработка комбинированного запроса (FIG. 7)

Получение текстовых результатов: Получение первого набора результатов, релевантных Query Text, с оценками Text Scores.
Получение визуальных результатов: Получение второго набора результатов, похожих на Query Image (используя Visual Keys и Content Descriptors).
Фильтрация и пересечение: Выбираются результаты, которые присутствуют в обоих наборах И чьи Text Scores удовлетворяют порогу.
Комбинирование оценок: Для выбранных результатов вычисляется финальная оценка. Может включать коррекцию оценок (например, demotion factor и closeness factor).
Финальное упорядочивание: Результаты сортируются по визуальной схожести (расстоянию между Content Descriptors) с Query Image.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Визуальные признаки): Это основные данные. Система извлекает из пикселей признаки, касающиеся цветов (гистограммы), текстур, форм, расположения границ (edges), углов (corners) и точек интереса. Эти данные формируют исходный Feature Vector.
Текстовые факторы: При обработке гибридных запросов используется текст запроса и текстовые данные, ассоциированные с индексированными изображениями (контекст, alt-текст, метки классификаторов).

Какие метрики используются и как они считаются

Distance Metrics (Метрики расстояния): L1, L2 или Jaccard distance. Используются для сравнения Content Descriptors (финальное ранжирование) и при обходе Spill Tree.
Probability of Hash Collision (Вероятность коллизии хешей, A): Используется для оценки сходства Жаккара (Jaccard Similarity). Рассчитывается как количество совпавших хешей, деленное на общее количество хешей.
Intersection Kernel Approximation (Аппроксимация Ядра Пересечения): Критически важная метрика для ускорения Kernel PCA. Рассчитывается по формуле, указанной в патенте: IntK(u,v) = (A * (|u|1 + |v|1)) / (1 + A), где A – вероятность коллизии хешей, а |u|1 и |v|1 – L1 нормы исходных векторов.
Accumulated Spill: Сумма разниц расстояний на каждом узле Spill Tree, когда был выбран не самый близкий путь. Используется для ранжирования Visual Keys.
Text Score и Similarity Score: Оценки текстовой релевантности и визуального сходства соответственно.
Closeness Factor (Фактор близости): Метрика, используемая при комбинированном поиске для корректировки оценки на основе статистического распределения визуальных расстояний (среднее и стандартное отклонение).

Выводы

Индексация визуальных признаков через Visual Keys: Google не просто индексирует текст, связанный с изображением. Он кластеризует визуальные признаки с помощью Spill Trees и присваивает Visual Keys. Это позволяет системе мгновенно находить визуально похожий контент без сравнения «каждого с каждым».
Множественные Visual Keys для одного изображения: Благодаря Spill Tree, одно изображение может иметь несколько визуальных ключей, ранжированных по релевантности (accumulated spill). Это повышает полноту поиска (Recall), учитывая разные визуальные аспекты изображения.
Визуальное сходство как финальный фактор в гибридном поиске: В сценариях (Текст + Изображение), Google сначала фильтрует результаты по релевантности тексту, но финальный порядок часто определяется степенью визуального сходства с образцом.
Эффективная дедупликация: Visual Keys используются как механизм быстрого отказа при поиске Near-duplicates. Если у двух изображений нет общих высокоранжированных ключей, система не тратит ресурсы на их детальное сравнение.
Сложная система сжатия для масштабирования: Использование связки Kernel PCA (с аппроксимацией через хеширование) и Delta Encoding показывает, как Google сжимает визуальные данные для обеспечения скорости поиска. Content Descriptors являются основой для всех расчетов сходства.

Практика

Best practices (это мы делаем)

Оптимизация под визуальный поиск (Google Lens/Image Search): Предоставляйте четкие, высококачественные изображения с хорошо выделенным основным объектом. Поскольку система извлекает Feature Vectors из пикселей, визуальная ясность критична для корректного распознавания и присвоения правильных Visual Keys.
Использование уникальных изображений: Учитывая эффективные механизмы дедупликации, использование уникальных фотографий (а не стоковых или от производителя) повышает шансы сайта быть представленным в результатах поиска, так как система стремится к разнообразию.
Разнообразие визуального представления (E-commerce): Предоставляйте несколько ракурсов продукта. Это увеличивает вероятность того, что разные аспекты товара будут проиндексированы с разными Visual Keys, повышая шансы на совпадение с запросом пользователя.
Согласованность текста и визуала: Убедитесь, что текстовое окружение изображения (Alt-text, подписи, контент) точно соответствует визуальному содержанию. Для попадания в финальную выдачу гибридного поиска изображение должно сначала пройти фильтр текстовой релевантности (Text Score).
Управление индексацией вариаций товара: Для товаров в разных цветах используйте структурированные данные (Schema.org/Product) для указания всех вариантов, чтобы помочь системе сгруппировать их как варианты, а не отфильтровать как дубликаты.

Worst practices (это делать не надо)

Незначительные модификации для создания «уникальности»: Легкое изменение цвета, зеркальное отражение или добавление рамки недостаточно для обхода системы Near-duplicates, так как основные Visual Keys и Content Descriptor останутся слишком близкими.
Игнорирование качества и композиции: Размытые изображения или изображения с перегруженным фоном могут привести к генерации нерелевантных Visual Keys, что затруднит их поиск по визуальному сходству.
Введение в заблуждение (Visual Clickbait): Использование изображения, которое слабо связано с текстовым содержанием страницы. Система может отфильтровать его на этапе пересечения текстовых и визуальных результатов в гибридном поиске.
Агрессивные водяные знаки: Водяные знаки, закрывающие ключевые элементы объекта, могут исказить извлечение признаков и повлиять на генерацию Content Descriptor, ухудшая видимость в поиске по сходству.

Стратегическое значение

Патент подтверждает стратегическую важность визуального поиска. Для SEO-специалистов это означает, что оптимизация изображений переходит от заполнения Alt-тегов к управлению тем, как визуальный контент интерпретируется алгоритмами машинного зрения. В долгосрочной стратегии необходимо фокусироваться на создании уникального, высококачественного визуального контента, который оптимизирован для машинного восприятия, особенно с учетом развития Google Lens и мультимодального поиска.

Практические примеры

Сценарий: Оптимизация карточки товара в E-commerce

Задача: Увеличить трафик на карточку товара «Кроссовки модели X» через визуальный поиск.

Действия (Уникальность и Качество): Вместо использования стандартных фото от поставщика, провести собственную фотосессию. Сделать четкие фото с хорошим освещением на нейтральном фоне. Это гарантирует уникальные и точные Content Descriptors.
Действия (Разнообразие): Добавить фото разных ракурсов, крупный план текстуры и подошвы. Каждый ракурс потенциально генерирует разные доминирующие Visual Keys.
Действия (Текстовое соответствие): Убедиться, что H1, описание и Alt-тексты точно описывают модель и цвет. Это обеспечит высокий Text Score.
Ожидаемый результат: Пользователь видит кроссовки на улице и ищет их через Google Lens. Система находит ваше изображение по совпадению Visual Keys. Благодаря точному совпадению Content Descriptors и уникальности фото, ваш сайт ранжируется высоко в результатах визуального поиска.

Вопросы и ответы

Что такое «Visual Keys» и почему они важны для SEO?

Visual Keys (Визуальные ключи) — это идентификаторы, которые Google присваивает группам визуально похожих изображений. Они генерируются с помощью Spill Tree. Для SEO это важно, потому что это основной механизм для быстрого поиска похожих картинок. Чтобы ваше изображение было найдено как похожее на другое, оно должно разделять с ним общие Visual Keys.

Что такое «Spill Tree» и как он отличается от обычной классификации?

Spill Tree — это древовидная структура для классификации изображений. В отличие от стандартных методов, он позволяет изображению попасть сразу в несколько категорий (листовых узлов), если оно находится близко к границе между ними (это называется «spill» или перелив). Это позволяет одному изображению иметь несколько Visual Keys, что увеличивает полноту поиска (recall).

Как Google ранжирует Visual Keys одного изображения?

Google использует метрику Accumulated Spill (Накопленный перелив). Ключ, полученный при прохождении Spill Tree по наиболее близким веткам (с минимальным spill), получает наивысший ранг и считается наиболее репрезентативным. Ключи с большим значением spill имеют более низкий ранг.

Что такое «Content Descriptor» и чем он отличается от «Visual Key»?

Content Descriptor — это сильно сжатое математическое представление визуальных характеристик конкретного изображения (например, 32 байта). Он используется для точного расчета дистанции (сходства) между двумя картинками. Visual Key — это идентификатор группы похожих изображений. Ключи используются для быстрого отбора кандидатов, а дескрипторы — для точного ранжирования.

Как Google обрабатывает гибридные запросы (текст + картинка)? Что важнее?

Google ищет пересечение между результатами по тексту и результатами по картинке. Изображение должно быть релевантно тексту (фильтр) И похоже на картинку-образец. Критически важно, что финальное ранжирование отобранных результатов часто происходит по степени визуального сходства с образцом. Текст необходим для попадания в выборку, а визуал определяет позицию в ТОПе.

Как патент помогает бороться с дубликатами изображений (Near-duplicates)?

Патент предлагает использовать Visual Keys как быстрый фильтр. Если два изображения не имеют ни одного общего высокоранжированного Visual Key, система сразу делает вывод, что они не являются дубликатами, экономя ресурсы. Если ключи совпадают, система проводит более точную проверку, сравнивая их Content Descriptors.

Поможет ли незначительное редактирование изображения (кроп, яркость) сделать его уникальным?

С высокой вероятностью, нет. Методы извлечения признаков и сжатия (Kernel PCA) устойчивы к незначительным изменениям. Content Descriptor и основные Visual Keys останутся очень близкими. Система идентифицирует такие изображения как near-duplicates.

Влияет ли качество и разрешение изображения на его Visual Keys?

Да, безусловно. Система извлекает визуальные признаки (цвета, текстуры, формы) из пикселей. Низкое качество, размытость или артефакты сжатия могут привести к некорректному извлечению признаков и, как следствие, к присвоению нерелевантных Visual Keys, что ухудшит видимость в визуальном поиске.

Как этот патент связан с Google Lens?

Описанные технологии являются фундаментальными для Google Lens. Visual Keys позволяют Lens быстро находить похожие объекты или товары в огромной базе данных Google, а Content Descriptors используются для точного определения сходства и ранжирования результатов, которые видит пользователь.

Как использовать эти знания для оптимизации изображений в e-commerce?

Необходимо создавать качественные, уникальные (не от поставщика) изображения товара с разных ракурсов. Это поможет системе сгенерировать точные Content Descriptors и максимальное количество релевантных Visual Keys, а также снизит риск фильтрации как дубликата. В сочетании с оптимизированным текстом это повышает видимость в визуальном поиске.