Патент Google описывает систему поиска похожих изображений, основанную на эмбеддингах. Система проецирует изображения в многомерное пространство признаков, учитывая как визуальное сходство (внешний вид), так и семантическое сходство (контекстный смысл и метаданные). Это позволяет находить релевантные изображения путем векторного поиска.
Описание
Какую задачу решает
Патент решает задачу контентного поиска (Content-Based Image Retrieval, CBIR) в сложных специализированных областях, в частности, в медицине. Основная проблема — определение «сходства», которое многогранно и зависит как от визуальных признаков (морфологии), так и от семантического значения (контекст, метки). Система стремится предоставить релевантные результаты по запросу изображением, преодолевая ограничения традиционного текстового поиска.
Что запатентовано
Запатентована система и метод поиска похожих изображений, основанные на создании эмбеддингов (embeddings) с помощью машинного обучения. Изобретение преобразует изображения из эталонной библиотеки (Reference Library) в векторы в многомерном пространстве признаков (Feature Space). Ключевой особенностью является структура этого пространства, учитывающая два аспекта ранжирования: (1) визуальное сходство (Visual Similarity) и (2) семантическое сходство (Semantic Similarity).
Как это работает
Система работает в два этапа:
- Индексирование (Офлайн): Модели машинного обучения (например, CNN, Deep Ranking) анализируют изображения и метаданные для генерации векторов признаков. Эти векторы проецируются в Feature Space, где близкое расположение означает визуальное сходство, а оси пространства представляют семантическую информацию.
- Поиск (Онлайн): Пользователь предоставляет изображение-запрос, которое система проецирует в то же пространство. Система находит ближайших соседей (например, в пределах радиуса r) и предоставляет результаты, которые можно дополнительно уточнить с помощью фильтров или изменения параметров сходства.
Актуальность для SEO
Высокая для технологий Information Retrieval. Хотя приложение в патенте узкоспециализированное (медицина), описанные технологии (использование эмбеддингов, векторный поиск, комбинация визуального и семантического анализа) являются фундаментальными для современного поиска по нетекстовому контенту (изображения, товары, видео) и активно применяются Google (например, в Google Lens, MUM).
Важность для SEO
Патент имеет среднее значение (4/10) для SEO-стратегии. Прямое влияние на ранжирование веб-сайтов минимально. Однако он критически важен для понимания эволюции поиска изображений (Image SEO) и E-commerce. Он подтверждает, что Google анализирует само визуальное содержимое (Visual Similarity) и комбинирует его с контекстными данными и метаданными (Semantic Similarity) для определения релевантности с помощью эмбеддингов.
Детальный разбор
Термины и определения
- Embedding (Эмбеддинг)
- Представление данных (изображений) в виде векторов в многомерном пространстве признаков. В патенте эмбеддинг организован так, чтобы отражать как визуальное, так и семантическое сходство.
- Feature Space (Пространство признаков)
- Многомерное пространство, в которое проецируются эмбеддинги изображений. Расстояние между точками отражает меру сходства, а оси представляют семантическую информацию.
- Input Image Query (Входной запрос изображением)
- Изображение (или его часть), предоставленное пользователем в качестве запроса для поиска похожих.
- Intra-image searching (Внутриимаджевый поиск)
- Метод поиска похожих участков или объектов внутри одного большого изображения на основе выбранного фрагмента (Claim 19).
- Reference Library (Эталонная библиотека)
- Коллекция индексируемых изображений с соответствующими метаданными, используемая для поиска.
- Semantic Similarity (Семантическое сходство)
- Мера сходства, основанная на значении, контексте или метках изображений. В пространстве признаков семантическая информация представлена осями.
- Visual Similarity (Визуальное сходство)
- Мера сходства, основанная на внешнем виде изображений (пиксельные данные, текстуры, формы). В пространстве признаков визуально похожие изображения располагаются близко друг к другу.
Ключевые утверждения (Анализ Claims)
Патент содержит три основных независимых пункта (1, 15, 19).
Claim 1 (Независимый пункт): Описывает систему поиска похожих медицинских изображений.
- Система хранит Reference Library изображений с метаданными (клинической информацией).
- Компьютерная система получает Input Image Query.
- Библиотека представлена как Embedding в Feature Space.
- Ключевое требование к эмбеддингу: он характеризуется двумя аспектами: (1) Visual Similarity (соседние изображения визуально похожи) и (2) Semantic Similarity (оси пространства представляют семантическую информацию).
- Система поддерживает дополнительные запросы для уточнения (refine) поиска.
- Пользовательский интерфейс отображает похожие изображения и агрегированную информацию (aggregate information), например, частоту диагностических ключевых слов.
Claim 3 (Зависимый от 1): Уточняет механизм создания эмбеддинга.
Система включает модель машинного обучения или комбинацию моделей, которые присваивают векторы признаков (feature vectors) визуального и семантического сходства изображениям в библиотеке.
Claim 10 и 11 (Зависимые от 1): Описывают механизм уточнения поиска.
Дальнейшее уточнение поиска включает интерактивную корректировку метрики сходства (similarity metric) на основе ввода пользователя, который может быть голосовым вводом (voice input).
Claim 15 (Независимый пункт): Описывает метод поиска.
- Создание эталонной библиотеки.
- Использование моделей МО для создания Embedding в Feature Space (учитывая визуальное и семантическое сходство).
- Извлечение похожих изображений для запроса путем поиска в пределах радиуса r в пространстве признаков от проекции запроса.
- Отображение результатов и агрегированной информации.
Claim 19 (Независимый пункт): Описывает систему для Intra-image searching.
- Система получает запрос в виде части большого изображения.
- Используется обученный распознаватель образов (machine learning pattern recognizer) для поиска других похожих участков в этом же изображении.
- Модуль в системе выделяет (highlight) найденные участки.
Где и как применяется
Изобретение описывает инфраструктуру для специализированного вертикального поиска (CBIR). Оно использует базовые технологии Information Retrieval, применяемые Google.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает Reference Library из различных источников вместе с соответствующими метаданными.
INDEXING – Индексирование и извлечение признаков
Основной этап подготовки (офлайн).
- Обучение моделей и извлечение признаков: Модели машинного обучения анализируют изображения и метаданные. В описании патента упоминаются CNN, архитектуры Inception (v1-v4), Deep Ranking (Wang et al.), автоэнкодеры.
- Генерация векторов: Генерируются векторы признаков (feature vectors) для Visual Similarity и Semantic Similarity.
- Построение индекса: Создается Embedding (векторный индекс), где изображения проецируются в Feature Space.
QUNDERSTANDING – Понимание Запросов
Система принимает запрос (изображение) и обрабатывает его той же моделью МО для генерации его эмбеддинга. Также интерпретируются параметры уточнения поиска (например, голосовой ввод для изменения радиуса поиска).
RANKING – Ранжирование (Этап Retrieval)
Происходит в реальном времени.
- Проекция запроса: Эмбеддинг запроса проецируется в Feature Space.
- Поиск: Происходит поиск ближайших соседей (Nearest Neighbor Search) в эмбеддинге, например, в пределах заданного радиуса r. Ранжирование основано на расстоянии в этом пространстве.
RERANKING – Переранжирование
Результаты могут быть уточнены пользователем путем изменения параметров поиска (изменение радиуса r, например, через голосовые команды «broad» или «narrow») или применения фильтров по метаданным.
На что влияет
- Конкретные типы контента: В патенте прямо указаны медицинские изображения (снимки сетчатки, тканей, кожных поражений, маммограммы, радиологические снимки). В более широком контексте технологий Google эти методы влияют на типы контента, где важно визуальное и семантическое сходство (товары E-commerce, фотографии).
- Специфические запросы: Поиск по изображению (Image Query) и обратный поиск по изображению (Reverse Image Search).
Когда применяется
- Условия работы алгоритма: Алгоритм применяется, когда пользователь инициирует поиск, используя изображение в качестве запроса.
- Предварительные условия: Наличие предварительно рассчитанного эмбеддинга (векторного индекса) для коллекции изображений.
- Пороговые значения: Поиск осуществляется в пределах радиуса r в пространстве признаков. Значение r может динамически изменяться пользователем.
Пошаговый алгоритм
Процесс А: Создание индекса (Офлайн)
- Сбор данных: Формирование Reference Library изображений и метаданных.
- Обучение моделей: Обучение моделей МО для извлечения признаков. Это может включать Deep Ranking, основанный на человеческих оценках сходства триплетов (сравнение трех изображений).
- Генерация векторов сходства: Создание векторов признаков, кодирующих Visual Similarity и Semantic Similarity для каждого изображения.
- Построение эмбеддинга: Проецирование векторов в многомерное Feature Space, где расстояние отражает сходство, а оси – семантику.
Процесс Б: Обработка запроса (Онлайн)
- Получение запроса: Система получает Input Image Query и опциональные параметры (например, голосовой ввод для настройки радиуса).
- Генерация вектора запроса: Входное изображение обрабатывается моделями МО для получения его вектора признаков.
- Проецирование в Feature Space: Вектор запроса проецируется в существующий эмбеддинг.
- Поиск ближайших соседей: Система извлекает похожие изображения, чьи векторы находятся ближе всего к вектору запроса (в пределах радиуса r, скорректированного вводом пользователя).
- Пост-обработка и фильтрация: Применение дополнительных фильтров на основе метаданных.
- Агрегация и представление: Отображение найденных изображений, их метаданных и агрегированной статистики (например, frequency of diagnostic keywords).
Какие данные и как использует
Данные на входе
- Мультимедиа факторы (Изображения): Пиксельные данные изображений. Это основной источник данных для анализа Visual Similarity.
- Контентные факторы (Метаданные): Текстовые данные и метки, связанные с изображениями (в патенте это клинические данные). Используются для определения Semantic Similarity, обучения моделей и фильтрации.
- Пользовательские факторы (Обучение и Поиск): Ввод пользователя для уточнения поиска (фильтры, голосовые команды для изменения радиуса r). Также ввод пользователя (оценка сходства триплетов) может использоваться для обучения моделей Deep Ranking.
Какие метрики используются и как они считаются
- Similarity Ranking (Ранжирование сходства): Числовая оценка сходства. Рассчитывается на основе близости (расстояния) в Feature Space.
- Радиус r: Параметр, определяющий область поиска ближайших соседей в эмбеддинге.
- Алгоритмы машинного обучения: Патент предполагает использование сложных моделей МО. Упоминаются:
- Convolutional Neural Networks (CNN), включая архитектуры Inception.
- Метод «Deep Ranking» (Wang et al.), использующий обучение на триплетах для формирования точной метрики визуального сходства.
- Unsupervised learning, autoencoders, self-supervised approaches.
- Агрегация данных: Система вычисляет агрегированную статистику по набору результатов, например, Frequency of diagnostic keywords.
Выводы
- Фундаментальная роль эмбеддингов: Патент подтверждает, что эмбеддинги и векторный поиск являются основой систем Google для анализа и понимания нетекстового контента. Релевантность определяется близостью в многомерном пространстве признаков.
- Интеграция визуальных и семантических сигналов: Google разработал методы для одновременного учета как внешнего вида изображения (Visual Similarity), так и его контекстного значения (Semantic Similarity), основанного на метаданных и метках.
- Сложные модели МО и Deep Ranking: Для генерации эмбеддингов используются передовые модели (CNN), включая методы Deep Ranking, которые обучаются на человеческих оценках сходства для достижения высокой точности в интерпретации визуального контента.
- Интерпретируемое пространство признаков: В созданном Feature Space расстояние кодирует визуальное сходство, а оси (направления) кодируют семантические категории. Это позволяет не только находить похожие объекты, но и понимать природу их сходства.
- Универсальность технологии: Хотя патент сфокусирован на медицинском применении, описанные технологии (CBIR, векторный поиск) являются универсальными и применяются в общем поиске по изображениям, Google Lens и E-commerce поиске.
Практика
Важное замечание: Патент описывает специализированную систему поиска. Однако он дает критически важное понимание общих возможностей Google в анализе изображений и использовании эмбеддингов, что применимо к Image SEO и E-commerce SEO.
Best practices (это мы делаем)
- Обеспечение визуальной четкости и уникальности: Поскольку система полагается на Visual Similarity, использование уникальных, высококачественных, четких изображений критически важно. Это позволяет моделям МО точно извлекать визуальные признаки и корректно позиционировать изображение в Feature Space.
- Создание богатого семантического контекста: В патенте Semantic Similarity опирается на метаданные. В практике SEO это подчеркивает важность точного контекста: использование релевантного окружающего текста, заголовков, подписей, атрибутов alt.
- Использование структурированных данных (Schema.org): Для E-commerce использование разметки Product с подробными атрибутами (цвет, материал, бренд) напрямую помогает в создании богатого семантического контекста, аналогично клиническим метаданным в патенте. Это помогает точнее определить положение изображения вдоль семантических осей в эмбеддинге.
- Оптимизация под векторный поиск: Создавайте контент (текст + изображения), который четко и всесторонне раскрывает тему (сущность), чтобы он корректно позиционировался в общем семантическом пространстве.
Worst practices (это делать не надо)
- Использование изображений низкого качества: Размытые изображения затрудняют извлечение признаков, что приводит к неточным эмбеддингам и снижению видимости в поиске.
- Массовое использование неуникальных стоковых фото: Такие изображения имеют множество визуально схожих соседей в эмбеддинге, что затрудняет их выделение. Уникальность контента важна и для изображений.
- Игнорирование контекста изображения: Размещение изображений без соответствующего текстового сопровождения или с вводящими в заблуждение метаданными снижает способность системы оценить Semantic Similarity с целевыми запросами.
Стратегическое значение
Патент демонстрирует стратегический переход Google от анализа ключевых слов к «пониманию» контента через эмбеддинги. SEO-стратегия должна учитывать, что Google анализирует изображения как векторы в многомерном пространстве, учитывая их визуальные характеристики и семантические связи. Это имеет критическое значение для E-commerce (Google Shopping) и контентных проектов (оптимизация под Google Lens и Image Search).
Практические примеры
Сценарий: Оптимизация карточки товара E-commerce для визуального поиска
Применяем принцип комбинации визуального и семантического сходства для оптимизации карточки товара «Синие джинсы Levi’s 501».
- Улучшение Visual Similarity:
- Загружаем несколько высококачественных, уникальных фотографий: общий план, вид сзади, крупный план текстуры денима и фурнитуры.
- Обеспечиваем четкость и правильную цветопередачу.
- Улучшение Semantic Similarity (Контекст и Метаданные):
- Alt-текст: Точное описание каждого фото (например, «Крупный план текстуры синего денима джинсов Levi’s 501»).
- Структурированные данные (Product Schema): Заполняем поля: color (Blue), material (Denim), brand (Levi’s), model (501).
- Окружающий текст: Подробное описание товара и его характеристик.
- Ожидаемый результат: Google точнее позиционирует товар в эмбеддинге. Когда пользователь ищет похожие джинсы через Google Lens, система находит это изображение как ближайшего соседа в Feature Space, учитывая и внешний вид, и бренд/модель.
Вопросы и ответы
Какое значение этот патент имеет для стандартного SEO, если он описывает медицинский поиск?
Прямое влияние на ранжирование сайтов минимально. Однако патент раскрывает фундаментальные технологии, которые Google использует для анализа изображений: эмбеддинги, векторный поиск, интеграцию визуальных и семантических признаков. Понимание этих механизмов критически важно для эффективной оптимизации под Google Image Search и Google Lens, так как они используют аналогичные подходы.
Что такое эмбеддинг изображения простыми словами?
Эмбеддинг — это способ представить изображение в виде длинного списка чисел (вектора), который фиксирует его ключевые характеристики. В многомерном пространстве (Feature Space) изображения с похожими векторами располагаются рядом друг с другом. Это позволяет поисковой системе находить похожие изображения путем сравнения их векторов.
Чем отличаются Visual Similarity и Semantic Similarity в патенте?
Visual Similarity относится к внешнему виду: цвету, форме, текстуре. Два изображения могут быть визуально похожи, но иметь разный смысл. Semantic Similarity относится к значению или контексту: что изображено, к какой категории относится. Система Google стремится учитывать оба аспекта для обеспечения релевантности.
Как Google определяет семантическое сходство для изображений?
В патенте семантическое сходство определяется на основе связанных метаданных. В общем поиске Google использует окружающий текст, заголовки, атрибуты alt, подписи к изображениям и структурированные данные для определения семантического контекста и связи изображения с сущностями.
Какие модели машинного обучения упоминаются в патенте?
Патент упоминает Convolutional Neural Networks (CNN) и ссылается на архитектуры Inception. Также упоминается метод «Deep Ranking», который использует обучение на основе сравнения триплетов изображений (triplet ranking) для выработки точной метрики визуального сходства, часто с привлечением человеческих оценок.
Что означает «уточнение поиска» и интерактивная корректировка метрики сходства?
Это означает, что пользователь может влиять на результаты после первоначального запроса. Например, указать, искать ли более широкий набор результатов («broad») или только самые похожие («narrow»), в том числе голосом. Технически это реализуется путем изменения радиуса поиска (r) в пространстве эмбеддингов или применения фильтров по метаданным.
Как этот патент влияет на оптимизацию изображений для E-commerce?
Он имеет большое значение. Для E-commerce критически важно, чтобы товары находились при визуальном поиске (например, через Google Lens). Это требует использования уникальных, высококачественных изображений (для точного Visual Similarity) и обеспечения богатого текстового и структурированного контекста (для Semantic Similarity).
Что такое Intra-image searching (Пункт 19) и актуально ли это для SEO?
Intra-image searching — это поиск похожих фрагментов внутри одного большого изображения. Для SEO это менее актуально, но демонстрирует способность Google распознавать и сегментировать отдельные объекты и паттерны внутри изображения, что используется, например, для идентификации товаров на фото в Google Lens.
Является ли этот патент доказательством того, что Google анализирует пиксели изображений для ранжирования?
Да. Этот патент прямо описывает систему, в которой Visual Similarity, основанное на анализе самого изображения (пикселей) с помощью моделей машинного обучения (например, CNN), является одним из двух ключевых компонентов для построения эмбеддинга и определения сходства. Это подтверждает, что визуальное содержимое напрямую используется в поиске.
Стоит ли перестать использовать стоковые фотографии в свете этого патента?
Да, стратегически стоит минимизировать их использование для важных страниц. Поскольку система ищет визуальное сходство в эмбеддинге, неуникальные стоковые фото сливаются с тысячами копий. Уникальные, качественные изображения позволяют точнее идентифицировать контент и выделиться в поиске по изображениям.