Как Google использует единый Image Embedding для параллельного поиска по разным вертикалям (Web, Shopping, Local) при визуальном запросе

Google патентует механизм для улучшения визуального поиска (например, Google Lens). Система генерирует единое векторное представление (Image Embedding) для изображения-запроса и использует его для одновременного поиска визуально похожих результатов в нескольких разных базах данных (например, в общем веб-индексе и специализированном индексе товаров или локаций). Контекст пользователя (местоположение, история) помогает системе выбрать, какие специализированные базы активировать для поиска.

Описание

Какую задачу решает

Патент решает проблему ограниченности и одномерности результатов традиционного визуального поиска. Часто результаты визуального запроса не соответствуют истинному намерению пользователя (например, пользователь ищет товар для покупки, а получает только информационные ссылки) или требуют ручного уточнения области поиска (например, переключения между вкладками Web, Shopping). Изобретение направлено на автоматическое предоставление разнообразных, многомерных результатов из различных источников (датасетов) в ответ на единственный визуальный запрос, устраняя необходимость в ручном уточнении.

Что запатентовано

Запатентована система, которая обрабатывает визуальный запрос (Image Data) с помощью Embedding Model для создания векторного представления (Image Embedding). Этот эмбеддинг затем используется для одновременного поиска в нескольких различных наборах данных (Multiple Datasets), как минимум в общем индексе (Global Database) и одном или нескольких специализированных индексах (Specialized Database). Система может динамически выбирать релевантные специализированные базы на основе контекста и применять разные методы поиска (векторный или мультимодальный) для разных баз.

Как это работает

Система функционирует следующим образом:

Генерация вектора: Полученное изображение-запрос обрабатывается моделью для создания Image Embedding, который фиксирует его визуальные характеристики.
Выбор датасетов: Система определяет, в каких базах данных искать. Всегда может использоваться общая база. Выбор специализированных баз (например, Товары, Локации) может динамически определяться на основе Context Data (местоположение пользователя, история поиска, классификация объекта на изображении).
Параллельный поиск: Image Embedding используется для поиска визуально похожих элементов в каждом выбранном датасете. Для разных датасетов могут применяться разные техники: чистый поиск по схожести эмбеддингов или комбинация эмбеддинга с Text Labels или Visual Tokens (мультимодальный поиск).
Агрегация результатов: Результаты из всех датасетов (общие и специализированные) объединяются и предоставляются пользователю в едином интерфейсе.

Актуальность для SEO

Критически высокая. Визуальный поиск (Google Lens, Circle to Search) является ключевым элементом стратегии Google. Описанный механизм напрямую соответствует текущим тенденциям к мультимодальному поиску (MUM, Gemini) и интеграции различных вертикалей (Shopping, Local) в единый пользовательский опыт. Патент подан недавно (2023 год), что указывает на его актуальность для текущих систем.

Важность для SEO

Влияние на SEO значительное (85/100), особенно для E-commerce, локального бизнеса и контент-проектов с богатым визуальным контентом. Патент подчеркивает переход к векторному поиску на основе Embeddings как универсальному методу сопоставления контента. Для попадания в выдачу по визуальным запросам критически важно, чтобы изображения сайта были высокого качества и присутствовали не только в общем индексе, но и в специализированных вертикалях (например, Google Shopping через Merchant Center).

Детальный разбор

Термины и определения

Context Data (Контекстные данные): Информация, связанная с визуальным запросом или пользователем. Используется для определения Particular Context и выбора релевантных специализированных баз данных. Включает историю поиска/браузинга/покупок пользователя, местоположение, время, тренды, используемое приложение или классификацию объектов на изображении.
Embedding Model (Модель для создания эмбеддингов): Машинно-обученная модель (например, нейронная сеть с энкодерами), обученная преобразовывать входное изображение в Image Embedding.
First Database / Global Database (Первая / Глобальная база данных): Общий набор данных, связанный с множеством веб-ресурсов. Соответствует основному веб-индексу или индексу изображений Google.
Image Data (Данные изображения): Входные данные для системы (визуальный запрос). Могут включать одно или несколько изображений, видеопоток в реальном времени (live video feed) или выделенную часть изображения.
Image Embedding (Эмбеддинг изображения): Векторное представление (числовой вектор) изображения, сгенерированное Embedding Model. Фиксирует визуальные признаки (Image Features). Используется для поиска схожих элементов путем сравнения векторов.
Second Database / Specialized Database (Вторая / Специализированная база данных): Набор данных, ориентированный на конкретный тип результатов, объектов, приложений или действий (покупка, навигация, бронирование). Примеры: база данных товаров (Shopping), локальная база данных (Local), база данных недвижимости (MLS), личная фотогалерея пользователя.
Text Labels (Текстовые метки): Классификации или описания объектов на изображении. Используются в мультимодальном поиске в сочетании с Image Embedding.
Visual Tokens (Визуальные токены): Токенизированные визуальные признаки изображения, сгенерированные блоком токенизации (Tokenizer Block). Могут использоваться для отбора кандидатов поиска или для их ранжирования.

Ключевые утверждения (Анализ Claims)

Патент содержит три основных независимых пункта (Claim 1, 11, 17), описывающих разные варианты реализации системы.

Claim 1 (Независимый пункт): Описывает базовый механизм параллельного поиска по эмбеддингу.

Система получает визуальный запрос (Image Data).
Генерирует Image Embedding с помощью Embedding Model.
Выполняет поиск общих результатов в Первой (глобальной) базе данных, используя Image Embedding.
Выполняет поиск специализированных результатов во Второй (специализированной) базе данных, также используя Image Embedding.
Предоставляет оба набора результатов в интерфейсе.

Ядро изобретения — использование одного и того же Image Embedding для одновременного поиска в двух разных типах баз данных (общей и специализированной).

Claim 11 (Независимый пункт): Описывает механизм выбора специализированной базы на основе контекста.

Система получает визуальный запрос и Context Data.
Генерирует Image Embedding.
Выполняет поиск в Первой (глобальной) базе данных.
Определяет (выбирает) специализированную базу данных, основываясь на контексте (Particular Context).
Выполняет поиск во Второй (выбранной специализированной) базе данных.
Предоставляет результаты.

Ключевое отличие от Claim 1: специализированная база данных не предопределена, а выбирается динамически на основе контекста запроса или пользователя.

Claim 17 (Независимый пункт): Описывает мультимодальный подход к поиску в разных базах.

Система получает визуальный запрос.
Генерирует Image Embedding.
Определяет Text Labels (классификации) для объектов на изображении.
Выполняет поиск в Первой базе данных, используя только Image Embedding.
Выполняет поиск во Второй базе данных, используя и Image Embedding, и Text Labels.
Предоставляет результаты.

Ключевое отличие: для разных баз данных используются разные методы поиска. Одна база использует чистый векторный поиск, другая — мультимодальный (вектор + текст).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая работу систем визуального поиска типа Google Lens.

INDEXING – Индексирование и извлечение признаков
На этом этапе система предварительно обрабатывает контент из различных баз данных (Web, Shopping, Local и т.д.). Для каждого элемента генерируются и сохраняются Search Result Embeddings. Критически важно, чтобы эти эмбеддинги находились в совместимом векторном пространстве с Image Embedding запроса.

QUNDERSTANDING – Понимание Запросов
Основное применение. При получении визуального запроса система:

Генерирует Image Embedding запроса в реальном времени.
Может генерировать Visual Tokens или Text Labels (мультимодальная обработка).
Собирает и анализирует Context Data.
Принятие решения о триггерах (Triggering): Используя контекст и/или классификацию изображения, система решает, какие специализированные базы данных (вертикали) следует активировать для поиска параллельно с общим индексом (Claim 11).

RANKING – Ранжирование (Параллельное выполнение)
Система запускает процессы поиска одновременно в выбранных базах данных (L1/Retrieval).

Общий индекс: Поиск может выполняться только на основе Image Embedding (Claim 17).
Специализированный индекс: Поиск может выполняться на основе Image Embedding (Claim 1) или мультимодально (Embedding + Text Labels) (Claim 17).

На этапах L2/L3 происходит ранжирование кандидатов. Патент упоминает (Claims 6-9), что Visual Tokens могут использоваться для отбора кандидатов (Retrieval), а Embedding — для их ранжирования (Ranking), или наоборот.

METASEARCH – Метапоиск и Смешивание
Результаты из разных баз данных (General Search Results и Specialized Search Results) агрегируются. Система формирует единый интерфейс (Search Results Interface). Результаты могут отображаться в отдельных панелях для каждой базы или смешиваться (intermingled).

Входные данные:

Image Data (визуальный запрос).
Context Data (местоположение, история пользователя, метаданные).
Индексы различных баз данных с предварительно рассчитанными эмбеддингами.

Выходные данные:

Наборы результатов из каждой активированной базы данных.
Сформированный интерфейс поисковой выдачи.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, где визуальная составляющая является основной: товары (E-commerce), локации (Local), недвижимость (упоминается MLS database), мода.
Специфические запросы: Запросы, направленные на идентификацию объектов, поиск похожих товаров или мест (например, запросы через Google Lens).
Конкретные ниши или тематики: E-commerce, Local Search, Недвижимость, Путешествия.

Когда применяется

Условия работы: Алгоритм применяется при получении визуального запроса.
Триггеры активации:
- Поиск в общей базе данных происходит по умолчанию.
- Поиск в специализированных базах данных активируется, если система определяет релевантный контекст (Claim 11). Например, если пользователь находится в торговом центре (контекст локации) и фотографирует обувь (контекст объекта), активируется база данных товаров.

Пошаговый алгоритм

Описаны три основных варианта работы системы, соответствующие независимым Claims.

Вариант А: Базовый параллельный поиск (на основе Claim 1 и FIG. 3)

Получение данных: Система получает Image Data.
Генерация эмбеддинга: Image Data обрабатывается Embedding Model для создания Image Embedding.
Поиск в общей базе: Система ищет в Первой (глобальной) базе данных результаты, чьи эмбеддинги имеют пороговую схожесть (threshold pairwise similarity) с эмбеддингом запроса.
Поиск в специализированной базе: Система одновременно ищет во Второй (предопределенной специализированной) базе данных на основе того же Image Embedding.
Агрегация и отображение: Результаты объединяются и предоставляются в интерфейсе.

Вариант Б: Контекстно-зависимый поиск (на основе Claim 11 и FIG. 4, 7)

Получение данных: Система получает Image Data и Context Data.
Определение контекста: Данные анализируются для установления контекста (Particular Context).
Генерация эмбеддинга: Создается Image Embedding запроса.
Поиск в общей базе: Выполняется поиск в глобальной базе данных.
Выбор специализированной базы: Система выбирает одну или несколько специализированных баз данных, релевантных определенному контексту.
Поиск в специализированной базе: Выполняется поиск в выбранных базах на основе Image Embedding.
Агрегация и отображение: Результаты объединяются и отображаются.

Вариант В: Мультимодальный поиск с разными стратегиями (на основе Claim 17 и FIG. 8)

Получение данных: Система получает Image Data.
Мультимодальная обработка запроса: Система генерирует Image Embedding И определяет Text Labels для объектов на изображении.
Поиск в первой базе (Векторный): Поиск выполняется только на основе Image Embedding.
Поиск во второй базе (Мультимодальный): Поиск выполняется с использованием комбинации Image Embedding и Text Labels.
Агрегация и отображение: Результаты объединяются и отображаются.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Мультимедиа факторы (Визуальные данные): Image Data является основным входом. Система анализирует Image Features (визуальные признаки объектов).
Пользовательские факторы: Используются как часть Context Data. Включают историю поиска (user search history), историю просмотров, историю покупок, предпочтения пользователя.
Географические факторы: Местоположение (Location Data), где был сделан снимок или находится пользователь. Критично для выбора локальных баз данных.
Временные факторы: Время суток, сезон. Используются как часть Context Data.
Системные данные: Информация о приложении, через которое выполняется запрос (например, камера, браузер, соцсеть).

Какие метрики используются и как они считаются

Патент упоминает ключевые метрики и методы:

Pairwise Similarity (Попарная схожесть): Основная метрика для векторного поиска. Измеряет близость между Image Embedding запроса и эмбеддингами контента в базах данных. Поиск возвращает результаты, превышающие порог (threshold pairwise similarity).
Learned Distribution (Выученное распределение): Упоминается, что эмбеддинги могут быть ассоциированы с выученным распределением, связанным с конкретным объектом или типом объекта. Может использоваться для уточнения поиска.
Relevance Ranking (Ранжирование по релевантности): Используется для определения позиций результатов. Может основываться на схожести эмбеддингов, релевантности Visual Tokens или Text Labels.
Классификация: Используется для генерации Text Labels и определения контекста на основе объектов в изображении (например, классификация объекта как «дом» для активации поиска по недвижимости).

Выводы

Универсальность Image Embeddings как основа поиска: Ключевой вывод — Google использует единое векторное представление (Image Embedding) как универсальный «ключ» для поиска визуально похожего контента в любых своих индексах (Web, Shopping, Local). Это подтверждает стратегический переход к семантическому и визуальному пониманию контента через векторы.
Контекст определяет Вертикаль: Система не просто ищет везде, она интеллектуально выбирает, где искать (Claim 11). Context Data (местоположение, история пользователя, тип объекта на фото) определяют, какие специализированные базы данных будут активированы.
Гибкость и Мультимодальность Поиска: Google может применять разные стратегии поиска для разных баз данных одновременно (Claim 17). Например, чистый векторный поиск для общего индекса и гибридный (вектор + текст/токены) для индекса товаров, что повышает точность в специализированных вертикалях.
Визуальный поиск становится мульти-интентным: Предоставление результатов из разных баз одновременно направлено на удовлетворение различных намерений пользователя (узнать, купить, найти рядом) в рамках одного запроса.
Важность индексации во всех вертикалях: Для SEO это означает, что недостаточно присутствовать только в общем индексе. Контент должен быть доступен и оптимизирован для соответствующих специализированных индексов (например, Merchant Center для товаров, GBP для локаций), чтобы участвовать в этом параллельном поиске.

Практика

Best practices (это мы делаем)

Оптимизация изображений для векторного поиска: Необходимо обеспечить, чтобы ключевые изображения были высокого качества, четкими и хорошо представляли объект. Это повышает вероятность генерации точного Embedding и сопоставления с запросами пользователей по визуальной схожести.
Обеспечение присутствия в специализированных базах данных: Критически важно быть проиндексированным в релевантных вертикалях. Для E-commerce это Google Merchant Center (Shopping), для локального бизнеса — Google Business Profile (Local). Это гарантирует участие в поиске по Specialized Databases.
Насыщение контента контекстными сигналами: Усиливайте контекст страницы, где размещено изображение. Четкая разметка (Schema.org/Product или LocalBusiness), релевантные заголовки и описания помогают системе корректно классифицировать изображение (генерировать Text Labels) и выбрать правильную вертикаль (Claim 11).
Оптимизация под мультимодальный поиск: Поскольку система может использовать Text Labels вместе с эмбеддингами (Claim 17), важно оптимизировать текстовые атрибуты (alt-текст, описания). Это помогает в сценариях, где поиск комбинирует визуальную схожесть и текстовые фильтры.
Создание уникального визуального контента: Использование уникальных фотографий вместо стоковых помогает выделиться в поиске, основанном на схожести эмбеддингов, и точнее соответствовать конкретным визуальным запросам.

Worst practices (это делать не надо)

Использование стоковых или нерелевантных изображений: Использование общих изображений, плохо отражающих суть товара или услуги, снижает эффективность визуального поиска. Embeddings таких изображений будут соответствовать множеству нерелевантных запросов.
Игнорирование специализированных вертикалей: Фокусироваться только на SEO для веб-поиска и игнорировать оптимизацию под Google Shopping или Local Search — это упущенная возможность, так как система активно ищет результаты в этих вертикалях параллельно.
Низкое качество изображений: Размытые или темные изображения приведут к генерации неточных эмбеддингов и снизят релевантность в визуальном поиске.
Блокировка индексации ключевых изображений: Сокрытие изображений от краулеров не позволит системе сгенерировать Embeddings и включить их в визуальный поиск.

Стратегическое значение

Этот патент подтверждает стратегию Google на развитие поиска за пределами текста, делая визуальный ввод (через Google Lens и аналогичные технологии) равноправным типом запроса. Для SEO это означает необходимость интеграции стратегий визуального поиска (VSO) в общую стратегию продвижения. Понимание того, как Google интерпретирует изображения через Embeddings и как контекст влияет на выбор вертикалей, становится ключевой компетенцией, особенно в E-commerce и Local SEO.

Практические примеры

Сценарий 1: Оптимизация карточки товара в E-commerce (Контекстный поиск)

Задача: Увеличить трафик из визуального поиска на карточку нового дивана.
Действия на основе патента:
- Качественные фото: Разместить высококачественные фотографии дивана с разных ракурсов для генерации точных Embeddings.
- Merchant Center: Загрузить фид, чтобы товар попал в Specialized Database (Shopping).
- Микроразметка: Внедрить Schema.org/Product. Это поможет системе определить контекст (это товар) и сгенерировать Text Labels.
Ожидаемый результат: Пользователь фотографирует похожий диван. Система генерирует Image Embedding. Благодаря контексту (объект = мебель) система активирует базу Shopping (Claim 11). Поиск находит товар по схожести Embedding. Пользователь видит в выдаче прямую ссылку на покупку данного товара.

Сценарий 2: Привлечение локального трафика для ресторана

Задача: Привлечь посетителей, которые фотографируют фасад ресторана.
Действия на основе патента:
- Оптимизация GBP: Загрузить актуальные и качественные фото фасада и интерьера в Google Business Profile.
Ожидаемый результат: Пользователь фотографирует фасад. Система анализирует Context Data (текущее местоположение пользователя рядом с рестораном) и активирует Specialized Database (Local Search) (Claim 11). Система находит совпадение по Image Embedding в профиле ресторана и показывает пользователю информацию о ресторане, маршрут и опции бронирования (Action Links).

Вопросы и ответы

Что такое Image Embedding в контексте этого патента и почему это важно для SEO?

Image Embedding — это числовой вектор, который представляет визуальное содержание изображения. В этом патенте он используется как универсальный ключ для поиска похожих изображений сразу в нескольких базах данных (Web, Shopping и т.д.). Для SEO это критически важно, так как сопоставление контента все больше переходит от ключевых слов к визуальной и семантической схожести, измеряемой через близость этих векторов.

Как система решает, в каких специализированных базах данных искать?

Система анализирует Context Data (Claim 11). Это включает местоположение пользователя, его историю поиска, время суток, а также классификацию объекта на фото. Если контекст указывает на коммерческий интент (например, распознан товар) или локальный поиск (например, распознано здание поблизости), система активирует соответствующие специализированные базы данных (Shopping, Local).

Влияет ли текст на странице (например, alt-текст или заголовок) на этот тип визуального поиска?

Да, влияет. Во-первых, текст помогает системе понять контекст и классифицировать изображение (создать Text Labels), что влияет на выбор баз данных. Во-вторых, в мультимодальном варианте (Claim 17) система может использовать эти Text Labels вместе с Image Embedding для поиска в специализированных базах данных, повышая точность результатов.

Что такое мультимодальный поиск, описанный в патенте?

Это подход, при котором для поиска используется более одного типа данных. В патенте описано использование комбинации Image Embedding (визуальные данные) и Text Labels или Visual Tokens (текстовые/структурные данные) (Claim 17). Например, система может использовать текстовую метку для отбора кандидатов (например, «платье»), а затем использовать Image Embedding для точного ранжирования этих платьев по визуальной схожести фасона.

Как этот патент влияет на стратегию E-commerce SEO?

Он делает присутствие в Google Shopping (через Merchant Center) еще более важным. Поскольку система параллельно ищет товары при визуальных запросах, отсутствие товара в этой Specialized Database означает потерю трафика. Также критически важным становится качество и уникальность фотографий товаров, так как они напрямую влияют на генерацию Embeddings и визуальное сопоставление.

Может ли система использовать разные алгоритмы поиска для разных баз данных?

Да, это прямо указано в патенте (Claim 17). Система может использовать чистый векторный поиск (только по Image Embedding) для одной базы данных (например, общего индекса изображений) и одновременно использовать мультимодальный поиск (Embedding + Text Labels) для другой базы данных (например, индекса товаров).

Как обеспечить, чтобы мои изображения ранжировались лучше с помощью этого механизма?

Необходимо фокусироваться на качестве и четкости изображения, чтобы Embedding Model могла точно считать визуальные признаки. Изображение должно быть релевантным контексту страницы. Также важно обеспечить наличие контента в релевантных специализированных индексах (Shopping, Local) и использовать микроразметку для помощи в генерации точных Text Labels.

Что такое Visual Tokens и как они используются?

Visual Tokens — это токенизированные представления визуальных признаков изображения. Патент описывает (Claims 6-9), что они могут использоваться в процессе поиска либо для первоначального отбора кандидатов (Retrieval), которые затем ранжируются с помощью Image Embedding, либо наоборот.

Влияет ли этот патент на локальный поиск (Local SEO)?

Да. Если пользователь фотографирует локальный объект, система может использовать его местоположение (Context Data) для активации локальной базы данных (Claim 11). Если Image Embedding запроса совпадет с фотографиями в вашем Google Business Profile, ваш бизнес будет показан в результатах. Это подчеркивает важность загрузки качественных фото в GBP.

Означает ли это, что Google использует одну и ту же модель для создания эмбеддингов для Web и Shopping?

Патент предполагает, что Embeddings из разных баз данных должны быть совместимы с Image Embedding запроса. Это подразумевает использование одной и той же модели или разных моделей, обученных для маппинга в одно общее векторное пространство, что обеспечивает возможность сравнения визуальной схожести независимо от источника контента.