Как Google объединяет изображение и текст для создания мультимодальных запросов (Google Multisearch)

Google патентует интерфейс для уточнения визуального поиска. Пользователь загружает изображение, видит результаты и специальное поле для ввода текстового уточнения. Система объединяет изображение и текст в единый мультимодальный запрос (Multimodal Search Query), чтобы точнее понять намерение пользователя и предоставить релевантные результаты разных форматов, включая товары, видео и статьи.

Описание

Какую задачу решает

Патент решает проблему неоднозначности пользовательского намерения (интента) при использовании исключительно визуального поиска. Изображение само по себе часто не передает полный контекст запроса. Например, пользователь может сфотографировать рубашку, интересуясь ее фасоном, узором, способом ухода или желая найти такую же, но другого цвета. Система позволяет устранить эту неоднозначность, предоставляя пользователю возможность уточнить свой визуальный запрос с помощью текста.

Что запатентовано

Запатентована система и пользовательский интерфейс для трансформации визуального запроса в мультимодальный. Суть изобретения заключается в предоставлении пользователю возможности ввести текстовое уточнение (refinement) непосредственно на странице результатов первичного визуального поиска. Система объединяет исходное изображение и введенный текст для формирования multimodal search query.

Как это работает

Система работает по следующей схеме:

Визуальный ввод: Пользователь предоставляет одно или несколько изображений (visual search query) через приложение (например, виртуальный ассистент).
Первичные результаты и запрос уточнения: Система отображает интерфейс, включающий результаты первичного визуального поиска И одновременно элемент интерфейса (например, текстовое поле «Refine Search»), предлагающий пользователю уточнить запрос.
Текстовое уточнение: Пользователь вводит текстовые данные (например, цвет, бренд, вопрос о предмете).
Мультимодальная интеграция: Система объединяет (appends) текстовые данные с визуальным запросом, создавая multimodal search query.
Уточненные результаты: Система выполняет новый поиск и предоставляет уточненные результаты, которые могут включать изображения, видео, текстовые сниппеты или коммерческие предложения (commerce elements).

Актуальность для SEO

Крайне высокая. Патент подан в 2022 году и опубликован в 2024. Он описывает ядро функциональности, известной как Google Multisearch (поиск через Google Lens с текстовым уточнением), которую Google активно развивает и позиционирует как будущее поисковых технологий. Это прямая реализация описанных в патенте механизмов.

Важность для SEO

Влияние на SEO высокое (8/10), особенно для e-commerce и контент-стратегий, ориентированных на визуальный поиск. Патент подчеркивает необходимость оптимизации контента (текста, товаров, видео) для обнаружения не только через текстовые запросы, но и через комбинацию визуальных сигналов и связанных с ними текстовых уточнений. Это меняет подход к оптимизации изображений и описаний товаров, делая акцент на их релевантности потенциальным мультимодальным запросам.

Детальный разбор

Термины и определения

Visual search query (Визуальный поисковый запрос): Исходный запрос, предоставленный пользователем, состоящий из одного или нескольких изображений (или видеоданных).
Multimodal search query (Мультимодальный поисковый запрос): Запрос, объединяющий данные разных модальностей. В контексте патента — это комбинация исходного визуального запроса и текстового уточнения.
Refinement (Уточнение): Текстовые данные, добавленные пользователем для прояснения намерения исходного визуального запроса.
Interface element (Элемент интерфейса для уточнения): Компонент пользовательского интерфейса (например, поисковая строка, кнопка навигации, микрофон), который предлагает пользователю добавить текстовое уточнение к визуальному запросу.
Virtual assistant application (Приложение виртуального ассистента): Приложение (например, Google App, Google Lens), в контексте которого часто реализуется функция визуального и мультимодального поиска.
Commerce element (Коммерческий элемент): Формат результата поиска, отображающий информацию о продукте, релевантном мультимодальному запросу (например, отзывы, ссылки для покупки).
Machine-learned models (Модели машинного обучения): Модели (например, нейронные сети, трансформеры), используемые для анализа изображений, понимания текста и интеграции этих модальностей в единый запрос.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс уточнения мультимодального поиска.

Система получает визуальный поисковый запрос (изображения) от пользователя.
Система предоставляет поисковый интерфейс, который включает: (а) результаты, соответствующие визуальному запросу, И (б) элемент интерфейса, указывающий на запрос к пользователю уточнить визуальный запрос.
Система получает от пользователя текстовые данные, содержащие уточнение.
Система присоединяет (appending) текстовые данные к визуальному запросу для получения multimodal search query.

Ключевым моментом является предоставление возможности уточнения (шаг 2б) непосредственно в контексте просмотра результатов визуального поиска.

Claim 3, 4 и 5 (Зависимые): Детализируют использование мультимодального запроса.

Система извлекает уточненные результаты поиска на основе multimodal search query (Claim 3).
Система отображает интерфейс с этими уточненными результатами (Claim 4).
Уточненные результаты могут быть разнообразными: изображения, видео, текстовый контент, ссылки, commerce element или мультимедийный элемент (Claim 5).

Это подтверждает, что целью системы является широкое понимание интента, а не просто поиск похожих изображений.

Claim 7, 8 и 9 (Зависимые): Описывают варианты реализации пользовательского интерфейса для уточнения.

Элемент интерфейса для уточнения может быть текстовым полем ввода (Claim 7).
Альтернативно, это может быть навигационный элемент, который переводит пользователя на второй интерфейс (Claim 8), где расположено текстовое поле для ввода уточнения (Claim 9).

Claim 10 (Зависимый): Указывает, что элемент интерфейса для уточнения может включать голосовой интерфейс для сбора голосовых данных (произнесенного пользователем уточнения).

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поиска, обеспечивая переход от визуального к мультимодальному взаимодействию.

INDEXING – Индексирование и извлечение признаков
Для работы системы необходимо, чтобы контент (изображения, текст, товары, видео) был проиндексирован способом, поддерживающим мультимодальный поиск. Это предполагает использование Machine-learned models для создания представлений (например, эмбеддингов) различных типов контента в общем семантическом пространстве.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система в реальном времени трансформирует пользовательский ввод (сначала Изображение, затем Изображение + Текст) в структурированное представление multimodal search query. Это требует интеграции визуальных сигналов и текстового уточнения, вероятно, с использованием моделей машинного обучения (упоминаются трансформеры и механизмы внимания).

RANKING – Ранжирование (Retrieval)
Система использует сгенерированный multimodal search query для извлечения релевантных кандидатов из индекса. Этот процесс отличается от стандартного текстового или визуального поиска, так как требует оценки релевантности на основе комбинации модальностей.

METASEARCH – Метапоиск и Смешивание
На основе мультимодального интента система определяет оптимальный формат представления результатов. Если запрос коммерческий, приоритет отдается commerce elements; если информационный («как помыть?») — текстовым сниппетам или видео.

Входные данные:

Visual search query (одно или несколько изображений/видео).
Textual data (текстовое уточнение, введенное через клавиатуру или голосом).

Выходные данные:

Multimodal search query (внутреннее представление).
Уточненные результаты поиска в различных форматах.

На что влияет

Конкретные типы контента и ниши (E-commerce): Наибольшее влияние на товары и электронную коммерцию. Механизм позволяет пользователям находить конкретные вариации товара (цвет, размер, стиль) или связанные аксессуары на основе изображения. Особенно актуально для ниш моды, декора, автозапчастей.
Специфические запросы (Информационные/How-to): Влияет на запросы типа «как сделать», «как починить», «как ухаживать». Пользователь может сфотографировать объект и задать вопрос о нем (например, фото растения и текст «когда поливать»).
Локальные запросы: (Хотя явно не указано в патенте, это логичное развитие функциональности — например, фото блюда и текст «рядом со мной»).

Когда применяется

Условия работы алгоритма: Алгоритм активируется после того, как пользователь инициировал визуальный поиск.
Триггеры активации: Активация процесса уточнения происходит, когда пользователь взаимодействует со специальным элементом интерфейса (Interface element для уточнения), предоставленным на странице результатов визуального поиска.

Пошаговый алгоритм

Получение визуального ввода: Система получает visual search query (изображение) от пользователя через приложение.
Генерация первичных результатов: Выполняется первичный визуальный поиск.
Предоставление интерфейса поиска: Пользователю отображается интерфейс, содержащий первичные результаты И элемент интерфейса для запроса уточнения (например, текстовое поле).
Получение текстового уточнения: Пользователь взаимодействует с элементом интерфейса и вводит textual data (через клавиатуру или голосовой ввод).
Генерация мультимодального запроса: Система выполняет операцию присоединения (appending) текстовых данных к визуальному запросу. Этот шаг может включать обработку данных с помощью Machine-learned models для создания интегрированного представления multimodal search query.
Выполнение мультимодального поиска: Система извлекает новый набор результатов на основе multimodal search query.
Генерация уточненных результатов: Система формирует результаты в различных форматах (изображения, commerce elements, видео, текст).
Предоставление уточненного интерфейса: Отображение финальных результатов пользователю.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Query images. Исходные изображения или видеоданные, предоставленные пользователем для поиска.
Контентные факторы: Textual data. Текстовое уточнение, введенное пользователем для модификации визуального запроса.
Пользовательские факторы: Способ ввода уточнения (текст или голос).

Какие метрики используются и как они считаются

Патент фокусируется на описании пользовательского интерфейса и общем процессе обработки запроса, а не на конкретных метриках ранжирования или деталях архитектуры используемых моделей машинного обучения.

Однако в тексте упоминается использование Machine-learned models для нескольких задач:

Анализ визуального запроса: Модели могут использоваться для классификации объектов на изображении, сегментации, определения предполагаемого интента или определения объекта интереса.
Генерация мультимодального запроса: Модели могут быть обучены модифицировать представление (например, эмбеддинг) исходного изображения на основе текстового контента или обрабатывать комбинацию представлений изображения и текста для формирования итогового multimodal search query. В качестве примеров возможных моделей упоминаются нейронные сети, модели с механизмами внимания (attention mechanism) и трансформеры (transformer models).

Выводы

Мультимодальность как приоритет: Патент подтверждает, что интеграция визуального и текстового поиска является стратегическим направлением развития Google. Система стремится понять сложное намерение пользователя, которое не может быть выражено одной модальностью.
Интерфейс как часть алгоритма: Ключевым элементом изобретения является не просто способность обрабатывать мультимодальные запросы, а конкретный дизайн интерфейса, который активно предлагает пользователю уточнить визуальный поиск текстом.
Решение проблемы неоднозначности: Система признает ограничения чисто визуального поиска и решает проблему неоднозначности интента, напрямую запрашивая у пользователя дополнительный контекст.
Разнообразие форматов выдачи: Целью мультимодального поиска является не только поиск похожих изображений, но и предоставление действенных результатов: покупка (commerce elements), обучение (видео, текстовые сниппеты), ремонт и т.д.
Технологическая основа: Реализация этого механизма зависит от сложных Machine-learned models (таких как трансформеры), способных интегрировать визуальную и текстовую информацию в единое семантическое представление.

Практика

Best practices (это мы делаем)

Оптимизация под мультимодальное обнаружение: Необходимо гарантировать, что страницы товаров и информационный контент релевантны как визуальному представлению объекта, так и вероятным текстовым уточнениям. Если вы продаете синее платье с цветочным узором, ваш контент должен быть релевантен запросам, возникающим при поиске по фото похожего платья с уточнениями «синий цвет» или «цветочный узор».
Комплексная оптимизация изображений (E-commerce): Предоставляйте высококачественные, четкие изображения всех вариантов товара (цвета, размеры, ракурсы). Это критически важно для того, чтобы ваш товар соответствовал визуальной части мультимодального запроса после уточнения пользователем (например, смена цвета).
Контент-стратегия для связанных интентов («Aboutness»): Создавайте контент, отвечающий на вопросы, которые могут возникнуть у пользователя при визуальной идентификации объекта. Если объект часто ломается, создайте руководство по ремонту. Если это ингредиент, создайте рецепты. Этот контент может быть показан, когда пользователь уточняет визуальный поиск вопросом (например, «как починить», «как приготовить»).
Использование структурированных данных (Schema): Внедряйте максимально полную микроразметку Product для страниц товаров. Это увеличивает вероятность показа ваших предложений в виде Commerce elements, включающих отзывы, цены и наличие товара, в ответ на мультимодальные запросы.

Worst practices (это делать не надо)

Игнорирование визуального поиска: Фокусироваться только на текстовой оптимизации и игнорировать качество, релевантность и оптимизацию изображений на сайте.
Использование нерелевантных изображений: Использование стоковых или обманчивых фотографий, которые визуально не соответствуют товару или теме статьи. Это приведет к несоответствию визуальной части мультимодального запроса.
«Тонкие» страницы товаров: Наличие страниц товаров только с изображением и ценой, без детального текстового описания, характеристик и отзывов. Такие страницы вряд ли будут хорошо ранжироваться по запросам, содержащим текстовые уточнения.

Стратегическое значение

Патент подтверждает глобальный сдвиг в поведении пользователей: поисковый путь все чаще начинается с камеры, а не с текстовой строки. Это особенно критично для ритейла и локального поиска. SEO-стратегии должны адаптироваться к этому тренду, оптимизируя путь пользователя от визуальной идентификации объекта до конверсии или потребления информации. Понимание того, как Google интерпретирует и объединяет модальности, становится ключевым навыком для SEO-специалистов.

Практические примеры

Сценарий 1: E-commerce (Модификация товара)

Действие пользователя: Пользователь видит на улице человека в кроссовках, которые ему нравятся, и фотографирует их (Визуальный запрос). Кроссовки белые.
Уточнение: Пользователю нравятся кроссовки, но он хочет черные. В интерфейсе результатов он вводит текст «черные» (Текстовое уточнение).
Действие системы: Система формирует multimodal search query (Фото белых кроссовок + «черные»).
Задача SEO: Если вы продаете эту модель кроссовок в черном цвете, ваша страница должна иметь высококачественное фото черной версии и текстовое описание, чтобы система идентифицировала ваш товар как релевантный результат и показала его в виде Commerce element.

Сценарий 2: Контент (Информационный запрос)

Действие пользователя: Пользователь фотографирует незнакомое комнатное растение (Визуальный запрос).
Уточнение: Пользователь хочет узнать, как за ним ухаживать. Он вводит текст «инструкции по уходу» (Текстовое уточнение).
Действие системы: Система формирует multimodal search query (Фото растения + «инструкции по уходу»).
Задача SEO: Если у вас есть блог о растениях, ваша статья об уходе за этим конкретным видом должна содержать изображения, визуально схожие с фото пользователя, и релевантный текст, чтобы система показала вашу статью в результатах.

Вопросы и ответы

Что такое мультимодальный запрос в контексте этого патента?

Это запрос, который объединяет информацию из разных источников или форматов (модальностей). В данном патенте это строго комбинация исходного визуального запроса (изображения или видео) и последующего текстового уточнения, введенного пользователем. Система обрабатывает их как единое целое.

Является ли этот патент описанием Google Multisearch (Google Lens + текст)?

Да, патент описывает системы и методы, которые лежат в основе функциональности, публично известной как Google Multisearch. Он детально описывает интерфейс и процесс того, как пользователь переходит от поиска по картинке к добавлению текстового контекста для уточнения результатов.

Как этот патент влияет на SEO для интернет-магазинов?

Влияние критическое. Это означает, что пользователи могут искать ваши товары, фотографируя похожие предметы и добавляя уточнения (цвет, размер, бренд). Для успешного ранжирования необходимо иметь высококачественные изображения всех вариаций товара и детальные текстовые описания, чтобы соответствовать обеим частям мультимодального запроса.

Как система технически объединяет изображение и текст?

Патент не детализирует конкретную архитектуру, но упоминает использование Machine-learned models, таких как трансформеры и модели с механизмами внимания. На практике это обычно означает преобразование изображения и текста в эмбеддинги в общем семантическом пространстве, позволяя системе понять, как текст модифицирует визуальный интент.

Влияет ли этот механизм на информационный контент (статьи, блоги)?

Да, значительно. Пользователи могут фотографировать объекты и задавать вопросы о них («как починить», «что это», «рецепт»). Информационные сайты должны создавать контент, отвечающий на эти вопросы, и сопровождать его релевантными изображениями, чтобы быть видимыми в результатах мультимодального поиска.

Какие форматы результатов поддерживает система мультимодального поиска?

Согласно патенту (Claim 5), система поддерживает широкий спектр форматов: изображения, видеоданные, текстовые сниппеты, ссылки на контент, а также commerce elements (карточки товаров с информацией о продукте) и мультимедийные элементы.

Может ли пользователь уточнить запрос голосом?

Да, патент (Claim 10) явно предусматривает возможность использования голосового интерфейса для ввода уточнения. Пользователь может произнести текстовое уточнение вместо того, чтобы вводить его с клавиатуры.

Что важнее для оптимизации под этот патент: текст или изображения?

Обе модальности критически важны, так как запрос является мультимодальным. Изображения на вашем сайте должны визуально соответствовать потенциальным визуальным запросам пользователей, а текст на странице должен быть релевантен потенциальным текстовым уточнениям. Одно не работает без другого.

Стоит ли изменять стратегию работы с микроразметкой в связи с этим патентом?

Да, стоит уделить особое внимание разметке Product для e-commerce. Патент упоминает commerce elements как один из ключевых форматов выдачи. Качественная и полная микроразметка помогает Google сформировать эти элементы, повышая привлекательность ваших результатов в мультимодальной выдаче.

Отличается ли этот процесс от обычного поиска по картинкам?

Да, принципиально. Обычный визуальный поиск (reverse image search) ищет похожие изображения или идентифицирует объект. Описанный мультимодальный поиск использует изображение как отправную точку и модифицирует ее текстовым контекстом для выполнения гораздо более сложных задач, таких как поиск вариаций товара или получение инструкций.