
Google патентует интерфейс для уточнения визуального поиска. Пользователь загружает изображение, видит результаты и специальное поле для ввода текстового уточнения. Система объединяет изображение и текст в единый мультимодальный запрос (Multimodal Search Query), чтобы точнее понять намерение пользователя и предоставить релевантные результаты разных форматов, включая товары, видео и статьи.
Патент решает проблему неоднозначности пользовательского намерения (интента) при использовании исключительно визуального поиска. Изображение само по себе часто не передает полный контекст запроса. Например, пользователь может сфотографировать рубашку, интересуясь ее фасоном, узором, способом ухода или желая найти такую же, но другого цвета. Система позволяет устранить эту неоднозначность, предоставляя пользователю возможность уточнить свой визуальный запрос с помощью текста.
Запатентована система и пользовательский интерфейс для трансформации визуального запроса в мультимодальный. Суть изобретения заключается в предоставлении пользователю возможности ввести текстовое уточнение (refinement) непосредственно на странице результатов первичного визуального поиска. Система объединяет исходное изображение и введенный текст для формирования multimodal search query.
Система работает по следующей схеме:
visual search query) через приложение (например, виртуальный ассистент).multimodal search query.commerce elements).Крайне высокая. Патент подан в 2022 году и опубликован в 2024. Он описывает ядро функциональности, известной как Google Multisearch (поиск через Google Lens с текстовым уточнением), которую Google активно развивает и позиционирует как будущее поисковых технологий. Это прямая реализация описанных в патенте механизмов.
Влияние на SEO высокое (8/10), особенно для e-commerce и контент-стратегий, ориентированных на визуальный поиск. Патент подчеркивает необходимость оптимизации контента (текста, товаров, видео) для обнаружения не только через текстовые запросы, но и через комбинацию визуальных сигналов и связанных с ними текстовых уточнений. Это меняет подход к оптимизации изображений и описаний товаров, делая акцент на их релевантности потенциальным мультимодальным запросам.
Claim 1 (Независимый пункт): Описывает основной процесс уточнения мультимодального поиска.
multimodal search query.Ключевым моментом является предоставление возможности уточнения (шаг 2б) непосредственно в контексте просмотра результатов визуального поиска.
Claim 3, 4 и 5 (Зависимые): Детализируют использование мультимодального запроса.
multimodal search query (Claim 3).commerce element или мультимедийный элемент (Claim 5).Это подтверждает, что целью системы является широкое понимание интента, а не просто поиск похожих изображений.
Claim 7, 8 и 9 (Зависимые): Описывают варианты реализации пользовательского интерфейса для уточнения.
Claim 10 (Зависимый): Указывает, что элемент интерфейса для уточнения может включать голосовой интерфейс для сбора голосовых данных (произнесенного пользователем уточнения).
Изобретение затрагивает несколько ключевых этапов поиска, обеспечивая переход от визуального к мультимодальному взаимодействию.
INDEXING – Индексирование и извлечение признаков
Для работы системы необходимо, чтобы контент (изображения, текст, товары, видео) был проиндексирован способом, поддерживающим мультимодальный поиск. Это предполагает использование Machine-learned models для создания представлений (например, эмбеддингов) различных типов контента в общем семантическом пространстве.
QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система в реальном времени трансформирует пользовательский ввод (сначала Изображение, затем Изображение + Текст) в структурированное представление multimodal search query. Это требует интеграции визуальных сигналов и текстового уточнения, вероятно, с использованием моделей машинного обучения (упоминаются трансформеры и механизмы внимания).
RANKING – Ранжирование (Retrieval)
Система использует сгенерированный multimodal search query для извлечения релевантных кандидатов из индекса. Этот процесс отличается от стандартного текстового или визуального поиска, так как требует оценки релевантности на основе комбинации модальностей.
METASEARCH – Метапоиск и Смешивание
На основе мультимодального интента система определяет оптимальный формат представления результатов. Если запрос коммерческий, приоритет отдается commerce elements; если информационный ("как помыть?") — текстовым сниппетам или видео.
Входные данные:
Visual search query (одно или несколько изображений/видео).Textual data (текстовое уточнение, введенное через клавиатуру или голосом).Выходные данные:
Multimodal search query (внутреннее представление).Interface element для уточнения), предоставленным на странице результатов визуального поиска.visual search query (изображение) от пользователя через приложение.textual data (через клавиатуру или голосовой ввод).Machine-learned models для создания интегрированного представления multimodal search query.multimodal search query.commerce elements, видео, текст).Query images. Исходные изображения или видеоданные, предоставленные пользователем для поиска.Textual data. Текстовое уточнение, введенное пользователем для модификации визуального запроса.Патент фокусируется на описании пользовательского интерфейса и общем процессе обработки запроса, а не на конкретных метриках ранжирования или деталях архитектуры используемых моделей машинного обучения.
Однако в тексте упоминается использование Machine-learned models для нескольких задач:
multimodal search query. В качестве примеров возможных моделей упоминаются нейронные сети, модели с механизмами внимания (attention mechanism) и трансформеры (transformer models).commerce elements), обучение (видео, текстовые сниппеты), ремонт и т.д.Machine-learned models (таких как трансформеры), способных интегрировать визуальную и текстовую информацию в единое семантическое представление.Commerce elements, включающих отзывы, цены и наличие товара, в ответ на мультимодальные запросы.Патент подтверждает глобальный сдвиг в поведении пользователей: поисковый путь все чаще начинается с камеры, а не с текстовой строки. Это особенно критично для ритейла и локального поиска. SEO-стратегии должны адаптироваться к этому тренду, оптимизируя путь пользователя от визуальной идентификации объекта до конверсии или потребления информации. Понимание того, как Google интерпретирует и объединяет модальности, становится ключевым навыком для SEO-специалистов.
Сценарий 1: E-commerce (Модификация товара)
multimodal search query (Фото белых кроссовок + "черные").Commerce element.Сценарий 2: Контент (Информационный запрос)
multimodal search query (Фото растения + "инструкции по уходу").Что такое мультимодальный запрос в контексте этого патента?
Это запрос, который объединяет информацию из разных источников или форматов (модальностей). В данном патенте это строго комбинация исходного визуального запроса (изображения или видео) и последующего текстового уточнения, введенного пользователем. Система обрабатывает их как единое целое.
Является ли этот патент описанием Google Multisearch (Google Lens + текст)?
Да, патент описывает системы и методы, которые лежат в основе функциональности, публично известной как Google Multisearch. Он детально описывает интерфейс и процесс того, как пользователь переходит от поиска по картинке к добавлению текстового контекста для уточнения результатов.
Как этот патент влияет на SEO для интернет-магазинов?
Влияние критическое. Это означает, что пользователи могут искать ваши товары, фотографируя похожие предметы и добавляя уточнения (цвет, размер, бренд). Для успешного ранжирования необходимо иметь высококачественные изображения всех вариаций товара и детальные текстовые описания, чтобы соответствовать обеим частям мультимодального запроса.
Как система технически объединяет изображение и текст?
Патент не детализирует конкретную архитектуру, но упоминает использование Machine-learned models, таких как трансформеры и модели с механизмами внимания. На практике это обычно означает преобразование изображения и текста в эмбеддинги в общем семантическом пространстве, позволяя системе понять, как текст модифицирует визуальный интент.
Влияет ли этот механизм на информационный контент (статьи, блоги)?
Да, значительно. Пользователи могут фотографировать объекты и задавать вопросы о них ("как починить", "что это", "рецепт"). Информационные сайты должны создавать контент, отвечающий на эти вопросы, и сопровождать его релевантными изображениями, чтобы быть видимыми в результатах мультимодального поиска.
Какие форматы результатов поддерживает система мультимодального поиска?
Согласно патенту (Claim 5), система поддерживает широкий спектр форматов: изображения, видеоданные, текстовые сниппеты, ссылки на контент, а также commerce elements (карточки товаров с информацией о продукте) и мультимедийные элементы.
Может ли пользователь уточнить запрос голосом?
Да, патент (Claim 10) явно предусматривает возможность использования голосового интерфейса для ввода уточнения. Пользователь может произнести текстовое уточнение вместо того, чтобы вводить его с клавиатуры.
Что важнее для оптимизации под этот патент: текст или изображения?
Обе модальности критически важны, так как запрос является мультимодальным. Изображения на вашем сайте должны визуально соответствовать потенциальным визуальным запросам пользователей, а текст на странице должен быть релевантен потенциальным текстовым уточнениям. Одно не работает без другого.
Стоит ли изменять стратегию работы с микроразметкой в связи с этим патентом?
Да, стоит уделить особое внимание разметке Product для e-commerce. Патент упоминает commerce elements как один из ключевых форматов выдачи. Качественная и полная микроразметка помогает Google сформировать эти элементы, повышая привлекательность ваших результатов в мультимодальной выдаче.
Отличается ли этот процесс от обычного поиска по картинкам?
Да, принципиально. Обычный визуальный поиск (reverse image search) ищет похожие изображения или идентифицирует объект. Описанный мультимодальный поиск использует изображение как отправную точку и модифицирует её текстовым контекстом для выполнения гораздо более сложных задач, таких как поиск вариаций товара или получение инструкций.

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Индексация
Семантика и интент

Поведенческие сигналы
EEAT и качество
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Персонализация
SERP
Ссылки

Knowledge Graph
Семантика и интент
Персонализация

Поведенческие сигналы
Семантика и интент
Мультимедиа

Семантика и интент
EEAT и качество
SERP

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
Семантика и интент

Персонализация
Семантика и интент
Мультимедиа
