
Google использует механизм мультимодального поиска, обрабатывая запросы, которые одновременно содержат изображение (например, фото) и аудио (например, голосовое описание или уточнение). Система анализирует визуальные признаки и конвертирует речь в текст, используя совместную модель релевантности для поиска ресурсов (таких как товары или веб-страницы), которые соответствуют обоим типам входных данных.
Патент решает проблему неоднозначности и субъективности при поиске только по изображению. Визуально похожие результаты могут не соответствовать истинному намерению пользователя. Например, поиск по фото автомобиля определенной марки может вернуть визуально похожие автомобили других брендов. Изобретение улучшает точность поиска, позволяя пользователю дополнить изображение голосовым вводом, чтобы уточнить объект интереса или задать параметры поиска.
Запатентована система обработки мультимодальных запросов, состоящих из изображения и аудиоданных (Joint Image-Audio Query). Система извлекает признаки из обеих модальностей (визуальные признаки и текст из речи) и использует обученную Joint Image-Audio Relevance Model. Эта модель оценивает релевантность ресурсов (например, веб-страниц или карточек товаров, содержащих как изображения, так и текст) на основе комбинированного входа.
Система работает следующим образом:
Image Feature Data) и аудио для конвертации речи в текст (Audio Feature Data).Joint Image-Audio Relevance Model.Relevance Score для каждого ресурса, учитывая обе модальности. Ресурсы ранжируются по этим оценкам.Критически высокая. Мультимодальный поиск является стратегическим направлением развития Google (например, Google Lens, интеграция с голосовым поиском, модели MUM и Gemini). Этот патент описывает фундаментальные принципы объединения визуальных и аудиальных/текстовых сигналов в единой модели ранжирования, что особенно актуально для мобильного поиска и e-commerce.
Патент имеет высокое значение для SEO (8/10), особенно в сферах e-commerce и локального поиска. Он подчеркивает необходимость тесной семантической связи между визуальными активами (изображениями) и их текстовым контекстом на странице. Для успешного ранжирования по мультимодальным запросам необходимо, чтобы и изображение, и текст на странице были оптимизированы и согласованы друг с другом.
Claim 1 (Независимый пункт): Описывает основной метод обработки мультимодального запроса.
Joint Image-Audio Query, который включает файл изображения и файл аудиозаписи речи. Важно: объединение (pairing) происходит на клиентском устройстве перед отправкой.query image feature data).query audio feature data), включая текст, полученный из аудиозаписи речи.Joint Image-Audio Relevance Model.Relevance Scores для ресурсов на основе комбинированной релевантности: (Признаки изображения запроса к Признакам изображения ресурса) И (Текст запроса к Тексту ресурса).Ядром изобретения является использование единой обученной модели для оценки релевантности на основе комбинации двух разных модальностей входного запроса (изображение и аудио/текст) по отношению к двум модальностям ресурса (изображение и текст).
Claim 2, 3 (Зависимые): Уточняют роль аудио. Аудио может описывать объект интереса (query object) на изображении, в том числе указывать его позицию (например, "объект справа").
Claim 4 (Зависимый): Уточняет, что аудио может содержать ограничения (restrictions) на результаты поиска (например, "только синий цвет", "дешевле 10 долларов").
Изобретение применяется на нескольких этапах поисковой архитектуры для обеспечения мультимодального поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует ресурсы (например, карточки товаров, веб-страницы) и извлекает из них как визуальные признаки (resource image feature data), так и текстовые данные (resource text data). Эти данные сохраняются для последующего сравнения.
QUNDERSTANDING – Понимание Запросов
Основной этап применения. Когда поступает Joint Image-Audio Query, система должна интерпретировать обе его части. Это включает распознавание речи (Speech-to-Text), применение NLP для понимания намерений, ограничений и пространственной информации в аудио, а также анализ визуальных признаков изображения.
RANKING – Ранжирование
На этом этапе активируется Joint Image-Audio Relevance Model. Она использует интерпретированные данные запроса для вычисления Relevance Scores ресурсов из индекса. Патент предлагает несколько математических моделей для этого вычисления.
Входные данные:
Joint Image-Audio Query (файл изображения, аудиофайл).Выходные данные:
Relevance Scores.Процесс А: Обработка запроса в реальном времени
Joint Image-Audio Query от пользовательского устройства.Image Feature Data (цвет, текстуры, формы и т.д.).Joint Image-Audio Relevance Model.Relevance Score (REL).Процесс Б: Обучение модели (Офлайн)
Annotation Pairs (изображения + связанный текст/аудио) и ресурсам с известной степенью релевантности к этим парам.Annotation Pairs. Например, текст запроса пользователя и изображение, на которое он кликнул, формируют пару для обучения.Ключевая метрика — Relevance Score (REL), рассчитываемая функцией , где S — аудио/текст запроса, I — изображение запроса, R — ресурс. Патент предлагает несколько вариантов реализации этой функции:
1. Линейная комбинация (Linear Combination):
Комбинация оценок текстовой релевантности и визуальной релевантности с настраиваемым весом c.
2. Фильтрация (Restricted Set):
Где , если текст S присутствует в ресурсе R, и 0 в противном случае. Аудио используется для фильтрации набора ресурсов, а ранжирование внутри набора происходит по визуальной схожести.
3. Обучение весов признаков для каждого S:
Для каждого варианта аудиоввода (S) изучается отдельная матрица весов (W_S).
4. Модели пространства представлений (Embedding Space Models):
Например,
Запрос (S+I) и ресурс (R) проецируются в общее низкоразмерное пространство представлений, где оценивается их близость.
Joint Relevance Model, которая оценивает релевантность на основе комбинации всех входных данных одновременно.Annotation Pairs. Использование логов поиска и кликов для генерации этих пар подчеркивает, что Google учится понимать связь между изображениями и словами на основе того, как их описывают пользователи и вебмастера.Image Feature Extraction) и повышает вероятность того, что система правильно сопоставит ваше изображение с мультимодальным запросом.restrictions) в голосовом запросе: цвет, размер, цена, бренд, сценарии использования.Патент подтверждает стратегический курс Google на мультимодальное понимание контента и запросов. Для SEO это означает необходимость выхода за рамки традиционной текстовой оптимизации. Необходимо учитывать, как визуальные и текстовые элементы взаимодействуют для передачи смысла. Эта технология является основой для современных интерфейсов поиска (таких как Google Lens) и критически важна для долгосрочной стратегии в e-commerce и мобильном SEO.
Сценарий: Оптимизация карточки товара (E-commerce)
Задача: Продажа красной спортивной куртки Nike.
Joint Relevance Model ищет ресурсы, которые соответствуют и визуальным признакам, и текстовым ограничениям. Оптимизированная карточка товара получит высокий Relevance Score, так как соответствует всем условиям.Как этот патент влияет на традиционную оптимизацию изображений (alt-text, filenames)?
Традиционная оптимизация остается важной, но её роль меняется. Alt-text и окружающий текст теперь служат не только для описания изображения для текстового поиска, но и как данные для сопоставления с аудио/текстовой частью мультимодального запроса. Кроме того, эти текстовые данные, вероятно, используются Google для генерации Annotation Pairs при обучении моделей, что подчеркивает необходимость точности и релевантности описаний.
Какова роль аудио в этом патенте? Это просто фильтр?
Не всегда. Патент описывает несколько моделей. В одной из них (Restricted Set) аудио действительно действует как жесткий фильтр (система ищет только среди страниц, содержащих слова из аудио). Однако в других моделях (Linear Combination, Embedding Space) аудио является равноправным сигналом ранжирования, вес которого может динамически настраиваться или изучаться моделью для более глубокой интеграции с визуальными сигналами.
Как система определяет, какие ресурсы использовать для обучения (Annotation Pairs)?
Патент предлагает несколько источников. Во-первых, это существующие базы данных (например, продуктовые каталоги, где изображение товара связано с его описанием). Во-вторых, это логи поиска: система анализирует текстовые запросы пользователей и изображения или товары, на которые они кликают в результатах. Эти пары (запрос + кликнутое изображение) становятся обучающими данными.
Что такое "Embedding Space" и почему это важно для мультимодального поиска?
Embedding Space (Пространство представлений) — это метод, позволяющий представить разнородные данные (текст, изображения) в виде числовых векторов в общем пространстве. Важно то, что в этом пространстве расстояние между векторами отражает семантическую близость. Это позволяет системе напрямую сравнивать релевантность между мультимодальным запросом и ресурсом, даже если они описаны разными способами.
Влияет ли качество изображения на ранжирование в этой системе?
Да, косвенно. Хотя патент не фокусируется на оценке качества изображения как такового, он описывает процесс извлечения признаков (Image Feature Extraction). Чем выше качество и четкость изображения, тем точнее будут извлеченные признаки (цвета, текстуры, формы). Это, в свою очередь, повышает точность работы Joint Relevance Model при сравнении изображения запроса с изображением ресурса.
Как система обрабатывает ситуации, когда аудио противоречит изображению (например, фото красной бутылки и голос говорит "хочу синюю")?
Патент учитывает такие сценарии. С помощью NLP система может распознавать ограничения (restrictions) и предпочтения (sentiments) в аудиоданных. В данном примере система поймет, что пользователь ищет объект, визуально похожий на фото (бутылка определенной формы), но с измененной характеристикой (синий цвет вместо красного). Ресурсы, соответствующие форме, но имеющие синий цвет, получат приоритет.
Как SEO-специалисту оптимизировать сайт под этот алгоритм?
Ключевая стратегия — обеспечить максимальную консистентность между визуальным и текстовым контентом. Для e-commerce это означает наличие качественных, четких изображений товаров и подробных, релевантных описаний, которые включают характеристики, часто используемые в голосовых запросах (цвет, размер, бренд). Структурированные данные также помогают связать текст с соответствующими изображениями.
Применяется ли этот патент только к поиску товаров?
Хотя большинство примеров в патенте связаны с товарами (Product Database), описанная технология применима к любым ресурсам, содержащим изображение и текст. Это могут быть новостные статьи, локальные бизнесы (фотография ресторана и голосовой запрос о часах работы), рецепты и информационные страницы.
Что происходит, если на изображении несколько объектов?
Патент предусматривает, что пользователь может использовать аудио для уточнения объекта интереса. Например, сказав "бутылка справа", пользователь помогает системе сфокусировать анализ визуальных признаков на правой части изображения, игнорируя другие объекты. Это повышает точность поиска.
Является ли этот патент основой для Google Lens?
Да, этот патент описывает фундаментальные механизмы, которые лежат в основе технологий типа Google Lens, особенно когда визуальный поиск комбинируется с голосовыми или текстовыми уточнениями. Он заложил основу для обработки совместных запросов из разных модальностей, что является ключевой функцией современных мультимодальных систем Google.

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент
Индексация

Семантика и интент
SERP
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
SERP
Техническое SEO

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы

Мультиязычность
Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы

Ссылки
SERP
EEAT и качество
