
Google использует модель уточнения запросов для мультимодального поиска (например, в Google Lens). Система принимает эмбеддинг исходного изображения и текстовое уточнение от пользователя. Модель генерирует новый, уточненный эмбеддинг изображения, который объединяет визуальные данные с текстовым интентом. Этот новый эмбеддинг используется для поиска релевантных изображений в общем пространстве эмбеддингов, позволяя пользователям итеративно уточнять визуальный поиск текстом.
Патент решает проблему ограничений традиционного визуального поиска, который обрабатывает только данные изображения и не может учитывать текстовые уточнения пользователя. Это часто требует от пользователя повторного захвата изображения или переформулирования запроса, что приводит к неэффективному использованию ресурсов и ухудшению пользовательского опыта. Изобретение позволяет пользователям уточнять визуальный поиск с помощью текста, создавая мультимодальный запрос для более точного и эффективного извлечения изображений.
Запатентована система и метод использования машинно-обученной модели уточнения запросов (Machine-Learned Query Refinement Model) для мультимодального поиска. Эта модель принимает на вход эмбеддинг исходного изображения (Query Image Embedding) и текстовое уточнение (Textual Query Refinement). На выходе она генерирует уточненный эмбеддинг изображения (Refined Image Embedding), который инкорпорирует текстовое уточнение в визуальное представление. Этот новый эмбеддинг используется для поиска в пространстве эмбеддингов изображений.
Система работает в двух режимах: обучение и применение (inference).
Refined Image Embedding. Система выполняет поиск ближайших соседей (nearest neighbors) в Image Embedding Space, используя этот новый эмбеддинг, и возвращает уточненные результаты.Refined Image Embedding и эмбеддингом целевого изображения (Ground Truth Image Embedding). Тренировочные данные (исходное изображение, текст уточнения, целевое изображение) генерируются из корпусов данных поиска изображений, анализируя, как пользователи уточняют запросы и на какие результаты кликают.Критически высокая. Патент описывает базовую технологию для мультимодального поиска, который является стратегическим направлением развития Google (например, применение MUM, Google Lens с функцией "добавить в поиск"). Поскольку визуальный поиск и e-commerce становятся все более интегрированными, способность системы понимать комбинацию изображения и текста имеет решающее значение.
Патент имеет высокое значение (85/100) для SEO, особенно в области визуального поиска и e-commerce. Он описывает механизм, с помощью которого Google интерпретирует смешанные (визуальные+текстовые) интенты. Это напрямую влияет на то, как изображения товаров или контента будут обнаруживаться пользователями, уточняющими свой поиск. Понимание этого механизма требует оптимизации визуальных активов и их семантического контекста для лучшего представления в Image Embedding Space.
Query Image Embedding).Token Embeddings).Query Refinement Model. Это новый эмбеддинг, который инкорпорирует текстовое уточнение в исходный эмбеддинг изображения. Используется для поиска финальных результатов.Query Refinement Model.Патент содержит два основных независимых пункта, описывающих процесс применения (Inference) и процесс обучения (Training).
Claim 1 (Независимый пункт) – Процесс применения (Inference): Описывает метод использования системы для мультимодального поиска.
Query Image), предоставленного пользователем визуального поиска.Textual Query Refinement). Уточняется, что этот текст вводится в ответ на предоставление начальных результатов поиска по исходному изображению.Machine-Learned Query Refinement Model.Refined Image Embedding), который инкорпорирует текстовое уточнение.Refined Image Embedding.Claim 2 (Зависимый от 1): Уточняет механизм определения результатов (шаг 5 из Claim 1).
Определение уточненных результатов включает в себя поиск одного или нескольких эмбеддингов в пределах порогового расстояния (threshold distance) от Refined Image Embedding в пространстве эмбеддингов. Затем выбираются изображения, соответствующие этим найденным эмбеддингам. Это стандартный механизм поиска ближайших соседей (k-NN или ANN) в векторном пространстве.
Claim 4 (Зависимый от 1): Уточняет обработку текста.
Текстовое уточнение преобразуется в один или несколько токенных эмбеддингов (Token Embeddings). Query Refinement Model обрабатывает именно эти токенные эмбеддинги вместе с эмбеддингом изображения.
Claim 10 (Независимый пункт) – Процесс обучения (Training): Описывает метод обучения Query Refinement Model.
Query Image Embedding и связанный с ним Textual Query Refinement.Refined Image Embedding.loss function), которая измеряет расстояние между Refined Image Embedding и Ground Truth Image Embedding в пространстве эмбеддингов.Claim 14 (Зависимый от 10): Определяет источник тренировочных данных.
Данные берутся из корпуса данных поиска изображений (corpus of image search data). Этот корпус включает: (i) результаты поиска, предоставленные пользователям в ответ на запрос, и (ii) уточненные результаты поиска, предоставленные после выбора элементов уточнения запроса (query refinement elements). Исходное изображение, текст уточнения и целевое изображение выбираются из этих данных.
Изобретение затрагивает несколько этапов поиска, связанных с обработкой мультимодальных запросов и извлечением визуального контента.
INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает изображения для создания их векторных представлений. Machine-Learned Image Encoding Model используется для генерации эмбеддингов всех изображений в индексе. Эти эмбеддинги сохраняются в Image Embedding Space для быстрого поиска.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Когда пользователь предоставляет мультимодальный запрос (изображение + текст):
Image Encoding Model для получения Query Image Embedding.Text Encoding Model для получения Token Embeddings.Machine-Learned Query Refinement Model обрабатывает эти два типа эмбеддингов и модифицирует представление запроса, генерируя Refined Image Embedding.RANKING – Ранжирование (Этап Retrieval)
На этапе отбора кандидатов (L1 Retrieval) система использует Refined Image Embedding для выполнения поиска в Image Embedding Space. Система ищет эмбеддинги, находящиеся в пределах порогового расстояния (Claim 2), чтобы быстро извлечь визуально и семантически релевантные изображения.
Входные данные (Inference):
Query Image).Textual Query Refinement).Выходные данные (Inference):
Refined Result Images).Процесс А: Обработка мультимодального запроса (Inference)
Machine-Learned Image Encoding Model обрабатывает изображение для получения Query Image Embedding.Textual Query Refinement.Machine-Learned Text Encoding Model обрабатывает текст для получения Token Embeddings.Machine-Learned Query Refinement Model обрабатывает Query Image Embedding и Token Embeddings.Refined Image Embedding.Refined Image Embedding в Image Embedding Space.Refined Result Images), и предоставляет их пользователю.Процесс Б: Обучение модели (Training)
Refined Image Embedding.Refined Image Embedding и Ground Truth Image Embedding.Патент фокусируется на обработке данных на уровне эмбеддингов.
Query Image, Ground Truth Image) используются для генерации эмбеддингов с помощью Image Encoding Model.Textual Query Refinement) используются для генерации Token Embeddings с помощью Text Encoding Model.Refined Image Embedding и Ground Truth Image Embedding в векторном пространстве (Claim 10). Конкретный тип расстояния (например, косинусное расстояние, L2 норма) в патенте не указан.Image Embedding Space, в пределах которого эмбеддинги считаются релевантными результатами для Refined Image Embedding (Claim 2).Image Embedding Space.Image Encoding Model и Text Encoding Model). Если эти модели плохо понимают визуальные атрибуты или язык, модель уточнения также будет работать неточно.Image Encoding Model могла создать точный и детальный эмбеддинг, который затем может быть эффективно уточнен.Refined Image Embedding, когда пользователь ищет конкретную вариацию.Textual Query Refinement.Этот патент подчеркивает переход Google от поиска по ключевым словам к поиску на основе сущностей и их представлений (эмбеддингов). Стратегическое значение для SEO заключается в необходимости оптимизации визуальных активов для машинного восприятия. В e-commerce это означает, что управление каталогом изображений становится критически важной частью SEO-стратегии. Способность вашего контента быть извлеченным через мультимодальный поиск (например, Google Lens) может стать значительным конкурентным преимуществом, поскольку пользователи все чаще используют камеру как инструмент поиска.
Сценарий: Поиск товара с изменением атрибута (E-commerce)
Query Image).Textual Query Refinement).Query Refinement Model берет эмбеддинг синего платья и эмбеддинг текста "красное в горошек". Она генерирует новый Refined Image Embedding, соответствующий красному платью в горошек того же фасона.Image Embedding Space, это изображение будет найдено и показано пользователю.Является ли этот патент описанием работы MUM (Multitask Unified Model)?
Патент не упоминает MUM напрямую, но описывает технологию, которая является фундаментальной для мультимодальных систем, таких как MUM или Google Lens. Он описывает конкретный механизм объединения изображения и текста для уточнения поискового запроса в пространстве эмбеддингов. MUM, вероятно, использует этот или аналогичный механизм для обработки сложных запросов, включающих разные модальности.
Как этот патент влияет на традиционное SEO для веб-страниц?
Напрямую он влияет на визуальный поиск (Google Images, Lens), а не на ранжирование "синих ссылок". Однако он подчеркивает важность качественных изображений и их контекста на веб-страницах. Поскольку Google стремится к универсальному пониманию контента, оптимизация под мультимодальный поиск улучшает общее восприятие сайта системой и может косвенно влиять на трафик через смешанную выдачу (Universal Search).
Нужно ли мне оптимизировать alt-текст для работы этой системы?
Модель, описанная в патенте, работает на уровне эмбеддингов, сгенерированных из пикселей и текста запроса, а не напрямую использует alt-текст. Однако хороший alt-текст помогает базовым моделям Google (например, Image Encoding Model) лучше понимать содержимое изображения и формировать более точные эмбеддинги. Поэтому качественный alt-текст остается важной рекомендацией.
Как система определяет, какие изображения показывать в результатах?
Система использует механизм поиска ближайших соседей (Claim 2). После того как сгенерирован Refined Image Embedding, система ищет в своем индексе (Image Embedding Space) другие эмбеддинги, которые находятся наиболее близко (в пределах порогового расстояния) к этому уточненному эмбеддингу. Изображения, соответствующие этим ближайшим эмбеддингам, возвращаются как результаты.
Откуда берутся данные для обучения этой модели?
Патент явно указывает (Claim 14), что данные берутся из корпуса поиска изображений, анализируя поведение пользователей. Например, если многие пользователи ищут "платье", а затем кликают на фильтр "летнее", система формирует тренировочную пару: Исходное изображение (популярное платье) -> Текст ("летнее") -> Целевое изображение (популярное летнее платье). Это подчеркивает, что модель обучается на реальных пользовательских интентах.
Что такое Machine-Learned Query Refinement Model по своей архитектуре?
Патент не детализирует архитектуру, но в Claim 5 упоминается, что модель может быть Трансформером (Transformer model). Это логично, учитывая способность Трансформеров эффективно обрабатывать и объединять данные различных модальностей (в данном случае, эмбеддинги изображений и токенные эмбеддинги текста) с помощью механизмов внимания.
Может ли система обрабатывать несколько уточнений подряд?
Да, патент предусматривает итеративный процесс (Claims 7-9). После первого уточнения пользователь может ввести второе. Система может применить второе уточнение либо к исходному изображению, либо к уже уточненному результату первого шага, позволяя вести сложный визуальный диалог.
Влияет ли скорость загрузки изображений на работу этой системы?
Напрямую механизм уточнения эмбеддингов не зависит от скорости загрузки. Однако, если изображение загружается медленно или недоступно для краулера, оно не будет проиндексировано и его эмбеддинг не будет создан. Следовательно, оно не сможет участвовать в визуальном поиске.
Как лучше всего оптимизировать изображения товаров для этой системы?
Ключевая стратегия — обеспечить максимальную четкость и разнообразие. Предоставляйте высококачественные, четкие изображения основного продукта с разных ракурсов и для всех доступных вариаций (цвета, стили). Это гарантирует, что Image Encoding Model создаст точные эмбеддинги для каждой вариации, увеличивая шансы на совпадение с уточненным запросом пользователя.
Использует ли эта система метаданные EXIF или IPTC?
Патент не упоминает использование метаданных изображений. Основной фокус сделан на обработке пиксельных данных для генерации эмбеддингов и текстовых данных запроса. Хотя Google может использовать метаданные в других частях поисковой системы, в контексте данного патента они не фигурируют.

Мультимедиа
EEAT и качество
Ссылки

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
EEAT и качество
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

Мультимедиа
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Knowledge Graph
SERP
Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Персонализация
Local SEO

SERP
Поведенческие сигналы

Ссылки
Семантика и интент
Индексация
