
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
Патент решает проблему верификации, точности и доверия к ответам, генерируемым поисковыми системами (в частности, с помощью LLM) в ответ на мультимодальные запросы (изображение + текст), например, в Google Lens или Circle to Search. Когда система предоставляет сгенерированный ответ, пользователю сложно оценить его достоверность. Изобретение внедряет Visual Citations (визуальные цитаты) — отображение исходных изображений, что позволяет пользователю быстро оценить релевантность источника. Также предлагается механизм итеративного уточнения ответа через обратную связь пользователя по этим цитатам.
Запатентована система обработки мультимодальных запросов, которая использует визуальное сходство для поиска информации и генерации обоснованных ответов. Система находит похожие изображения (Result Images), извлекает текст из их исходных документов (Source Documents) и использует Machine-Learned Language Model (LLM) для синтеза ответа. Ключевым элементом является представление ответа вместе с Result Images в виде кликабельных Attribution Elements (визуальных цитат). Пользователи могут исключать нерелевантные цитаты, что запускает повторную генерацию ответа LLM без использования контента из исключенных источников.
Система работает следующим образом:
Query Image) и текстового запроса (Prompt).Embedding Model) для поиска визуально похожих Result Images.First Unit of Text) из Source Documents (веб-страниц), где размещены эти изображения.Derived Unit of Text).Result Images в качестве кликабельных визуальных цитат.Крайне высокая. Патент подан в 2023 году и описывает технологии, лежащие в основе современных мультимодальных поисковых интерфейсов, таких как Google Lens и Circle to Search. Он напрямую связан с интеграцией генеративного ИИ в поиск и решением проблемы "заземления" (grounding) ответов LLM на конкретные источники с визуальным подтверждением.
Высокое влияние (8.5/10). Этот патент имеет стратегическое значение для SEO, поскольку он фундаментально меняет роль изображений в поиске. Изображения становятся не просто активом для Google Images, а точкой входа для информационного поиска и генерации ответов (RAG). Текстовый контекст, окружающий изображение на странице, становится критически важным для того, чтобы контент сайта использовался LLM в качестве источника для ответа в мультимодальной выдаче.
Visual Citation. Включает Result Image (или его миниатюру) и информацию, идентифицирующую Source Document (например, URL). Может быть выбран пользователем для исключения источника из процесса генерации.Source Documents. Может быть выдержкой, суммаризацией или синтезом информации.Embedding). Используется для измерения визуального сходства.Embedding Model), используемая для генерации Intermediate Representations изображений и поиска визуально похожих результатов.Query Image и Prompt.Query Image.Result Image и связанный с ним текст. Является источником информации для генерации ответа.Claim 1 (Независимый пункт): Описывает базовый метод ответа на мультимодальный запрос с визуальной цитатой.
Result Image на основе сходства с Query Image.First Unit of Text) из Source Document, содержащего это изображение.Second Unit of Text) в ответ на Prompt. Ответ является либо частью первого блока, либо производным от него.Result Image для отображения.Claim 2 и 3 (Зависимые): Уточняют механизм поиска. Поиск осуществляется путем сравнения Intermediate Representations (эмбеддингов), сгенерированных с помощью Machine-Learned Visual Search Model.
Claim 8, 9, 10 (Зависимые): Уточняют механизм генерации. Ответ определяется с помощью Machine-Learned Language Model (LLM). Результатом может быть выдержка (subset) или суммаризация (summarization) исходного текста.
Claim 21 (Независимый пункт, Системный): Описывает систему, которая синтезирует ответ из нескольких источников.
Result Images на основе сходства эмбеддингов.Source Documents.Result Images предоставляются пользователю.Claim 41 (Независимый пункт, Метод): Описывает механизм итеративного уточнения ответа (Feedback Loop).
Result Image визуально не похож на запрос.Refined Language Output).Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на интеграции визуального поиска и генерации ответов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует изображения, генерирует их эмбеддинги (Intermediate Representations) и сохраняет их в Image Search Space. Критически важно сохранение связи между изображением и его Source Document (включая текст документа) в Document Indexing Information.
QUNDERSTANDING – Понимание Запросов
Система получает и обрабатывает Multimodal Query, разделяя его на визуальный (Query Image) и текстовый (Prompt) компоненты.
RANKING – Ранжирование (Визуальный поиск)
На этапе отбора кандидатов (L1 Retrieval) Image Evaluation Module использует эмбеддинг Query Image для быстрого поиска визуально похожих Result Images.
METASEARCH / RERANKING (Генерация и Уточнение)
Основное применение патента происходит здесь. Это процесс генерации и смешивания ответа:
Document Content Selection Module извлекает текст из источников, найденных на этапе Ranking.Text Determination Module (используя LLM) генерирует ответ.Result Image Selection Information) и запуск регенерации ответа.Multimodal Query (комбинации изображения и промпта).Selectable Attribution Element, чтобы указать на нерелевантность визуального источника.Алгоритм разделен на две фазы: генерация первоначального ответа и итеративное уточнение.
Фаза 1: Генерация первоначального ответа (Время T1)
Query Image и Prompt.Query Image обрабатывается Machine-Learned Visual Search Model для создания эмбеддинга.Image Search Space. Идентифицируется набор Result Images.Source Documents для каждого Result Image.Document Content Selection Module извлекает релевантные блоки текста (Units of Text) из этих документов (например, текст, расположенный рядом с изображением).Text Determination Module обрабатывает набор текстовых входов (все извлеченные блоки текста + Prompt) с помощью LLM для создания ответа (Derived Unit of Text).Interface Data, включающие ответ и Selectable Attribution Elements (визуальные цитаты) для каждого источника.Фаза 2: Итеративное уточнение (Время T2)
Result Image Selection Information, указывающее, что пользователь отклонил конкретный Selectable Attribution Element.Second Derived Unit of Text).Query Image: Исходное изображение от пользователя.Result Images: Индексированные изображения, найденные по визуальному сходству.Source Documents: Текст, извлеченный со страниц, где размещены Result Images. Система отдает приоритет тексту, релевантному изображению (например, расположенному рядом с ним).Prompt: Текстовый запрос пользователя.Selectable Attribution Elements для исключения источников.Intermediate Representations (эмбеддингами) в векторном пространстве.Machine-Learned Visual Search Model (Embedding Model): Используется для кодирования визуальной информации.Machine-Learned Language Model (LLM): Используется для понимания промпта, анализа извлеченного текста и генерации/суммаризации ответа.Source Document релевантны изображению. Патент упоминает эвристики, основанные на структуре документа (например, выбор текста до и после изображения), или использование моделей для оценки релевантности.Source Document, особенно текста, расположенного вблизи изображения.Result Images вместе с ответом служит для "заземления" ответа LLM и позволяет пользователям быстро верифицировать релевантность источников по визуальному сходству.Visual Citation.Source Document) имеют решающее значение для качества сгенерированного ответа.Visual Citation, пользователь, скорее всего, исключит его через механизм обратной связи, так как оно не соответствует его запросу или сгенерированному ответу.Этот патент сигнализирует о значительном сдвиге в сторону информационного поиска, основанного на визуальных данных. SEO-стратегии должны более тесно интегрировать оптимизацию изображений и контент-стратегию. Способность страницы отвечать на вопросы, связанные с ее изображениями, становится ключевым фактором ранжирования в ландшафте мультимодального поиска (Google Lens, Circle to Search). Это подчеркивает важность не только того, что вы показываете, но и того, что вы говорите об этом рядом с изображением.
Сценарий: Оптимизация страницы товара E-commerce (Кроссовки)
Query Image) и спрашивает: "Какая технология амортизации здесь используется?" (Prompt).Result Image. Document Content Selection Module извлекает соседний абзац о технологии амортизации. LLM использует этот текст для генерации точного ответа. Ваша фотография отображается как Visual Citation со ссылкой на вашу страницу.Что такое "Визуальная цитата" (Visual Citation) в контексте этого патента?
Это интерфейсный элемент (Attribution Element), который отображается рядом со сгенерированным ответом в мультимодальном поиске. Он включает миниатюру изображения (Result Image), которое было найдено как визуально похожее на запрос пользователя, и ссылку на исходную страницу (Source Document). Он служит для подтверждения того, откуда была взята информация для ответа.
Как работает механизм обратной связи (уточнения ответа)?
Визуальные цитаты являются кликабельными (Selectable Attribution Elements). Если пользователь видит, что одно из изображений-источников нерелевантно (например, показывает не тот объект), он может выбрать его для исключения. Система удаляет текст из этого источника из входных данных и мгновенно запускает повторную генерацию ответа LLM на основе оставшихся, более релевантных источников.
Какой текст со страницы Google извлекает для генерации ответа?
Патент не указывает точный метод, но упоминает, что извлекается текст из Source Document, связанный с изображением. Упоминаются эвристики, такие как выбор текста, расположенного до и после изображения на странице, или использование моделей для определения наиболее релевантных фрагментов текста.
Как это влияет на оптимизацию изображений (Image SEO)?
Это значительно повышает важность Image SEO. Теперь критически важно не только само изображение, но и его контекстуальное окружение на странице. Оптимизация должна фокусироваться на обеспечении максимального соответствия между тем, что показано на картинке, и тем, что написано в тексте рядом с ней.
Использует ли система традиционные факторы Image SEO (alt-text, filename)?
Патент не упоминает традиционные факторы, такие как alt-text. Основной акцент делается на визуальном сходстве, определяемом через эмбеддинги (Intermediate Representations), и на основном тексте Source Document. Однако традиционные факторы все еще могут влиять на базовое индексирование и ранжирование изображений.
Что важнее для SEO в контексте этого патента: качество страницы или качество сайта?
Качество сайта (Site Quality) является определяющим фактором в этом патенте. Именно классификация сайта как low-quality или high-quality запускает весь механизм или делает сайт бенефициаром этого механизма. Это подчеркивает важность работы над репутацией и авторитетностью всего домена.
Может ли система использовать несколько источников для одного ответа?
Да, патент (в частности, Claim 21) описывает процесс, при котором система находит несколько похожих изображений, извлекает текст из всех соответствующих источников и передает этот объединенный набор данных в LLM. Модель затем синтезирует или суммирует информацию из всех источников в единый ответ.
Влияет ли это на обычный текстовый поиск (SERP)?
Патент сфокусирован исключительно на мультимодальном поиске (например, Google Lens), где запрос инициируется изображением. Он не описывает применение этих механизмов в традиционной текстовой выдаче. Однако он отражает общую тенденцию Google использовать LLM для генерации ответов и важность их "заземления" на источники.
Что делать, если на моем сайте много стоковых фотографий?
Если стоковые фотографии используются как декоративные элементы и текст вокруг них не описывает их содержание, они вряд ли принесут пользу в этой системе. Рекомендуется заменить их уникальными, релевантными изображениями или убедиться, что текст рядом со стоковым фото точно описывает концепцию, которую оно иллюстрирует.
Как система определяет, что изображение визуально похожее?
Система использует Machine-Learned Visual Search Model для создания эмбеддингов (Intermediate Representations) для исходного изображения и индексированных изображений. Сходство определяется путем сравнения этих эмбеддингов в векторном пространстве (например, по расстоянию между ними).

Мультимедиа
EEAT и качество
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент

EEAT и качество
Ссылки
SERP

Мультимедиа
Семантика и интент

Ссылки
Поведенческие сигналы
Мультимедиа

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
EEAT и качество
Антиспам

Поведенческие сигналы
SERP
Мультимедиа

Local SEO
SERP
Ссылки

Персонализация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Мультимедиа
Персонализация

Семантика и интент
Персонализация
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Структура сайта
