
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
Патент решает проблему точности, верификации и доверия к ответам, генерируемым поисковыми системами (в частности, с использованием LLM) в ответ на мультимодальные запросы (изображение + текст). Когда система генерирует ответ на основе информации, найденной через визуальный поиск, существует риск, что визуально похожие изображения могут происходить из нерелевантных контекстов. Патент предлагает механизм, позволяющий пользователю быстро оценить релевантность источников через «визуальные цитаты» и интерактивно исключить неточные источники для уточнения результата.
Запатентована система обработки мультимодальных запросов, которая генерирует текстовый ответ, опираясь на контент из документов, содержащих визуально похожие изображения. Ключевым элементом является представление этих изображений как интерактивных визуальных цитат (Selectable Attribution Elements). Система включает механизм обратной связи: если пользователь определяет изображение-источник как визуально не соответствующее запросу (visually dissimilar), он может его исключить. Это приводит к удалению текста данного источника из входных данных LLM и немедленной перегенерации ответа.
Система работает следующим образом:
Query Image) и текстового запроса (Prompt).Result Images) путем сравнения их векторных представлений (Intermediate Representations или эмбеддингов).Source Documents), содержащих эти изображения, и извлечение связанного с ними текста.Prompt для создания сводного ответа (Language Output).Result Images и ссылки на источники.Refined Language Output).Чрезвычайно высокая. Заявка подана в 2023 году и напрямую связана с ключевыми направлениями развития Google: мультимодальным поиском (Google Lens, Circle to Search) и генеративным поиском (SGE/AI Overviews). Механизмы атрибуции источников и интерактивного уточнения ответов ИИ критически важны для повышения точности и доверия пользователей.
Влияние на SEO критическое (8.5/10) в контексте развития мультимодального и генеративного поиска. Патент демонстрирует, что изображения становятся не просто контентом, а точкой входа для поиска и верифицируемым источником для LLM. Это радикально повышает важность тесной связи между изображением и окружающим его текстом на странице. Сайты с качественными изображениями и точным текстовым контекстом получат преимущество в качестве цитируемых источников в генеративных ответах.
Result Image и информацию об источнике (Attribution Information). Пользователь может выбрать его, чтобы указать на нерелевантность источника.Machine-Learned Language Model на основе промпта и извлеченного текста.Query Image) и текста (Prompt).Query Image.Prompt и текст, извлеченный из Source Documents.Result Image и связанный с ним текст.Claim 1 (Независимый пункт): Описывает основной метод интерактивного уточнения генеративного ответа в мультимодальном поиске.
Result Images на основе сходства Intermediate Representations (эмбеддингов) с Query Image.Set of Textual Inputs (текст из источников Result Images + Prompt) с помощью Machine-Learned Language Model для получения Language Output.Language Output и Result Images пользователю.Result Image визуально не похоже (visually dissimilar) на Query Image.Source Document этого первого изображения, из Set of Textual Inputs.Refined Language Output.Refined Language Output пользователю.Ядро изобретения — это цикл обратной связи, позволяющий пользователю управлять источниками данных для LLM путем визуальной оценки релевантности, что приводит к динамическому уточнению ответа.
Claim 6 (Зависимый от 4): Детализирует интерфейс пользователя.
Система предоставляет данные для генерации интерфейса, включающего: (a) элемент с Language Output и (b) два или более Selectable Attribution Elements (визуальные цитаты). Каждый элемент включает миниатюру (thumbnail) Result Image и информацию об источнике (Attribution Information).
Claim 7 (Зависимый от 6): Связывает интерфейс и механизм обратной связи.
Индикация о визуальном несходстве (из п.1) получается через данные о том, что пользователь выбрал (кликнул) соответствующий Selectable Attribution Element.
Изобретение интегрирует визуальный поиск, обработку естественного языка и генерацию интерфейса, затрагивая несколько этапов поисковой архитектуры.
INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует изображения и их Source Documents. Генерируются и сохраняются Intermediate Representations (эмбеддинги) изображений. Устанавливается связь между изображениями и окружающим их текстом (Document Indexing Information).
RANKING – Ранжирование (Визуальный поиск)
При получении Query Image система генерирует его эмбеддинг и выполняет быстрый поиск ближайших соседей в пространстве эмбеддингов (Image Search Space) для получения списка Result Images.
METASEARCH / RERANKING (Генерация и Уточнение)
Основное применение патента. Происходит после визуального поиска:
Source Documents, связанных с топовыми Result Images.Prompt передаются в Machine-Learned Language Model.Language Output и Visual Citations (Attribution Elements).Входные данные:
Query Image и Prompt от пользователя.Выходные данные:
Language Output (сгенерированный ответ).Attribution Elements (визуальные цитаты с миниатюрами и ссылками).Refined Language Output (уточненный ответ).Result Images) с доступным текстовым контекстом для генерации ответа.Selectable Attribution Element, указывая на визуальное несходство (visually dissimilar).Фаза 1: Генерация первичного ответа
Query Image и Prompt.Query Image обрабатывается для создания Intermediate Representation.Result Images на основе сходства эмбеддингов.Source Documents для Result Images, и из них извлекается релевантный текст (First Units of Text).Set of Textual Inputs (извлеченный текст + Prompt).Language Output.Selectable Attribution Elements (визуальные цитаты).Фаза 2: Цикл уточнения (Refinement Loop)
Selectable Attribution Element, указывая на нерелевантность.Set of Textual Inputs.Refined Language Output.Source Documents. Критически важен текст, окружающий Result Image или связанный с ним на странице (подписи, описания, параграфы). Этот текст является фактической базой для генерации ответа LLM.Query Image и Result Images. Используются их визуальные характеристики, закодированные в Intermediate Representations (эмбеддингах), для оценки сходства.Prompt, определяющий интент. Активная обратная связь пользователя (отклонение визуальных цитат) используется для управления процессом уточнения ответа.Result Images. Рассчитывается на основе расстояния между Intermediate Representations (эмбеддингами) в векторном пространстве (например, с использованием k-nearest neighbor search).Language Output (например, суммаризация, ответ на вопрос).Source Document наиболее релевантны Result Image.Visual Citations как способ для пользователя быстро проверить источники, использованные LLM, и как метод атрибуции контента в генеративном поиске.Refined Language Output).Intermediate Representation и повышает вероятность точного визуального сопоставления.Result Image, извлеченный текст будет нерелевантен запросу, что приведет к неточному ответу LLM или исключению источника пользователем.Этот патент подтверждает стратегический вектор Google на развитие мультимодального и генеративного поиска. Он демонстрирует механизм «обоснования» (grounding) ответов LLM в веб-источниках, используя визуальное сходство как первичный сигнал. Для SEO это означает переход к комплексной оптимизации визуального и текстового контента как единого целого. Видимость будет зависеть от способности сайта служить надежным, верифицируемым источником для генеративных ответов, что требует фокуса на «Оптимизации под цитирование» (Citation Optimization).
Сценарий: Оптимизация карточки товара в E-commerce
Query Image) и спрашивает: «Какое давление у этой модели?» (Prompt).Result Image, извлекает блок с характеристиками. LLM генерирует ответ: «Давление этой модели составляет 19 бар». Ваше фото используется как визуальная цитата.Сценарий: Уточнение ответа пользователем (Refinement)
Query Image) и спрашивает: «Какая дальность полета?» (Prompt).visually dissimilar).Refined Language Output), используя только релевантные источники о пассажирском самолете.Как этот патент связан с Google Lens и SGE (AI Overviews)?
Патент описывает технологию, идеально подходящую для Google Lens и Circle to Search, где поиск инициируется изображением. Он также критически важен для SGE/AI Overviews, так как предоставляет конкретный механизм для атрибуции источников (цитирования) в генеративных ответах и, что более важно, позволяет пользователям интерактивно уточнять эти ответы, повышая доверие к системе.
Анализирует ли языковая модель (LLM) само изображение?
Нет, согласно описанному механизму. LLM обрабатывает только текст. Сначала система визуального поиска находит похожие изображения. Затем извлекается текст со страниц, где эти изображения размещены. Именно этот извлеченный текст (и промпт пользователя) подается на вход LLM. Система полагается на предположение, что текст рядом с похожим изображением релевантен запросу.
Что такое «Intermediate Representation» и как это влияет на SEO?
Intermediate Representation — это эмбеддинг (векторное представление) изображения, который фиксирует его визуальные и семантические характеристики. Влияние на SEO заключается в необходимости оптимизировать изображения так, чтобы их эмбеддинги точно отражали содержание. Это требует использования четких, высококачественных изображений с фокусом на основном объекте.
Какой текст со страницы система использует для генерации ответа?
Патент не дает точного метода, но упоминает извлечение First Unit of Text. Это может быть весь текст документа или его часть. Упоминаются эвристики, такие как выбор текста, расположенного непосредственно до и после изображения. Для SEO это означает, что контекст в непосредственной близости от изображения (подписи, ближайшие абзацы) критически важен.
Что происходит, когда пользователь отклоняет визуальную цитату?
Происходит немедленное уточнение ответа. Система удаляет весь текст, извлеченный из источника отклоненной цитаты, из набора данных для LLM. Затем LLM перегенерирует ответ (Refined Language Output) на основе оставшихся источников. Это позволяет динамически исключать ошибки, вызванные неточными визуальными совпадениями.
Как это влияет на стратегию использования стоковых фотографий?
Использование общих стоковых фотографий становится рискованным, если они не имеют прямого отношения к тексту. Уникальные изображения предпочтительнее, так как они гарантируют, что при визуальном совпадении будет извлечен именно ваш уникальный текстовый контекст. Если используется сток, он должен быть строго релевантен окружающему тексту.
Использует ли система традиционные факторы ранжирования (E-E-A-T, ссылки) в этом процессе?
Патент фокусируется исключительно на визуальном сходстве как методе поиска источников (Result Images). Традиционные факторы ранжирования или сигналы авторитетности сайта явно не упоминаются в описанном механизме генерации и уточнения. Однако на практике качество источника может влиять на то, какие изображения попадают в топ визуального поиска или как LLM взвешивает информацию из разных источников.
Может ли система использовать текст из нескольких источников для одного ответа?
Да, абсолютно. Патент описывает извлечение текста из нескольких Source Documents (соответствующих нескольким Result Images). Затем этот объединенный набор текстовых данных обрабатывается LLM для получения единого сводного ответа (Language Output).
Что делать, если мой контент используется как цитата, но генерируемый ответ неточен?
Это может указывать на то, что LLM неправильно интерпретировала ваш текст или смешала его с неточной информацией из других источников. Проанализируйте структуру вашего текста вокруг изображения: возможно, он неоднозначен или недостаточно четок. Улучшение ясности и фактической точности текста поможет LLM более корректно синтезировать информацию.
Является ли механизм исключения цитат сигналом для ранжирования?
Патент описывает это как механизм для немедленного уточнения текущего ответа. Он не указывает, используется ли факт исключения цитаты пользователем как глобальный сигнал для понижения этого источника в будущем. Однако, как правило, данные о взаимодействии пользователей (особенно явная негативная обратная связь) используются Google для оценки качества и обучения моделей.

Мультимедиа
EEAT и качество
Ссылки

Мультимедиа
Семантика и интент

EEAT и качество
Ссылки
SERP

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент

Структура сайта
Техническое SEO
Ссылки

Индексация
Поведенческие сигналы

Local SEO
Поведенческие сигналы
Свежесть контента

Local SEO
Ссылки
SERP

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Индексация
Техническое SEO
Структура сайта

Поведенческие сигналы
Семантика и интент
SERP

EEAT и качество
Техническое SEO
Ссылки

Персонализация
Поведенческие сигналы
