
Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.
Патент решает фундаментальное ограничение стандартных Больших Языковых Моделей (LLM), которые традиционно могут принимать на вход только последовательность токенов (текст) и не способны напрямую обрабатывать визуальные данные. Это не позволяет пользователям эффективно задавать вопросы об изображениях в диалоговых приложениях или мультимодальном поиске. Изобретение создает механизм, позволяющий LLM отвечать на запросы, включающие изображения (multimodal queries), без необходимости изменения архитектуры самой LLM.
Запатентована система оркестрации, которая преобразует визуальный контент в структурированные текстовые сигналы для использования в качестве контекста LLM. Это достигается двумя основными способами: 1) использованием вспомогательных моделей анализа изображений (auxiliary image processing models) и 2) выполнением поиска по изображению (image search engines) с последующим извлечением текста из найденных веб-ресурсов. Эти сигналы внедряются в текстовый промт, позволяя LLM учитывать визуальный контекст.
Система работает как посредник, используя два основных сценария (или их комбинацию) для «текстуализации» изображения:
Explication Model). Затем Unimodal Models (распознавание объектов/сущностей, OCR) и Multimodal Models (например, VQA - Visual Question Answering) анализируют изображение. Результаты анализа (текстовые дескрипторы) включаются в промт для LLM.LLM.Модуль Prompt Preparation объединяет все данные в финальный промт.
Критически высокая. Мультимодальный поиск (Google Lens, Circle to Search) и интеграция визуального контекста в генеративные ответы (SGE, Gemini) являются стратегическим направлением развития Google в 2025 году. Этот патент описывает базовую архитектуру, позволяющую текстовым LLM гибко и масштабируемо работать с изображениями.
Патент имеет высокое стратегическое значение для SEO (85/100). Он детально раскрывает, как Google интерпретирует визуальный контент, подчеркивая критическую роль веб-контекста. Метод 2 (использование обратного поиска и извлечение текста с веб-страниц) доказывает, что текст, окружающий изображение в интернете, напрямую используется для информирования LLM. Это делает оптимизацию контекста изображений на сайте критически важной для успеха в мультимодальном поиске.
LLM), которая преобразует неявные (implicit) текстовые запросы в явные (explicit). Например, преобразует "Что это?" в "Что за объект на картинке?", используя контекст диалога. Необходима, так как мультимодальные модели лучше работают с прямыми вопросами.Explication Model.NL descriptors, релевантных текстовому запросу. Основной пример — VQA.LLM.Query Independent Properties). Примеры: Object Detection, Captioning, Entity Recognition, OCR.Multimodal Image Model, который отвечает на целевые вопросы по входному изображению.Патент содержит два основных независимых пункта (Claim 1 и Claim 17), описывающих два разных метода обработки запросов с изображениями, которые могут комбинироваться.
Claim 1 (Независимый пункт) – Метод 1: Использование моделей анализа изображений.
Explication Model генерирует явные (explicit) текстовые запросы.Multimodal Image Processing Model (например, VQA) обрабатывает Изображение и Явный запрос для генерации текстовых дескрипторов (natural language descriptors).LLM на основе этих дескрипторов.LLM генерирует ответ.Ядро: Преобразование визуально-текстового запроса в чисто текстовый контекст с помощью специализированных моделей.
Claim 4 (Зависимый от 1): Уточняет, что система также использует Unimodal Image Processing Models для генерации свойств, не зависящих от запроса (например, распознанных сущностей), которые также добавляются в промт LLM.
Claim 17 (Независимый пункт) – Метод 2: Использование поиска по изображениям.
image search request), например, обратный поиск.text extracts).LLM на основе этих текстовых фрагментов.LLM генерирует ответ.Ядро: Использование внешнего веб-контекста (текста, окружающего похожие изображения в интернете) для формирования контекста для LLM.
Claim 18 (Зависимый от 17): Уточняет, что text extracts могут включать текст веб-страниц, подписи (captions), теги и метаданные изображений.
Claim 9 (Зависимый от 1): Описывает комбинацию методов. Система может использовать результаты анализа моделей (из Claim 1) и результаты поиска (из Claim 17) для генерации промта LLM.
Изобретение является инфраструктурным и в первую очередь относится к этапу понимания запросов в контексте мультимодального поиска (Google Lens) или диалоговых систем (Gemini).
INDEXING – Индексирование и извлечение признаков
Система полагается на проиндексированные данные. Для Метода 2 необходим индекс изображений и связанных веб-страниц, позволяющий выполнять обратный поиск и извлекать текст.
QUNDERSTANDING – Понимание Запросов
Основной этап применения. Система анализирует мультимодальный ввод и преобразует его в чисто текстовое представление (обогащенный промт) для LLM. Это включает:
Explication Model.Unimodal и Multimodal Models.Search Engine для поиска связанного веб-контекста и извлечения Text Extracts.RANKING / METASEARCH (Генерация ответа)
Prompt Preparation действует как механизм агрегации различных сигналов. Финальная LLM использует этот агрегированный промт для генерации ответа пользователю (например, в SGE или чат-боте).
Входные данные:
Выходные данные:
LLM пользователю (текст).LLM для генерации ответа.Система может использовать Метод 1, Метод 2 или их комбинацию.
Общий процесс:
Explication Model преобразует его в явный запрос, используя историю диалога.Параллельная обработка (Метод 1 - Анализ моделями):
Unimodal Image Models (Object Detection, Entity Recognition, OCR, Captioning) для извлечения базовых свойств.Multimodal Image Models (VQA) для генерации NL descriptors.Параллельная обработка (Метод 2 - Анализ через поиск):
Image Search Engine (обратный поиск).Text Extraction Engine извлекает релевантный текст (подписи, метаданные, окружающий контент).Финальный этап:
Prompt Preparation модуль собирает все данные: явный запрос, историю диалога, результаты анализа моделей (Метод 1) и извлеченный текст из веба (Метод 2). Данные структурируются в единый текстовый промт (например, "Context: [VQA] ответ", "Context: [Web Extract] текст").LLM, которая генерирует финальный ответ.Система использует комбинацию данных, предоставленных пользователем, и данных, извлеченных из интернета или сгенерированных моделями.
conversation history).Entity Recognition, Object Detection).Captioning).VQA / NL Descriptors).Патент не описывает метрики ранжирования, но фокусируется на использовании различных моделей ML для извлечения признаков:
LLM, VQA, Object Detection, Entity Recognition, OCR, Captioning.static schema) для преобразования выходных данных моделей в структурированный текстовый промт (например, заполнение предопределенных строк или добавление префиксов типа "Context: [VQA]...").LLM, чтобы она лучше реагировала на структурированные сигналы изображений в промте.LLM. LLM не "видит" изображение, а "читает" его описание, сгенерированное вспомогательными системами.VQA, Entity Recognition) и (2) анализа того, как изображение описано в вебе (обратный поиск и извлечение текста).Text Extracts), напрямую используется для формирования промта LLM. Это подтверждает, что контекст размещения изображения в интернете критически важен для его интерпретации.VQA). Это подчеркивает важность четкости и качества изображений.LLM.LLM.Unimodal Models (Метод 1) корректно идентифицировать содержание.OCR (Метод 1) извлечет этот текст и добавит его в контекст для LLM.Text Extracts и NL Descriptors.LLM.Object Detection, Entity Recognition и VQA (Метод 1), что ухудшает понимание контента.Этот патент подтверждает стратегический переход к мультимодальному поиску. Для SEO это означает, что оптимизация изображений больше не сводится к базовым тегам. Стратегия должна включать управление визуальной идентичностью в вебе, обеспечение сильного семантического соответствия между изображениями и текстом, а также оптимизацию контента для извлечения сущностей. Способность Google точно интерпретировать визуальный контент через веб-контекст станет решающим фактором видимости в генеративном поиске (SGE) и мультимодальных интерфейсах.
Сценарий 1: Оптимизация карточки товара (Акцент на Метод 2 - Поиск)
Text Extraction Engine извлекает ваше детальное описание.LLM попадает богатый контекст из вашего описания ("Веб-контекст: Кроссовки [Бренд] [Модель], цвет синий..."). LLM точно идентифицирует товар и отвечает на запрос пользователя, используя вашу информацию.Сценарий 2: Анализ инфографики (Акцент на Метод 1 - Модели)
Unimodal Model (OCR) извлекает текст из инфографики.Explication Model уточняет запрос, используя извлеченный текст.Multimodal Model (VQA) анализирует визуальные связи и отвечает на уточненный вопрос.LLM попадают извлеченный текст и ответ VQA. LLM генерирует подробное объяснение элемента инфографики.Видит ли LLM (например, Gemini) изображение напрямую согласно этому патенту?
Нет, напрямую не видит. Патент описывает систему-посредник, которая преобразует изображение в текст. Она использует вспомогательные модели (VQA, Entity Recognition) и обратный поиск по картинкам для генерации текстовых описаний (NL Descriptors и Text Extracts). Именно этот текст затем добавляется в промт и обрабатывается LLM.
Какой из двух методов важнее для SEO: анализ моделями (Метод 1) или извлечение текста из поиска (Метод 2)?
Оба важны, но Метод 2 (Claim 17, использование обратного поиска) имеет более прямые последствия для SEO. Он доказывает, что Google использует текст, ассоциированный с изображениями в вебе, для понимания похожих изображений. Это означает, что оптимизация контекста изображений на вашем сайте напрямую влияет на то, как LLM будет интерпретировать ваш визуальный контент.
Какие именно текстовые элементы Google извлекает с веб-страниц для понимания изображения (Метод 2)?
Согласно патенту (Claim 18), извлекаемые Text Extracts могут включать: текст самой веб-страницы (окружающий контекст), подписи к изображению (captions), теги изображения и метаданные изображения. Важно оптимизировать все эти элементы комплексно.
Как работает модель экспликации (Explication Model) и зачем она нужна?
Explication Model преобразует неявные запросы пользователя (например, "что это?", "расскажи подробнее") в конкретные, явные вопросы (например, "идентифицируй объект на фото"). Это необходимо, потому что вспомогательные мультимодальные модели (VQA) требуют четко сформулированных инструкций для генерации точных ответов об изображении.
Влияет ли этот патент на использование стоковых фотографий?
Да, значительно. Стоковые фотографии используются на множестве сайтов в разных контекстах. При обратном поиске (Метод 2) система получит разнообразные Text Extracts, что может привести к размытому или противоречивому контексту для LLM. Уникальные изображения предпочтительнее, так как их веб-контекст более контролируем.
Что такое унимодальные модели и какую информацию они предоставляют?
Унимодальные модели анализируют только изображение, игнорируя текстовый запрос. Они предоставляют базовую информацию (Query Independent Properties): обнаружение объектов, распознавание сущностей (связь с Knowledge Graph), автоматическое создание подписей и извлечение текста (OCR). Эта информация добавляется в промт LLM как общий контекст.
Как этот патент связан с Google Lens или SGE?
Этот патент описывает инфраструктуру, которая лежит в основе таких продуктов. Google Lens и SGE (Search Generative Experience) обрабатывают мультимодальные запросы. Описанные механизмы позволяют этим системам использовать LLM для генерации ответов, учитывающих визуальный контент, путем его анализа и извлечения веб-контекста.
Влияет ли авторитетность сайта (E-E-A-T) на этот процесс?
Косвенно да. Поскольку Метод 2 полагается на результаты поиска по изображениям, сайты с более высоким рейтингом и авторитетностью с большей вероятностью будут выбраны в качестве источников для извлечения текста (Text Extracts). Таким образом, высокий E-E-A-T способствует тому, что именно ваш контент будет использован для интерпретации изображения.
Стоит ли оптимизировать текст на самих изображениях (инфографика)?
Да. Патент явно упоминает OCR (Optical Character Recognition) как один из типов Unimodal Models (Метод 1). Текст, извлеченный непосредственно из изображения, становится частью контекста для LLM. Текст должен быть четким и читаемым.
Что такое "статическая схема" (static schema) при подготовке промта?
Это означает, что система использует предопределенные шаблоны для включения информации об изображении в промт. Например, результат работы VQA может быть добавлен как "Context: [VQA] Объект красного цвета", а распознанная сущность как "Context: [Entity] Эйфелева башня". Это позволяет структурированно передать контекст в LLM.

Мультимедиа
EEAT и качество
Ссылки

Мультимедиа
EEAT и качество
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Ссылки
Поведенческие сигналы
EEAT и качество

EEAT и качество
SERP
Поведенческие сигналы

Персонализация
Семантика и интент
SERP

Поведенческие сигналы

SERP
EEAT и качество
Персонализация

Knowledge Graph
SERP
Семантика и интент

Персонализация
Семантика и интент
Local SEO

Семантика и интент
Индексация
Структура сайта

Ссылки

Ссылки
EEAT и качество
SERP
