Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM

    IMAGE QUERY PROCESSING USING LARGE LANGUAGE MODELS (Обработка запросов с изображениями с использованием больших языковых моделей)
    • US20250061146A1
    • Google LLC
    • 2025-02-20
    • 2024-08-13
    2024 Мультимедиа Патенты Google Семантика и интент

    Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальное ограничение стандартных Больших Языковых Моделей (LLM), которые традиционно могут принимать на вход только последовательность токенов (текст) и не способны напрямую обрабатывать визуальные данные. Это не позволяет пользователям эффективно задавать вопросы об изображениях в диалоговых приложениях или мультимодальном поиске. Изобретение создает механизм, позволяющий LLM отвечать на запросы, включающие изображения (multimodal queries), без необходимости изменения архитектуры самой LLM.

    Что запатентовано

    Запатентована система оркестрации, которая преобразует визуальный контент в структурированные текстовые сигналы для использования в качестве контекста LLM. Это достигается двумя основными способами: 1) использованием вспомогательных моделей анализа изображений (auxiliary image processing models) и 2) выполнением поиска по изображению (image search engines) с последующим извлечением текста из найденных веб-ресурсов. Эти сигналы внедряются в текстовый промт, позволяя LLM учитывать визуальный контекст.

    Как это работает

    Система работает как посредник, используя два основных сценария (или их комбинацию) для «текстуализации» изображения:

    1. Анализ на основе моделей: Текстовый запрос уточняется (Explication Model). Затем Unimodal Models (распознавание объектов/сущностей, OCR) и Multimodal Models (например, VQA — Visual Question Answering) анализируют изображение. Результаты анализа (текстовые дескрипторы) включаются в промт для LLM.
    2. Анализ на основе поиска: Система выполняет обратный поиск по изображению, находит веб-ресурсы с похожими картинками и извлекает текст (подписи, окружающий контент) из этих ресурсов. Этот текст используется в качестве контекста в промте для LLM.

    Модуль Prompt Preparation объединяет все данные в финальный промт.

    Актуальность для SEO

    Критически высокая. Мультимодальный поиск (Google Lens, Circle to Search) и интеграция визуального контекста в генеративные ответы (SGE, Gemini) являются стратегическим направлением развития Google в 2025 году. Этот патент описывает базовую архитектуру, позволяющую текстовым LLM гибко и масштабируемо работать с изображениями.

    Важность для SEO

    Патент имеет высокое стратегическое значение для SEO (85/100). Он детально раскрывает, как Google интерпретирует визуальный контент, подчеркивая критическую роль веб-контекста. Метод 2 (использование обратного поиска и извлечение текста с веб-страниц) доказывает, что текст, окружающий изображение в интернете, напрямую используется для информирования LLM. Это делает оптимизацию контекста изображений на сайте критически важной для успеха в мультимодальном поиске.

    Детальный разбор

    Термины и определения

    Explication Model (Модель Экспликации)
    Модель (часто LLM), которая преобразует неявные (implicit) текстовые запросы в явные (explicit). Например, преобразует «Что это?» в «Что за объект на картинке?», используя контекст диалога. Необходима, так как мультимодальные модели лучше работают с прямыми вопросами.
    LLM (Large Language Model / Большая Языковая Модель)
    Генеративная модель (например, PaLM, LaMDA), используемая для обработки обогащенного промта и генерации финального ответа. Также может использоваться как Explication Model.
    Multimodal Image Model (Мультимодальная Модель Изображений)
    Модель, принимающая на вход изображение и текст. Используется для генерации NL descriptors, релевантных текстовому запросу. Основной пример — VQA.
    NL Descriptors (Natural Language Descriptors)
    Текстовые описания свойств изображения, сгенерированные мультимодальными моделями в ответ на явный запрос.
    Prompt Preparation (Подготовка Промпта)
    Модуль, который агрегирует все извлеченные текстовые сигналы (от моделей, из поиска, историю диалога) и формирует единый структурированный текстовый промт для LLM.
    Text Extracts (Текстовые Выдержки)
    Текст, извлеченный из веб-ресурсов, найденных через обратный поиск по изображению. Включает текст веб-страниц, подписи к изображениям, теги и метаданные.
    Unimodal Image Model (Унимодальная Модель Изображений)
    Модель, принимающая на вход только изображение. Используется для определения свойств, не зависящих от запроса (Query Independent Properties). Примеры: Object Detection, Captioning, Entity Recognition, OCR.
    VQA (Visual Question Answering)
    Тип Multimodal Image Model, который отвечает на целевые вопросы по входному изображению.

    Ключевые утверждения (Анализ Claims)

    Патент содержит два основных независимых пункта (Claim 1 и Claim 17), описывающих два разных метода обработки запросов с изображениями, которые могут комбинироваться.

    Claim 1 (Независимый пункт) – Метод 1: Использование моделей анализа изображений.

    1. Система получает мультимодальный запрос (Изображение + Текст с неявными вопросами).
    2. Explication Model генерирует явные (explicit) текстовые запросы.
    3. Multimodal Image Processing Model (например, VQA) обрабатывает Изображение и Явный запрос для генерации текстовых дескрипторов (natural language descriptors).
    4. Генерируется входной промт для LLM на основе этих дескрипторов.
    5. LLM генерирует ответ.

    Ядро: Преобразование визуально-текстового запроса в чисто текстовый контекст с помощью специализированных моделей.

    Claim 4 (Зависимый от 1): Уточняет, что система также использует Unimodal Image Processing Models для генерации свойств, не зависящих от запроса (например, распознанных сущностей), которые также добавляются в промт LLM.

    Claim 17 (Независимый пункт) – Метод 2: Использование поиска по изображениям.

    1. Система получает запрос с изображением.
    2. Генерируется запрос на поиск изображения (image search request), например, обратный поиск.
    3. Система получает ответ от поисковой системы, содержащий веб-ресурсы с релевантными (похожими) изображениями.
    4. Из этих веб-ресурсов извлекаются текстовые фрагменты (text extracts).
    5. Генерируется входной промт для LLM на основе этих текстовых фрагментов.
    6. LLM генерирует ответ.

    Ядро: Использование внешнего веб-контекста (текста, окружающего похожие изображения в интернете) для формирования контекста для LLM.

    Claim 18 (Зависимый от 17): Уточняет, что text extracts могут включать текст веб-страниц, подписи (captions), теги и метаданные изображений.

    Claim 9 (Зависимый от 1): Описывает комбинацию методов. Система может использовать результаты анализа моделей (из Claim 1) и результаты поиска (из Claim 17) для генерации промта LLM.

    Где и как применяется

    Изобретение является инфраструктурным и в первую очередь относится к этапу понимания запросов в контексте мультимодального поиска (Google Lens) или диалоговых систем (Gemini).

    INDEXING – Индексирование и извлечение признаков
    Система полагается на проиндексированные данные. Для Метода 2 необходим индекс изображений и связанных веб-страниц, позволяющий выполнять обратный поиск и извлекать текст.

    QUNDERSTANDING – Понимание Запросов
    Основной этап применения. Система анализирует мультимодальный ввод и преобразует его в чисто текстовое представление (обогащенный промт) для LLM. Это включает:

    • Экспликация запроса: Уточнение интента с помощью Explication Model.
    • Визуальный анализ (Метод 1): Извлечение семантики с помощью Unimodal и Multimodal Models.
    • Контекстуализация через веб (Метод 2): Использование Search Engine для поиска связанного веб-контекста и извлечения Text Extracts.

    RANKING / METASEARCH (Генерация ответа)
    Prompt Preparation действует как механизм агрегации различных сигналов. Финальная LLM использует этот агрегированный промт для генерации ответа пользователю (например, в SGE или чат-боте).

    Входные данные:

    • Исходный мультимодальный запрос (Изображение и Текст).
    • История диалога (для контекста).

    Выходные данные:

    • Финальный ответ LLM пользователю (текст).

    На что влияет

    • Конкретные типы контента: Критически влияет на изображения (товары, фотографии, скриншоты, инфографика) и веб-страницы, где они размещены.
    • Специфические запросы: Влияет на информационные и коммерческие запросы, заданные через мультимодальные интерфейсы (поиск товара по фото, запрос информации об объекте/сущности на картинке).
    • Конкретные ниши или тематики: Наибольшее влияние в E-commerce, локальном поиске, моде, образовании и нишах, где визуальная информация является ключевой.

    Когда применяется

    • Триггеры активации: Механизм активируется, когда пользовательский запрос содержит изображение (мультимодальный ввод) и направляется в систему, использующую LLM для генерации ответа.
    • Условия работы: Работает в реальном времени при обработке запроса.

    Пошаговый алгоритм

    Система может использовать Метод 1, Метод 2 или их комбинацию.

    Общий процесс:

    1. Получение ввода: Система получает мультимодальный запрос (Изображение и Текстовый запрос).
    2. Экспликация запроса (Опционально): Если текстовый запрос неявный, Explication Model преобразует его в явный запрос, используя историю диалога.

    Параллельная обработка (Метод 1 — Анализ моделями):

    1. Унимодальный анализ: Изображение обрабатывается Unimodal Image Models (Object Detection, Entity Recognition, OCR, Captioning) для извлечения базовых свойств.
    2. Мультимодальный анализ: Изображение и явный запрос обрабатываются Multimodal Image Models (VQA) для генерации NL descriptors.

    Параллельная обработка (Метод 2 — Анализ через поиск):

    1. Генерация поискового запроса: Формируется запрос для Image Search Engine (обратный поиск).
    2. Выполнение поиска и Извлечение текста: Поисковая система возвращает веб-ресурсы. Text Extraction Engine извлекает релевантный текст (подписи, метаданные, окружающий контент).

    Финальный этап:

    1. Подготовка промта: Prompt Preparation модуль собирает все данные: явный запрос, историю диалога, результаты анализа моделей (Метод 1) и извлеченный текст из веба (Метод 2). Данные структурируются в единый текстовый промт (например, «Context: [VQA] ответ», «Context: [Web Extract] текст»).
    2. Генерация ответа: Промт подается на вход основной LLM, которая генерирует финальный ответ.

    Какие данные и как использует

    Данные на входе

    Система использует комбинацию данных, предоставленных пользователем, и данных, извлеченных из интернета или сгенерированных моделями.

    • Мультимедиа факторы: Пиксельные данные входного изображения.
    • Пользовательские факторы: Текстовый запрос пользователя и история диалога (conversation history).
    • Контентные факторы (Веб-данные, Метод 2): Текст, извлеченный из сторонних веб-ресурсов, связанных с изображением:
      • Текст веб-страниц (окружающий контент).
      • Подписи к изображениям (captions).
      • Теги и метаданные изображений.
    • Сгенерированные данные (Метод 1):
      • Распознанные сущности и объекты (Entity Recognition, Object Detection).
      • Текст, извлеченный из самого изображения (OCR).
      • Сгенерированные подписи (Captioning).
      • Ответы на вопросы (VQA / NL Descriptors).

    Какие метрики используются и как они считаются

    Патент не описывает метрики ранжирования, но фокусируется на использовании различных моделей ML для извлечения признаков:

    • Модели машинного обучения: Используется набор предобученных моделей: LLM, VQA, Object Detection, Entity Recognition, OCR, Captioning.
    • Image Similarity: Используется поисковой системой для выполнения обратного поиска (Метод 2).
    • Методы структурирования данных: Используется статическая схема (static schema) для преобразования выходных данных моделей в структурированный текстовый промт (например, заполнение предопределенных строк или добавление префиксов типа «Context: [VQA]…»).
    • Файн-тюнинг LLM: Упоминается возможность дообучения (fine-tuning) основной LLM, чтобы она лучше реагировала на структурированные сигналы изображений в промте.

    Выводы

    1. Изображения интерпретируются через текст: Ключевой вывод — Google стремится преобразовать визуальную информацию в текстовый контекст, чтобы использовать мощь текстовых LLM. LLM не «видит» изображение, а «читает» его описание, сгенерированное вспомогательными системами.
    2. Два источника понимания: Внутренний анализ и Внешний контекст. Понимание строится на комбинации сигналов: (1) прямого анализа пикселей моделями (VQA, Entity Recognition) и (2) анализа того, как изображение описано в вебе (обратный поиск и извлечение текста).
    3. Критическая роль веб-контекста для SEO (Метод 2): Текст, окружающий изображение на веб-страницах (Text Extracts), напрямую используется для формирования промта LLM. Это подтверждает, что контекст размещения изображения в интернете критически важен для его интерпретации.
    4. Многоуровневый визуальный анализ (Метод 1): Система извлекает множество сигналов: объекты, сущности, текст (OCR) и ответы на специфические вопросы (VQA). Это подчеркивает важность четкости и качества изображений.
    5. Уточнение интента (Explication): Система активно уточняет неявные запросы пользователя, используя контекст диалога, чтобы точнее понять, что именно интересует пользователя на картинке.

    Практика

    Best practices (это мы делаем)

    • Обеспечение богатого текстового контекста для изображений: Критически важно, чтобы текст, окружающий изображение на вашем сайте (подписи, alt-текст, основной контент), точно и полно описывал его содержание. Этот текст может быть извлечен через обратный поиск (Метод 2) и использован для формирования промта LLM.
    • Создание уникального визуального контента: Уникальные изображения предпочтительнее стоковых. Если обратный поиск по уникальному изображению приводит преимущественно к вашему сайту, вы контролируете текстовый контекст, который получит LLM.
    • Оптимизация под распознавание сущностей (Entity Recognition): Используйте четкие изображения ключевых сущностей (продуктов, логотипов, людей). Убедитесь, что они связаны со структурированными данными (Schema.org). Это помогает Unimodal Models (Метод 1) корректно идентифицировать содержание.
    • Оптимизация текста на изображениях (OCR): Если изображение содержит текст (инфографика, упаковка), убедитесь, что он легко читаем. OCR (Метод 1) извлечет этот текст и добавит его в контекст для LLM.
    • Повышение авторитетности страниц с изображениями (E-E-A-T): Авторитетность страницы, вероятно, влияет на вес извлеченного текста (Метод 2). Работайте над качеством и авторитетностью контента, содержащего важные изображения.

    Worst practices (это делать не надо)

    • Использование изображений без контекста: Размещение изображений без сопровождающего текста, подписей или alt-атрибутов затрудняет формирование Text Extracts и NL Descriptors.
    • Несоответствие изображения и текста (Visual Mismatch): Использование изображений, которые не соответствуют окружающему тексту. Это может привести к формированию некорректного контекста для LLM.
    • Игнорирование качества изображений: Использование размытых или неоднозначных изображений снижает эффективность работы Object Detection, Entity Recognition и VQA (Метод 1), что ухудшает понимание контента.
    • Злоупотребление стоковыми фото: Использование популярных стоковых фото может привести к размытому или противоречивому веб-контексту (Метод 2), так как система найдет это изображение на множестве разных сайтов.

    Стратегическое значение

    Этот патент подтверждает стратегический переход к мультимодальному поиску. Для SEO это означает, что оптимизация изображений больше не сводится к базовым тегам. Стратегия должна включать управление визуальной идентичностью в вебе, обеспечение сильного семантического соответствия между изображениями и текстом, а также оптимизацию контента для извлечения сущностей. Способность Google точно интерпретировать визуальный контент через веб-контекст станет решающим фактором видимости в генеративном поиске (SGE) и мультимодальных интерфейсах.

    Практические примеры

    Сценарий 1: Оптимизация карточки товара (Акцент на Метод 2 — Поиск)

    • Задача: Пользователь ищет товар по фото через Google Lens.
    • Действие: Размещение уникальной фотографии товара (кроссовки) на странице с подробным описанием (бренд, модель, цвет, материалы).
    • Как работает система: Google выполняет обратный поиск (Метод 2) и находит вашу страницу. Text Extraction Engine извлекает ваше детальное описание.
    • Результат: В промт для LLM попадает богатый контекст из вашего описания («Веб-контекст: Кроссовки [Бренд] [Модель], цвет синий…»). LLM точно идентифицирует товар и отвечает на запрос пользователя, используя вашу информацию.

    Сценарий 2: Анализ инфографики (Акцент на Метод 1 — Модели)

    • Задача: Пользователь загружает инфографику и спрашивает о конкретном элементе.
    • Действие: Создание четкой инфографики с читаемым текстом и понятными визуальными элементами.
    • Как работает система:
      • Unimodal Model (OCR) извлекает текст из инфографики.
      • Explication Model уточняет запрос, используя извлеченный текст.
      • Multimodal Model (VQA) анализирует визуальные связи и отвечает на уточненный вопрос.
    • Результат: В промт для LLM попадают извлеченный текст и ответ VQA. LLM генерирует подробное объяснение элемента инфографики.

    Вопросы и ответы

    Видит ли LLM (например, Gemini) изображение напрямую согласно этому патенту?

    Нет, напрямую не видит. Патент описывает систему-посредник, которая преобразует изображение в текст. Она использует вспомогательные модели (VQA, Entity Recognition) и обратный поиск по картинкам для генерации текстовых описаний (NL Descriptors и Text Extracts). Именно этот текст затем добавляется в промт и обрабатывается LLM.

    Какой из двух методов важнее для SEO: анализ моделями (Метод 1) или извлечение текста из поиска (Метод 2)?

    Оба важны, но Метод 2 (Claim 17, использование обратного поиска) имеет более прямые последствия для SEO. Он доказывает, что Google использует текст, ассоциированный с изображениями в вебе, для понимания похожих изображений. Это означает, что оптимизация контекста изображений на вашем сайте напрямую влияет на то, как LLM будет интерпретировать ваш визуальный контент.

    Какие именно текстовые элементы Google извлекает с веб-страниц для понимания изображения (Метод 2)?

    Согласно патенту (Claim 18), извлекаемые Text Extracts могут включать: текст самой веб-страницы (окружающий контекст), подписи к изображению (captions), теги изображения и метаданные изображения. Важно оптимизировать все эти элементы комплексно.

    Как работает модель экспликации (Explication Model) и зачем она нужна?

    Explication Model преобразует неявные запросы пользователя (например, «что это?», «расскажи подробнее») в конкретные, явные вопросы (например, «идентифицируй объект на фото»). Это необходимо, потому что вспомогательные мультимодальные модели (VQA) требуют четко сформулированных инструкций для генерации точных ответов об изображении.

    Влияет ли этот патент на использование стоковых фотографий?

    Да, значительно. Стоковые фотографии используются на множестве сайтов в разных контекстах. При обратном поиске (Метод 2) система получит разнообразные Text Extracts, что может привести к размытому или противоречивому контексту для LLM. Уникальные изображения предпочтительнее, так как их веб-контекст более контролируем.

    Что такое унимодальные модели и какую информацию они предоставляют?

    Унимодальные модели анализируют только изображение, игнорируя текстовый запрос. Они предоставляют базовую информацию (Query Independent Properties): обнаружение объектов, распознавание сущностей (связь с Knowledge Graph), автоматическое создание подписей и извлечение текста (OCR). Эта информация добавляется в промт LLM как общий контекст.

    Как этот патент связан с Google Lens или SGE?

    Этот патент описывает инфраструктуру, которая лежит в основе таких продуктов. Google Lens и SGE (Search Generative Experience) обрабатывают мультимодальные запросы. Описанные механизмы позволяют этим системам использовать LLM для генерации ответов, учитывающих визуальный контент, путем его анализа и извлечения веб-контекста.

    Влияет ли авторитетность сайта (E-E-A-T) на этот процесс?

    Косвенно да. Поскольку Метод 2 полагается на результаты поиска по изображениям, сайты с более высоким рейтингом и авторитетностью с большей вероятностью будут выбраны в качестве источников для извлечения текста (Text Extracts). Таким образом, высокий E-E-A-T способствует тому, что именно ваш контент будет использован для интерпретации изображения.

    Стоит ли оптимизировать текст на самих изображениях (инфографика)?

    Да. Патент явно упоминает OCR (Optical Character Recognition) как один из типов Unimodal Models (Метод 1). Текст, извлеченный непосредственно из изображения, становится частью контекста для LLM. Текст должен быть четким и читаемым.

    Что такое «статическая схема» (static schema) при подготовке промта?

    Это означает, что система использует предопределенные шаблоны для включения информации об изображении в промт. Например, результат работы VQA может быть добавлен как «Context: [VQA] Объект красного цвета», а распознанная сущность как «Context: [Entity] Эйфелева башня». Это позволяет структурированно передать контекст в LLM.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.