Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует камеру для предсказания текстовых запросов и запуска мультимодального поиска в реальном времени

    MULTIMODAL QUERY PREDICTION (Прогнозирование мультимодальных запросов)
    • US12321401B1
    • Google LLC
    • 2025-06-03
    • 2024-06-10
    2024 Мультимедиа Патенты Google Семантика и интент

    Google использует систему для анализа живого потока с камеры (например, в Google Lens), распознавания объектов в кадре и мгновенного предложения релевантных текстовых запросов или действий. Выбор подсказки формирует мультимодальный запрос (изображение + текст), помогая пользователю точнее выразить намерение и получить более релевантные результаты.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему сложности формулирования запросов при визуальном поиске. Пользователям часто трудно подобрать нужные слова, чтобы узнать конкретную информацию об объекте, который они видят (например, «как ухаживать за этим растением?» или «какие отзывы об этом товаре?»). Использование только изображения может привести к слишком общим результатам. Система устраняет этот барьер, проактивно предлагая релевантные текстовые уточнения и действия на основе визуального контекста.

    Что запатентовано

    Запатентована система для автоматического прогнозирования и предложения мультимодальных запросов в реальном времени. Система обрабатывает входные изображения (обычно Live Camera Feed), использует Object Classification Model для идентификации содержимого и генерирует релевантные текстовые строки (suggested text strings) или действия. Эти предложения отображаются пользователю как кликабельные опции для мгновенного запуска мультимодального поиска, комбинирующего изображение и выбранный текст.

    Как это работает

    Система работает в интерфейсе визуального поиска:

    • Сбор данных: Получение кадров из Live Camera Feed, часто с использованием временного кэша.
    • Распознавание: Обработка кадров с помощью Object Classification Model для идентификации объектов (например, продукт, растение, документ).
    • Прогнозирование (Prediction): Анализ классификаций с помощью Action Suggestion Model (например, VLM/LLM) для генерации релевантных текстовых запросов или действий (Action Suggestions). Может использовать Knowledge Graphs или историю поиска.
    • Отображение: Предложения отображаются поверх видеопотока.
    • Динамическое обновление: Предложения обновляются только при изменении сцены для эффективности.
    • Выбор и Поиск: При выборе текста система генерирует Multimodal Query (текст + изображение/сегмент) и отправляет его в поиск, который использует Multimodal Embeddings для ретривала.

    Актуальность для SEO

    Высокая. Патент напрямую связан с развитием технологий визуального поиска (Google Lens, Circle to Search) и мультимодальных моделей (Vision Language Models). Механизмы, описанные в патенте, отражают текущий вектор развития поиска, направленный на интуитивное взаимодействие с информацией через различные модальности в реальном времени.

    Важность для SEO

    Патент имеет высокое стратегическое значение для SEO (85/100). Хотя он не описывает алгоритмы ранжирования, он критически важен для понимания того, как Google переводит визуальный интент в конкретные текстовые запросы. Это определяет, какие запросы пользователи будут отправлять из визуального поиска. Понимание этих механизмов необходимо для оптимизации контента под мультимодальный поиск и связанные с объектами интенты.

    Детальный разбор

    Термины и определения

    Action Suggestion Model (Модель предложения действий)
    Машинно-обученная модель (например, генеративная языковая модель или VLM), которая обрабатывает классификации объектов для генерации релевантных текстовых запросов или команд (Action Suggestions).
    Action Suggestions (Предложения действий)
    Предиктивные подсказки. Включают как Multimodal Query Suggestions (для поиска), так и другие действия по обработке данных (например, «Оцифровать это», «Резюмировать это», навигация в приложениях).
    Embedding Model (Модель эмбеддингов)
    Модель, используемая для обработки мультимодального запроса и генерации Multimodal Query Embedding для выполнения поиска.
    Image Segmentation Model (Модель сегментации изображений)
    Модель, используемая для выделения области кадра (сегмента), изображающей конкретный объект, для уточнения мультимодального запроса (Claim 5).
    Live Camera Feed (Живой видеопоток)
    Поток изображений в реальном времени с камеры устройства (видоискатель).
    Multimodal Query (Мультимодальный запрос)
    Запрос, состоящий из комбинации данных разных модальностей, в данном случае – изображения (или сегмента) и текстовой строки.
    Multimodal Query Embedding (Эмбеддинг мультимодального запроса)
    Векторное представление Multimodal Query, используемое для поиска релевантных результатов методом ближайших соседей (Claim 6).
    Object Classification Model (Модель классификации объектов)
    Модель машинного обучения, используемая для обработки изображения и определения типов объектов, изображенных на нем.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает базовый метод прогнозирования и выполнения мультимодального запроса из живого видеопотока.

    1. Система получает кадры из live camera feed.
    2. Используется object classification model для идентификации объектов в кадрах.
    3. На основе классификаций генерируются multimodal query suggestions (текстовые строки).
    4. Эти строки отображаются вместе с видеопотоком.
    5. Система получает выбор пользователя одной из строк.
    6. Генерируется multimodal query (выбранный текст + изображение/кадр).
    7. Выполняется поиск по этому мультимодальному запросу.

    Claim 3 и 4 (Зависимые): Уточняют источники данных для генерации предложений. Текстовые запросы могут определяться на основе Knowledge Graphs (использование структурированных знаний о мире) или user-specific search history (персонализация на основе предыдущего поведения пользователя).

    Claim 5 (Зависимый): Детализирует формирование запроса. Система может использовать image segmentation model для выделения конкретного объекта (image segment) и отправить в поисковую систему именно этот сегмент вместе с текстом, фокусируя запрос.

    Claim 6 (Зависимый): Описывает механизм выполнения поиска. Мультимодальный запрос обрабатывается embedding model для создания multimodal query embedding. Затем выполняется поиск ближайших соседей (nearest neighbor embeddings) среди веб-ресурсов. Это подтверждает использование векторного поиска для ретривала.

    Claim 11 (Независимый пункт): Расширяет функционал, указывая, что система генерирует не только поисковые запросы, но и plurality of action suggestions, которые включают other data processing action suggestions (другие действия).

    Claim 12 и 15 (Зависимые): Приводят примеры других действий. К ним относятся Digitize action suggestion (оцифровка документа/графика) и Application navigation suggestion (переход в другое приложение).

    Claim 17 (Независимый пункт): Описывает механизм динамического обновления предложений при изменении сцены (State Change Detection).

    1. Система показывает предложения для текущих объектов.
    2. Получаются новые кадры (additional image data).
    3. Система определяет, отличаются ли объекты в новых кадрах от предыдущих.
    4. Если ДА, генерируются и показываются новые предложения.

    Claim 19 (Зависимый): Указывает на оптимизацию производительности. Если система определяет, что в новых кадрах изображены те же объекты, она продолжает показывать существующие предложения без повторного выполнения прогнозирования (without performing an additional suggestion prediction), экономя ресурсы.

    Где и как применяется

    Изобретение применяется на этапе взаимодействия пользователя с поисковой системой через визуальный интерфейс.

    QUNDERSTANDING – Понимание Запросов
    Это основная фаза применения. Патент описывает механизм Формулирования и Прогнозирования Запроса (Query Formulation/Prediction). Система анализирует визуальный ввод и проактивно предлагает способы перевести визуальный контекст в структурированный Multimodal Query. Это происходит на устройстве пользователя до отправки запроса в основные системы ранжирования.

    RANKING – Ранжирование (Этап Retrieval)
    Патент описывает, как выполняется поиск после формирования запроса (Claim 6). Сгенерированный Multimodal Query обрабатывается для создания Multimodal Query Embedding, который затем используется для поиска ближайших соседей (nearest neighbor search). Это метод отбора кандидатов (Retrieval) на основе векторных представлений.

    INDEXING – Индексирование и извлечение признаков
    Система полагается на данные этого этапа. Object Classification Model и Action Suggestion Model обучаются на проиндексированных данных. Также используются данные из Knowledge Graphs (Claim 3) для генерации предложений.

    Входные данные:

    • Кадры из Live Camera Feed (Image Data).
    • Knowledge Graphs (для контекста предложений).
    • User-specific search history (для персонализации предложений).

    Выходные данные:

    • Action Suggestions (текстовые строки), отображаемые в интерфейсе.
    • Сформированный Multimodal Query (Изображение/Сегмент + Текст), отправляемый в поисковую систему.

    На что влияет

    • Конкретные ниши и тематики: Критически важно для E-commerce (распознавание продуктов и предложение купить/найти отзывы), Образования (анализ графиков/текста, предложение «объяснить» или «оцифровать»), DIY и Садоводства (инструкции по уходу, диагностика проблем), Локального поиска (меню, отзывы).
    • Специфические запросы: Влияет на переход от общих визуальных запросов к конкретным информационным (How-to, What-is) и транзакционным запросам, связанным с объектом в кадре.

    Когда применяется

    • Условия работы: Работает в реальном времени в интерфейсе камеры (видоискателе).
    • Триггеры активации: Активируется, когда Object Classification Model успешно распознает объект в кадре.
    • Частота применения и оптимизация: Система работает непрерывно, но обновляет предложения только при обнаружении новых объектов или изменении сцены (Claim 17), избегая повторной обработки статичных сцен (Claim 19).

    Пошаговый алгоритм

    Процесс обработки видеопотока и генерации предложений:

    1. Получение данных: Система получает текущий кадр (Image Data) из Live Camera Feed, используя Temporary Cache.
    2. Классификация объектов: Кадр обрабатывается Object Classification Model для идентификации объектов.
    3. Проверка изменения состояния (State Change Detection): Система сравнивает текущие объекты с предыдущими.
      • Если объекты те же: Пропустить шаги 4-5, продолжать показ текущих предложений (Claim 19). Вернуться к шагу 1.
      • Если объекты отличаются: Продолжить к шагу 4 (Claim 17).
    4. Генерация предложений: Классификации передаются в Action Suggestion Model. Модель генерирует набор Action Suggestions (включая поисковые запросы и другие действия), используя Knowledge Graphs и/или историю поиска.
    5. Отображение: Новые предложения отображаются в интерфейсе поверх видеопотока.
    6. Обработка выбора пользователя: Пользователь выбирает предложение.
    7. Сегментация (Опционально): Система может обработать текущий кадр с помощью Image Segmentation Model для выделения релевантного объекта (Claim 5).
    8. Формирование запроса: Генерируется Multimodal Query, состоящий из выбранного текста и изображения (кадра или сегмента).
    9. Выполнение поиска: Multimodal Query обрабатывается для генерации Multimodal Query Embedding и выполняется поиск ближайших соседей (Claim 6).
    10. Отображение результатов: Результаты поиска предоставляются пользователю.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Визуальные данные): Image Data из живого потока камеры. Это основной источник данных для анализа и классификации.
    • Пользовательские факторы: User-specific search history явно упоминается как фактор для персонализации предлагаемых текстовых запросов (Claim 4).
    • Внешние данные (Знания): Knowledge Graphs используются для понимания контекста распознанных объектов и генерации релевантных предложений (Claim 3).
    • Системные данные (ML): Используются предварительно обученные модели: Object Classification Model, Action Suggestion Model, Image Segmentation Model, Embedding Model.

    Какие метрики используются и как они считаются

    Патент не описывает метрики ранжирования, но описывает ключевые процессы и модели, используемые для генерации и обработки запроса:

    • Object Classification (Классификация объектов): Определение типа объекта в кадре.
    • Query/Action Prediction (Предсказание запроса/действия): Определение наиболее релевантных текстовых строк или команд для данного объекта.
    • Image Segmentation (Сегментация изображения): Выделение пикселей, принадлежащих объекту, для фокусировки запроса (Claim 5).
    • Multimodal Query Embedding (Эмбеддинг мультимодального запроса): Числовое представление объединенного запроса (текст + изображение) в векторном пространстве (Claim 6).
    • Nearest Neighbor Search (Поиск ближайших соседей): Метод поиска результатов путем нахождения эмбеддингов веб-ресурсов, наиболее близких к эмбеддингу запроса (Claim 6).

    Выводы

    1. Визуальный ввод как проактивный триггер запроса: Google рассматривает визуальный контекст как первичный сигнал для понимания интента. Система активно пытается перевести визуальное наблюдение в конкретный запрос или действие, не дожидаясь ручного ввода текста.
    2. Предсказание интента на основе классификации: Ключевым механизмом является связка между Object Classification и Action Suggestion. То, как Google классифицирует объект, напрямую определяет, какие интенты (покупка, ремонт, уход, объяснение) будут предложены пользователю.
    3. Мультимодальность и Векторный Поиск как стандарт: Патент подтверждает использование Multimodal Embeddings и Nearest Neighbor Search (Claim 6) для выполнения этих запросов. Это подчеркивает важность семантического соответствия контента (текста и изображений), а не только ключевых слов.
    4. Фокусировка запроса через сегментацию: Возможность сегментации изображения (Claim 5) позволяет системе игнорировать визуальный шум и фокусировать запрос на конкретном объекте интереса, повышая релевантность.
    5. Универсальный интерфейс действий: Система предлагает не только поиск, но и прямые действия (оцифровка, резюмирование) (Claim 11), превращая камеру в универсальный инструмент анализа информации.
    6. Эффективность и Динамическое обновление: Механизм обнаружения изменения состояния (Claims 17, 19) обеспечивает актуальность предложений в реальном времени без избыточной вычислительной нагрузки, что критично для мобильных устройств.

    Практика

    Best practices (это мы делаем)

    • Анализ предсказываемых интентов (Intent Prediction Analysis): Систематически используйте инструменты визуального поиска (например, Google Lens) на объектах вашей тематики. Фиксируйте, какие текстовые запросы предлагает Google. Это прямой сигнал о том, какие интенты система считает наиболее релевантными для данного класса объектов (на основе Knowledge Graphs и поведения пользователей).
    • Оптимизация контента под предсказанные интенты: Создавайте высококачественный контент, который напрямую отвечает на эти предсказанные интенты. Если для вашего продукта часто предлагают «инструкция по уходу», убедитесь, что у вас есть лучший контент на эту тему.
    • Оптимизация под распознавание объектов (Visual SEO): Убедитесь, что ключевые объекты на сайте (особенно продукты) представлены четкими, высококачественными изображениями без визуального шума. Это необходимо для корректной работы Object Classification Model, когда пользователь ищет их в реальном мире.
    • Оптимизация под мультимодальный векторный поиск: Поскольку поиск выполняется через Multimodal Embeddings (Claim 6), стратегия должна фокусироваться на семантическом соответствии контента. Текст на странице должен качественно описывать и дополнять визуальный контент, чтобы обеспечить релевантное векторное представление.

    Worst practices (это делать не надо)

    • Игнорирование визуального контекста и мультимодальности: Стратегии, фокусирующиеся только на текстовом SEO и игнорирующие оптимизацию изображений и их семантическую связь с текстом, будут терять эффективность.
    • Использование изображений низкого качества или стоковых фото: Изображения, которые плохо распознаются или не несут уникальной информации, снижают вероятность корректной классификации и получения трафика из визуального поиска.
    • Несоответствие интентам: Создание контента, который не отвечает на общие намерения, связанные с визуальным объектом (например, наличие только страницы покупки для объекта, по которому часто ищут инструкции).

    Стратегическое значение

    Этот патент подтверждает стратегический приоритет Google на развитие мультимодального поиска и снижение зависимости от ручного ввода текста. Для SEO это означает, что оптимизация должна смещаться от «как пользователи это ищут текстом» к «как пользователи это видят и какие вопросы у них возникают». Долгосрочная стратегия должна включать создание семантически богатого контента, где текст и изображения синергетически отвечают на предсказываемые системой интенты в мультимодальном векторном пространстве.

    Практические примеры

    Сценарий: Оптимизация карточки товара (Комнатное растение)

    1. Анализ (на основе патента): Пользователь наводит камеру на растение. Object Classification Model определяет вид. Action Suggestion Model, используя Knowledge Graph, предсказывает интенты (как показано в патенте): «Browning Leaves» (диагностика), «Caring instructions» (инструкции), «Watering instructions» (детали ухода).
    2. Действия SEO-специалиста: Убедиться, что на сайте есть четкие изображения этого растения для помощи в классификации. Создать отдельные, глубоко проработанные разделы контента, отвечающие на эти предсказанные интенты.
    3. Ожидаемый результат: Когда пользователь выбирает предложение «Caring instructions», система формирует мультимодальный запрос. Благодаря наличию релевантного контента и четких изображений, страница сайта имеет высокие шансы быть найденной через Nearest Neighbor Search (Claim 6).

    Сценарий: Оптимизация образовательного контента (График/Диаграмма)

    1. Анализ (на основе патента): Пользователь наводит камеру на сложный график в статье. Система распознает его как график и предлагает действия «Explain this» или «Digitize this».
    2. Действия SEO-специалиста: Размещать графики в высоком разрешении. Сопровождать каждый график подробным текстовым объяснением и ключевыми выводами непосредственно в тексте статьи.
    3. Ожидаемый результат: Когда пользователь выбирает «Explain this», поисковая система ищет ресурсы, которые лучше всего объясняют этот визуальный элемент. Страница с качественным текстовым объяснением получит преимущество в ранжировании по этому мультимодальному запросу.

    Вопросы и ответы

    Описывает ли этот патент новый алгоритм ранжирования?

    Нет, он не описывает алгоритмы ранжирования напрямую. Патент фокусируется на интерфейсе и механизме *формирования* мультимодального запроса путем предсказания текстовых уточнений к визуальному вводу. Он влияет на то, что пользователь ищет, а не на то, как Google сортирует результаты, хотя и упоминает метод ретривала (поиск по эмбеддингам).

    Как система решает, какие именно текстовые запросы предложить для объекта?

    Решение принимается на основе классификации объекта (Object Classification Model). Затем Action Suggestion Model генерирует предложения. В патенте (Claims 3, 4) указано, что для этого могут использоваться Knowledge Graphs (понимание общих фактов об этом объекте) и user-specific search history (персонализация).

    Что означает упоминание поиска ближайших соседей (Nearest Neighbor Search) в Claim 6?

    Это указывает на механизм выполнения мультимодального поиска. Вместо традиционного поиска, система генерирует Multimodal Query Embedding (векторное представление запроса) и ищет контент в индексе, чьи эмбеддинги наиболее близки. Это подтверждает использование семантического/векторного поиска.

    Как этот патент влияет на стратегию оптимизации изображений (Visual SEO)?

    Он подчеркивает критическую важность четкости и качества изображений для корректного распознавания. Ваши изображения должны быть легко классифицированы моделями компьютерного зрения Google. Это основа для того, чтобы ваш контент мог быть связан с объектами реального мира и найден через визуальный поиск.

    В чем разница между Multimodal Query Suggestion и Action Suggestion?

    Multimodal Query Suggestion — это подсказка для запуска поиска (например, «+Инструкция»). Action Suggestion — более широкий термин, который также включает команды для выполнения других задач (Claim 11), например, «+Оцифровать это» (запускает OCR и анализ макета) или навигацию в другое приложение.

    Использует ли система сегментацию при отправке запроса?

    Да, это важная опция (Claim 5). Система может использовать Image Segmentation Model, чтобы вырезать из кадра только ту часть, которая содержит релевантный объект. Это позволяет сфокусировать поиск именно на этом объекте, игнорируя фон и повышая точность.

    Как система обеспечивает эффективность при обработке живого видеопотока?

    Патент описывает механизм оптимизации (Claims 17, 19). Система проверяет, изменились ли объекты в поле зрения (State Change Detection). Если сцена статична, предложения сохраняются без повторной обработки для экономии вычислительных ресурсов.

    Какова основная ценность этого патента для SEO-специалиста?

    Основная ценность — получение инсайтов о том, какие интенты Google связывает с конкретными визуальными объектами. Анализируя предложения (Query Suggestions), которые Google генерирует для объектов в вашей нише, вы можете определить ключевые темы и вопросы, под которые следует оптимизировать контент для улучшения видимости в мультимодальном поиске.

    Как оптимизировать контент под поиск через мультимодальные эмбеддинги?

    Оптимизация требует обеспечения максимального семантического соответствия между визуальной и текстовой информацией на странице. Текст должен точно описывать то, что изображено, и отвечать на вопросы, связанные с изображением. Сильная связь между модальностями увеличит вероятность того, что эмбеддинг вашей страницы будет релевантен эмбеддингу запроса пользователя.

    Как этот патент связан с Google Lens и Circle to Search?

    Этот патент описывает базовые механизмы, которые лежат в основе работы таких продуктов. Он детально раскрывает, как система в реальном времени анализирует визуальный поток, распознает объекты и предсказывает намерения пользователя в виде текстовых запросов или действий, что точно соответствует функциональности этих интерфейсов.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.