Google патентует систему мультимодального поиска для носимых устройств (например, XR-очков). Система объединяет запрос пользователя (голос/текст) с контекстом реального мира, полученным с камер и сенсоров (изображения, взгляд, жесты, местоположение) и историей диалога. Используя LLM и визуальный поиск, система интерпретирует этот комбинированный ввод, выполняет поиск и генерирует синтезированный ответ, адаптированный к физическому контексту пользователя.
Описание
Какую задачу решает
Патент решает техническую проблему определения намерения (intent) пользователя и генерации релевантных ответов на запросы, сделанные через носимые устройства или устройства расширенной реальности (XR devices). В таких средах запросы часто неоднозначны (например, «Что это?», «Сколько это стоит?») и требуют глубокого понимания физического контекста пользователя, который невозможно вывести только из текста запроса.
Что запатентовано
Запатентована система мультимодального поиска для носимых устройств. Суть изобретения заключается в объединении явного запроса пользователя (голосового или текстового) с богатым набором неявного контекста (Context), собранного с датчиков устройства. Этот контекст включает изображения с камеры, данные о взгляде (User Gaze), жестах (Gesture), местоположении и историю разговоров. Система использует эту мультимодальную информацию для генерации точных поисковых запросов и формирования синтезированного ответа.
Как это работает
Система работает следующим образом:
- Получение запроса: Устройство фиксирует запрос пользователя (например, через микрофон).
- Сбор контекста: Система идентифицирует мультимодальный контекст. Это включает изображения с камеры (снятые до или во время запроса), данные сенсоров (жесты, взгляд, местоположение) и данные пользователя (история разговоров, предпочтения).
- Интерпретация и Разрешение Неоднозначности: Используются методы NLP и LLM для определения сущностей в запросе и сопоставления их с контекстом (например, определение объекта, на который смотрит или указывает пользователь).
- Генерация поиска: Система генерирует один или несколько поисковых запросов, комбинируя текст запроса и контекст. Это может включать обратный поиск по изображению (reverse image search) или использование текстовых дескрипторов (text descriptors) распознанных объектов.
- Генерация и Выбор Ответа: Полученные результаты поиска обрабатываются с помощью LLM для синтеза нескольких кандидатов ответа. Система ранжирует их и выбирает наилучший.
Актуальность для SEO
Критически высокая. Патент описывает архитектуру, лежащую в основе современных мультимодальных ИИ-ассистентов и будущего поиска в среде дополненной реальности (AR/XR). Фокус на интеграции LLM на всех этапах — от понимания запроса до генерации ответа — отражает текущий вектор развития поиска (например, возможности Google Lens и Gemini). Поскольку это заявка, опубликованная в 2025 году, она представляет новейшие разработки Google в этой области.
Важность для SEO
Патент имеет высокое стратегическое значение (85/100) для будущего SEO. Он описывает инфраструктуру, которая смещает фокус с традиционных текстовых запросов на контекстуальные мультимодальные взаимодействия в реальном мире. Это подчеркивает критическую важность визуального контента (Visual Search), оптимизации сущностей (Entity Optimization) и оптимизации контента для синтеза ответов с помощью LLM (AEO). По мере распространения носимых устройств, способность контента быть идентифицированным и понятым в физическом контексте станет ключевым фактором видимости.
Детальный разбор
Термины и определения
- Candidate Responses (Кандидаты ответов)
- Набор потенциальных ответов на запрос, сгенерированных системой (часто с помощью LLM с использованием различных параметров сэмплирования, таких как temperature, top-k sampling). Из этого набора выбирается лучший ответ.
- Context (Контекст)
- Мультимодальная информация, используемая для понимания запроса. Включает данные с сенсоров (изображения, жесты, взгляд, местоположение, аудио, поза тела) и сохраненные данные (история разговоров, профиль пользователя).
- Extended Reality (XR) Device (Устройство расширенной реальности)
- Общий термин для технологий VR, AR и MR. Например, смарт-очки или гарнитуры.
- LLM (Large Language Model / Большая языковая модель)
- Используется на нескольких этапах: для идентификации сущностей в запросе, для генерации поисковых запросов и для синтеза и ранжирования финального ответа из результатов поиска.
- Multimodal Search (Мультимодальный поиск)
- Поиск, который использует несколько типов ввода (модальностей) одновременно, например, текст/голос и изображение/сенсорный контекст.
- Rank and Selection Operation (Операция ранжирования и выбора)
- Процесс оценки ответов-кандидатов на основе таких факторов, как релевантность, точность, когерентность, полнота и тон, с последующим выбором наилучшего ответа.
- Reverse Image Search (Обратный поиск по изображению)
- Использование изображения (полученного из контекста) в качестве поискового запроса для идентификации объектов или поиска связанной информации.
- Text Descriptor (Текстовый дескриптор)
- Текстовое описание или идентификатор объекта, извлеченный из изображения. Используется для формирования поискового запроса.
- User Gaze / Eye Gaze Data (Взгляд пользователя)
- Данные о направлении взгляда пользователя, используемые как часть контекста для определения объекта интереса в поле зрения.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает базовый метод мультимодального поиска на устройстве.
- Система получает запрос на устройстве.
- Идентифицируется контекст, связанный с запросом. Ключевое условие: контекст должен включать набор изображений (set of images), снятых устройством.
- Генерируется по крайней мере один поиск на основе комбинации запроса и контекста.
- Получается результат поиска.
- Определяется ответ на исходный запрос на основе результата.
- Ответ предоставляется пользователю.
Claim 2 (Зависимый от 1): Детализирует, как изображения используются в поиске (вербализация визуального контекста).
- Набор изображений (снятых внешней камерой) обрабатывается для идентификации текстового дескриптора (text descriptor), связанного с объектом на изображениях.
- Поиск генерируется с использованием исходного запроса и этого текстового дескриптора.
Claim 3, 4 (Зависимые от 1): Уточняют временные рамки. Изображения могут быть сняты как до получения запроса, так и в ответ на получение запроса.
Claim 5, 6, 7 (Зависимые от 1): Уточняют типы контекста помимо изображений.
- Контекст может включать историю предыдущих вводов пользователя (Claim 5).
- Контекст может включать профиль пользователя (предпочтения или атрибуты) (Claim 6).
- Контекст может включать данные сенсоров: движение, местоположение или данные о взгляде пользователя (eye gaze data) (Claim 7).
Claim 8 (Зависимый от 1): Описывает процесс генерации и выбора ответа с использованием ИИ.
- Определяется набор ответов-кандидатов на основе результатов поиска и языковой модели (language model).
- Финальный ответ выбирается из этого набора на основе релевантности (relevance) запросу.
Где и как применяется
Изобретение радикально меняет этап понимания запроса, адаптируя поиск к взаимодействию с реальным миром через носимые устройства.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система преобразует мультимодальный ввод в структурированное намерение.
- Мультимодальная интеграция: Система получает явный запрос (голос/текст) и объединяет его с контекстом (визуальным, сенсорным, историческим).
- Разрешение неоднозначности: Использует контекст (взгляд, жесты, историю диалога) для разрешения неоднозначных терминов (например, «этот», «тот»).
- Идентификация сущностей: Сопоставляет сущности из запроса с объектами, идентифицированными в визуальном контексте (используя Object Detection/Identification).
- Генерация поиска: Формулирует поисковые запросы (reverse image search или текстовые запросы, обогащенные text descriptors) для передачи на этап ранжирования.
RANKING – Ранжирование
Система выполняет сгенерированные поисковые запросы, используя стандартные поисковые механизмы (веб-поиск, поиск по изображениям) для получения результатов.
RERANKING / Генерация Ответа
Патент описывает специфический процесс постобработки результатов поиска и генерации ответа.
- Синтез ответа: LLM используется для обработки результатов поиска и синтеза когерентного ответа, отвечающего на исходный мультимодальный запрос.
- Ранжирование кандидатов: Система генерирует несколько ответов-кандидатов (Candidate Response Generation) и использует Rank and Selection Operation для выбора лучшего ответа на основе метрик качества и релевантности.
Входные данные:
- Запрос пользователя (Голос, текст).
- Изображения/Видео с камеры.
- Данные сенсоров: взгляд (User Gaze), жесты (Gesture), местоположение, движение, фоновое аудио.
- Хранимая информация: Профиль пользователя, История разговоров.
Выходные данные:
- Синтезированный ответ (Текст на дисплее или аудио).
На что влияет
- Конкретные типы контента: Наибольшее влияние на контент, связанный с физическими объектами: товары (E-commerce), локальные объекты (Local SEO), медиа (книги, постеры), инструкции и рецепты.
- Специфические запросы: Информационные и коммерческие запросы, зависящие от контекста окружения (например, «Сколько стоит эта модель?», «Какой следующий шаг в этом рецепте?», «Что это за здание?»).
- Конкретные ниши: E-commerce, Локальный бизнес, Туризм, Образование.
Когда применяется
- Триггеры активации: Активируется при получении запроса на носимом устройстве. Механизм особенно важен, если запрос содержит неоднозначные ссылки, требующие контекстуального понимания (визуального или исторического).
- Условия работы: Требует наличия данных с камеры и/или других сенсоров для формирования контекста. Эффективность зависит от способности системы распознавать объекты и текст в поле зрения пользователя.
Пошаговый алгоритм
Процесс обработки мультимодального запроса
- Получение запроса: Система получает запрос от пользователя на носимом устройстве.
- Обработка языка запроса (Query Language Processing): Анализ запроса (например, с помощью LLM или Noun-Phrase Extraction) для идентификации сущностей и определения необходимости контекста.
- Сбор и обработка контекста (Information Gathering Operation): Система собирает контекстуальную информацию:
- Визуальный контекст: Получение изображений с камеры (до или во время запроса). Выполнение Object Detection, Object Identification и извлечение текста (Captioning/OCR).
- Сенсорный контекст: Получение данных о жестах, взгляде (User Gaze), местоположении и движении.
- Исторический контекст: Получение истории разговора и данных профиля пользователя.
- Мультимодальная интеграция: Сопоставление сущностей из запроса с данными контекста. Определение объекта интереса пользователя.
- Генерация поиска: Формирование одного или нескольких поисковых запросов:
- Использование reverse image search для идентификации объекта.
- Генерация текстовых запросов с использованием text descriptors, полученных из контекста.
- Выполнение поиска и получение результатов: Отправка запросов в поисковую систему и получение результатов.
- Генерация ответов-кандидатов (Candidate Response Generation): Использование LLM для синтеза нескольких потенциальных ответов на основе результатов поиска. Используются техники сэмплирования (top-k sampling, nucleus sampling).
- Ранжирование и выбор (Rank and Selection): Оценка кандидатов по метрикам (релевантность, точность, когерентность, полнота, тон). Выбор наилучшего ответа.
- Предоставление ответа: Отображение или озвучивание ответа пользователю.
Какие данные и как использует
Данные на входе
Патент описывает использование широкого спектра мультимодальных данных для формирования контекста.
- Мультимедиа факторы (Визуальные): Изображения и видео с камеры (Images). Критически важны для понимания физического окружения.
- Контентные факторы (Визуальные): Текст, распознанный на изображениях (OCR/Captioning).
- Пользовательские и Поведенческие факторы: Голосовой запрос, Жесты (Gesture), Взгляд (User Gaze), Поза тела (body pose/posture), История разговоров (History Info), Профиль пользователя (Profile).
- Географические и Технические факторы (Сенсоры): Местоположение устройства (Location data), движение и ориентация (Movement data от акселерометров, гироскопов).
- Мультимедиа факторы (Аудио): Фоновый звук (non-speech background audio), аффект речи (speech affect).
Какие метрики используются и как они считаются
Патент не детализирует формулы ранжирования веб-поиска, но описывает методы обработки данных и оценки ответов ИИ.
- Обработка изображений:
- Object Detection и Object Identification: Модели компьютерного зрения.
- Reverse Image Search: Анализ визуальных элементов для сопоставления с индексом.
- Извлечение Text descriptor: Преобразование визуальной информации в текст.
- Генерация ответа (LLM): Использование LLM для синтеза ответов. Для генерации разнообразных кандидатов применяются техники сэмплирования (temperature, top-k sampling, nucleus sampling).
- Ранжирование ответов (Метрики): Оценка ответов-кандидатов на основе:
- Relevance (Релевантность запросу).
- Accuracy (Точность/Фактическая достоверность).
- Coherence (Когерентность/Связность).
- Completeness (Полнота).
- Tone (Тон).
Выводы
- Мультимодальность — это новый стандарт понимания запросов: Google активно развивает системы, которые интерпретируют мир, комбинируя зрение, слух, сенсорику и язык. Запросы больше не ограничиваются текстом; контекст реального мира становится неотъемлемой частью запроса.
- LLM интегрированы на всех этапах обработки запроса: Патент подчеркивает роль LLM не только в генерации ответов, но и в понимании исходного запроса, формулировании поисковых запросов и ранжировании кандидатов. Это подтверждает переход к нейросетевой архитектуре поиска.
- Критическая важность визуальной идентификации: Способность системы идентифицировать объекты в реальном мире через камеру (используя Object Identification и Reverse Image Search) является ядром изобретения. Это напрямую влияет на то, как контент (особенно товары и локальные сущности) будет обнаруживаться.
- Контекст разрешает неоднозначность: Системы AR/XR должны уметь разрешать неоднозначные запросы («Что это?»), используя данные о взгляде, жестах и истории разговора. Это снижает когнитивную нагрузку на пользователя.
- Генеративные ответы и контроль качества: Поиск движется к предоставлению прямых синтезированных ответов. Система не просто предоставляет ссылки, а генерирует ответ с помощью LLM и использует сложный механизм ранжирования кандидатов (Rank and Selection Operation) для обеспечения качества и точности.
Практика
Best practices (это мы делаем)
- Оптимизация визуального контента для распознавания (Visual SEO): Обеспечьте наличие высококачественных, четких и репрезентативных изображений продуктов, логотипов и локаций. Используйте alt-тексты и окружающий текст для усиления семантической связи. Это критически важно для успешного Reverse Image Search и генерации корректных Text Descriptors.
- Усиление распознавания сущностей (Entity Optimization) и Структурированные данные: Структурируйте контент вокруг четко определенных сущностей. Используйте микроразметку (Schema.org: Product, LocalBusiness), чтобы помочь системам однозначно идентифицировать эти сущности и их атрибуты. Это облегчает сопоставление визуального ввода с Knowledge Graph.
- Оптимизация под генеративные ответы (AEO — Answer Engine Optimization): Создавайте контент, который легко обрабатывается и суммируется LLM. Используйте четкую структуру, отвечайте на вопросы прямо и авторитетно. Патент показывает, что LLM синтезируют ответы из результатов поиска, поэтому контент должен быть достоверным источником для синтеза.
- Локальное SEO и визуальная привязка: Для локального бизнеса убедитесь, что физическое присутствие (вывески, интерьер) легко идентифицируется и соответствует онлайн-профилю (например, в Google Business Profile). Мультимодальный поиск позволит пользователям искать информацию, просто посмотрев на объект.
Worst practices (это делать не надо)
- Использование стоковых или нерепрезентативных изображений: Использование изображений низкого качества или тех, которые неточно отражают продукт/объект, затруднит их идентификацию через визуальный поиск и снизит релевантность в мультимодальном контексте.
- Игнорирование структурированных данных: Отсутствие микроразметки усложняет для Google задачу связи между визуальным представлением объекта и его семантическими атрибутами (Text Descriptors).
- Создание контента, сложного для суммаризации: Контент, лишенный четкой структуры и конкретики, будет плохо работать в системах, использующих LLM для синтеза прямых ответов, так как моделям будет сложно извлечь полезную информацию.
- Фокус только на текстовых ключевых словах: Игнорирование мультимодального контекста (визуального, локального) приведет к потере видимости в новых поисковых интерфейсах.
Стратегическое значение
Этот патент подтверждает стратегическое направление Google на создание «Ambient Computing» (Повсеместного компьютинга) и развитие мультимодального ИИ. Для SEO это означает подготовку к будущему, где поиск менее зависим от ключевых слов и более зависим от контекста реального мира. Долгосрочная стратегия должна фокусироваться на создании сильных, узнаваемых сущностей и обеспечении их легкого обнаружения как в цифровом, так и в физическом мире. Инвестиции в качество визуальных активов и структурированные данные становятся приоритетом для обеспечения видимости в эру AR/XR поиска.
Практические примеры
Сценарий: Оптимизация товара для мультимодального обнаружения (E-commerce)
- Задача: Обеспечить идентификацию продукта (например, модели смартфона) при поиске через AR-очки.
- Действия по оптимизации:
- Загрузка высококачественных изображений смартфона со всех ракурсов на сайт и в Merchant Center.
- Добавление разметки Product Schema с GTIN, брендом, моделью.
- Обеспечение наличия четкой информации о цене и наличии на странице товара.
- Работа системы (по патенту): Пользователь видит смартфон и спрашивает: «Сколько стоит такой?». Устройство использует Reverse Image Search (Контекст), идентифицирует модель по визуальным признакам и данным в индексе. Система извлекает цену из результатов поиска (включая оптимизированную страницу).
- Результат: LLM генерирует ответ: «Эта модель стоит X рублей» и предоставляет ссылку на магазин.
Сценарий 2: Использование истории разговора (Информационный контент)
- Задача: Поддержка диалогового взаимодействия с контентом (например, рецептом).
- Действия по оптимизации: Структурирование рецепта с помощью разметки HowTo или Recipe, четкое выделение шагов и ингредиентов.
- Взаимодействие (по патенту): Пользователь открывает рецепт. Сначала он спрашивает: «Сколько нужно муки?». Система отвечает. Затем пользователь спрашивает: «А какой следующий ингредиент?».
- Работа системы: Система использует History Info (Контекст), чтобы понять, о каком рецепте идет речь и на каком этапе находится пользователь. Она извлекает нужную информацию из структурированного контента.
- Результат: Система точно называет следующий ингредиент, поддерживая диалог.
Вопросы и ответы
Является ли этот патент описанием Google Lens или будущих AR-очков?
Патент описывает базовую технологию мультимодального поиска, которая критически важна для работы систем, подобных Google Lens, и будущих устройств расширенной реальности (XR/AR). Он детализирует, как устройство объединяет ввод с камеры, сенсоров (включая взгляд и жесты) и микрофона для понимания запроса в контексте реального мира. Для SEO это означает, что оптимизация под визуальный и контекстуальный поиск актуальна уже сейчас и ее значение будет расти.
Как этот патент влияет на традиционное SEO, основанное на ключевых словах?
Он указывает на снижение зависимости от точно сформулированных текстовых запросов. В мультимодальной среде пользователи часто используют неоднозначные фразы («Что это?»). Система полагается на контекст (изображение, местоположение) для понимания интента. Это смещает фокус SEO с подбора ключевых слов на оптимизацию сущностей (Entity Optimization) и обеспечение легкого визуального распознавания контента и объектов.
Какова роль LLM в этой системе и что это значит для контент-стратегии?
LLM используются на трех ключевых этапах: понимание запроса (идентификация сущностей), генерация поиска и синтез/ранжирование финального ответа. Для контент-стратегии это означает, что материалы должны быть написаны так, чтобы LLM могли легко их интерпретировать, извлекать факты и суммировать. Авторитетность, четкость и структурированность контента становятся первостепенными для AEO (Answer Engine Optimization).
Что такое «Обратный поиск по изображению» (Reverse Image Search) в контексте этого патента и как под него оптимизироваться?
Это процесс, когда система использует изображение, снятое камерой устройства, для идентификации объекта в реальном мире путем поиска похожих изображений в индексе Google. Чтобы оптимизироваться, необходимо иметь высококачественные, четкие и уникальные изображения ваших продуктов или объектов, сопровождаемые релевантным текстом и разметкой Schema.org. Это помогает Google связать визуальный ввод с конкретной сущностью.
Что такое генерация и ранжирование ответов-кандидатов?
Это механизм обеспечения качества ответов. LLM создает несколько вариантов ответов (кандидатов), используя различные техники сэмплирования. Затем система оценивает их по критериям, таким как релевантность, точность (Accuracy), связность (Coherence) и полнота, и выбирает лучший. Это подчеркивает стремление Google предоставлять достоверные синтезированные ответы.
Как используются данные о взгляде (User Gaze) и жестах?
Эти данные являются частью контекста и используются для разрешения неоднозначности. Если в поле зрения пользователя несколько объектов, система использует данные о том, куда смотрит (User Gaze) или на что указывает (Gesture) пользователь, чтобы определить объект интереса. Это позволяет системе точно интерпретировать запросы типа «Расскажи мне об этой книге» среди нескольких книг на полке.
Влияет ли этот патент на локальный поиск (Local SEO)?
Да, значительно. Мультимодальный поиск позволяет пользователям взаимодействовать с физическими объектами локального бизнеса (зданиями, вывесками). Для локального SEO крайне важно обеспечить соответствие между онлайн-данными (например, в GBP) и визуальным представлением бизнеса в реальном мире, чтобы система могла точно идентифицировать локацию и предоставить релевантную информацию.
Что такое «текстовый дескриптор» (text descriptor), упоминаемый в патенте?
Это текстовое описание объекта, которое система получает после обработки изображения (например, через распознавание объекта или после выполнения обратного поиска по изображению). Например, если пользователь смотрит на собаку, дескриптором может быть «собака породы Х». Этот дескриптор затем используется вместе с исходным запросом для формирования более точного поискового запроса.
Использует ли система историю разговоров и как это влияет на SEO?
Да, патент явно указывает на использование истории разговоров (History Info) как части контекста для понимания последующих запросов (например, «Где я могу это купить?» после вопроса о книге). Для SEO это подчеркивает важность создания контента, который поддерживает сессионное взаимодействие и позволяет пользователю углубляться в тему, так как система может ссылаться на ранее предоставленный контент.
Какие типы бизнеса получат наибольшее преимущество от этой технологии?
Наибольшее преимущество получат бизнесы, связанные с физическим миром: E-commerce с уникальными продуктами, локальный бизнес (магазины, рестораны), а также производители товаров. Для них возможность мгновенной идентификации и предоставления информации об их продуктах или услугах в момент возникновения интереса у пользователя критически важна.