Как Google использует камеру, микрофон и GPS смартфона для понимания контекстуальных запросов типа «Что это?»

Google использует данные с датчиков мобильного устройства (камера, микрофон, GPS) для понимания неоднозначных запросов пользователя, таких как «Что я вижу?» или «Что это за песня?». Система распознает объекты или звуки в окружении пользователя и использует эту информацию для преобразования контекстуального вопроса в конкретный поисковый запрос, обеспечивая релевантные результаты на основе реального мира.

Описание

Какую задачу решает

Патент решает проблему обработки неоднозначных или неполных поисковых запросов, поступающих с мобильных устройств, когда пользователь хочет получить информацию об объектах в своем непосредственном окружении. Традиционные системы поиска требуют четких текстовых запросов. Изобретение позволяет пользователям задавать контекстуальные вопросы (например, «Что это?», «Расскажи мне об этом здании», «Что за песня играет?») и получать точные ответы, устраняя необходимость ручной идентификации объекта пользователем.

Что запатентовано

Запатентована система, которая устраняет неоднозначность поисковых запросов (Query Disambiguation) путем анализа контекста пользователя, полученного с датчиков мобильного устройства (Sensor Data). Если запрос содержит неоднозначные термины или местоимения (pronoun), система анализирует сопутствующие данные (изображение, аудиозапись, GPS). Система выполняет распознавание (Recognition Process) этих данных для идентификации конкретных объектов, мест или звуков и использует их для преобразования исходного неоднозначного запроса в конкретный поисковый запрос.

Как это работает

Механизм работает следующим образом:

Получение ввода: Мобильное устройство отправляет на сервер запрос (текстовый или голосовой) и сопутствующие Sensor Data (изображение, аудио, местоположение).
Анализ запроса: Система определяет наличие неоднозначных терминов.
Распознавание контекста: Query Disambiguation Module выполняет процессы распознавания (например, визуальное распознавание объектов, аудио-фингерпринтинг) на Sensor Data.
Устранение неоднозначности: Идентифицированный объект связывается с неоднозначным термином в запросе (например, «этот автомобиль» превращается в «[Идентифицированная Марка/Модель]»).
Выполнение: Система определяет результат. Если запрос был на идентификацию («Что это?»), результатом является сам распознанный объект. Если запрос был на получение информации («Отзывы об этом»), система формирует второй, уточненный запрос и выполняет поиск по нему.

Актуальность для SEO

Критически высокая. Этот патент описывает базовую технологию, лежащую в основе современных функций мультимодального поиска, таких как Google Lens, Circle to Search и контекстуальный голосовой поиск. Патент также упоминает применение в носимых устройствах (wearable computing device), что остается актуальным направлением развития поисковых интерфейсов.

Важность для SEO

Влияние на традиционное SEO (ранжирование веб-страниц) минимальное, так как патент фокусируется на понимании запроса (Query Understanding). Однако он имеет высокое стратегическое значение для понимания эволюции поиска в сторону мультимодальности. Он подчеркивает критическую важность оптимизации сущностей (продуктов, локаций, брендов) для визуального и аудиального распознавания. Для SEO-специалистов это означает смещение фокуса на обеспечение того, чтобы их контент и продукты были легко идентифицируемыми системами машинного зрения и слуха.

Детальный разбор

Термины и определения

Ambiguous Query Term (Неоднозначный термин запроса): Слово или фраза в запросе, которые не имеют конкретного референта без дополнительного контекста. В патенте особо выделяются местоимения (pronoun), такие как «этот», «тот», «он».
Image Signature / Audio Signature (Сигнатура изображения / Аудиосигнатура): Цифровые отпечатки или наборы признаков, извлеченные из изображения или аудиофайла. Используются для эффективного сравнения входящих сенсорных данных с базой данных известных объектов или звуков.
Incomplete Search Query (Неполный поисковый запрос): Запрос, который не может быть эффективно обработан из-за наличия Ambiguous Query Terms.
Mobile Computing Device (Мобильное вычислительное устройство): Устройство пользователя (смартфон, планшет, носимое устройство типа очков), оснащенное датчиками (камера, микрофон, GPS).
Query Disambiguation Module (Модуль устранения неоднозначности запросов): Компонент на стороне сервера, который анализирует Sensor Data и использует результаты распознавания для уточнения Ambiguous Query Terms.
Recognition Process (Процесс распознавания): Анализ сенсорных данных для идентификации конкретных элементов. Включает распознавание изображений, аудио и определение локации.
Sensor Data (Сенсорные данные): Данные, захваченные датчиками мобильного устройства, описывающие контекст пользователя. Включают Image Data (фото, видео), Audio Data (звук, музыка) и Location Data (GPS).

Ключевые утверждения (Анализ Claims)

Claim 1, 11, 21 (Независимые пункты): Описывают основной метод, программное обеспечение и систему для обработки поискового запроса.

Система получает первый поисковый запрос от мобильного устройства. Этот запрос характеризуется как «неполный» (incomplete search query) из-за наличия «неоднозначных терминов» (ambiguous query terms), которые включают «местоимение» (pronoun).
Система получает Sensor Data, захваченные датчиком устройства.
Выполняется Recognition Process на Sensor Data для идентификации как минимум одного элемента.
Этот идентифицированный элемент используется для «завершения» первого запроса путем «разрешения местоимения» (resolving the pronoun).
Система принимает решение о дальнейших действиях:

Сценарий A (Идентификация): Если завершенный запрос является запросом на идентификацию элемента (например, «Что это?»), система передает данные, идентифицирующие этот элемент, в качестве ответа.
Сценарий B (Поиск информации): Если завершенный запрос НЕ является запросом на идентификацию (например, «Расскажи мне об этом»), система передает результаты поиска по второму поисковому запросу (second search query), связанному с этим элементом.

Claim 3 (Зависимый): Уточняет Сценарий B. Если первый запрос запрашивает информацию, система создает второй поисковый запрос на основе идентифицированного элемента.

Claim 4 (Зависимый): Уточняет обработку голосовых запросов. Выполняется распознавание речи для идентификации неоднозначных терминов, которые затем заменяются идентифицированным элементом при создании второго запроса.

Claims 5, 6, 7 (Зависимые): Определяют типы используемых сенсорных данных: Image data и Image signature (Claim 5), Audio data и Audio signature (Claim 6), Location data (Claim 7).

Где и как применяется

Это изобретение является ключевым компонентом систем понимания запросов при работе с мультимодальным вводом.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система должна интерпретировать ввод, состоящий из явного запроса (текст/голос) и неявного контекста (сенсорные данные).

Мультимодальная обработка: Система получает и синхронизирует запрос и Sensor Data.
Анализ неоднозначности: Запрос анализируется на наличие Ambiguous Query Terms или местоимений.
Распознавание контекста: Запускаются процессы распознавания (визуального, аудио, геолокационного) для идентификации сущностей в Sensor Data.
Разрешение референций (Disambiguation): Идентифицированные сущности связываются с неоднозначными терминами. Это может включать анализ предыдущих запросов в сессии для разрешения местоимений.
Формулирование запроса (Query Formulation): Система решает, является ли целью идентификация или поиск информации, и при необходимости формулирует второй, уточненный запрос.

INDEXING – Индексирование и извлечение признаков
Система полагается на индексы, содержащие Image Signatures и Audio Signatures, а также данные Knowledge Graph для идентификации сущностей.

RANKING – Ранжирование
На этом этапе выполняется стандартное ранжирование для второго, уточненного запроса (Сценарий B).

Входные данные:

Первый (неоднозначный) поисковый запрос (текст или аудио).
Sensor Data (изображения, видеопоток, аудиосэмплы, данные GPS).
Данные о сессии пользователя (для контекстуального разрешения местоимений).

Выходные данные:

Идентификация распознанного элемента (Сценарий A).
ИЛИ: Результаты поиска по второму, уточненному запросу (Сценарий B).

На что влияет

Типы контента и ниши: Влияет на видимость контента, связанного с реальными объектами: товары (E-commerce), локальные страницы (места, здания), медиа (музыка, искусство).
Специфические запросы: Напрямую влияет на обработку информационных и коммерческих запросов, инициированных из реального мира (поиск товара по фото, запрос информации о достопримечательности).
Устройства: Наибольшее влияние на поиск с мобильных устройств и носимых компьютеров (например, умные очки).

Когда применяется

Триггеры активации: Наличие неоднозначного запроса (часто содержащего местоимения) в сочетании с доступными сенсорными данными (активная камера или микрофон во время запроса).
Условия работы: Система должна быть способна успешно выполнить Recognition Process. Если распознавание не удалось, механизм не сработает.
Временные рамки: Сенсорные данные должны быть захвачены примерно в то же время, что и запрос. Патент также описывает возможность использования контекста предыдущих запросов, если новый запрос подан в течение определенного порогового времени.

Пошаговый алгоритм

Процесс обработки мультимодального запроса

Получение ввода (Клиент): Мобильное устройство получает запрос от пользователя и захватывает сопутствующие Sensor Data. Данные передаются на сервер.
Прием данных (Сервер): Сервер получает запрос и Sensor Data.
Анализ запроса на неоднозначность: Система определяет, содержит ли запрос Ambiguous Query Terms.
Инициация распознавания: Если запрос неоднозначен, запускается Recognition Process на соответствующих Sensor Data. Например, если запрос «Что я слушаю?», анализируется аудио.
Идентификация элементов: Система пытается идентифицировать объекты, песни, места путем сравнения сигнатур (image/audio signatures) с базой данных.
Проверка распознавания: Определяется, было ли распознавание успешным (Positive Recognition).
- Если НЕТ: Поиск не выполняется или возвращается ошибка.
- Если ДА: Переход к шагу 7.
Ассоциация и разрешение: Распознанные элементы ассоциируются с неоднозначными терминами в запросе, разрешая местоимения.
Определение типа ответа: Система анализирует завершенный запрос.

Сценарий А: Если запрос на идентификацию, результатом является идентифицированный элемент.
Сценарий Б: Если запрос на информацию, система генерирует второй, уточненный поисковый запрос.

Выполнение поиска: Выполняется поиск по уточненному запросу (Сценарий Б).
Предоставление результатов: Результаты (идентификация или результаты поиска) отправляются на устройство пользователя.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных, описывающих контекст пользователя в реальном мире, для уточнения запроса.

Мультимедиа факторы (Sensor Data):
- Image Data: Цифровые изображения (фото, видеокадры, прямой эфир), захваченные камерой. Используются для визуального распознавания объектов, людей, мест.
- Audio Data: Аудиосэмплы, захваченные микрофоном. Используются для распознавания музыки, речи, известных звуковых сигнатур.
Географические факторы (Sensor Data):
- Location Data: Данные о местоположении устройства (GPS, триангуляция вышек). Используются для ограничения области поиска и идентификации локальных объектов.
Пользовательские факторы:
- User Query: Исходный запрос пользователя (текст, аудио).
- История сессии: Предыдущие запросы и результаты могут использоваться для разрешения местоимений в последующих запросах (контекстуальный поиск).

Какие метрики используются и как они считаются

Патент не детализирует конкретные алгоритмы ранжирования, но описывает следующие ключевые элементы обработки данных:

Image Signatures и Audio Signatures: Цифровые представления медиаданных. Генерируются из Sensor Data и используются для сопоставления с базой данных известных объектов/звуков.
Speech Recognition (Распознавание речи): Используется для преобразования голосовых запросов в текст и идентификации Ambiguous Query Terms.
Positive Recognition (Успешное распознавание): Пороговое значение уверенности, при котором система считает, что объект в Sensor Data был успешно идентифицирован.
Временные пороги: Используются для определения того, следует ли учитывать предыдущие запросы при разрешении неоднозначности текущего запроса.

Выводы

Мультимодальный поиск как основной способ ввода: Патент подтверждает, что Google рассматривает данные с датчиков (камера, микрофон) как равноправный способ ввода поискового запроса. Это не просто поиск по картинке, а использование картинки (или звука) для понимания намерения пользователя.
Контекст реального мира для устранения неоднозначности: Ключевым механизмом является использование окружения пользователя (визуального, звукового, географического) для разрешения неоднозначных терминов, особенно местоимений.
Два типа ответов: Идентификация vs. Информация: Система четко разделяет запросы на идентификацию (где результатом является сам распознанный объект) и запросы на получение информации (где распознанный объект используется для запуска нового, уточненного поиска).
Важность распознавания сущностей (Entity Recognition): Успех этого метода напрямую зависит от способности Google распознавать сущности реального мира (продукты, места, искусство, музыку). Для SEO это означает, что оптимизация визуального представления сущностей становится фактором их обнаружения.
Последовательный контекстуальный поиск: Система может использовать результаты предыдущего поиска для интерпретации последующих запросов (например, разрешение местоимения «он» на основе сущности из предыдущего ответа), что указывает на важность поддержания контекста в рамках сессии.

Практика

Best practices (это мы делаем)

Хотя патент описывает механизмы понимания запросов, а не ранжирования, он дает важные инсайты для стратегий, направленных на повышение видимости в эпоху мультимодального поиска (Google Lens, Circle to Search).

Оптимизация изображений для машинного зрения: Обеспечьте наличие высококачественных, четких и не загроможденных изображений продуктов, логотипов и ключевых объектов на сайте. Системы визуального распознавания (Recognition Process) должны легко идентифицировать объект по этим изображениям, чтобы сформировать правильную Image Signature.
Использование структурированных данных (Schema.org): Размечайте сущности (Product, Place, LocalBusiness). Это помогает поисковой системе связать визуально распознанный объект с конкретной сущностью в Knowledge Graph, что критично для формирования точного второго запроса (second search query).
Усиление связи Сущность-Изображение: Убедитесь, что изображения на вашем сайте семантически связаны с описываемыми сущностями (используя alt-текст, подписи, окружающий текст). Это укрепляет ассоциацию между визуальным представлением и сущностью.
Оптимизация для локального поиска: Для физического бизнеса критически важно иметь точные данные и качественные фотографии в Google Business Profile. Патент использует Location Data и Image Data для идентификации мест. Хорошо оптимизированный профиль увеличивает вероятность правильной идентификации при контекстуальных запросах.

Worst practices (это делать не надо)

Использование стоковых или нерелевантных изображений: Использование изображений, которые плохо представляют ваш продукт или услугу, снижает вероятность их правильной идентификации системами визуального поиска.
Блокировка важных изображений от индексации: Если изображения, критичные для идентификации продукта или бренда, закрыты от индексации, Google не сможет использовать их для обучения своих моделей распознавания и идентификации.
Игнорирование мультимодального поиска: Рассматривать поиск только как текстовый ввод. Стратегии, не учитывающие визуальный и голосовой поиск, будут терять трафик от пользователей, взаимодействующих с поиском через камеры и микрофоны.

Стратегическое значение

Этот патент имеет высокое стратегическое значение, так как описывает фундамент для перехода от «поиска по ключевым словам» к «поиску по контексту реального мира». Он показывает, как Google стирает грань между онлайн и офлайн мирами. Для SEO это означает, что оптимизация должна выходить за рамки веб-страницы и включать в себя то, как сущности (бренды, продукты) представлены визуально и как они связаны в Knowledge Graph. Видимость зависит от способности быть распознанным мультимодальными системами.

Практические примеры

Сценарий 1: Оптимизация карточки товара для визуального распознавания (E-commerce)

Ситуация: Пользователь видит кроссовки на улице и спрашивает у Google Assistant (используя камеру): «Сколько стоят эти кроссовки?».
Работа механизма (по патенту):
- Запрос содержит неоднозначный термин «эти кроссовки».
- Система использует Image Data с камеры (Sensor Data).
- Recognition Process идентифицирует модель (например, Nike Air Max 270).
- Система формирует второй запрос: «Сколько стоит Nike Air Max 270».
Действия SEO-специалиста:
- Разместить на карточке товара четкие фотографии модели с разных ракурсов.
- Использовать микроразметку Product, указав gtin, brand и ссылки на изображения (image).
Результат: Google успешно идентифицирует модель и показывает результаты поиска, где оптимизированная карточка товара имеет высокие шансы на ранжирование.

Сценарий 2: Локальный поиск (Идентификация)

Ситуация: Турист направляет камеру на здание и спрашивает: «Что это за здание?».
Работа механизма (по патенту): Система получает запрос, Image Data и Location Data. Используя комбинацию данных, система идентифицирует здание (например, «Эмпайр-стейт-билдинг»). Поскольку запрос был на идентификацию (Сценарий А), система возвращает название объекта.
Действия SEO-специалиста (для локального бизнеса): Обеспечить наличие качественных фотографий фасада в Google Business Profile и точные координаты для облегчения идентификации.

Вопросы и ответы

Описывает ли этот патент технологию Google Lens?

Да, этот патент описывает фундаментальные принципы, лежащие в основе Google Lens, Circle to Search и других систем мультимодального поиска. Он объясняет, как система использует ввод с камеры (или других датчиков) для понимания контекста запроса пользователя о реальном мире и преобразования его в конкретный поисковый запрос.

Как этот патент влияет на традиционное SEO и ранжирование сайтов?

Напрямую на алгоритмы ранжирования веб-страниц этот патент не влияет. Он относится к этапу понимания запроса (Query Understanding). Однако он определяет, какой именно запрос будет отправлен в систему ранжирования. Если ваш продукт не распознан или распознан неверно при визуальном поиске, уточненный запрос не будет соответствовать вашему контенту, и вы не получите трафик.

Что нужно делать SEO-специалисту, чтобы оптимизировать сайт под этот механизм?

Ключевая задача — оптимизация для распознавания сущностей. Необходимо использовать высококачественные, четкие изображения продуктов и логотипов, внедрять структурированные данные (Schema.org) для связи изображений с конкретными сущностями, и обеспечивать сильное присутствие сущности в Knowledge Graph. Это помогает системам машинного зрения правильно идентифицировать объект.

Использует ли система только изображение для устранения неоднозначности?

Нет. Патент явно указывает на использование различных типов Sensor Data, включая Image Data (изображения), Audio Data (звук, музыка) и Location Data (местоположение). Система выбирает подходящий тип данных в зависимости от контекста запроса (например, анализирует аудио для запроса «Что я слушаю?»).

Что происходит, если система не может распознать объект на фото или в аудио?

Если Recognition Process завершается неудачей (No Positive Recognition), система не сможет устранить неоднозначность запроса. В этом случае поиск либо не будет выполнен, либо пользователю будут предоставлены общие или нерелевантные результаты по исходному неоднозначному запросу.

Как система понимает, к чему относится местоимение «этот» или «он»?

Система связывает местоимение с объектом, идентифицированным в Sensor Data, захваченных одновременно с запросом (например, объект в центре кадра). Кроме того, патент упоминает возможность использования контекста предыдущих запросов: «он» может относиться к сущности, которая была результатом предыдущего поиска, если новый запрос сделан в течение короткого времени.

В чем разница между этим патентом и обычным поиском по картинке?

Обычный поиск по картинке принимает изображение как запрос и ищет похожие изображения. Этот патент описывает мультимодальный ввод: он принимает и запрос (текст/голос), и изображение (или аудио), и использует изображение для уточнения текстового запроса, а не как сам запрос.

Какое значение этот патент имеет для локального SEO?

Он имеет значительное влияние. Комбинация Image Data (фото фасада) и Location Data позволяет пользователям легко идентифицировать местные бизнесы и запрашивать информацию о них (часы работы, отзывы), не зная их названия. Это подчеркивает важность качественных и актуальных фотографий в профиле Google Business Profile.

Что такое Image Signature и Audio Signature?

Это цифровые отпечатки или наборы уникальных признаков, извлеченные из изображения или аудиофайла соответственно. Они используются системой для эффективного сравнения входящих сенсорных данных с базой данных известных объектов. SEO-специалист влияет на них косвенно, предоставляя качественный исходный материал (изображения, медиа).

Как этот патент связан с Entity SEO?

Связь очень тесная. Чтобы система могла распознать объект в реальном мире, этот объект должен существовать как Сущность (Entity) в базе знаний Google (Knowledge Graph) и иметь связанные с ним визуальные или аудио атрибуты. Усиление присутствия вашей Сущности в Knowledge Graph повышает эффективность работы описанного механизма для ваших продуктов или бренда.