Как Google использует изображения и видео на экране пользователя для уточнения неоднозначных поисковых запросов

Google может анализировать активные нетекстовые данные (изображения или видео), отображаемые на устройстве пользователя в момент ввода запроса. Если запрос неоднозначен (например, содержит местоимения или общие фразы), система извлекает из визуального контента сущности, текст (через OCR) или структурированные данные (QR-коды) и использует их для автоматической модификации запроса, чтобы лучше понять намерение пользователя и предоставить точные результаты или инициировать действия.

Описание

Какую задачу решает

Патент решает проблему обработки неоднозначных (ambiguous) или неполных поисковых запросов, особенно в контексте голосового или «разговорного» поиска (conversational search). Проблема возникает, когда пользователь вводит запрос, который семантически относится к контенту на экране, но не упоминает объект явно (например, видя изображение театра, спрашивает: «Какой у него номер телефона?»). Система улучшает понимание намерения пользователя, используя активный визуальный контекст для разрешения неоднозначности.

Что запатентовано

Запатентована система модификации запросов, которая использует контекст нетекстовых ресурсов (изображений, видео), активных на устройстве пользователя. Если входящий запрос определяется как неоднозначный, система идентифицирует активные нетекстовые данные, извлекает из них данные для модификации (например, сущности, метки, текст через OCR) и генерирует набор модифицированных запросов. Лучший вариант выбирается на основе скоринга и используется для предоставления результатов или выполнения действий.

Как это работает

Система работает следующим образом:

Обнаружение неоднозначности: Система получает запрос и оценивает, является ли он полным. Если запрос неоднозначен (ambiguous query), активируется механизм контекстуальной модификации.
Идентификация контекста: Определяются активные нетекстовые данные (active non-textual data), отображаемые на устройстве (например, выбранное изображение, кадр видео или снимок с камеры).
Извлечение данных: Из нетекстового ресурса извлекаются modification data. Это могут быть связанные сущности (entities), метки (labels), текст, распознанный с помощью OCR, или данные из QR codes/штрих-кодов.
Генерация и скоринг: Создается набор кандидатов модифицированных запросов путем объединения исходного запроса с извлеченными данными. Кандидаты оцениваются (scoring), например, по качеству возвращаемых ими результатов.
Выполнение: Выбирается лучший модифицированный запрос, и система предоставляет релевантные результаты или выполняет действие (например, набор номера, навигация по URL).

Актуальность для SEO

Высокая. С развитием Google Assistant, Google Lens и мультимодального поиска, способность понимать контекст, объединяющий текст/голос и визуальную информацию, является стратегическим приоритетом Google. Этот патент описывает фундаментальные механизмы, лежащие в основе таких технологий, позволяя пользователям взаимодействовать с поиском более естественно.

Важность для SEO

(7.5/10). Патент имеет высокое значение для SEO, особенно в контексте оптимизации визуальных активов (Image/Video SEO) и сущностей. Он демонстрирует, что Google активно использует содержание изображений и видео не только для ранжирования в вертикалях, но и для понимания общего контекста сессии пользователя. Оптимизация изображений и их четкая связь с сущностями критически важны, так как они могут служить источником контекста для уточнения запросов.

Детальный разбор

Термины и определения

Active non-textual data (Активные нетекстовые данные): Изображения или видеокадры, которые отображаются в активной среде приложения (например, в браузере, приложении камеры) на устройстве пользователя в момент ввода запроса. Могут быть явно выбраны пользователем или определены неявно.
Ambiguous Query (Неоднозначный запрос): Запрос, который не является достаточно полным или содержит неоднозначные термины (например, местоимения), требующий контекста для правильной интерпретации.
Contextual Query Modifier (Контекстуальный модификатор запросов): Система, описанная в патенте, которая изменяет запрос на основе контекста нетекстового ресурса.
Entities (Сущности): Идентифицируемые объекты или концепции (люди, места, продукты и т.д.), которые могут быть распознаны в нетекстовом контенте или связаны с ним. Часто связаны с графом знаний (knowledge graph).
Modification Data (Данные модификации): Информация, извлеченная из нетекстового ресурса, используемая для уточнения запроса. Включает текст сущностей (entity text), метки (labels), текст OCR, данные из структурированных кодов.
OCR (Optical Character Recognition): Технология извлечения текста из изображений или видеокадров.
Structured video data (Структурированные видеоданные): Данные, закодированные в изображении или видеокадре в определенном формате, например, QR codes или штрих-коды (bar codes).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод модификации запроса на основе визуального контекста.

Система получает запрос от пользовательского устройства, на котором отображаются активные нетекстовые данные.
Система определяет, что (А) запрос является неоднозначным (ambiguous query) И (Б) устройство отображает эти нетекстовые данные.
В ответ на это система идентифицирует активные нетекстовые данные.
Система автоматически определяет modification data из каждого активного нетекстового элемента.
Система автоматически генерирует набор модифицированных запросов на основе исходного запроса и данных модификации.
Система автоматически оценивает (scoring) модифицированные запросы.
Система автоматически выбирает один из модифицированных запросов на основе оценки.
Система предоставляет результаты поиска, релевантные выбранному запросу.

Ядро изобретения — это автоматическое уточнение неоднозначного запроса путем анализа визуального контента, активного на экране пользователя в момент запроса.

Claim 3 (Зависимый): Уточняет, что активные нетекстовые данные могут быть изображениями, которые были выбраны (selected) пользователем в приложении.

Claim 4 и 6 (Зависимые): Детализируют типы данных модификации. Claim 4 указывает на использование меток (labels), описывающих предмет изображения. Claim 6 указывает на использование текста сущностей (entity text), описывающего сущности на изображении.

Claim 7 (Зависимый): Описывает способ генерации модифицированного запроса путем изменения терминов исходного запроса на основе текста сущности (например, замена местоимения на имя сущности).

Claim 8 (Зависимый): Описывает альтернативный способ генерации: поиск в логах (query log) похожих запросов, которые содержат текст исходного запроса и текст сущности, и выбор тех, что превышают порог сходства.

Claim 10 и 13 (Зависимые): Описывают методы извлечения данных из видеокадров. Claim 10 описывает декодирование структурированных данных (structured video data), таких как QR codes. Claim 13 описывает выполнение оптического распознавания символов (OCR) для получения текста.

Где и как применяется

Изобретение применяется на стыке нескольких этапов поиска, преимущественно связанных с пониманием запроса и инициированием поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе система предварительно обрабатывает нетекстовые ресурсы. Это включает:

Извлечение меток (labels) из подписей, метаданных.
Визуальный анализ (цвет, текстура, формы) для распознавания объектов.
Ассоциация ресурсов с сущностями (Entities).
Предварительная индексация текста, извлеченного через OCR, и структурированных данных.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Contextual Query Modifier работает здесь в реальном времени:

Оценка запроса: Анализ входящего запроса на предмет неоднозначности (ambiguity).
Обработка контекста: Если запрос неоднозначен, система получает данные об активном визуальном контексте с устройства пользователя.
Извлечение признаков контекста: Система извлекает modification data. Это может включать запрос к индексу или обработку «на лету» (OCR, распознавание QR), если ресурс новый (например, фото с камеры).
Переписывание запроса: Генерация вариантов запросов и выбор лучшего с помощью Candidate Scorer.

RANKING – Ранжирование
На этом этапе выполняется поиск по итоговому модифицированному запросу. Также результаты этого поиска могут использоваться на этапе QUNDERSTANDING для оценки качества сгенерированных кандидатов (Claim 17).

Входные данные:

Исходный запрос.
Данные об активном нетекстовом ресурсе (URL или сам файл изображения/видеокадра).
Данные из индекса о ресурсе (метки, сущности).
Логи запросов (Query Logs).

Выходные данные:

Выбранный модифицированный запрос.
Результаты поиска для модифицированного запроса или инструкция для выполнения действия на устройстве.

На что влияет

Специфические запросы: Наибольшее влияние на «разговорные» (conversational), голосовые и мультимодальные запросы (например, в Google Assistant, Google Lens). Влияет на запросы с местоимениями («кто это?») или неполные запросы («позвонить»).
Конкретные типы контента: Влияет на видимость контента, который богат визуальной информацией, четко ассоциированной с сущностями (продукты, локации, персоны).

Когда применяется

Триггеры активации: Система активируется при двух условиях (согласно Claim 1):
1. Входящий запрос классифицирован как неоднозначный (ambiguous query).
2. На устройстве пользователя отображаются активные нетекстовые данные (active non-textual data).
Условия работы: Алгоритм применяется, только если возможно извлечь релевантные modification data (сущности, текст) из визуального контекста. Если визуальный контекст не содержит полезной информации (нет OCR текста, нет распознанных сущностей), запрос обрабатывается без модификации.

Пошаговый алгоритм

Основной процесс обработки запроса

Получение запроса и контекста: Система получает запрос и определяет активные нетекстовые данные (изображение или видеокадр) на устройстве.
Оценка необходимости модификации: Система проверяет, является ли запрос неоднозначным или неполным. Если нет, запрос обрабатывается стандартно.
Извлечение данных модификации: Если модификация требуется, система анализирует нетекстовые данные для извлечения контекста:
1. Проверка структурированных данных: Поиск и декодирование QR codes или штрих-кодов.
2. Выполнение OCR: Распознавание текста на изображении/кадре.
3. Идентификация сущностей и меток: Определение известных сущностей (entities) или меток (labels), связанных с ресурсом (используя индекс или визуальное распознавание).
Фильтрация данных: Если данные не найдены, запрос обрабатывается стандартно (или анализируется следующий кадр видео).
Генерация кандидатов: Создание набора модифицированных запросов. Способы включают конкатенацию, замену терминов (например, местоимений на сущности) или поиск похожих запросов в логах.
Скоринг и выбор: Оценка каждого кандидата. Критерии могут включать качество и релевантность результатов поиска, которые возвращает кандидат, или вероятность инициирования специального действия (action query).
Выполнение: Выбор запроса с наивысшей оценкой и предоставление результатов поиска или выполнение действия на устройстве.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании нетекстовых данных как источника контекста.

Мультимедиа факторы (Ключевые):
- Изображения и видеокадры (video frames).
- Визуальные признаки: цвет, текстура, формы (упоминаются как local descriptors). Используются для визуального поиска и распознавания объектов.
- Структурированные данные в изображении: QR codes, штрих-коды (structured video data).
Контентные факторы (Связанные с мультимедиа):
- Текст, извлеченный из изображения с помощью OCR.
- Метки (labels), связанные с изображением (из подписей captions, окружающего текста).
- Метаданные изображения/видео.
Структурные/Семантические факторы:
- Сущности (Entities), ассоциированные с изображением или извлеченные из OCR-текста.
Поведенческие факторы:
- Логи запросов (Query Logs) используются для генерации кандидатов путем поиска похожих предыдущих запросов, которые соответствуют комбинации исходного запроса и извлеченных данных.
Пользовательские факторы:
- Активное состояние приложения (application context) на устройстве.
- Действия пользователя (например, выбор изображения на экране).

Какие метрики используются и как они считаются

Патент описывает критерии и метрики, используемые для оценки модифицированных запросов:

Метрики качества результатов поиска: Оценка модифицированного запроса может базироваться на quality scores ресурсов, которые он возвращает. Запрос, возвращающий высококачественные ресурсы, оценивается выше.
Метрики релевантности результатов: Использование relevance scores. Высокая релевантность результатов сигнализирует, что модифицированный запрос хорошо сформирован (well formed query).
Триггеры специальных действий: Метрика, учитывающая, инициирует ли модифицированный запрос специальную операцию (например, является ли он question query или action query). Такие запросы могут получать повышение (boost) в оценке.
Similarity Measure (Мера сходства): Используется для сравнения визуальных признаков изображений и для сравнения запросов с записями в Query Logs. Используются пороговые значения (threshold similarity value) для отбора кандидатов.

Выводы

Визуальный контекст как источник интента: Google активно использует то, что отображается на экране пользователя (или попадает в камеру), для понимания его намерений, когда текстовый или голосовой запрос неоднозначен. Это фундаментальный механизм для мультимодального и разговорного поиска.
Многофакторный анализ изображений: Система применяет комплексный подход к анализу нетекстовых данных. Она не полагается только на метаданные, но активно использует OCR для чтения текста на изображениях, распознает структурированные данные (QR codes) и идентифицирует сущности с помощью визуального анализа.
Приоритет сущностей (Entities): Извлечение сущностей из визуального контекста является центральным элементом. Система стремится преобразовать визуальную информацию в известные ей сущности (продукты, места) для формирования точного запроса.
Гибкость в переписывании запросов: Патент описывает несколько методов генерации модифицированных запросов: от простого добавления термина до замены местоимений на сущности или использования query logs для поиска наиболее удачных формулировок.
Ориентация на действия и ответы: При оценке модифицированных запросов система предпочитает те, которые ведут к конкретным действиям (action query) или прямым ответам (question query), что улучшает пользовательский опыт.

Практика

Best practices (это мы делаем)

Оптимизация изображений для распознавания сущностей: Используйте высококачественные, четкие изображения ключевых сущностей (продуктов, логотипов, людей). Убедитесь, что визуальные элементы легко распознаются системами машинного зрения.
Усиление связи «Изображение-Сущность»: Необходимо обеспечить, чтобы Google четко ассоциировал ваши визуальные активы с правильными сущностями. Используйте релевантные подписи (captions), alt-тексты и окружающий текст. Микроразметка (например, Schema.org) также помогает укрепить эти связи.
Оптимизация под OCR: Если вы используете текст на изображениях (инфографика, баннеры, фото витрин), убедитесь, что он легко читается системами OCR (контрастные цвета, читаемые шрифты). Это позволит Google извлечь текст и использовать его как контекст.
Использование структурированных данных в визуале (QR-коды): В релевантных случаях (например, на упаковке, в видеоинструкциях) используйте QR codes. Патент явно указывает на способность системы считывать их и использовать для модификации запросов или инициирования действий.
Оптимизация под локальный поиск: Для локального бизнеса убедитесь, что на фотографиях вашего офиса или магазина четко видны название или контактная информация. Система может использовать OCR или распознавание логотипа для извлечения этих данных и ответа на запросы типа «как туда добраться».

Worst practices (это делать не надо)

Использование абстрактных или вводящих в заблуждение изображений: Применение стоковых фотографий, которые слабо связаны с содержанием страницы, снижает вероятность того, что они предоставят полезный контекст для модификации запроса.
Скрытие важной информации в нечитаемом тексте на изображениях: Использование мелких, неконтрастных или сложных шрифтов для контактной информации или названий продуктов на изображениях помешает работе OCR и не позволит системе извлечь контекст.
Игнорирование оптимизации визуальных активов: Рассмотрение изображений только как элементов дизайна, а не как источника семантической информации.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на развитие мультимодального поиска (как MUM), где границы между текстом, голосом и визуальной информацией стираются. Для SEO это означает переход от оптимизации страниц к оптимизации сущностей и их представлений во всех форматах. Долгосрочная стратегия должна включать создание сильной базы визуальных активов, которые точно представляют бренд и продукты, и обеспечение их максимальной понятности для систем машинного зрения Google.

Практические примеры

Сценарий 1: Оптимизация карточки товара в E-commerce

Действие: Размещение на странице товара качественных фотографий продукта, на одной из которых четко виден логотип бренда и название модели (возможно, на упаковке).
Механизм (по патенту): Пользователь открывает страницу, видит фото и спрашивает Google Assistant: «Сколько стоит этот продукт?». Система определяет неоднозначность («этот продукт»). Она анализирует активное изображение, использует визуальное распознавание и/или OCR для идентификации сущности (Бренд + Модель).
Результат: Система модифицирует запрос до «Сколько стоит [Бренд Модель]?» и предоставляет пользователю релевантный ответ.

Сценарий 2: Использование OCR для локального SEO

Действие: Публикация в Google Business Profile качественной фотографии витрины ресторана, где четко видно название и часы работы.
Механизм (по патенту): Пользователь видит эту фотографию в поиске по картинкам и спрашивает: «Он сейчас открыт?». Система анализирует фото, применяет OCR к табличке с часами работы и извлекает название ресторана.
Результат: Система модифицирует запрос, связывая его с сущностью ресторана, и дает точный ответ о статусе работы, используя данные из профиля компании.

Вопросы и ответы

Что такое «активные нетекстовые данные» в контексте этого патента?

Это изображения или видео, которые отображаются на экране устройства пользователя в момент ввода запроса. Это может быть изображение, на которое пользователь только что нажал, видео, которое воспроизводится, или даже живое изображение с камеры устройства (как в Google Lens). Система использует этот визуальный контент как контекст для понимания запроса.

В каких случаях Google будет применять этот механизм модификации запросов?

Механизм активируется только тогда, когда выполняются два условия: во-первых, пользователь ввел неоднозначный запрос (например, содержащий местоимения типа «он», «этот» или общие команды типа «позвонить»); во-вторых, на экране есть релевантный визуальный контекст, из которого можно извлечь уточняющую информацию. Для полных и ясных запросов этот механизм не используется.

Какие технологии Google использует для извлечения информации из изображений согласно патенту?

Патент описывает несколько методов. Ключевые из них: распознавание сущностей (Entities) и меток (Labels) с помощью визуального анализа или анализа связанных данных (подписи, метаданные); оптическое распознавание символов (OCR) для чтения текста на изображении; и распознавание структурированных данных, таких как QR codes и штрих-коды.

Как это влияет на оптимизацию изображений (Image SEO)?

Это значительно повышает важность Image SEO. Изображения теперь не просто ранжируются в поиске по картинкам, но и служат источником семантического контекста для всей поисковой сессии. Необходимо оптимизировать изображения так, чтобы Google мог легко распознать изображенные на них сущности и прочитать любой важный текст.

Стоит ли добавлять текст на изображения, чтобы помочь Google понять контекст?

Да, если это уместно. Патент подтверждает активное использование OCR. Если на изображении есть текст (например, название продукта, адрес на фото магазина, ключевые пункты инфографики), он должен быть четким и читаемым. Это позволит Google извлечь его и использовать для уточнения запросов пользователя, просматривающего этот контент.

Как система определяет, какой из вариантов модифицированного запроса лучше?

Система генерирует несколько кандидатов и оценивает их. Оценка может основываться на качестве и релевантности результатов поиска, которые возвращает каждый кандидат. Также предпочтение отдается запросам, которые инициируют конкретные действия (например, ответ на вопрос, звонок, навигация), так как они считаются более «хорошо сформированными».

Как этот патент связан с Google Lens или Google Assistant?

Этот патент описывает базовую технологию, которая лежит в основе работы Google Lens и мультимодальных возможностей Google Assistant. Он объясняет, как эти сервисы могут анализировать изображение (с камеры или экрана) и одновременно обрабатывать голосовой запрос пользователя, объединяя эти два источника информации для понимания сложного намерения.

Что важнее для этой системы: метаданные изображения (alt, title) или его реальное содержание?

Патент делает сильный акцент на анализе реального содержания: визуальные признаки, OCR и распознавание QR codes. Хотя метаданные и подписи (упоминаются как источник «меток») также используются для понимания контекста, способность системы анализировать пиксели напрямую снижает зависимость от текстовых атрибутов, которые могут быть неточными.

Как использовать этот патент для улучшения позиций в E-commerce?

Убедитесь, что изображения ваших продуктов четкие, а ключевая информация (бренд, модель) визуально различима или читаема через OCR. Это поможет системе правильно идентифицировать продукт, когда пользователь задает контекстные вопросы о нем (например, «найти отзывы на это», «сравнить цены»), что повышает шансы на конверсию и видимость в поиске.

Может ли система использовать логи запросов для улучшения модификации?

Да. Патент описывает метод, при котором система ищет в исторических query logs запросы, которые содержат комбинацию исходного неоднозначного запроса и сущности, извлеченной из изображения. Если такая комбинация часто встречалась ранее, система может использовать эту популярную формулировку в качестве модифицированного запроса.