Как Google использует контент на экране пользователя для понимания и переписывания неоднозначных запросов

Google использует механизм для понимания неоднозначных запросов (например, «Что это?»), анализируя то, что пользователь видит на экране своего устройства. Система определяет основное изображение, распознает объекты на нем и анализирует окружающий текст. Затем, используя эту информацию и историю поиска пользователя, она переписывает исходный запрос в конкретный поисковый запрос.

Описание

Какую задачу решает

Патент решает проблему обработки контекстуально неоднозначных запросов, особенно голосовых (например, «Что это?», «Где это было снято?»), которые не содержат прямых ссылок на объект интереса. Система улучшает понимание таких запросов, используя визуальный контекст — то, что отображается на экране устройства пользователя в момент запроса, — для disambiguation (устранения неоднозначности) и формирования точного поискового запроса.

Что запатентовано

Запатентована система для контекстуального устранения неоднозначности запросов путем анализа графического интерфейса (graphical interface) устройства пользователя. Система идентифицирует изображение, которое с наибольшей вероятностью является объектом интереса, используя image confidence score. Затем она извлекает контекстуальные метки (labels) с помощью распознавания изображений (image recognition) и текста (text recognition). Эти метки оцениваются с учетом истории пользователя и используются для переписывания исходного неоднозначного запроса в конкретный поисковый запрос.

Как это работает

Система работает следующим образом:

Получение данных: Система получает снимок экрана и транскрипцию неоднозначного запроса пользователя.
Идентификация основного изображения: Анализируются все изображения на экране. Для каждого вычисляется image confidence score, основанный на количестве распознанных сущностей (number of entities) и размере изображения. Выбирается изображение с наивысшим баллом.
Извлечение контекста (Labels): Выполняется image recognition на выбранном изображении и text recognition (OCR) на остальной части экрана для генерации меток.
Оценка меток и Персонализация: Для каждой метки вычисляется label confidence score. Эта оценка основывается на сравнении метки с прошлыми запросами пользователя (past queries).
Генерация запроса: Система выбирает лучшие метки и использует их для переписывания исходной транскрипции (например, «Что это?» превращается в «Что такое Эйфелева башня?»).

Актуальность для SEO

Высокая. С развитием мультимодального поиска (Google Lens, Circle to Search) и голосовых ассистентов, способность Google понимать контекст на основе визуальной информации становится критически важной. Этот патент описывает базовый механизм того, как визуальный контекст и персонализация используются для понимания запроса, что является фундаментальным аспектом современных поисковых технологий.

Важность для SEO

Патент имеет высокое значение для SEO (7.5/10), особенно в контексте оптимизации изображений и мультимодального поиска. Он демонстрирует, что Google активно анализирует не только само изображение, но и окружающий его текст для определения контекста. Это подчеркивает важность того, чтобы сущности на изображениях были легко распознаваемыми, а сопутствующий контент предоставлял четкие семантические сигналы, которые система может использовать для формирования поисковых запросов.

Детальный разбор

Термины и определения

Graphical Interface Representation (Представление графического интерфейса): Данные, отображающие то, что пользователь видит на экране устройства (например, снимок экрана).
Image Recognition Engine (Система распознавания изображений): Компонент, анализирующий изображения для идентификации сущностей, объектов, локаций и генерации First Labels.
Text Recognition Engine (Система распознавания текста): Компонент, выполняющий анализ текста на экране (например, OCR) для извлечения текстовой информации и генерации Second Labels.
First Labels (Первые метки): Метки, сгенерированные на основе image recognition выбранного изображения. Указывают на визуальный контекст.
Second Labels (Вторые метки): Метки, сгенерированные на основе text recognition на части экрана, не включающей выбранное изображение. Указывают на текстовый контекст.
Image Confidence Score (Оценка уверенности изображения): Метрика, отражающая вероятность того, что конкретное изображение на экране является основным объектом интереса пользователя (primary interest). Рассчитывается на основе количества сущностей (number of entities) в изображении и его размера.
Label Confidence Score (Оценка уверенности метки): Метрика, отражающая вероятность того, что метка соответствует интересу пользователя. Рассчитывается на основе сравнения с прошлыми запросами пользователя (past queries).
Query Confidence Score (Оценка уверенности запроса): Метрика, указывающая на вероятность того, что сгенерированный кандидат в поисковые запросы является точным переписыванием исходной транскрипции.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный процесс контекстуальной дисамбигуации запроса с акцентом на методы выбора основного изображения и персонализированной оценки меток.

Система получает представление графического интерфейса и транскрипцию запроса.
Идентифицируются два или более изображений в интерфейсе.
Выбор изображения (Ключевой механизм 1): Для каждого изображения определяется количество содержащихся в нем сущностей (number of entities). На основе этого количества вычисляется image confidence score. Выбирается изображение на основе этих оценок.
Определяются First Labels путем распознавания выбранного изображения.
Определяются Second Labels путем распознавания текста в области интерфейса, не включающей выбранное изображение.
Оценка меток и Персонализация (Ключевой механизм 2): First Labels и Second Labels сравниваются с прошлыми запросами пользователя (past queries received from the user). На основе этого сравнения вычисляется label confidence score для каждой метки.
Выбирается подмножество меток на основе их label confidence scores.
Генерируется поисковый запрос на основе транскрипции и выбранного подмножества меток.
Поисковый запрос предоставляется для вывода.

Claim 2 (Зависимый от 1): Уточняет метод генерации запроса. Генерация включает замену терминов исходной транскрипции (например, «это») на одну или несколько выбранных меток.

Claim 3 (Зависимый от 1): Описывает альтернативный метод выбора финального запроса. Система сравнивает сгенерированных кандидатов с историческими данными запросов (historical query data) других пользователей и выбирает лучший вариант (например, наиболее популярный).

Claim 10 (Зависимый от 1): Дополняет механизм выбора изображения. Помимо количества сущностей, учитывается размер изображения (size of the image) для корректировки Image confidence score.

Claim 7 и 8 (Зависимые от 1): Описывают возможность генерации и выполнения команды (command), а не только поискового запроса (например, сохранить изображение, импортировать в приложение).

Где и как применяется

Изобретение применяется на этапе понимания запроса, используя визуальные данные, доступные в момент запроса (например, в Google Assistant, Google Lens, Circle to Search).

QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Система работает для интерпретации намерения пользователя, когда сам запрос неоднозначен.

Контекстуализация: Система использует визуальный контекст (снимок экрана) для обогащения семантического представления запроса.
Распознавание Сущностей (NER): Система извлекает сущности из визуальных данных на экране (используя Image Recognition и Text Recognition).
Переписывание Запроса (Query Rewriting): Исходный неоднозначный запрос переписывается в конкретный поисковый запрос.
Персонализация: Процесс переписывания персонализируется с использованием истории запросов пользователя для выбора наиболее релевантных меток.

Входные данные:

Транскрипция неоднозначного запроса пользователя.
Представление графического интерфейса (снимок экрана) в момент запроса.
Исторические данные запросов пользователя (past queries).
Исторические данные запросов других пользователей (historical query data).

Выходные данные:

Конкретный, дисамбигуированный поисковый запрос, готовый для передачи в систему ранжирования.
Или команда (command) для выполнения действия.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, богатый изображениями — социальные сети, новостные статьи, страницы товаров в e-commerce, галереи.
Специфические запросы: Влияет на обработку неоднозначных информационных запросов, где пользователь ссылается на визуальный элемент на экране (дейктические запросы).
Пользовательские факторы: Патент явно указывает на использование истории запросов пользователя для определения того, какие метки наиболее релевантны для него в данный момент.

Когда применяется

Триггеры активации: Обнаружение неоднозначного запроса (часто содержащего местоимения вроде «этот», «тот») или предопределенного ключевого слова/фразы (predefined hotword, Claim 6), указывающего на необходимость анализа экрана.
Условия работы: Наличие на экране визуального контента (изображений и текста), из которого можно извлечь контекстуальные метки.

Пошаговый алгоритм

Процесс А: Идентификация основного изображения

Получение данных: Система получает транскрипцию запроса и представление графического интерфейса.
Идентификация изображений: В интерфейсе обнаруживаются все присутствующие изображения.
Анализ сущностей: Для каждого изображения определяется количество содержащихся в нем сущностей (например, достопримечательностей, людей, животных).
Расчет Image Confidence Score: Для каждого изображения вычисляется оценка уверенности на основе количества обнаруженных сущностей и размера изображения.
Выбор основного изображения: Выбирается изображение с наивысшим Image Confidence Score.

Процесс Б: Извлечение и оценка контекста

Распознавание изображения: Выбранное изображение анализируется Image Recognition Engine для генерации First Labels. Могут использоваться метаданные изображения (Claim 9).
Распознавание текста: Области интерфейса за пределами выбранного изображения анализируются Text Recognition Engine для генерации Second Labels.
Сравнение с историей пользователя: Все сгенерированные метки сравниваются с прошлыми запросами пользователя.
Расчет Label Confidence Score: На основе результатов сравнения для каждой метки вычисляется оценка уверенности. Метки, связанные с интересами пользователя, получают более высокий балл.
Выбор меток: Выбирается подмножество меток с наивысшими Label Confidence Scores.

Процесс В: Генерация поискового запроса

Формирование кандидатов: Система генерирует кандидатов в поисковые запросы, заменяя термины в транскрипции на выбранные метки.
Оценка кандидатов: Кандидаты могут сравниваться с historical query data (популярностью запросов у других пользователей) или для них может рассчитываться Query Confidence Score.
Выбор финального запроса/команды: Выбирается лучший кандидат.
Вывод: Финальный поисковый запрос или команда предоставляется для выполнения.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании визуальных и исторических данных для понимания запроса.

Контентные/Мультимедиа факторы (Визуальный контекст):
- Изображения на экране: Анализируются для идентификации сущностей (entities), таких как достопримечательности, люди, животные (Claim 11).
- Текст на экране: Текст, окружающий изображения (заголовки, комментарии), анализируется (часто через OCR) для извлечения дополнительного контекста.
- Метаданные изображения: Упоминается возможность использования метаданных, связанных с изображением (Claim 9).
Структурные факторы (Макет экрана):
- Размер изображения (Size): Используется для расчета Image Confidence Score (Claim 10).
Пользовательские факторы (Персонализация):
- Прошлые запросы пользователя (Past queries): Критически важные данные. Используются для расчета Label Confidence Score (Claim 1).
Поведенческие факторы (Общие):
- Исторические данные запросов (Historical query data): Данные о запросах других пользователей используются для валидации переписанного запроса (Claim 3).

Какие метрики используются и как они считаются

Number of Entities (Количество сущностей): Подсчет распознанных объектов внутри изображения. Является основным фактором для расчета Image Confidence Score.
Image Confidence Score: Рассчитывается на основе Number of Entities и размера изображения. Используется для выбора основного изображения на экране.
Label Confidence Score: Рассчитывается путем сравнения извлеченных меток с past queries пользователя. Отражает вероятность того, что метка релевантна текущему интересу пользователя.
Query Confidence Score: Оценка вероятности того, что сгенерированный запрос является точным переписыванием исходного намерения. Используется для выбора лучшего кандидата.

Выводы

Визуальный контекст как ключ к пониманию запроса: Google может использовать все, что видит пользователь на экране (изображения и текст), для интерпретации неоднозначных запросов. Это фундаментальный механизм для мультимодального поиска.
Идентификация основного объекта интереса: Система определяет основной объект интереса, отдавая приоритет изображениям с большим количеством распознаваемых сущностей (Number of Entities) и большим размером.
Синергия изображения и текста: Для определения контекста используются как само изображение (Image Recognition), так и окружающий его текст (Text Recognition). Они дополняют друг друга (например, изображение показывает собаку, а текст уточняет породу).
Персонализация в дисамбигуации (Критический фактор): Система активно использует историю поиска пользователя (past queries) для определения того, какие из распознанных сущностей наиболее релевантны для него сейчас (расчет Label Confidence Score).
Валидация через исторические данные: Сгенерированные запросы могут валидироваться на основе общей популярности схожих запросов у других пользователей (historical query data), чтобы выбрать наиболее естественную формулировку.

Практика

Best practices (это мы делаем)

Хотя патент не описывает алгоритмы ранжирования, он критически важен для оптимизации под распознавание контента системами Google (Optimization for Recognition).

Оптимизация изображений для распознавания сущностей: Используйте четкие, высококачественные изображения, на которых ключевые сущности (продукты, локации, люди) легко идентифицируются. Изображения с четкими сущностями будут иметь более высокий Image Confidence Score, так как Number of Entities является ключевым фактором выбора.
Использование крупных основных изображений: Поскольку размер изображения влияет на Image Confidence Score (Claim 10), убедитесь, что ключевые изображения достаточно велики, особенно на мобильных устройствах.
Контекстуальное окружение изображений: Обеспечьте, чтобы текст, окружающий изображение (заголовки, подписи, основной текст), был семантически связан с сущностями на изображении. Этот текст используется для генерации Second Labels и помогает системе точно определить контекст.
Использование метаданных изображений: Поскольку патент упоминает использование метаданных (Claim 9), продолжайте заполнять релевантные метаданные и структурированные данные (Schema.org/ImageObject).
Обеспечение читаемости текста (для OCR): Текст на странице должен быть легко читаем (шрифт, контраст), чтобы обеспечить корректное извлечение Second Labels при анализе экрана пользователя.

Worst practices (это делать не надо)

Использование абстрактных или нечетких изображений: Изображения, на которых сложно распознать конкретные сущности, будут иметь низкий Number of Entities и, соответственно, низкий Image Confidence Score.
Разрыв между изображением и текстом: Размещение изображений в нерелевантном текстовом окружении. Если First Labels (из изображения) и Second Labels (из текста) противоречат друг другу, система может ошибочно интерпретировать контекст.
Игнорирование визуального поиска: Отношение к изображениям только как к декоративным элементам, без учета их роли в мультимодальном поиске и понимании контекста.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на мультимодальность и глубокое понимание контекста. Для SEO это означает, что визуальные активы и их контекстуальное окружение становятся полноценными источниками данных для поисковой системы на этапе Query Understanding. Стратегии должны учитывать, как пользователи взаимодействуют с контентом через интерфейсы типа Lens или Assistant, и обеспечивать максимальную ясность сигналов как в изображениях, так и в тексте.

Практические примеры

Сценарий: Оптимизация карточки товара для мультимодального поиска

Задача: Убедиться, что если пользователь смотрит на карточку товара (например, кроссовки Nike Air Max) и спрашивает «Сколько они стоят?», система правильно поймет, о чем речь.

Изображение (для Image Confidence Score и First Labels): Использовать большое (учет размера), четкое изображение кроссовок с видимыми деталями (логотип). Система распознает сущности: «Кроссовки», «Nike» (увеличивает Number of Entities).
Текстовое окружение (для Second Labels): Заголовок страницы должен четко указывать модель: «Nike Air Max 270». Система извлекает метки: «Nike Air Max 270».
Генерация запроса: Пользователь спрашивает «Сколько они стоят?». Система комбинирует транскрипцию и извлеченные метки с высоким Label Confidence Score («Nike Air Max 270»).
Результат: Исходный запрос переписывается в «Сколько стоят Nike Air Max 270?».

Вопросы и ответы

Как система определяет, какое изображение на экране является главным, если их несколько?

Система вычисляет Image Confidence Score для каждого изображения. Согласно патенту (Claim 1 и 10), эта оценка основывается на двух ключевых факторах: количестве распознанных сущностей (Number of Entities) внутри изображения (например, достопримечательностей, людей, продуктов) и размере изображения. Изображение с наибольшим количеством четких сущностей и большим размером будет выбрано как основной объект интереса пользователя.

Насколько важен текст, окружающий изображение, в этом патенте?

Текст критически важен. Система использует Text Recognition (часто OCR) для анализа областей экрана за пределами основного изображения (например, заголовков, комментариев, подписей) и генерации Second Labels. Эти метки используются наравне с метками из самого изображения для определения общего контекста и переписывания запроса.

Использует ли этот механизм историю поиска пользователя?

Да, и это ключевой аспект патента (Claim 1). Извлеченные метки сравниваются с прошлыми запросами пользователя (past queries). Это сравнение используется для расчета Label Confidence Score. Если пользователь недавно интересовался определенной темой, и эта тема распознана на экране, соответствующая метка получит более высокий балл.

Какое значение этот патент имеет для оптимизации изображений (Image SEO)?

Он подчеркивает важность использования четких, понятных и достаточно крупных изображений. Чтобы максимизировать Image Confidence Score, изображение должно содержать легко распознаваемые сущности. Это означает отказ от слишком абстрактных визуальных материалов в пользу тех, которые четко передают суть контента и могут быть легко интерпретированы системами машинного зрения.

Как система решает, какую именно метку подставить в запрос, если их несколько?

Система выбирает подмножество меток с наивысшими Label Confidence Scores (на основе истории пользователя). Затем она генерирует кандидатов в поисковые запросы. Выбор финального запроса может дополнительно валидироваться путем сравнения кандидатов с историческими данными запросов других пользователей (Claim 3) для выбора наиболее популярного варианта.

Применяется ли этот патент только к голосовому поиску?

Хотя он особенно полезен для устных запросов (utterances), описанный механизм может применяться к любой форме неоднозначного ввода, где доступен визуальный контекст экрана. Это может включать текстовый ввод в интерфейсе ассистента или использование функций типа Google Lens или Circle to Search, где пользователь инициирует поиск на основе содержимого экрана.

Учитывает ли система метаданные изображений?

Да, в патенте (Claim 9) упоминается возможность идентификации метаданных, связанных с выбранным изображением. Эти метаданные могут быть использованы для определения First Labels и уточнения контекста. Это подтверждает важность заполнения релевантных метаданных и использования микроразметки для изображений.

Что такое «Number of Entities» и почему это важно?

Number of Entities — это количество распознанных объектов или сущностей (например, продуктов, логотипов, достопримечательностей, людей) внутри одного изображения. В данном патенте это ключевой фактор для определения того, насколько изображение интересно пользователю (Image Confidence Score). Изображения с большим количеством сущностей получают приоритет при анализе контекста.

Может ли этот механизм использоваться для выполнения команд, а не только для поиска?

Да. Патент (Claim 7 и 8) описывает возможность генерации и выполнения команды (command) на основе анализа изображения и транскрипции. Команды могут включать сохранение изображения в памяти, загрузку его на сервер или импорт в приложение. Это показывает, что анализ визуального контекста используется не только для поиска информации, но и для управления устройством.

Влияет ли этот патент на ранжирование в веб-поиске?

Патент не описывает алгоритмы ранжирования. Он описывает механизм понимания запросов (Query Understanding) на основе визуального контекста. Однако, обеспечивая более точное понимание того, о чем спрашивает пользователь, этот механизм позволяет системам ранжирования лучше подобрать релевантный контент для ответа на уже уточненный запрос.