
Google использует механизм для понимания неоднозначных запросов (например, «Что это?»), анализируя то, что пользователь видит на экране своего устройства. Система определяет основное изображение, распознает объекты на нем и анализирует окружающий текст. Затем, используя эту информацию и историю поиска пользователя, она переписывает исходный запрос в конкретный поисковый запрос.
Патент решает проблему обработки контекстуально неоднозначных запросов, особенно голосовых (например, «Что это?», «Где это было снято?»), которые не содержат прямых ссылок на объект интереса. Система улучшает понимание таких запросов, используя визуальный контекст — то, что отображается на экране устройства пользователя в момент запроса, — для disambiguation (устранения неоднозначности) и формирования точного поискового запроса.
Запатентована система для контекстуального устранения неоднозначности запросов путем анализа графического интерфейса (graphical interface) устройства пользователя. Система идентифицирует изображение, которое с наибольшей вероятностью является объектом интереса, используя image confidence score. Затем она извлекает контекстуальные метки (labels) с помощью распознавания изображений (image recognition) и текста (text recognition). Эти метки оцениваются с учетом истории пользователя и используются для переписывания исходного неоднозначного запроса в конкретный поисковый запрос.
Система работает следующим образом:
image confidence score, основанный на количестве распознанных сущностей (number of entities) и размере изображения. Выбирается изображение с наивысшим баллом.image recognition на выбранном изображении и text recognition (OCR) на остальной части экрана для генерации меток.label confidence score. Эта оценка основывается на сравнении метки с прошлыми запросами пользователя (past queries).Высокая. С развитием мультимодального поиска (Google Lens, Circle to Search) и голосовых ассистентов, способность Google понимать контекст на основе визуальной информации становится критически важной. Этот патент описывает базовый механизм того, как визуальный контекст и персонализация используются для понимания запроса, что является фундаментальным аспектом современных поисковых технологий.
Патент имеет высокое значение для SEO (7.5/10), особенно в контексте оптимизации изображений и мультимодального поиска. Он демонстрирует, что Google активно анализирует не только само изображение, но и окружающий его текст для определения контекста. Это подчеркивает важность того, чтобы сущности на изображениях были легко распознаваемыми, а сопутствующий контент предоставлял четкие семантические сигналы, которые система может использовать для формирования поисковых запросов.
First Labels.Second Labels.image recognition выбранного изображения. Указывают на визуальный контекст.text recognition на части экрана, не включающей выбранное изображение. Указывают на текстовый контекст.primary interest). Рассчитывается на основе количества сущностей (number of entities) в изображении и его размера.past queries).Claim 1 (Независимый пункт): Описывает полный процесс контекстуальной дисамбигуации запроса с акцентом на методы выбора основного изображения и персонализированной оценки меток.
number of entities). На основе этого количества вычисляется image confidence score. Выбирается изображение на основе этих оценок.First Labels путем распознавания выбранного изображения.Second Labels путем распознавания текста в области интерфейса, не включающей выбранное изображение.First Labels и Second Labels сравниваются с прошлыми запросами пользователя (past queries received from the user). На основе этого сравнения вычисляется label confidence score для каждой метки.label confidence scores.Claim 2 (Зависимый от 1): Уточняет метод генерации запроса. Генерация включает замену терминов исходной транскрипции (например, «это») на одну или несколько выбранных меток.
Claim 3 (Зависимый от 1): Описывает альтернативный метод выбора финального запроса. Система сравнивает сгенерированных кандидатов с историческими данными запросов (historical query data) других пользователей и выбирает лучший вариант (например, наиболее популярный).
Claim 10 (Зависимый от 1): Дополняет механизм выбора изображения. Помимо количества сущностей, учитывается размер изображения (size of the image) для корректировки Image confidence score.
Claim 7 и 8 (Зависимые от 1): Описывают возможность генерации и выполнения команды (command), а не только поискового запроса (например, сохранить изображение, импортировать в приложение).
Изобретение применяется на этапе понимания запроса, используя визуальные данные, доступные в момент запроса (например, в Google Assistant, Google Lens, Circle to Search).
QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Система работает для интерпретации намерения пользователя, когда сам запрос неоднозначен.
Image Recognition и Text Recognition).Входные данные:
past queries).historical query data).Выходные данные:
command) для выполнения действия.predefined hotword, Claim 6), указывающего на необходимость анализа экрана.Процесс А: Идентификация основного изображения
Image Confidence Score.Процесс Б: Извлечение и оценка контекста
Image Recognition Engine для генерации First Labels. Могут использоваться метаданные изображения (Claim 9).Text Recognition Engine для генерации Second Labels.Label Confidence Scores.Процесс В: Генерация поискового запроса
historical query data (популярностью запросов у других пользователей) или для них может рассчитываться Query Confidence Score.Патент фокусируется на использовании визуальных и исторических данных для понимания запроса.
entities), таких как достопримечательности, люди, животные (Claim 11).Image Confidence Score (Claim 10).Label Confidence Score (Claim 1).Image Confidence Score.Number of Entities и размера изображения. Используется для выбора основного изображения на экране.past queries пользователя. Отражает вероятность того, что метка релевантна текущему интересу пользователя.Number of Entities) и большим размером.Image Recognition), так и окружающий его текст (Text Recognition). Они дополняют друг друга (например, изображение показывает собаку, а текст уточняет породу).past queries) для определения того, какие из распознанных сущностей наиболее релевантны для него сейчас (расчет Label Confidence Score).historical query data), чтобы выбрать наиболее естественную формулировку.Хотя патент не описывает алгоритмы ранжирования, он критически важен для оптимизации под распознавание контента системами Google (Optimization for Recognition).
Image Confidence Score, так как Number of Entities является ключевым фактором выбора.Image Confidence Score (Claim 10), убедитесь, что ключевые изображения достаточно велики, особенно на мобильных устройствах.Second Labels и помогает системе точно определить контекст.Second Labels при анализе экрана пользователя.Number of Entities и, соответственно, низкий Image Confidence Score.First Labels (из изображения) и Second Labels (из текста) противоречат друг другу, система может ошибочно интерпретировать контекст.Этот патент подтверждает стратегический курс Google на мультимодальность и глубокое понимание контекста. Для SEO это означает, что визуальные активы и их контекстуальное окружение становятся полноценными источниками данных для поисковой системы на этапе Query Understanding. Стратегии должны учитывать, как пользователи взаимодействуют с контентом через интерфейсы типа Lens или Assistant, и обеспечивать максимальную ясность сигналов как в изображениях, так и в тексте.
Сценарий: Оптимизация карточки товара для мультимодального поиска
Задача: Убедиться, что если пользователь смотрит на карточку товара (например, кроссовки Nike Air Max) и спрашивает «Сколько они стоят?», система правильно поймет, о чем речь.
Number of Entities).Label Confidence Score («Nike Air Max 270»).Как система определяет, какое изображение на экране является главным, если их несколько?
Система вычисляет Image Confidence Score для каждого изображения. Согласно патенту (Claim 1 и 10), эта оценка основывается на двух ключевых факторах: количестве распознанных сущностей (Number of Entities) внутри изображения (например, достопримечательностей, людей, продуктов) и размере изображения. Изображение с наибольшим количеством четких сущностей и большим размером будет выбрано как основной объект интереса пользователя.
Насколько важен текст, окружающий изображение, в этом патенте?
Текст критически важен. Система использует Text Recognition (часто OCR) для анализа областей экрана за пределами основного изображения (например, заголовков, комментариев, подписей) и генерации Second Labels. Эти метки используются наравне с метками из самого изображения для определения общего контекста и переписывания запроса.
Использует ли этот механизм историю поиска пользователя?
Да, и это ключевой аспект патента (Claim 1). Извлеченные метки сравниваются с прошлыми запросами пользователя (past queries). Это сравнение используется для расчета Label Confidence Score. Если пользователь недавно интересовался определенной темой, и эта тема распознана на экране, соответствующая метка получит более высокий балл.
Какое значение этот патент имеет для оптимизации изображений (Image SEO)?
Он подчеркивает важность использования четких, понятных и достаточно крупных изображений. Чтобы максимизировать Image Confidence Score, изображение должно содержать легко распознаваемые сущности. Это означает отказ от слишком абстрактных визуальных материалов в пользу тех, которые четко передают суть контента и могут быть легко интерпретированы системами машинного зрения.
Как система решает, какую именно метку подставить в запрос, если их несколько?
Система выбирает подмножество меток с наивысшими Label Confidence Scores (на основе истории пользователя). Затем она генерирует кандидатов в поисковые запросы. Выбор финального запроса может дополнительно валидироваться путем сравнения кандидатов с историческими данными запросов других пользователей (Claim 3) для выбора наиболее популярного варианта.
Применяется ли этот патент только к голосовому поиску?
Хотя он особенно полезен для устных запросов (utterances), описанный механизм может применяться к любой форме неоднозначного ввода, где доступен визуальный контекст экрана. Это может включать текстовый ввод в интерфейсе ассистента или использование функций типа Google Lens или Circle to Search, где пользователь инициирует поиск на основе содержимого экрана.
Учитывает ли система метаданные изображений?
Да, в патенте (Claim 9) упоминается возможность идентификации метаданных, связанных с выбранным изображением. Эти метаданные могут быть использованы для определения First Labels и уточнения контекста. Это подтверждает важность заполнения релевантных метаданных и использования микроразметки для изображений.
Что такое «Number of Entities» и почему это важно?
Number of Entities — это количество распознанных объектов или сущностей (например, продуктов, логотипов, достопримечательностей, людей) внутри одного изображения. В данном патенте это ключевой фактор для определения того, насколько изображение интересно пользователю (Image Confidence Score). Изображения с большим количеством сущностей получают приоритет при анализе контекста.
Может ли этот механизм использоваться для выполнения команд, а не только для поиска?
Да. Патент (Claim 7 и 8) описывает возможность генерации и выполнения команды (command) на основе анализа изображения и транскрипции. Команды могут включать сохранение изображения в памяти, загрузку его на сервер или импорт в приложение. Это показывает, что анализ визуального контекста используется не только для поиска информации, но и для управления устройством.
Влияет ли этот патент на ранжирование в веб-поиске?
Патент не описывает алгоритмы ранжирования. Он описывает механизм понимания запросов (Query Understanding) на основе визуального контекста. Однако, обеспечивая более точное понимание того, о чем спрашивает пользователь, этот механизм позволяет системам ранжирования лучше подобрать релевантный контент для ответа на уже уточненный запрос.

Мультимедиа
Семантика и интент

Семантика и интент
Мультимедиа
Персонализация

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент
Индексация

Семантика и интент
Мультимедиа
SERP

SERP
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Local SEO
Ссылки
SERP

Свежесть контента
Ссылки
Техническое SEO

Структура сайта
Техническое SEO
Индексация

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

Knowledge Graph
Ссылки
EEAT и качество

Мультиязычность
Поведенческие сигналы
Персонализация
