
Google использует механизм мультимодального поиска, объединяющий данные с камеры и микрофона устройства. Если пользователь задает неоднозначный голосовой запрос (например, "Сколько это стоит?"), система распознает объект в поле зрения камеры и использует его название для уточнения запроса (например, "Сколько стоит [Распознанный Объект]?"), обеспечивая точный ответ.
Патент решает проблему неоднозначности (ambiguity) в естественных поисковых запросах, особенно на мобильных и носимых устройствах. Пользователи часто используют местоимения ("это", "тот", "здесь"), ссылаясь на объекты в своем физическом окружении. Стандартный текстовый или голосовой поиск не может разрешить эти ссылки без дополнительного контекста. Это изобретение обеспечивает этот контекст, используя визуальные данные.
Запатентована система для разрешения неоднозначностей в поисковом вводе (например, голосовом) путем использования контекстной информации, полученной от другого сенсора (например, камеры). Система идентифицирует объект, на который смотрит пользователь, определяет его метку (Label) и использует эту метку для уточнения запроса, заменяя местоимение конкретной сущностью.
Система работает как мультимодальный обработчик запросов:
Speech Recognition), а изображение анализируется для обнаружения и распознавания объектов (Image Analysis).NLP Logic анализирует распознанный текст на наличие местоимений или других неоднозначных терминов.Object of Interest в изображении и определяет его Label (например, название продукта, имя человека, название достопримечательности).Query Processor заменяет обнаруженную неоднозначность (например, "это") на полученную метку (например, "Эйфелева башня").Крайне высокая. Мультимодальный поиск является стратегическим направлением Google (Google Lens, Circle to Search). В 2025 году, с развитием моделей Vision-Language Models (VLM), таких как Gemini, способность объединять визуальный контекст и языковое понимание является основой современного поиска. Этот патент описывает фундаментальные механизмы для этих технологий.
Влияние на SEO умеренное, но стратегически важное. Это технология Понимания Запросов (Query Understanding), а не алгоритм ранжирования. Она не меняет принципы ранжирования по конкретному запросу, но меняет сам запрос, который поступает в систему ранжирования. Это подчеркивает критическую важность оптимизации изображений и сущностей (продуктов, логотипов, мест) для визуального распознавания, поскольку именно распознанная сущность становится ключевым словом в уточненном запросе.
Object of Interest. Используется для замены неоднозначности в запросе (например, название картины, модель продукта).Ambiguity).Feature Vector.Claim 1 (Независимый пункт): Описывает основной метод мультимодального разрешения неоднозначности.
image input) сцены с камеры устройства.object of interest) в этой сцене.label) для этого объекта.search input) от другого механизма (не камеры, например, микрофона).ambiguity).Claim 4 (Зависимый от 3): Детализирует метод определения метки через визуальное сходство.
feature vector).Это ключевой механизм, лежащий в основе систем типа Google Lens: объект идентифицируется не только по классификации, но и по сравнению его визуальной сигнатуры с индексом известных изображений.
Claim 7 (Зависимый от 6): Уточняет тип ввода и неоднозначности.
voice input), соответствующим произнесенному вопросу или фразе.pronoun) в этой фразе.Claim 8 (Зависимый от 1): Описывает механизм выбора при наличии нескольких объектов в сцене.
Изобретение функционирует на стыке обработки сырых данных и формирования поискового намерения.
INDEXING – Индексирование и извлечение признаков
Для работы системы необходимо, чтобы Google предварительно проиндексировал огромное количество изображений (в патенте упоминается Index 172). На этом этапе вычисляются и сохраняются Feature Vectors и связанные с ними Labels для продуктов, произведений искусства, достопримечательностей, логотипов и т.д. Это позволяет системе быстро распознавать объекты в реальном времени.
QUNDERSTANDING – Понимание Запросов (Основное применение)
Это основная область применения патента. Процесс происходит в реальном времени при получении мультимодального запроса.
Query Processor использует NLP Logic для обнаружения неоднозначности в тексте и одновременно использует Recognition Information для определения визуальной метки (Label).RANKING – Ранжирование
Система ранжирования получает на вход уже уточненный, недвусмысленный запрос и обрабатывает его стандартным образом, используя соответствующие индексы (текстовый Index 162 или индекс объектов/изображений Index 172).
Входные данные:
Image Input).Audio Input).Выходные данные:
Search Query), в котором местоимения заменены конкретными сущностями (Labels).Ambiguity) в текстовой/голосовой части ввода.Процесс обработки мультимодального запроса:
Object Detection) и генерацию информации о распознавании (Recognition Information), например, Feature Vector.Label для объекта интереса. Это может включать сравнение Feature Vector с индексом для поиска похожих объектов и извлечения их меток (согласно Claim 4).Pronoun).Label.Image Input (изображения или видеокадры) с камеры, направленной на сцену. Используются для визуального распознавания объектов.Audio Input (голосовой сигнал) с микрофона. Используется для распознавания речи и извлечения текста запроса.Патент фокусируется на процессе обработки запроса, но упоминает ключевые метрики для анализа изображений:
visual similarity) между Feature Vector входящего изображения и векторами изображений в индексе.Методы анализа текста (NLP):
Image Recognition). Способность Google идентифицировать конкретный продукт или место по его Feature Vector является ключевой.Label при визуальном поиске.Labels), связанные с изображениями, должны быть точными, так как они станут терминами запроса.Labels.Feature Vector и распознавание объекта.Label.Патент подтверждает стратегический сдвиг Google в сторону мультимодальности и визуального поиска. Поиск больше не ограничивается текстовым вводом; окружающая среда пользователя становится интерфейсом запроса. Для SEO это означает, что оптимизация должна выходить за рамки традиционных ключевых слов и включать оптимизацию визуального представления сущностей. Стратегии должны учитывать, как продукты, бренды и контент обнаруживаются пользователями визуально через инструменты типа Google Lens или Circle to Search.
Сценарий: Оптимизация карточки товара для визуального коммерческого поиска
Пользователь видит кроссовки на улице, наводит камеру смартфона и спрашивает: "Где купить такие?"
image, name, sku, brand.Feature Vector и сравнивает его с индексом.Label: "Adidas Samba OG Cloud White".Как этот патент связан с Google Lens или Circle to Search?
Этот патент описывает фундаментальную технологию, лежащую в основе Google Lens и Circle to Search. Он объясняет, как система объединяет визуальный ввод (то, что видит камера или что отображается на экране) с языковым запросом пользователя. Механизм распознавания объекта, определения его метки и использования этой метки для уточнения запроса – это именно то, как работают эти современные инструменты мультимодального поиска.
Влияет ли описанный механизм на ранжирование моего сайта?
Напрямую на алгоритмы ранжирования он не влияет. Это технология этапа Понимания Запросов (Query Understanding). Однако он критически влияет на то, по какому именно запросу будет ранжироваться ваш сайт. Если ваш продукт был успешно распознан визуально, система сгенерирует очень специфичный запрос (например, название модели), и ваш сайт будет конкурировать именно по нему. Это может значительно изменить структуру получаемого трафика.
Что такое Feature Vector и почему он важен для SEO?
Feature Vector – это числовое представление визуальных характеристик изображения (форма, цвет, текстура). Google использует его для определения визуального сходства и идентификации конкретных объектов. Для SEO это важно, потому что точность генерации этого вектора зависит от качества ваших изображений. Чем лучше качество, тем точнее Google сможет идентифицировать ваш продукт среди миллионов других.
Как лучше всего оптимизировать изображения для этой системы?
Ключевые факторы: четкость, высокое разрешение, хорошее освещение и отсутствие визуального шума. Для продуктов рекомендуется использовать изображения на нейтральном фоне, а также lifestyle-фотографии. Важно предоставлять несколько ракурсов, чтобы система могла построить более полное представление об объекте и сгенерировать точный Feature Vector.
Помогает ли структурированная разметка (Schema.org) в этом процессе?
Да, она играет важную вспомогательную роль. Хотя основное распознавание происходит визуально (сравнение Feature Vectors), наличие разметки (например, Product Schema) на странице, где размещено изображение, помогает Google подтвердить связь между изображением и сущностью. Это укрепляет уверенность системы в правильности определенной метки (Label).
В каких нишах этот патент наиболее применим?
Наибольшее влияние ощущается в E-commerce (одежда, электроника, товары для дома), где визуальное распознавание продуктов критично. Также он важен для локального поиска (распознавание ресторанов, достопримечательностей), автомобильной тематики (распознавание моделей авто) и сферы искусства. Везде, где объект можно увидеть и задать о нем вопрос, этот механизм будет работать.
Что происходит, если Google не может распознать объект на изображении?
Если объект не распознан или Label не может быть определена с достаточной уверенностью, система, скорее всего, не сможет разрешить неоднозначность в запросе. В этом случае запрос либо будет обработан в его исходной, неоднозначной форме (что приведет к неточным результатам), либо система может попытаться классифицировать объект более широко (например, "синие кроссовки" вместо конкретной модели) и использовать эту общую метку.
Учитывает ли система текст на изображении (OCR)?
Хотя данный патент фокусируется на распознавании объектов через Image Analysis и Feature Vectors, современные системы Google (такие как Google Lens) безусловно используют Optical Character Recognition (OCR) как часть общего анализа изображения. Текст на изображении (например, название бренда на продукте) может быть мощным сигналом для определения корректной Label.
Как система обрабатывает ситуацию, когда на изображении несколько объектов?
Патент описывает механизмы для выбора Object of Interest. Система может использовать дополнительные сенсорные данные, например, отслеживание взгляда пользователя (с помощью фронтальной камеры), чтобы понять, на что он смотрит. Также может применяться контекстная логика: если пользователь спрашивает "как высоко это?" в городе, система предположит, что речь идет о самом высоком здании в кадре.
Является ли это частью алгоритма MUM (Multitask Unified Model)?
MUM – это значительно более продвинутая мультимодальная модель, но она построена на принципах, описанных в этом патенте. Способность MUM объединять информацию из разных модальностей (текст, изображение, аудио) для глубокого понимания запроса является эволюцией идеи, заложенной здесь: использование визуального контекста для разрешения языковой неоднозначности.

Семантика и интент
Мультимедиа

Семантика и интент
Мультимедиа
Персонализация

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент
Индексация

Персонализация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

SERP
EEAT и качество
Персонализация

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Мультимедиа

Семантика и интент
Безопасный поиск
Поведенческие сигналы

EEAT и качество
SERP
Knowledge Graph

Свежесть контента
Ссылки
Техническое SEO

Knowledge Graph
Ссылки
EEAT и качество

Ссылки
Семантика и интент
Индексация
