Google может обрабатывать мультимодальные запросы, состоящие из изображения и аудио (речи). Система использует речь для понимания намерений пользователя: определения конкретного объекта интереса на картинке, его местоположения (локализации) или желаемых характеристик (например, цвет, цена). Это позволяет уточнить визуальный поиск и предоставить более релевантные результаты.
Описание
Какую задачу решает
Патент решает проблему неоднозначности и ограничений традиционного поиска по изображениям (Query-by-Image). Чисто визуальный поиск часто возвращает результаты, которые похожи на исходное изображение по цвету или форме, но не соответствуют намерению пользователя. Например, на фото может быть несколько объектов, или пользователь может искать похожий товар, но другого цвета. Изобретение позволяет использовать естественный язык (речь), чтобы уточнить, что именно интересует пользователя на изображении или какие характеристики объекта являются важными.
Что запатентовано
Запатентована система обработки совмещенных аудио-визуальных запросов (joint image-audio query). Пользователь предоставляет изображение и сопутствующую речь. Система использует обученную модель релевантности (joint image-audio relevance model) для оценки ресурсов (например, карточек товаров), которые также содержат изображения и текст. Ключевой особенностью, защищенной в этом патенте (Claim 2), является способность использовать аудио для локализации объекта интереса внутри изображения (positional information).
Как это работает
Система работает следующим образом:
- Получение запроса: Принимается мультимодальный запрос (изображение + аудио).
- Обработка аудио: Речь конвертируется в текст с помощью Speech Processing Apparatus.
- NLP-анализ: Текст анализируется для извлечения намерений, включая идентификацию объекта, его местоположения (positional information, например, «бутылка справа») и желаемых характеристик или ограничений (restrictions, например, «синего цвета»).
- Локализация и Извлечение признаков: Система может сфокусировать извлечение визуальных признаков (image feature data) на конкретной области изображения, указанной в аудио.
- Оценка релевантности: Извлеченные визуальные признаки и текст запроса подаются на вход joint image-audio relevance model. Модель сравнивает их с ресурсами в индексе и вычисляет relevance score.
Актуальность для SEO
Высокая. Мультимодальный поиск является стратегическим направлением развития Google (например, Google Lens, MUM). Комбинирование визуального ввода с голосовыми или текстовыми уточнениями для фокусировки поиска является стандартной функцией в современных приложениях визуального поиска.
Важность для SEO
Влияние на традиционное веб-SEO минимальное (4/10). Патент описывает инфраструктуру для мультимодального поиска (Visual + Voice Search). Однако он имеет высокое значение для E-commerce SEO и оптимизации видимости товаров в специализированных интерфейсах (таких как Google Shopping или Lens), где критически важно соответствие изображений товаров и их текстовых описаний этим сложным типам запросов.
Детальный разбор
Термины и определения
- Annotation Pair (Пара аннотаций)
- Набор данных для обучения модели, состоящий из изображения и связанного с ним текста (или аудио).
- Embedding space (Пространство представлений)
- Векторное пространство, в котором расстояние между двумя элементами (например, изображением и текстом) отражает их семантическую близость. Используется для сравнения мультимодальных данных.
- Image feature data (Признаки изображения)
- Числовые значения, описывающие визуальные характеристики изображения (цвет, текстура, формы, SIFT и т.д.).
- Joint image-audio query (Совмещенный аудио-визуальный запрос)
- Запрос, состоящий из двух модальностей: данных изображения и сопутствующих аудиоданных (речи).
- Joint image-audio relevance model (Модель релевантности совмещенных аудио-визуальных запросов)
- Обученная модель, которая принимает на вход признаки изображения и текст запроса и генерирует relevance score для ресурсов.
- Positional information (Позиционная информация)
- Данные, извлеченные из аудиозапроса, которые описывают местоположение объекта интереса на изображении (например, «справа», «в центре»).
- Relevance Score (Оценка релевантности)
- Показатель релевантности ресурса совмещенному запросу. Может быть выражен как функция f(S, I, R), где S=Audio/Speech, I=Image, R=Resource.
- Resource (Ресурс)
- Элемент в базе данных (например, веб-страница, карточка товара), который содержит как изображение, так и текст.
- Restrictions (Ограничения)
- Данные, извлеченные из аудиозапроса, которые уточняют желаемые характеристики искомого объекта (например, «синий», «не дороже 10 долларов»).
Ключевые утверждения (Анализ Claims)
Анализ основан на Claim 2, так как Claim 1 в предоставленном документе отмечен как отмененный (canceled). Claim 2 является основным независимым пунктом данной публикации.
Claim 2 (Независимый пункт): Описывает метод обработки совмещенного аудио-визуального запроса с акцентом на локализацию объекта.
- Система получает совмещенный запрос (изображение и аудио).
- Из аудиоданных извлекается текст.
- Из текста определяется positional information, которая описывает позицию искомого объекта на изображении. Эта позиция определяет подмножество (subset) изображения.
- Система определяет признаки изображения (image feature data) именно из этого подмножества (локализованной области).
- Признаки изображения и текстовые данные передаются в модель релевантности.
- Ресурсы упорядочиваются на основе оценок, сгенерированных моделью.
- Результаты поиска предоставляются пользователю.
Ядром изобретения в этой публикации является конкретный механизм использования речи для определения местоположения объекта интереса на картинке и последующее извлечение визуальных признаков только из этой локализованной области для ранжирования.
Claim 7 (Зависимый от 2): Уточняет, что текст может также определять одно или несколько ограничений (restrictions) на результаты поиска (например, цвет, цена), и модель учитывает эти ограничения при генерации оценок.
Где и как применяется
Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, преимущественно в системах визуального и продуктового поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка ресурсов (например, в Resource Database). Извлекаются визуальные признаки из изображений и анализируется текст ресурсов. Также офлайн происходит обучение joint image-audio relevance model с использованием Annotation Pairs (данных из логов поиска, продуктовых баз данных).
QUNDERSTANDING – Понимание Запросов
Основной этап применения патента. Система получает мультимодальный запрос.
- Обработка аудио: Конвертация аудио в текст (ASR).
- NLP-анализ: Применяются методы обработки естественного языка для интерпретации текста и извлечения positional information и restrictions.
- Обработка изображения: На основе positional information из аудио система может локализовать объект интереса и извлечь image feature data из этой области.
RANKING – Ранжирование
На этом этапе joint image-audio relevance model принимает обработанные признаки обеих модальностей и вычисляет relevance score для ресурсов в индексе.
Входные данные:
- Данные изображения (Query Image Data).
- Аудиоданные (Query Audio Data).
Выходные данные:
- Отсортированный список ресурсов (например, ссылки на карточки товаров или веб-страницы с изображениями).
На что влияет
- Конкретные типы контента и ниши: Наибольшее влияние оказывается на E-commerce, каталоги товаров и сервисы визуального поиска (например, Google Lens). Влияет на страницы, где изображение является основным элементом, а текст содержит атрибуты товара.
- Специфические запросы: Влияет на запросы, где визуальный ввод является первичным, но требует уточнения (например, поиск товара по фотографии с указанием желаемого цвета или размера).
Когда применяется
- Условия работы и триггеры активации: Алгоритм активируется, когда пользовательский запрос содержит данные обеих модальностей (изображение и аудио) и отправляется через интерфейс, поддерживающий мультимодальный ввод (например, мобильное приложение).
Пошаговый алгоритм
- Прием запроса: Получение joint image-audio query от пользователя.
- Обработка аудио: Аудиоданные направляются на распознавание речи (ASR) для получения текста.
- NLP-анализ текста: Обработка текста для извлечения интента, а также positional information (например, «справа») и restrictions (например, «синий»).
- Локализация объекта (если применимо): Если извлечена positional information, система определяет соответствующую область (subset) на изображении.
- Извлечение визуальных признаков: Генерация image feature data из всего изображения или только из локализованной области.
- Применение модели релевантности: Передача текста запроса и image feature data в joint image-audio relevance model.
- Сравнение с ресурсами: Модель сравнивает признаки запроса с визуальными признаками и текстом ресурсов в индексе.
- Вычисление оценок: Генерация relevance score для каждого ресурса.
- Ранжирование и выдача: Сортировка ресурсов по оценкам и формирование SERP.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Исходные данные изображения (Query Image) и аудио (Query Audio). Также используются изображения ресурсов (Resource Images) в индексе.
- Контентные факторы: Текст, ассоциированный с ресурсами в индексе (описания товаров, заголовки, атрибуты).
- Поведенческие факторы (для обучения): Логи поисковых систем (Image Search, Product Search, Web Search) используются для генерации Annotation Pairs. Система анализирует, какие изображения пользователи выбирали (selection data, click through rate) по каким текстовым запросам.
Какие метрики используются и как они считаются
Система использует следующие ключевые метрики и методы:
- Image Features (Признаки изображения): Используются стандартные методы компьютерного зрения: цветовые гистограммы (color histograms), детекторы текстур (texture detection), SIFT (scale-invariant feature transform), детекторы границ и углов (edge detection, corner detection).
- NLP Techniques (Методы NLP): Используются для парсинга текста, полученного из аудио. Цель — идентифицировать:
- Positional Information: Интерпретация фраз, указывающих на местоположение (например, «in the right of the picture»).
- Restrictions: Интерпретация предпочтений и ограничений (например, «only blue water bottles, not red», «under ten dollars»).
- Relevance Score (REL(S, I, R)): Основная метрика ранжирования. Патент предлагает несколько моделей для ее расчета:
- Линейная комбинация отдельных оценок для аудио и изображения: c*f_s(S,R) + (1-c)*f_i(I,R).
- Фильтрация по тексту, затем ранжирование по изображению: Результаты ограничиваются ресурсами, содержащими текст S, а затем ранжируются по f_i(I,R).
- Совместное пространство признаков (Embedding Space): Модель обучается находить близость между совмещенными признаками запроса и признаками ресурса в низкоразмерном пространстве.
Выводы
- Мультимодальность как способ понимания интента: Патент демонстрирует, как Google комбинирует разные типы ввода (визуальный и аудиальный) для преодоления ограничений каждого из них. Визуальный поиск становится более точным благодаря языковым уточнениям.
- Аудио уточняет и локализует визуальный контекст: Ключевая функция, описанная в Claim 2, — это использование речи не только для добавления ключевых слов, но и для фокусировки внимания системы на конкретной части изображения (локализация с помощью positional information).
- Интеграция фильтров и ограничений: Речь позволяет пользователю добавлять ограничения (restrictions), такие как цвет или цена, которые могут отсутствовать в самом изображении, но критичны для поиска релевантного товара.
- Зависимость от качества данных ресурсов: Эффективность модели напрямую зависит от наличия в индексе ресурсов, содержащих как качественные изображения, так и релевантный, структурированный текст. Это критически важно для e-commerce.
- Обучение на основе поведения пользователей: Модель обучается с использованием Annotation Pairs, часто извлекаемых из логов поиска (текстовый запрос + кликнутое изображение), что подчеркивает важность поведенческих данных в развитии поиска.
Практика
Best practices (это мы делаем)
Рекомендации применимы в первую очередь для E-commerce и сайтов, фокусирующихся на визуальном контенте.
- Оптимизация страниц товаров (PDP) для мультимодального поиска: Обеспечьте наличие высококачественных изображений товара и исчерпывающего, хорошо структурированного текстового описания. Текст должен включать все атрибуты, которые пользователь может упомянуть в речевом запросе (цвет, размер, бренд, цена).
- Использование микроразметки (Schema.org/Product): Четко размечайте атрибуты товара. Это помогает поисковой системе точно интерпретировать текстовые данные ресурса и сопоставлять их с ограничениями (restrictions), извлеченными из аудиозапроса.
- Обеспечение соответствия изображения и текста: Текст, ассоциированный с изображением (включая alt-текст, описание на странице, данные в структурированном формате), должен точно описывать то, что изображено. Это является основой для работы joint image-audio relevance model.
- Оптимизация под визуальный поиск (Google Lens): Поскольку этот патент описывает технологии, лежащие в основе сервисов типа Google Lens, оптимизация изображений (четкость, отсутствие водяных знаков, правильный ракурс) повышает вероятность корректного распознавания объекта.
Worst practices (это делать не надо)
- Создание страниц с минимумом текста: Размещение изображений без детального текстового сопровождения снижает эффективность ранжирования в этой системе, так как модели не хватает данных для сопоставления с аудио частью запроса.
- Несоответствие контента: Наличие изображений, которые не соответствуют текстовому описанию товара (например, неправильный цвет или модель), приведет к низким оценкам релевантности.
- Игнорирование атрибутов товара в тексте: Отсутствие упоминания ключевых характеристик товара в тексте не позволит системе применить фильтры или уточнения (restrictions), запрошенные пользователем устно.
Стратегическое значение
Патент подтверждает эволюцию поиска от текстового к мультимодальному. Для SEO-стратегий, особенно в e-commerce, это означает необходимость рассматривать контент как единое целое, где визуальные и текстовые элементы работают синергетически. Технологии, описанные в патенте, позволяют пользователям искать более естественным образом (показать и спросить), что меняет подход к оптимизации продуктовых страниц и каталогов.
Практические примеры
Сценарий 1: Поиск товара с уточнением характеристик
- Действие пользователя: Пользователь фотографирует кроссовки на витрине (Изображение) и говорит: «Найти такие же, но черного цвета, 42 размера» (Аудио).
- Обработка системой:
- Аудио конвертируется в текст. NLP извлекает ограничения: Цвет=Черный, Размер=42.
- Система извлекает визуальные признаки из фото для определения модели кроссовок.
- Ранжирование: Joint Image-Audio Relevance Model ищет ресурсы, которые визуально соответствуют изображению (та же модель), И текст/структурированные данные которых соответствуют ограничениям (Черный, 42 размер).
- Результат для SEO: Карточка товара (PDP), на которой есть фото этой модели в черном цвете, и в тексте или микроразметке четко указано наличие 42 размера, получит высокий Relevance Score.
Сценарий 2: Фокусировка на объекте на сложном фото
- Ситуация: Пользователь фотографирует комнату, где стоит несколько стульев разного дизайна.
- Запрос: Изображение комнаты + Аудио: «Красный стул слева».
- Действие системы: Система извлекает из речи positional information («слева») и атрибут («красный стул»). Она фокусирует визуальный анализ (извлечение признаков) только на левой части изображения.
- Результат для SEO: Сайт мебельного магазина, имеющий в базе данных этот конкретный красный стул с соответствующим описанием и изображением, будет показан в результатах.
Вопросы и ответы
Применяется ли этот патент к стандартному текстовому веб-поиску?
Напрямую нет. Этот патент специфичен для сценариев, где запрос инициируется изображением и сопровождается аудио (мультимодальный поиск). Он влияет на вертикали поиска, такие как Google Images и Google Shopping, а также на сервисы типа Google Lens, результаты которых могут подмешиваться в основную веб-выдачу.
Что такое «Позиционная информация» (Positional Information) и почему она важна?
Это информация о местоположении объекта на картинке, извлеченная из речи (например, «машина слева»). Согласно Claim 2, это ключевой элемент патента. Система использует эту информацию, чтобы понять, на какой части изображения нужно сфокусироваться, и извлекает визуальные признаки только из этой области, игнорируя остальное.
Как этот патент влияет на оптимизацию изображений?
Он повышает требования к качеству и информативности изображений. Изображения должны быть четкими для корректного извлечения визуальных признаков. Критически важным становится контекст изображения на странице – текст и разметка должны точно описывать то, что на нем изображено, чтобы модель могла связать это с аудиозапросом.
Какова роль структурированных данных (микроразметки) в контексте этого патента?
Структурированные данные критически важны, особенно для e-commerce. Модель сравнивает уточнения из аудиозапроса (например, цена, цвет, размер) с текстом ресурса. Микроразметка Product позволяет системе точно идентифицировать эти атрибуты на странице товара, что повышает вероятность корректного сопоставления и высокого ранжирования.
Как система обрабатывает противоречия между изображением и аудио?
Патент упоминает обработку ограничений (restrictions), например, когда пользователь показывает красную бутылку, но говорит «только синие бутылки, не красные». В таких случаях система должна интерпретировать речь как основной интент или ограничение для поиска. Приоритет отдается уточнению пользователя, а не буквальному визуальному сходству.
Как обучается Joint Image-Audio Relevance Model?
Модель обучается офлайн с использованием Annotation Pairs (изображение + текст/аудио). Эти пары часто генерируются из логов поиска (какие изображения кликали по каким запросам), продуктовых баз данных или с помощью ручной разметки асессорами (human annotators).
Связан ли этот патент с Google Lens?
Да, этот патент описывает базовые технологии, которые используются в сервисах мультимодального визуального поиска, таких как Google Lens. Возможность сфотографировать объект и затем уточнить запрос голосом или текстом напрямую вытекает из описанных в патенте механизмов.
Насколько важно качество текста на странице ресурса?
Очень важно. Поскольку запрос является совмещенным, модель должна оценить релевантность обеих частей. Если изображение идеально совпадает, но текст на странице нерелевантен аудиозапросу или не содержит запрошенных атрибутов, ресурс получит низкую оценку.
Что такое «Embedding space» в контексте этого патента?
Это один из предложенных вариантов реализации модели релевантности. Embedding space — это векторное пространство, в которое система учится проецировать как признаки запроса (изображение+текст), так и признаки ресурса. Чем ближе расположены векторы запроса и ресурса в этом пространстве, тем выше их семантическая схожесть и оценка релевантности.
Какие типы ресурсов приоритезируются этой системой?
Приоритезируются ресурсы, которые содержат как визуальный, так и текстовый контент, релевантный запросу. В первую очередь это карточки товаров (Product Detail Pages) в e-commerce, а также информационные страницы с четко выраженными изображениями и описаниями.