
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
Патент решает проблему ограниченности традиционного текстового и голосового поиска, когда пользователю сложно или невозможно описать словами то, что он ищет. Это особенно актуально при идентификации объектов, поиске товаров с определенными атрибутами или диагностике проблем, требующих визуального контекста или анализа звука (например, шум неисправной техники). Система устраняет необходимость формулировать сложные текстовые запросы, позволяя пользователю искать интуитивно, используя то, что он видит и слышит одновременно.
Запатентована система мультимодального поиска, которая принимает на вход изображение (Image Data) с камеры и связанный с ним аудиопоток (Audio Data) с микрофона. Система обрабатывает изображение для извлечения визуальных признаков (Visual Features) и обрабатывает аудио для генерации транскрибированного текста (Plurality of Words) и, в ключевых вариантах, аудиосигнатуры (Audio Signature). Эти элементы объединяются через механизм уточнения запроса (Query Refinement) для формирования итогового поискового запроса, который затем используется для получения результатов из различных источников (веб-поиск, поиск по картинкам, LLM).
Система работает по следующей схеме:
Visual Features, таких как эмбеддинги изображения (Image Embeddings) или идентификация объектов.Audio Signature (звукового отпечатка).Image Search (используя комбинированные эмбеддинги), Web Search или Large Language Models (LLMs).Критически высокая. Патент подан в 2023 году и описывает технологии, лежащие в основе самых передовых функций поиска Google, таких как Multisearch (Google Lens + Text) и будущих итераций ИИ-ассистентов (например, Project Astra/Gemini). Мультимодальность является центральным направлением развития поиска, и этот патент описывает конкретную реализацию интеграции визуального и аудио режимов в реальном времени.
Влияние на SEO критическое (9/10). Этот патент сигнализирует о фундаментальном сдвиге в том, как пользователи взаимодействуют с поиском. Текстовые ключевые слова уступают место мультимодальным запросам, основанным на визуальном контексте и голосовых уточнениях. Для SEO это означает необходимость комплексной оптимизации контента (особенно изображений и видео) для распознавания визуальных признаков и соответствия интентам, которые могут быть выражены через комбинацию «покажи и спроси». Сайты, чей контент легко интерпретируется мультимодальными системами, получат значительное преимущество.
Image Data. Могут включать речь пользователя или окружающие звуки.Large Language Models (LLMs) в ответ на мультимодальный запрос, часто в ответ на запросы, требующие выполнения действий (Action seeking queries).Audio Data.Query Refinement, который используется для выполнения поиска.Image Data. Могут включать Image Embeddings, названия объектов, данные о местоположении и т.д.Claim 1 (Независимый пункт): Описывает основной метод мультимодального поиска с использованием аудиосигнатур.
Image Data (с камеры) и связанный Audio Data (с микрофона).Image Data для генерации Visual Features.Audio Data для генерации ДВУХ элементов: Plurality of Words (транскрипция) И Input Audio Signature (звуковой отпечаток), связанный с объектом на изображении.Search Terms. Это включает механизм замены: слово в тексте заменяется на Updated Word, полученное из визуальных признаков.Search Terms И на Input Audio Signature.Ядро изобретения по Claim 1 — это не просто комбинация изображения и речи, а специфический механизм обработки, включающий замену слов на основе визуального контекста, и, что критически важно, использование Input Audio Signature (анализ самого звука, а не только транскрипции) для определения результатов поиска. Это указывает на сценарии диагностики или идентификации по звуку.
Claim 2 (Зависимый от 1): Детализирует использование аудиосигнатур для повышения эффективности.
Для определения результатов система выполняет:
Known Audio Signatures). Этот доступ фильтруется на основе извлеченного Visual Feature.Matching Audio Signature), если оценка сравнения (Comparison Score) между входной и известной сигнатурой превышает порог.Это описывает механизм оптимизации: система использует изображение, чтобы сузить область поиска в базе звуков (например, идентифицирует модель устройства), а затем сравнивает звук, записанный пользователем, только с известными звуками для этой конкретной модели.
Claim 4, 5, 6 (Зависимые): Описывают сценарий поиска по изображениям.
Если аудио является уточняющим запросом (Refinement/Pivot query), система генерирует Text Embeddings и Image Embeddings. Эти эмбеддинги комбинируются и вводятся в модели поиска изображений для получения результатов в виде изображений.
Claim 7 (Зависимый от 1): Описывает сценарий информационного поиска.
Если аудио является информационным запросом (Information seeking query), система обрабатывает Search Terms с помощью веб-поисковой системы (Web Search Engine) для получения веб-результатов.
Claim 10 (Зависимый от 1): Описывает сценарий запроса на действие.
Если аудио является запросом на действие (Action seeking query), система обрабатывает Search Terms с помощью Больших Языковых Моделей (LLMs) для получения генеративных результатов.
Изобретение затрагивает несколько ключевых этапов поиска, интегрируя обработку ввода и понимание запроса с выполнением поиска.
CRAWLING & INDEXING (Сканирование и Индексирование)
Система должна иметь доступ к обширным индексам, которые поддерживают мультимодальный поиск. Это включает индексацию изображений с генерацией Image Embeddings и, что важно, индексацию Audio Signatures, связанных с конкретными объектами или сущностями (как описано в Claim 2), для поддержки функций диагностики.
QUNDERSTANDING (Понимание Запросов)
Это основной этап применения патента. Система выполняет сложную обработку мультимодального ввода в реальном времени:
Visual Features) и аудио (Transcribed Text, Audio Signature).RANKING & METASEARCH (Ранжирование и Метапоиск)
Уточненный запрос направляется в соответствующую поисковую вертикаль или систему генерации:
Система действует как метапоисковый механизм, определяя, какой источник лучше всего ответит на мультимодальный запрос.
Входные данные:
Image Data (с камеры).Audio Data (с микрофона).Выходные данные:
Image Results, Web Results, или Generative Results).Visual Features и обработать Audio Data. Эффективность зависит от качества входных данных и способности системы связать аудио и визуальный контекст.Процесс обработки мультимодального запроса
Image Data, захваченные камерой, и Audio Data, захваченные микрофоном.Image Data обрабатывается для генерации Visual Features (например, Image Embeddings, идентификация объектов).Audio Data обрабатывается для генерации Plurality of Words (транскрибированного текста). В некоторых реализациях также генерируется Input Audio Signature.Search Terms на основе визуальных признаков и обработанного аудио. Это может включать: Visual Features (например, название объекта).Text Embeddings из текста и комбинирование их с Image Embeddings.Search Terms направляются в Web Search Engine.Image Search System.Search Terms направляются в LLMs.Audio Signature, система сначала использует Visual Features для доступа к релевантному подмножеству Known Audio Signatures в базе данных, затем сравнивает входную сигнатуру с известными (проверяя превышение Comparison Score порога) для уточнения результатов.Web Results, Image Results, Generative Results) пользователю.Image Data, полученные с камеры. Это основной источник для извлечения Visual Features и Image Embeddings.Audio Data, полученные с микрофона. Используются для транскрибации речи и генерации Audio Signature.Visual Features могут включать данные о местоположении (Location Data), которые могут быть использованы для уточнения локальных запросов.Historical Data) могут использоваться на этапе Query Refinement для лучшего понимания интента.Патент не детализирует конкретные формулы ранжирования, но описывает следующие ключевые метрики и процессы обработки:
Image Embeddings и Text Embeddings. Генерируются с использованием ML-моделей (например, CNN, Трансформеры).Text Embeddings и Image Embeddings для выполнения поиска в общем семантическом пространстве.Input Audio Signature и известными Known Audio Signatures.Comparison Score превышает порог, сигнатура считается совпадающей. Патент упоминает, что порог может динамически обновляться.Audio Signature). Это позволяет решать задачи, ранее недоступные для поиска, например, диагностику неисправностей по звуку и внешнему виду устройства (Claims 1, 2).Audio Signature, сужая базу данных сравнения только до звуков, релевантных визуально идентифицированному объекту. Это позволяет проводить диагностику быстро.Visual Features. Используйте структурированные данные (Schema.org) для предоставления атрибутов (цвет, бренд, модель), которые пользователи могут запрашивать голосом.Location Data.Visual Features основного объекта.Этот патент имеет огромное стратегическое значение, так как он описывает интерфейс и механизм поиска будущего. Он подтверждает переход от «поиска по ключевым словам» к «поиску по контексту» (визуальному и звуковому). Для SEO это означает необходимость глубокого понимания технологий компьютерного зрения и обработки естественного языка. Долгосрочная стратегия должна включать создание богатого мультимедийного контента, оптимизированного для распознавания и интерпретации мультимодальными системами Google, фокусируясь на решении реальных задач пользователя.
Сценарий 1: eCommerce (Refinement Query)
Visual Feature), транскрибирует речь. Query Refinement генерирует комбинированные эмбеддинги, где Image Embedding стула сочетается с Text Embedding «зеленого цвета». Система выполняет Image Search.Сценарий 2: Ремонт и обслуживание (Information Seeking с Audio Signature)
Visual Feature). Она генерирует Input Audio Signature шума. Система обращается к базе данных звуков для этой модели (Known Audio Signatures) и находит совпадение, соответствующее «засорению фильтра». Система выполняет Web Search.Сценарий 3: Генеративный ответ (Action Seeking Query)
Visual Feature через OCR), транскрибирует команду. Интент классифицируется как Action Seeking. Система направляет распознанный текст и команду в LLM.Что такое мультимодальный поиск, описанный в этом патенте?
Это система, которая позволяет пользователю искать информацию, используя одновременно два типа ввода: изображение с камеры и аудио с микрофона. Система объединяет эти данные, чтобы понять запрос пользователя. Например, можно сфотографировать растение и спросить голосом: «Как часто его поливать?». Система поймет, о каком растении идет речь, и найдет ответ.
Что такое «Audio Signature» и почему это важно?
Audio Signature — это звуковой отпечаток. Патент описывает, что система может анализировать не только речь, но и характеристики звука. Это позволяет решать сложные задачи, например, диагностировать поломку техники по шуму (Claim 1, 2). Система идентифицирует устройство по фото, а затем сравнивает записанный звук с базой известных звуков для этого устройства, что значительно повышает точность диагностики.
Как работает механизм уточнения запроса (Query Refinement)?
Модуль Query Refinement объединяет визуальные данные и транскрибированный текст. Если пользователь говорит «как использовать это?», указывая камерой на объект, система сначала идентифицирует объект визуально (например, «мультиметр»), а затем переписывает запрос в «как использовать мультиметр?» (Claim 1). Это позволяет системе точно понять интент пользователя, даже если голосовой запрос был неоднозначным.
Как система решает, использовать ли веб-поиск, поиск по картинкам или LLM?
Система классифицирует интент запроса. Если пользователь хочет найти похожий товар с другими атрибутами (Refinement/Pivot Query), используется Image Search (Claim 4). Если пользователь задает вопрос (Information Seeking Query), используется Web Search (Claim 7). Если пользователь просит выполнить действие, например, «резюмируй этот текст» (Action Seeking Query), запрос направляется в LLM (Claim 10).
Какие основные действия нужно предпринять SEO-специалисту в связи с этим патентом?
Необходимо сфокусироваться на трех направлениях. Первое — усиление Image SEO: качественные изображения и полные структурированные данные о продуктах. Второе — создание контента для решения задач: подробные инструкции, руководства по ремонту и устранению неполадок для конкретных сущностей/моделей (особенно важно в свете Audio Signature). Третье — оптимизация под локальный поиск, обеспечивая актуальность информации о наличии товаров.
Влияет ли этот патент на ранжирование в традиционном веб-поиске?
Напрямую нет, так как он описывает этап QUNDERSTANDING (понимание запроса), а не RANKING. Однако, изменяя формулировку запроса (Query Refinement) и лучше понимая интент, система будет искать другой набор документов. Это косвенно меняет ландшафт выдачи, отдавая предпочтение контенту, релевантному мультимодальному контексту.
Насколько быстро работает анализ Audio Signature?
Патент подчеркивает эффективность процесса (Claim 2). Вместо сравнения входного звука со всеми известными звуками, система сначала визуально идентифицирует объект (например, модель посудомоечной машины), а затем сравнивает звук только с базой данных звуков для этой конкретной модели. Это значительно ускоряет диагностику и позволяет предоставлять результаты в реальном времени.
Какое значение этот патент имеет для E-commerce?
Огромное. Он упрощает процесс поиска и покупки товаров, увиденных в офлайне. Пользователи могут мгновенно уточнять визуальные характеристики («хочу такой же, но с другим узором») или запрашивать наличие («где купить это рядом?»). Это требует от магазинов максимальной интеграции с инструментами визуального и локального поиска Google.
Использует ли система эмбеддинги для этого типа поиска?
Да, это основа механизма поиска по изображениям (Claims 5, 6). Система генерирует Image Embeddings из фото пользователя и Text Embeddings из его голосового уточнения (например, «синий цвет»). Затем она комбинирует эти эмбеддинги и ищет совпадения в индексе изображений. Это позволяет находить релевантные результаты, учитывая и визуальное сходство, и текстовые атрибуты.
Нужно ли оптимизировать аудио в моих видео в связи с этим патентом?
Хотя патент описывает анализ аудио, полученного с микрофона пользователя, он демонстрирует растущие возможности Google в области анализа звука. Улучшение качества и четкости аудио в вашем контенте (например, в видеоуроках по ремонту) поможет системам Google лучше понять его содержание и, возможно, использовать его для обучения своих моделей Audio Signature или для предоставления в качестве ответа на диагностические запросы.

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент
Индексация

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
EEAT и качество
Ссылки

Персонализация
Семантика и интент
Поведенческие сигналы

Антиспам
Ссылки
SERP

Поведенческие сигналы
SERP

Семантика и интент
SERP
Ссылки

Ссылки
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Семантика и интент

Свежесть контента
Поведенческие сигналы
SERP

Семантика и интент
Индексация
Мультимедиа

Ссылки
SERP
Техническое SEO
