
Google разрабатывает систему мультимодального поиска, позволяющую пользователям записывать видео и одновременно задавать вопрос голосом или записывать звук. Система использует продвинутые ML-модели для генерации видео-эмбеддингов, анализа временной информации и аудиосигнатур. Это позволяет поиску понимать сложные запросы, требующие визуального и аудиального контекста (например, диагностика поломок, обучение действиям), и находить релевантные ответы в виде видео, веб-страниц или AR.
Патент решает проблему ограничений традиционных поисковых систем (текстовых и голосовых) при обработке сложных запросов, требующих визуального или аудиального контекста. Стандартные системы не могут эффективно ответить на запросы типа «как починить этот прибор, издающий странный звук», «как научиться этим танцевальным движениям» или сравнить товары на полке. Изобретение улучшает понимание истинного намерения пользователя, позволяя ему использовать видео и аудио одновременно в качестве входных данных для запроса ("show and ask").
Запатентована система мультимодального поиска, которая принимает на вход видеоданные (последовательность кадров) и связанные с ними аудиоданные (голосовую команду или фоновый звук). Суть изобретения заключается в использовании моделей машинного обучения для генерации Video Embeddings на основе визуальных данных и последующем определении результатов поиска на основе комбинации этих эмбеддингов и анализа аудиоданных.
Система функционирует следующим образом:
Frame Selection Algorithm для выбора ключевых изображений. ML-модели обрабатывают эти кадры для создания Video Embeddings — векторных представлений, кодирующих семантику видео. Также извлекается Temporal Information (информация о движении и изменениях во времени).Audio Signature) или использованы напрямую мультимодальной моделью.Video Embeddings и аудиоданные для понимания запроса. Эмбеддинги используются для поиска совпадений по сходству в индексе видео (Video Index).Video Results), веб-страницы (Web Results) или ответы в дополненной реальности (Augmented Reality Output).Крайне высокая. Мультимодальный поиск является стратегическим направлением развития Google (например, Google Lens, Circle to Search, Project Astra/Gemini). Эта заявка, поданная в 2023 году, описывает эволюцию к поиску по видео в реальном времени, интегрированному с аудио. Упоминание моделей типа Multimodal Multitask Unified Model (MUM) и Polymath model подтверждает актуальность технологии.
Патент имеет критическое стратегическое значение (90/100) для будущего SEO, особенно для Video SEO. Он демонстрирует механизмы, позволяющие Google глубоко понимать содержание видео (визуальное, звуковое, временное) и использовать его для прямого ответа на сложные мультимодальные запросы. Это подчеркивает критическую важность создания и оптимизации видеоконтента (особенно инструкционного), поскольку он становится основным источником информации для запросов типа «How-To» и устранения неполадок.
Text Query).spatial relationship).tutorial videos).Image Embeddings.Video Embeddings для большого корпуса видео, позволяющее выполнять быстрый поиск по сходству.Claim 1 (Независимый пункт): Описывает базовый метод мультимодального поиска.
Video Embeddings.Video Embeddings и аудиоданных.Claim 2 (Зависимый от 1): Дополняет процесс генерацией и использованием временной информации.
Temporal Information, связанную с последовательностью кадров.Temporal Information.Claim 3 (Зависимый от 1): Уточняет способ обработки аудио через ASR.
Text Query.Claim 4 и 5 (Зависимые от 1): Детализируют процесс генерации Video Embeddings.
Frame Selection Algorithm для выбора подмножества кадров (Claim 4).Video Embeddings могут быть получены путем усреднения (averaging) Image Embeddings выбранных кадров (Claim 5).Claim 12 и 13 (Зависимые от 1): Описывают механизм использования аудиосигнатур (анализ звука).
Audio Signature из аудиоданных (Claim 12).comparison score) превышает порог, результаты определяются на основе совпавшей сигнатуры (Claim 13).Claim 14 и 15 (Зависимые от 1): Описывают процесс поиска и ранжирования.
Video Embeddings сопоставляются (mapping) с индексом видео-эмбеддингов (Claim 14).Claim 19 (Независимый пункт): Описывает метод со стороны клиентского устройства (On-Device ML).
Video Embeddings.Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, фокусируясь на взаимодействии пользователя с поиском и интерпретации сложных входных данных.
INDEXING – Индексирование и извлечение признаков
Для работы системы необходимо предварительное создание Video Index. На этом этапе существующий корпус видео (в патенте упоминаются обучающие видео на онлайн-платформах) обрабатывается мультимодальными ML-моделями для извлечения и сохранения Video Embeddings, Temporal Information и Audio Signatures.
QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система меняет способ ввода и понимания запроса. Вместо текста система получает мультимодальный поток (видео + аудио). ML-модели (Polymath model или MUM) используются для интерпретации этого потока и преобразования его в структурированное представление (эмбеддинги, текст, сигнатуры), пригодное для поиска. Обработка может происходить как на сервере, так и на устройстве пользователя.
RANKING – Ранжирование (Этап Retrieval)
На этапе отбора кандидатов система использует сгенерированные Video Embeddings для выполнения поиска по сходству (similarity search) в Video Index. Система сопоставляет эмбеддинг запроса с эмбеддингами в индексе и ранжирует их на основе сравнения.
METASEARCH – Метапоиск и Смешивание
Система может предоставлять не только видеорезультаты, но и веб-результаты (Web Results) или вывод дополненной реальности (Augmented Reality Output), что требует смешивания результатов из разных индексов на основе мультимодального запроса.
Входные данные:
Video Data (последовательность кадров с камеры).Audio Data (голосовая команда или фоновый звук с микрофона).Frame Selection Algorithm).Выходные данные:
Video Results, Web Results, Augmented Reality Output).Этап 1: Получение мультимодальных данных
Этап 2: Обработка видео и генерация эмбеддингов
Frame Selection Algorithm для выбора подмножества ключевых кадров (например, на основе равномерной выборки или движения камеры).Image Embeddings для каждого выбранного кадра.Image Embeddings (например, путем усреднения) для создания финальных Video Embeddings.Temporal Information на основе анализа последовательности кадров (с использованием техник типа RNN, LSTM или 3D-CNN).Этап 3: Обработка аудио
Система может использовать один или несколько подходов:
Text Query.Audio Signature (для анализа неречевых звуков).Этап 4: Поиск и ранжирование
Video Embeddings, обработанные аудиоданные и Temporal Information.Video Embeddings с Video Index (поиск по сходству).comparison score превышает порог.Этап 5: Предоставление результатов
Frame Selection Algorithm) и понимания пространственного отношения к объекту (spatial relationship).Патент фокусируется на использовании векторных представлений и моделей машинного обучения:
threshold value) для определения совпадения.Video Embeddings запроса и эмбеддингами в Video Index.Polymath model и Multimodal Multitask Unified Model (MUM). Также упоминаются техники для анализа временной информации (RNN, LSTM и 3D-CNN).tutorial videos), публично доступных на онлайн-платформах (в описании также упоминается датасет HowTo 100M).Video Embeddings (что показано) и Temporal Information (что происходит, последовательность действий). Поиск осуществляется путем сравнения векторов в многомерном пространстве (Vector Search).Audio Signature) для диагностики или использует аудио совместно с видео в мультимодальной модели.tutorial videos подчеркивает стратегическую важность качественного обучающего видеоконтента для Google.Video Embeddings, генерируемые из кадров, видео должно быть высокого качества, с хорошим освещением и четким отображением объектов. Это необходимо для точного распознавания.Temporal Information и генерацию качественных эмбеддингов.Этот патент подтверждает, что мультимодальный поиск — это фундаментальный сдвиг в том, как пользователи взаимодействуют с поиском и как Google понимает мир. Для SEO это означает необходимость перехода от оптимизации текста к оптимизации сущностей, действий и процессов, зафиксированных на видео. Долгосрочная стратегия должна включать инвестиции в качественный видеоконтент, оптимизированный для машинного понимания (векторного поиска), особенно в практических нишах.
Сценарий 1: Оптимизация видео по ремонту техники (использование Audio Signature)
Video Embeddings и идентификации объекта).Audio Signature).Temporal Information).Сценарий 2: Создание обучающего спортивного контента (использование Temporal Information)
Temporal Information).Что такое Video Embeddings в контексте этого патента и почему они важны для SEO?
Video Embeddings — это сжатые векторные представления семантического содержания видео, сгенерированные ML-моделями. Они являются ядром системы: когда пользователь делает мультимодальный запрос, система генерирует эмбеддинги этого запроса и ищет в Video Index видео с похожими векторами. Для SEO это означает, что видимость контента зависит от того, насколько точно модель сможет интерпретировать содержание вашего видео и сгенерировать релевантные эмбеддинги.
Что такое Temporal Information и как оптимизировать видео под этот фактор?
Temporal Information — это понимание системой того, как контент изменяется во времени (движение, последовательность действий, развитие сюжета). Это критически важно для инструкций и обучающих материалов. Для оптимизации необходимо создавать видео с четкой логической структурой: ясное начало, последовательные шаги и завершение. Хаотичный монтаж или отсутствие прогрессии ухудшают темпоральное понимание.
Как система обрабатывает аудио? Обязательно ли нужен голос пользователя?
Система гибко обрабатывает аудио. Если это голосовая команда, она может быть преобразована в текст с помощью ASR. Однако голос не обязателен. Система может анализировать неречевые звуки с помощью Audio Signature, например, для диагностики шума двигателя. Также аудиоданные могут использоваться совместно с видео напрямую в мультимодальной модели для лучшего понимания контекста.
Что такое Audio Signature и как это может использоваться в поиске?
Audio Signature — это цифровой отпечаток звука. Патент описывает механизм, где система идентифицирует объект на видео (например, автомобиль), а затем сравнивает звук, записанный пользователем, с базой данных известных звуков для этого объекта. Это позволяет диагностировать проблемы (например, определить неисправность по характерному гулу), что открывает новые возможности для поиска решений.
На каких данных обучаются эти мультимодальные модели?
В патенте прямо указано, что модели (например, Polymath model) обучаются с использованием обучающих видео (tutorial videos), публично доступных на платформах обмена видео. Это подчеркивает стратегическую важность создания качественного How-To контента для обеспечения видимости в этой системе.
Влияет ли этот патент на традиционное SEO для веб-страниц?
Напрямую на факторы ранжирования текста он не влияет, но он влияет на то, как пользователь получает ответ. Система может предоставить в ответ не только видео, но и веб-результаты (Web Results) или AR-ответы. Если мультимодальный поиск станет предпочтительным способом для решения практических задач, трафик может перераспределиться от традиционной выдачи к этим новым интерфейсам.
Что такое Frame Selection Algorithm и как он работает?
Это механизм для повышения эффективности обработки. Вместо анализа каждого кадра видео система выбирает подмножество наиболее информативных кадров. Алгоритм может использовать простую логику (например, каждый N-й кадр) или более сложную, основанную на данных сенсоров о положении камеры или четкости изображения целевого объекта.
Где происходит обработка данных — на устройстве или на сервере?
Патент описывает оба варианта. Обработка видео и генерация эмбеддингов могут происходить на серверах Google (повышает качество за счет более мощных моделей) или непосредственно на устройстве пользователя (On-Device ML, повышает скорость и конфиденциальность). Вероятно, будет использоваться гибридный подход.
Что важнее для SEO в контексте этого патента: метаданные видео или его содержание?
Содержание видео становится значительно важнее. Хотя метаданные по-прежнему играют роль, основной механизм поиска основан на анализе самого видеоряда и аудиодорожки через Video Embeddings и Audio Signatures. Система стремится понять, что именно показано и сказано в видео.
Какие типы моделей ИИ используются в этой системе?
Используются передовые мультимодальные модели, способные обрабатывать видео и текст/аудио одновременно. Конкретно названы Polymath Model и Multimodal Multitask Unified Model (MUM). Также для анализа временной информации могут использоваться специализированные архитектуры, такие как RNN, LSTM или 3D-CNN.

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Индексация
Семантика и интент

Семантика и интент
Мультимедиа

Мультимедиа
Индексация
Семантика и интент

Персонализация
SERP
Ссылки

Свежесть контента
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP

Ссылки
Поведенческие сигналы
Мультимедиа

Поведенческие сигналы
Персонализация
Local SEO

Local SEO
Поведенческие сигналы

Поведенческие сигналы
SERP
Мультимедиа

Поведенческие сигналы
Персонализация
SERP

Семантика и интент
Персонализация
Поведенческие сигналы
