Google разработал систему для глубокого анализа видео, особенно коротких форматов. Система генерирует мультимодальные эмбеддинги, объединяя визуальные, аудио и текстовые сигналы с помощью трансформеров. Это позволяет Google точно характеризовать контент, оценивать его качество и определять принадлежность к трендам (например, танцевальным челленджам), анализируя само исполнение и движение в кадре, а не только метаданные или звук.
Описание
Какую задачу решает
Патент решает проблему точного понимания и классификации огромного объема загружаемого видеоконтента, особенно коротких видео (short-form media item). Существующие методы, основанные на анализе отдельных модальностей (только аудио или только метаданных/хэштегов), недостаточно точны для выявления нюансов контента и определения media trends (медиа-трендов). Система устраняет неэффективность идентификации трендов, позволяя анализировать само содержание и исполнение, даже если метаданные меняются по мере эволюции тренда.
Что запатентовано
Запатентована система и метод для генерации multimodal embeddings (мультимодальных эмбеддингов) с целью глубокой характеристики медиа-объектов (видео). Система объединяет визуальные, аудио и текстовые признаки в единое векторное представление. Это представление используется для различных задач: определения принадлежности видео к тренду, прогнозирования интереса пользователей и оценки качества контента.
Как это работает
Система работает путем многоэтапной обработки видео:
- Кодирование модальностей: Визуальные данные обрабатываются Image Encoder (например, Vision Transformer), аудиоданные — Audio Encoder (например, Audio Spectrogram Transformer), а текстовые метаданные — Text Encoder (например, BERT).
- Генерация эмбеддингов: На выходе получаются Video Embeddings, Audio Embeddings и Textual Embeddings.
- Мультимодальное слияние (Fusion): Видео и аудио эмбеддинги объединяются (конкатенация и/или attention pooling) для создания Audiovisual Embeddings. Затем они могут быть объединены с текстовыми эмбеддингами через Fusion Engine.
- Характеристика контента: Полученные мультимодальные эмбеддинги используются для определения характеристик видео. Для детекции трендов система может сравнивать Fine-grained Embeddings (детальные эмбеддинги, описывающие позы и движения) нового видео с эталонным видео тренда, используя алгоритмы сравнения временных рядов, такие как Dynamic Time Warping (DTW), для измерения степени совпадения (Degree of Alignment).
Актуальность для SEO
Высокая. Глубокое понимание видеоконтента, особенно коротких форматов (YouTube Shorts), и применение мультимодальных моделей (подобных MUM/Gemini) являются стратегическими приоритетами Google. Этот патент описывает конкретную архитектуру для анализа и классификации такого контента, что критически важно для рекомендательных систем и ранжирования видео.
Важность для SEO
Патент имеет высокое значение для Video SEO и продвижения на платформах типа YouTube. Он показывает, что Google анализирует видеоконтент комплексно, оценивая не только метаданные или звуковую дорожку, но и само визуальное исполнение (движения, позы, объекты). Для SEO это означает, что оптимизация должна быть мультимодальной: визуальный ряд, звук и текст должны быть согласованы и качественны. При участии в трендах важно точное исполнение, так как система может измерить степень его совпадения с оригиналом.
Детальный разбор
Термины и определения
- Audio Encoder (Аудиокодер)
- ИИ-модель (например, Audio Spectrogram Transformer), преобразующая аудиосигнал в Audio Embeddings, фиксируя такие признаки, как высота тона, тембр, ритм, содержание речи и т.д.
- Audiovisual Embeddings (Аудиовизуальные эмбеддинги)
- Векторное представление, созданное путем слияния (fusion) Video Embeddings и Audio Embeddings. Представляет собой объединенную информацию о визуальных и звуковых признаках видеокадра или сегмента.
- Degree of Alignment (Степень совпадения/выравнивания)
- Метрика, показывающая, насколько близки временные последовательности признаков (например, последовательность поз в танце) двух разных видео. Часто рассчитывается с помощью Dynamic Time Warping.
- Dynamic Time Warping (DTW) (Динамическая трансформация временной шкалы)
- Алгоритм для измерения сходства между двумя временными последовательностями, которые могут различаться по скорости. Используется для сравнения Fine-grained Embeddings при детекции трендов.
- Feature Pyramid (Пирамида признаков)
- Многомасштабное представление контента. Иерархическая структура, где верхние уровни содержат семантически сильные, но грубые признаки (общая сцена), а нижние уровни — детализированные признаки (текстуры, мелкие движения).
- Fine-grained Embeddings (Детальные/Тонкозернистые эмбеддинги)
- Эмбеддинги, извлеченные, как правило, из нижних уровней Feature Pyramid. Они описывают детальные визуальные признаки, такие как позы, действия или движения объектов в кадре.
- Fusion Engine (Механизм слияния)
- Компонент (например, Transformer Encoder), который объединяет эмбеддинги из разных модальностей (аудиовизуальные и текстовые) в единое мультимодальное представление (Fused textual-audiovisual data).
- Image Encoder (Кодировщик изображений)
- ИИ-модель (например, Vision Transformer или CNN), преобразующая видеокадры в Video Embeddings (Image Tokens), фиксируя визуальные признаки (объекты, сцены, движения, позы).
- Media Characteristics (Характеристики медиа-объекта)
- Свойства видео, определяемые системой на основе эмбеддингов. Включают принадлежность к Media Trend, прогнозируемый интерес пользователей, качество изображения/звука.
- Media Trend (Медиа-тренд)
- Феномен, при котором набор медиа-объектов имеет общую форму или концепцию (например, танцевальный челлендж) и широко распространяется на платформе.
- Multimodal Embeddings (Мультимодальные эмбеддинги)
- Общий термин для векторных представлений, объединяющих информацию из нескольких модальностей (видео, аудио, текст).
- Text Encoder (Текстовый кодировщик)
- ИИ-модель (например, BERT), преобразующая текстовые данные (заголовки, описания, хэштеги, транскрипты) в Textual Embeddings.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает базовый метод характеристики медиа.
- Идентификация медиа-объекта (последовательности видеокадров).
- Получение набора Video Embeddings (визуальные признаки).
- Получение набора Audio Embeddings (аудио признаки).
- Генерация набора Audiovisual Embeddings на основе видео и аудио эмбеддингов. Каждый такой эмбеддинг представляет собой объединенный визуальный и аудио признак соответствующего кадра.
- Определение одной или нескольких Media Characteristics медиа-объекта на основе этих аудиовизуальных эмбеддингов.
Claim 8 (Зависимый от 1): Дополняет процесс включением текста.
- Получение набора Textual Embeddings, представляющих текстовые признаки, связанные с контентом.
- Определение Media Characteristics основывается дополнительно на этих текстовых эмбеддингах (в дополнение к аудиовизуальным).
Claim 11 и 12 (Зависимые от 1): Детализируют процесс генерации Audiovisual Embeddings.
- Процесс включает выполнение операций конкатенации (объединения) видео и аудио эмбеддингов.
- Может также включать применение операций Attention Pooling к результату конкатенации.
Claim 14 (Зависимый от 1): Описывает применение системы для детекции трендов путем анализа движений/поз.
- Визуальные признаки включают одну или несколько поз объекта в кадре.
- Идентифицируется набор эмбеддингов для другого медиа-объекта, который уже ассоциирован с Media Trend (эталон). Эти эмбеддинги также представляют позы объекта.
- Определяется, удовлетворяет ли Degree of Alignment (степень совпадения) между позами первого и второго объектов определенным критериям (Alignment Criteria). Сравнение основано на аудиовизуальных эмбеддингах первого видео и эмбеддингах второго видео.
- Если критерии удовлетворены, первый медиа-объект ассоциируется с этим Media Trend.
Claim 16 (Зависимый от 15): Уточняет, что операции сравнения для определения Degree of Alignment включают функцию Dynamic Time Warping (DTW).
Где и как применяется
Изобретение применяется в основном на этапе индексирования для глубокого анализа контента и извлечения признаков.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система получает сырой медиа-объект (видео) и выполняет сложный процесс Feature Extraction:
- Кодирование: Сырые данные (кадры, аудиосигнал, метаданные) пропускаются через специализированные кодировщики (Image, Audio, Text Encoders) для получения первичных эмбеддингов.
- Слияние (Fusion): Генерируются Audiovisual Embeddings и мультимодальные эмбеддинги.
- Извлечение детализированных признаков: Генерируется Feature Pyramid и извлекаются Fine-grained Embeddings.
- Характеристика и Классификация: На основе эмбеддингов определяются Media Characteristics (качество, тематика, принадлежность к трендам). Для трендов это включает сравнение с эталонами (Trend Template Data) с использованием DTW.
RANKING – Ранжирование
Результаты этапа индексирования (полученные характеристики и эмбеддинги) используются как сигналы ранжирования. Например, видео, идентифицированное как часть популярного тренда или имеющее высокий прогнозируемый интерес пользователя, может получить повышение в выдаче или рекомендательных системах (например, на YouTube).
Входные данные:
- Сырой медиа-объект (последовательность видеокадров, аудиодорожка).
- Текстовые данные (Textual Data): заголовок, описание, хэштеги, транскрипт.
- Эталонные данные трендов (Trend Template Data) для сравнения.
Выходные данные:
- Наборы эмбеддингов (Audiovisual, Textual, Fused, Fine-grained).
- Определенные Media Characteristics (метки трендов, оценки качества, прогнозы интереса).
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на видеоконтент, особенно на короткие форматы (short-form media items), где контент часто основан на визуальных и звуковых трендах.
- Специфические запросы: Влияет на запросы, связанные с трендами, челленджами, мемами, где пользователи ищут контент определенного формата или концепции.
- Конкретные ниши или тематики: Сильно влияет на ниши, где важны движения и визуальное исполнение: танцы, спорт, юмор, DIY, инструкции.
Когда применяется
- Условия работы алгоритма: Применяется во время обработки и индексации медиа-объектов, загружаемых на платформу (например, YouTube).
- Триггеры активации: Активируется для анализа нового контента или при переоценке существующего. Процесс сравнения с трендами (DTW) активируется, когда необходимо проверить принадлежность видео к известным трендам.
- Пороговые значения: Используются Alignment Criteria (критерии совпадения) — например, если разница между визуальными признаками двух видео падает ниже определенного порога (difference threshold) при сравнении через DTW.
Пошаговый алгоритм
Процесс А: Генерация мультимодальных эмбеддингов
- Идентификация медиа-объекта: Система получает доступ к видео (кадры и аудио).
- Визуальное кодирование: Последовательность кадров подается на вход Image Encoder (например, Vision Transformer). На выходе получается набор Video Embeddings (Image Tokens).
- Аудио кодирование: Аудиосигнал подается на вход Audio Encoder (например, Audio Spectrogram Transformer). На выходе получается набор Audio Embeddings.
- Генерация аудиовизуальных эмбеддингов: Video Embeddings и Audio Embeddings объединяются (например, через конкатенацию и Attention Pooling) для формирования Audiovisual Embeddings.
- Текстовое кодирование (Опционально): Текстовые данные (метаданные, транскрипт) подаются на вход Text Encoder (например, BERT). На выходе получается набор Textual Embeddings.
- Мультимодальное слияние (Опционально): Audiovisual Embeddings и Textual Embeddings подаются на вход Fusion Engine для генерации финального мультимодального представления (Fused textual-audiovisual data).
- Генерация пирамиды признаков: На основе fused data генерируется Feature Pyramid для многомасштабного анализа.
Процесс Б: Определение характеристик (Пример: Детекция тренда)
- Извлечение детализированных признаков: Из Feature Pyramid извлекаются Fine-grained Embeddings, описывающие позы и движения объектов.
- Идентификация эталона: Система идентифицирует эмбеддинги эталонного видео, ассоциированного с Media Trend.
- Сравнение последовательностей: Эмбеддинги нового видео и эталонного видео подаются на вход механизма сравнения (например, Dynamic Time Warping).
- Расчет степени совпадения: Вычисляется Degree of Alignment (метрика сходства/различия) между последовательностями движений.
- Проверка критериев: Система проверяет, удовлетворяет ли Degree of Alignment заданным Alignment Criteria (например, ниже ли порога различия).
- Ассоциация с трендом: Если критерии выполнены, видео помечается как принадлежащее к данному тренду.
Какие данные и как использует
Данные на входе
Система использует данные из трех основных модальностей:
- Визуальные факторы (Video): Последовательность видеокадров (пиксельные данные). Анализируются для извлечения пространственных признаков (объекты, люди, сцены, цвета, текстуры) и временных признаков (движение, действия, позы, изменение объектов во времени).
- Аудио факторы (Audio): Аудиосигнал медиа-объекта. Анализируется для извлечения таких признаков, как высота тона, тембр, ритм, содержание речи, характеристики говорящего, окружающие звуки, спектральные характеристики.
- Текстовые факторы (Text): Текстовые данные, связанные с видео. Включают предоставленные пользователем метаданные (заголовки, описания, хэштеги, ключевые слова), а также сгенерированные данные (транскрипты аудио).
Какие метрики используются и как они считаются
- Эмбеддинги (Video, Audio, Textual, Audiovisual, Fine-grained): Многомерные векторные представления признаков. Генерируются с помощью специализированных ИИ-моделей (Encoders) на базе архитектуры Transformer (Vision Transformer, Audio Spectrogram Transformer, BERT).
- Degree of Alignment (Степень совпадения): Метрика сходства между двумя последовательностями эмбеддингов. Рассчитывается с помощью алгоритма Dynamic Time Warping (DTW), который находит оптимальное соответствие между двумя временными рядами.
- Alignment Criteria (Критерии совпадения): Пороговые значения для Degree of Alignment. Если метрика сходства превышает порог (или метрика различия ниже порога), последовательности считаются совпадающими.
- Media Characteristics (Характеристики медиа): Выходные метки или оценки, полученные путем классификации или регрессии на основе мультимодальных эмбеддингов (например, метка принадлежности к тренду, оценка качества видео).
Выводы
- Глубокий мультимодальный анализ видео: Патент подтверждает, что Google анализирует видеоконтент, объединяя визуальные, аудио и текстовые сигналы в единое векторное пространство. Это позволяет системе понимать семантику и контекст видео на гораздо более глубоком уровне, чем при анализе отдельных модальностей.
- Анализ исполнения, а не только метаданных: Ключевым аспектом является способность системы анализировать Fine-grained Embeddings, описывающие конкретные действия, движения и позы в кадре. Это означает, что Google оценивает, *что именно* происходит в видео, а не только его описание или используемую музыку.
- Точная детекция трендов с помощью DTW: Для идентификации трендов (например, танцевальных челленджей) используется Dynamic Time Warping (DTW). Это позволяет системе точно измерять, насколько хорошо движения в одном видео совпадают с движениями в другом, даже если они выполняются с разной скоростью. Принадлежность к тренду определяется качеством исполнения.
- Важность всех модальностей: Использование специализированных кодировщиков (Vision Transformer, BERT и т.д.) и сложного механизма слияния (Fusion Engine) подчеркивает, что для достижения успеха в Video SEO необходимо оптимизировать и согласовывать все три модальности.
- Универсальность эмбеддингов: Сгенерированные мультимодальные эмбеддинги универсальны и используются не только для детекции трендов, но и для прогнозирования интереса пользователей и оценки качества контента.
Практика
Best practices (это мы делаем)
- Мультимодальная оптимизация контента: Обеспечивайте семантическую согласованность между тем, что показано в видео (визуальный ряд), что слышно (аудио, речь) и как это описано (текстовые метаданные). Все три модальности анализируются и объединяются в Multimodal Embeddings.
- Фокус на качестве исполнения для трендового контента: При создании видео для участия в трендах (челленджах) уделяйте внимание точности исполнения (например, движений в танце). Поскольку система использует Dynamic Time Warping для сравнения Fine-grained Embeddings, видео с более точным совпадением движений будут лучше идентифицированы как часть тренда.
- Оптимизация визуальных признаков: Учитывайте, что Image Encoder анализирует объекты, сцены, действия, цвета и освещение. Четкость изображения, видимость ключевых действий и визуальная привлекательность напрямую влияют на то, как система интерпретирует контент.
- Оптимизация аудио признаков: Обеспечивайте высокое качество звука. Audio Encoder анализирует не только речь или музыку, но и тембр, ритм и окружающие звуки. Чистый звук помогает точной характеристике контента.
- Точные и релевантные метаданные: Используйте заголовки, описания и хэштеги, которые точно отражают содержание видео. Text Encoder (BERT) анализирует эти данные, и они вносят вклад в финальное мультимодальное представление.
Worst practices (это делать не надо)
- Мультимодальное несоответствие (Кликбейт): Создание контента, где заголовок и описание не соответствуют реальному аудиовизуальному содержанию. Система обнаружит это несоответствие при генерации Multimodal Embeddings.
- Манипуляция трендами через метаданные: Использование популярных хэштегов или трендовой музыки без фактического участия в тренде (без соответствующего визуального контента). Система определит низкий Degree of Alignment с эталонными видео тренда и не ассоциирует контент с трендом.
- Низкое качество исполнения: Попытка участвовать в челлендже с очень неточным или некачественным исполнением. DTW покажет значительные различия с эталоном, что снизит видимость видео в рамках тренда.
- Игнорирование качества аудио/видео: Загрузка контента низкого технического качества. Патент указывает, что Media Characteristics включают оценку качества изображения и звука на основе эмбеддингов.
Стратегическое значение
Этот патент имеет критическое значение для стратегии продвижения на видео-платформах Google (YouTube, Shorts) и в видео-поиске. Он детализирует техническую реализацию мультимодального понимания контента. Стратегия SEO должна смещаться от традиционной текстовой оптимизации к комплексному подходу, где качество продакшена, точность исполнения и согласованность всех элементов видео играют решающую роль в том, как система классифицирует и ранжирует контент.
Практические примеры
Сценарий: Оптимизация видео для танцевального челленджа на YouTube Shorts
- Задача: Максимизировать видимость видео в рамках популярного танцевального тренда.
- Действия (основанные на патенте):
- Визуальное исполнение: Тщательно изучить и повторить движения оригинального танца. Снять видео с хорошим освещением, где движения четко видны. Это обеспечит генерацию качественных Fine-grained Embeddings.
- Аудио: Использовать оригинальную трендовую музыку высокого качества. Это гарантирует совпадение Audio Embeddings.
- Текст: Использовать релевантный хэштег тренда и описание, соответствующее видео.
- Как работает система: Google сгенерирует мультимодальные эмбеддинги. Затем он сравнит Fine-grained Embeddings (движения) вашего видео с эталонным видео тренда, используя Dynamic Time Warping.
- Ожидаемый результат: Благодаря точному исполнению система определит высокий Degree of Alignment. Видео будет корректно классифицировано как часть тренда, что повысит его шансы на попадание в рекомендации и поиск по данному тренду, опережая видео, которые используют только музыку или хэштег без соответствующего исполнения.
Вопросы и ответы
Что такое мультимодальные эмбеддинги в контексте этого патента?
Это единое векторное представление видео, которое объединяет информацию из трех источников: визуального ряда (Video Embeddings), звуковой дорожки (Audio Embeddings) и текстовых метаданных (Textual Embeddings). Они создаются путем слияния (fusion) этих сигналов, позволяя Google понимать контент комплексно.
Как этот патент влияет на продвижение коротких видео (Shorts)?
Влияние критическое. Патент напрямую описывает механизмы, используемые для понимания и классификации коротких видео, особенно для выявления трендов. Это означает, что для успеха в Shorts необходимо не просто использовать трендовую музыку или хэштег, а создавать контент, который визуально соответствует концепции тренда.
Что такое Dynamic Time Warping (DTW) и почему это важно для SEO?
DTW — это алгоритм, который измеряет сходство между двумя последовательностями, даже если они различаются по скорости. В SEO это важно, потому что Google использует DTW для сравнения действий или движений в вашем видео с эталонным видео тренда. Если вы делаете танцевальный челлендж, DTW оценивает, насколько точно вы повторяете движения.
Что такое Fine-grained Embeddings?
Это детализированные эмбеддинги, которые фокусируются на конкретных визуальных деталях, таких как позы, движения и действия объектов в кадре. Они извлекаются из Feature Pyramid и критически важны для точного анализа исполнения в видео, например, при детекции трендов.
Означает ли этот патент, что хэштеги и заголовки больше не важны для видео?
Нет, они по-прежнему важны. Патент явно описывает использование Text Encoder (например, BERT) для обработки текстовых данных и включение Textual Embeddings в финальное мультимодальное представление. Однако полагаться *только* на текст при игнорировании аудиовизуального содержания становится неэффективным.
Как система определяет качество видео согласно этому патенту?
Патент упоминает, что Media Characteristics, определяемые на основе мультимодальных эмбеддингов, включают оценку качества изображения и звука. Это означает, что эмбеддинги, сгенерированные из видео низкого технического качества (шум, искажения), будут отличаться от эмбеддингов высококачественного контента, что позволяет системе классифицировать качество.
Какие ИИ-модели упоминаются в патенте для обработки контента?
Упоминаются конкретные типы архитектур: Vision Transformer для визуальных данных (Image Encoder), Audio Spectrogram Transformer для аудио данных (Audio Encoder) и BERT (Bidirectional Encoder Representations from Transformers) для текстовых данных (Text Encoder). Это современные модели на базе трансформеров.
Как бороться с ситуацией, когда контент визуально релевантен тренду, но не получает охвата?
Необходимо убедиться, что исполнение максимально близко к эталону (для повышения Degree of Alignment) и что все модальности оптимизированы. Проверьте качество аудио и убедитесь, что текстовые метаданные точно соответствуют содержанию. Если все выполнено верно, проблема может быть связана с другими факторами ранжирования вне рамок этого патента (например, авторитетность канала).
Может ли эта система ошибочно связать мое видео с трендом?
Теоретически да, если визуальные и аудио признаки вашего видео случайно совпадут с эталоном тренда и удовлетворят Alignment Criteria. Однако использование DTW и мультимодального анализа направлено на повышение точности и минимизацию таких ошибок по сравнению с простым сопоставлением звука или текста.
Применяется ли этот механизм только для трендов?
Нет. Основная цель патента — генерация мультимодальных эмбеддингов для общей характеристики медиа. Хотя детекция трендов приводится как ключевой пример, эти же эмбеддинги используются для прогнозирования интереса пользователей, оценки качества контента и, вероятно, для общей тематической классификации видео.