Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует мультимодальные эмбеддинги для глубокого понимания видео, выявления трендов и оценки качества контента

    MEDIA ITEM CHARACTERIZATION BASED ON MULTIMODAL EMBEDDINGS (Характеризация медиа-контента на основе мультимодальных эмбеддингов)
    • WO2025072968A1
    • Google LLC
    • 2025-04-03
    • 2024-09-30
    2024 EEAT и качество Мультимедиа Патенты Google Семантика и интент

    Google использует системы на основе ИИ (Трансформеры) для анализа видеоконтента, объединяя визуальные, звуковые и текстовые сигналы в единые мультимодальные эмбеддинги. Этот механизм позволяет поисковой системе глубоко понимать содержание видео, оценивать его качество, прогнозировать интерес пользователей и алгоритмически выявлять участие контента в медиа-трендах (например, челленджах) путем сравнения действий и поз.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему сложности и ресурсоемкости точной характеризации огромного объема видеоконтента на контент-платформах. Традиционные методы, часто полагающиеся на метаданные, предоставленные пользователями (например, хештеги), могут быть неточными и не улавливать нюансы контента или эволюцию медиа-трендов. Изобретение направлено на повышение точности понимания содержания видео, выявления трендов и автоматической оценки качества контента.

    Что запатентовано

    Запатентована система для характеризации медиа-контента (видео) с использованием мультимодальных эмбеддингов. Система обрабатывает видео, извлекая отдельные эмбеддинги для визуальных и аудио признаков с помощью специализированных энкодеров (на основе Трансформеров). Затем эти эмбеддинги объединяются в единое аудиовизуальное представление (audiovisual embeddings). На основе этих мультимодальных данных система определяет ключевые характеристики контента.

    Как это работает

    Система работает следующим образом:

    • Извлечение визуальных данных: Видеокадры обрабатываются с помощью Image Encoder (например, Vision Transformer) для создания Video Embeddings, отражающих визуальные признаки (объекты, сцены, действия, позы).
    • Извлечение аудио данных: Аудиосигнал обрабатывается с помощью Audio Encoder (например, Audio Spectrogram Transformer) для создания Audio Embeddings, отражающих звуковые признаки (ритм, тембр, речь).
    • Мультимодальное объединение: Video Embeddings и Audio Embeddings объединяются (например, путем конкатенации и пулинга внимания) для создания Audiovisual Embeddings.
    • (Опционально) Включение текста: Текстовые данные (метаданные, транскрипты) обрабатываются Text Encoder (например, BERT) и могут быть интегрированы в общее представление.
    • Характеризация: Полученные мультимодальные эмбеддинги используются для определения характеристик видео, таких как принадлежность к медиа-тренду, прогнозируемый интерес пользователей или оценка качества аудио/видео.

    Актуальность для SEO

    Высокая. Патент подан в конце 2024 года и опубликован в 2025 году. Он напрямую отражает текущий фокус Google на мультимодальных ИИ-моделях и использовании Трансформеров для глубокого понимания сложного контента. Это современный и стратегически важный подход к анализу видео.

    Важность для SEO

    Влияние на Video SEO (YouTube и Google Search) является значительным. Патент описывает механизм, позволяющий Google понимать содержание видео на гораздо более глубоком уровне, выходя за рамки традиционных метаданных. Это напрямую влияет на то, как видео классифицируются, рекомендуются и ранжируются. Система может алгоритмически определять качество контента, его релевантность и соответствие трендам, основываясь на самом аудиовизуальном содержании, а не только на заголовках и описаниях.

    Детальный разбор

    Термины и определения

    Audio Encoder (Аудио энкодер)
    ИИ-модель (например, Audio Spectrogram Transformer), преобразующая необработанный аудиосигнал в Audio Embeddings.
    Audio Embeddings (Аудио эмбеддинги)
    Векторные представления, фиксирующие аудио признаки медиа-контента (например, ритм, тембр, речь, спектральные характеристики).
    Audiovisual Embeddings (Аудиовизуальные эмбеддинги)
    Объединенные (fused) векторные представления, созданные на основе Video Embeddings и Audio Embeddings. Они отражают как визуальные, так и звуковые признаки для каждого кадра или сегмента видео.
    Dynamic Time Warping (DTW) (Динамическая трансформация временной шкалы)
    Алгоритм, упомянутый как метод сравнения (comparison operations) для измерения сходства между двумя временными последовательностями (например, последовательностями эмбеддингов двух разных видео), которые могут различаться по скорости.
    Image Encoder / Video Encoder (Видео энкодер)
    ИИ-модель (например, Vision Transformer), преобразующая необработанные видеокадры в Video Embeddings (или Image Tokens).
    Media Characteristics (Характеристики медиа-контента)
    Определяемые системой свойства видео. В патенте упоминаются: принадлежность к Media Trend, степень интереса пользователей, качество изображения или звука.
    Media Item (Медиа-контент)
    Единица контента, анализируемая системой, в контексте патента — видео (последовательность видеокадров).
    Media Trend (Медиа-тренд)
    Явление, при котором набор медиа-контента имеет общую концепцию или формат и широко распространяется (например, танцевальные челленджи, мемы).
    Text Encoder (Текстовый энкодер)
    ИИ-модель (например, BERT), преобразующая текстовые данные (заголовки, описания, хештеги) в Textual Embeddings.
    Video Embeddings (Видео эмбеддинги)
    Векторные представления (иногда называемые Image Tokens), фиксирующие визуальные признаки медиа-контента (объекты, сцены, действия, движение, позы, освещение).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод характеризации видео.

    1. Идентификация медиа-контента (видео).
    2. Получение набора Video Embeddings, представляющих визуальные признаки.
    3. Получение набора Audio Embeddings, представляющих аудио признаки.
    4. Генерация набора Audiovisual Embeddings на основе видео и аудио эмбеддингов. Каждый такой эмбеддинг представляет собой объединенное представление визуальных и аудио признаков для соответствующего кадра.
    5. Определение одной или нескольких Media Characteristics на основе этих Audiovisual Embeddings.

    Claim 8 (Зависимый от 1): Расширяет метод за счет включения текстовых данных.

    1. Получение набора Textual Embeddings, представляющих текстовые признаки, связанные с контентом.
    2. Определение Media Characteristics основывается не только на Audiovisual Embeddings, но и на Textual Embeddings.

    Claim 11 (Зависимый от 1): Детализирует процесс генерации Audiovisual Embeddings. Он включает выполнение операций конкатенации (объединения) Video Embedding с соответствующим Audio Embedding. Также может включать attention pooling (Claim 12).

    Claim 13 (Зависимый от 1): Определяет типы Media Characteristics, которые система может выявлять. К ним относятся: принадлежность к Media Trend, степень интереса пользователей к контенту, а также качество изображения или звука.

    Claim 14 (Зависимый от 1): Описывает конкретное применение системы для выявления трендов путем анализа действий/поз.

    1. Визуальные признаки включают позы объекта в видео.
    2. Идентифицируется набор эмбеддингов для другого видео, уже связанного с Media Trend (эталонного видео), которые также представляют позы.
    3. Определяется степень выравнивания (degree of alignment) между позами в анализируемом видео и позами в эталонном видео на основе сравнения их эмбеддингов.
    4. Если степень выравнивания удовлетворяет критериям (alignment criteria), анализируемое видео ассоциируется с этим Media Trend.

    Claim 16 (Зависимый от 15): Указывает, что для определения степени выравнивания могут использоваться операции сравнения, включающие функцию Dynamic Time Warping (DTW).

    Где и как применяется

    Изобретение применяется на этапе обработки и анализа контента для глубокого понимания видео.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. При обработке видеоконтента (после сканирования или загрузки) система выполняет глубокий анализ для извлечения мультимодальных признаков.

    1. Feature Extraction: Используются специализированные энкодеры (Image Encoder, Audio Encoder, Text Encoder) для преобразования сырых данных в векторные представления (эмбеддинги).
    2. Fusion: Система генерирует Audiovisual Embeddings, объединяя информацию из разных модальностей.
    3. Characterization: На основе эмбеддингов вычисляются характеристики контента (качество, тренды, интерес).

    Эти данные сохраняются в индексе и используются на последующих этапах.

    RANKING – Ранжирование
    Сгенерированные Audiovisual Embeddings и определенные Media Characteristics служат входными сигналами для систем ранжирования. Например, сигналы о качестве, прогнозируемом интересе или принадлежности к тренду могут использоваться для повышения или понижения позиций видео в поиске или рекомендациях.

    Входные данные:

    • Сырой медиа-контент (последовательность видеокадров и аудиосигнал).
    • Сопутствующие текстовые данные (метаданные, транскрипты).
    • (Для детекции трендов) Эмбеддинги эталонных видео, связанных с известными трендами.

    Выходные данные:

    • Наборы Video Embeddings, Audio Embeddings, Textual Embeddings.
    • Объединенные Audiovisual Embeddings.
    • Определенные Media Characteristics (например, идентификатор тренда, оценка качества, оценка интереса).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на видеоконтент (как короткие, так и длинные формы).
    • Специфические запросы: Влияет на запросы, где важен визуальный или звуковой контекст, который сложно описать только текстом. Также влияет на запросы, связанные с трендами и мемами.
    • Конкретные ниши или тематики: Наибольшее влияние в нишах, где доминируют визуальные тренды, таких как развлечения, танцы, DIY, юмор (мемы), а также там, где важно качество продукции (обзоры).

    Когда применяется

    • Условия применения: Алгоритм применяется при индексации или обработке любого видеоконтента, загруженного на платформу или обнаруженного краулером.
    • Триггеры активации: Процесс генерации эмбеддингов запускается автоматически для нового или обновленного контента. Процесс детекции трендов может запускаться как в реальном времени при обработке нового видео, так и периодически для анализа корпуса контента.

    Пошаговый алгоритм

    Описание процесса характеризации медиа-контента:

    1. Идентификация контента: Система идентифицирует медиа-контент, состоящий из последовательности видеокадров и соответствующего аудиосигнала.
    2. Обработка визуальных данных: Последовательность видеокадров подается на вход Image Encoder (например, Vision Transformer). На выходе получается набор Video Embeddings (токенов изображения), представляющих визуальные признаки для каждого кадра или сегмента.
    3. Обработка аудио данных: Аудиосигнал извлекается и подается на вход Audio Encoder (например, Audio Spectrogram Transformer). На выходе получается набор Audio Embeddings, представляющих аудио признаки.
    4. (Опционально) Обработка текстовых данных: Связанные с контентом текстовые признаки (метаданные) подаются на вход Text Encoder (например, BERT). На выходе получается набор Textual Embeddings.
    5. Генерация аудиовизуальных эмбеддингов (Fusion): Система объединяет Video Embeddings и Audio Embeddings. Это может включать операцию конкатенации соответствующих эмбеддингов и последующее применение операций пулинга внимания (attention pooling) для создания итоговых Audiovisual Embeddings.
    6. Определение характеристик: Система анализирует Audiovisual Embeddings (и опционально Textual Embeddings) для определения Media Characteristics.

    Специфический процесс для детекции трендов (на основе Claim 14):

    1. Извлечение признаков движения/поз: В рамках генерации Audiovisual Embeddings извлекаются признаки, описывающие позы или движения объектов.
    2. Выбор эталона: Идентифицируются эмбеддинги другого видео, уже ассоциированного с определенным Media Trend.
    3. Сравнение и выравнивание: Эмбеддинги анализируемого видео сравниваются с эмбеддингами эталонного видео с помощью операций сравнения (например, Dynamic Time Warping). Вычисляется степень выравнивания (degree of alignment) или разница между ними.
    4. Принятие решения: Система определяет, удовлетворяет ли степень выравнивания заданным критериям (например, ниже порога разницы). Если да, видео ассоциируется с этим Media Trend.

    Какие данные и как использует

    Данные на входе

    Система использует данные из трех модальностей:

    • Контентные факторы (Визуальные): Необработанные данные видеокадров. Система анализирует сцены, объекты, действия, движения, позы (poses), цвета и освещение.
    • Контентные факторы (Аудио): Необработанный аудиосигнал. Система анализирует высоту тона, тембр, ритм, содержание речи, характеристики говорящего, окружающие звуки, спектральные и временные характеристики звука.
    • Текстовые факторы: Заголовки, описания, ключевые слова, хештеги, транскрипты аудио.

    Какие метрики используются и как они считаются

    Основными метриками в патенте являются векторные представления (эмбеддинги) и метрики сходства между ними.

    • Video/Audio/Textual Embeddings: Вычисляются с использованием моделей глубокого обучения (энкодеров), основанных на архитектуре Трансформер (Vision Transformer, Audio Spectrogram Transformer, BERT).
    • Audiovisual Embeddings: Вычисляются путем объединения (Fusion) отдельных эмбеддингов, используя конкатенацию и механизмы внимания (attention pooling).
    • Degree of Alignment (Степень выравнивания): Метрика сходства между последовательностями эмбеддингов двух видео. Вычисляется с помощью операций сравнения, например, Dynamic Time Warping (DTW). Эта метрика измеряет разницу между визуальными признаками (например, позами) в двух видео.
    • Alignment Criteria (Критерии выравнивания): Пороговые значения для Degree of Alignment. Если разница ниже порога (difference threshold), критерии считаются выполненными.
    • Media Characteristics (Выходные метрики): Конечные результаты анализа, такие как оценка качества (image quality, audio quality), оценка интереса (degree of interest) и классификация трендов (media trend association).

    Выводы

    1. Мультимодальность как основа понимания видео: Google активно применяет подход, при котором видео анализируется не как набор кадров или отдельная звуковая дорожка, а как единый мультимодальный объект. Audiovisual Embeddings позволяют фиксировать синергию между тем, что показано, и тем, что слышно.
    2. Глубокий анализ содержания за пределами метаданных: Система способна понимать содержание видео (действия, объекты, позы, речь) напрямую из аудиовизуальных данных. Хотя текстовые метаданные используются (Textual Embeddings), они дополняют, а не определяют понимание контента.
    3. Алгоритмическое выявление трендов и мемов: Патент описывает конкретный механизм для идентификации видео, участвующих в трендах (например, челленджах). Это делается не по хештегам, а путем сравнения фактического исполнения (поз, движений) с эталоном с использованием таких методов, как Dynamic Time Warping.
    4. Автоматизированная оценка качества и интереса: Система использует эмбеддинги для прямой оценки технических характеристик (качество аудио/видео) и прогнозирования вовлеченности пользователей (degree of interest), что, вероятно, используется как сигналы ранжирования.
    5. Трансформеры как ключевая технология: Для обработки всех модальностей используются современные архитектуры на основе Трансформеров (Vision Transformer, BERT, Audio Spectrogram Transformer), что обеспечивает высокую точность анализа.

    Практика

    Best practices (это мы делаем)

    • Обеспечение синергии аудио и видеоряда: Контент должен быть целостным. Визуальные элементы должны соответствовать звуковому сопровождению и теме. Система генерирует Audiovisual Embeddings, которые фиксируют эту связь. Несоответствие может быть интерпретировано как низкое качество или нерелевантность.
    • Фокус на качестве продакшена: Поскольку система напрямую оценивает image quality и audio quality на основе эмбеддингов, необходимо поддерживать высокие технические стандарты видео и звука (четкость, освещение, отсутствие шумов).
    • Точность исполнения при участии в трендах: При создании контента для Media Trend (например, танцевального челленджа) важно точно воспроизводить ключевые элементы (движения, позы). Система использует сравнение эмбеддингов (например, через DTW) для измерения степени соответствия (degree of alignment) эталону тренда.
    • Оптимизация всех доступных модальностей: Продолжайте оптимизировать метаданные (заголовок, описание), так как они используются для генерации Textual Embeddings и участвуют в общем анализе. Убедитесь, что метаданные точно отражают аудиовизуальное содержание.
    • Создание контента, стимулирующего вовлеченность: Так как система прогнозирует degree of interest на основе содержания, следует фокусироваться на создании увлекательного контента, который соответствует паттернам, ассоциирующимся с высоким интересом пользователей.

    Worst practices (это делать не надо)

    • Использование кликбейтных заголовков, не соответствующих содержанию: Система анализирует аудиовизуальное содержание напрямую. Расхождение между Textual Embeddings (из заголовка) и Audiovisual Embeddings (из контента) будет легко обнаружено.
    • «Trend-jacking» только через хештеги: Попытка присоединиться к тренду путем добавления популярных хештегов без фактического соответствия формату тренда будет неэффективной. Система проверяет соответствие контента, а не только наличие тегов.
    • Низкое техническое качество контента: Видео с плохим освещением, нестабильной камерой или шумами в аудио будут получать низкие оценки качества, вычисленные на основе эмбеддингов.
    • Вводящий в заблуждение видеоряд (Mismatched Footage): Использование видеоряда, который не имеет отношения к звуковой дорожке или заявленной теме, негативно скажется на мультимодальном анализе.

    Стратегическое значение

    Этот патент подтверждает стратегию Google по переходу от анализа ключевых слов к глубокому пониманию контента через векторные представления (эмбеддинги). Для Video SEO это означает, что фокус смещается с текстовой оптимизации на качество, релевантность и целостность самого аудиовизуального продукта. Способность системы алгоритмически идентифицировать тренды и качество подчеркивает важность создания контента, который действительно резонирует с аудиторией и соответствует ожиданиям платформы по формату и качеству.

    Практические примеры

    Сценарий: Алгоритмическое определение участия в танцевальном челлендже

    1. Эталон тренда: Существует популярный танцевальный челлендж («Challenge_X»). Google обработал эталонные видео и сохранил их Audiovisual Embeddings, которые фиксируют ключевые движения и позы под определенную музыку.
    2. Новое видео: Пользователь загружает новое видео с хештегом #Challenge_X.
    3. Анализ нового видео: Система генерирует Audiovisual Embeddings для нового видео, извлекая данные о движениях и позах.
    4. Сравнение (DTW): Система использует Dynamic Time Warping для сравнения последовательности движений в новом видео с эталоном Challenge_X. Это позволяет учесть небольшие различия в скорости исполнения.
    5. Результат А (Соответствие): Если движения точно повторяют танец, degree of alignment будет высоким (разница ниже порога). Система алгоритмически подтверждает участие в тренде, что может привести к повышению видимости видео в рекомендациях по этому тренду.
    6. Результат Б (Несоответствие): Если пользователь просто стоит перед камерой под ту же музыку, используя хештег, degree of alignment будет низким. Система определит, что видео не соответствует формату тренда, несмотря на хештег и музыку.

    Вопросы и ответы

    Что такое мультимодальный эмбеддинг в контексте этого патента?

    Это объединенное векторное представление, которое фиксирует информацию сразу из нескольких источников (модальностей). В данном патенте Audiovisual Embedding создается путем слияния Video Embedding (визуальные данные) и Audio Embedding (звуковые данные), позволяя системе понять связь между тем, что пользователь видит, и тем, что он слышит в видео.

    Означает ли этот патент, что метаданные (заголовки, описания) больше не важны для Video SEO?

    Нет, метаданные по-прежнему важны. Патент явно указывает (Claim 8), что Textual Embeddings, полученные из текстовых данных, также используются для характеризации контента наряду с аудиовизуальными данными. Однако значение метаданных снижается по сравнению с фактическим содержанием видео; они должны точно соответствовать аудиовизуальному ряду.

    Как именно система определяет, что видео является частью тренда, например, танцевального челленджа?

    Патент описывает конкретный механизм (Claim 14): система сравнивает эмбеддинги анализируемого видео с эмбеддингами эталонного видео тренда. Особое внимание уделяется выравниванию (alignment) визуальных признаков, таких как позы и движения. Если движения в двух видео достаточно схожи (удовлетворяют alignment criteria), система ассоциирует видео с трендом.

    Что такое Dynamic Time Warping (DTW) и зачем он используется?

    Dynamic Time Warping — это алгоритм для измерения сходства между двумя последовательностями, которые могут различаться по скорости. В контексте анализа видео он позволяет системе понять, что два человека выполняют один и тот же танец, даже если один делает это немного быстрее или медленнее другого. Это обеспечивает более гибкое и точное выявление трендов.

    Как система оценивает качество видео?

    Патент утверждает (Claim 13), что Media Characteristics, определяемые на основе Audiovisual Embeddings, включают оценку качества изображения и звука. Это означает, что модели (энкодеры) обучены распознавать признаки, связанные с техническим качеством (например, четкость, освещение, отсутствие шумов) непосредственно из сырых данных.

    Какие технологии ИИ используются в этом патенте?

    Патент делает упор на архитектуру Трансформер. Для видео упоминается Vision Transformer, для аудио — Audio Spectrogram Transformer, а для текста — BERT (Bidirectional Encoder Representations from Transformers). Это современные и мощные модели глубокого обучения.

    Может ли эта система понять, о чем говорят в видео?

    Да. Audio Embeddings фиксируют содержание речи (speech content) и характеристики говорящего. Кроме того, транскрипты речи могут использоваться для генерации Textual Embeddings. Это позволяет системе понимать тематику и контекст разговора в видео.

    Влияет ли этот патент на короткие видео (Shorts) или только на длинные?

    Патент применим ко всем типам видеоконтента (Media Items). Учитывая упоминание Media Trends, таких как танцевальные челленджи, можно предположить, что эта технология особенно важна для анализа коротких форм видео, где тренды распространяются наиболее активно.

    Что означает «степень интереса» (degree of interest) и как она измеряется?

    Это прогнозируемая метрика вовлеченности пользователей. Система анализирует Audiovisual Embeddings и выявляет паттерны в контенте (визуальные, звуковые, тематические), которые статистически коррелируют с высоким интересом аудитории. Это позволяет предсказать популярность видео на основе его содержания.

    На каком этапе поиска работает этот механизм?

    Основная работа происходит на этапе Индексирования (Indexing & Feature Extraction). Система извлекает мультимодальные признаки и вычисляет характеристики видео. Полученные данные (эмбеддинги, оценки качества, идентификаторы трендов) затем сохраняются и используются как сигналы на этапе Ранжирования (Ranking).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.