Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически создает описания для видео и аудио, перенося подписи из похожих изображений

    AUTOMATED VIDEO AND AUDIO ANNOTATION TECHNIQUES (Автоматизированные методы аннотирования видео и аудио)
    • US20250209794A1
    • Google LLC
    • 2025-06-26
    • 2022-02-04
    2022 Мультимедиа Патенты Google

    Google использует метод кросс-модального переноса для автоматического создания текстовых описаний (captioning) для видео и аудио. Система находит видеокадры, визуально похожие на уже размеченные изображения из существующих датасетов, и переносит качественные текстовые подписи с изображений на соответствующие видеоклипы. Это позволяет масштабно генерировать данные для обучения моделей поиска по видео и аудио.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему дефицита и высокой стоимости получения масштабных, высококачественных обучающих данных для систем видео- и аудиопоиска (Video/Audio Retrieval Systems) и систем создания описаний (Captioning Systems). Существующие методы, основанные на автоматическом распознавании речи (ASR), имеют недостатки: шум в транскрипции, временное несоответствие между речью и видеорядом, а также ограниченность тематиками (например, только инструкциональные видео). Изобретение предлагает метод генерации чистых, разнообразных и точно выровненных описаний для мультимедийного контента.

    Что запатентовано

    Запатентована система (Annotation System), которая автоматически генерирует датасеты для описания видео и аудио, используя механизм кросс-модального переноса (Cross-modal transfer). Система использует существующие пары изображение-описание (Seed Images) в качестве эталона. Она идентифицирует кадры в видео, которые визуально похожи на эталонные изображения, и автоматически переносит текстовое описание с изображения на соответствующий видео- или аудиоклип.

    Как это работает

    Ключевой механизм работы системы:

    • Получение эталона: Система берет изображение и его текстовое описание (Caption) из существующего датасета (Image Captioning Dataset).
    • Извлечение признаков: Вычисляются векторы признаков (Feature Vectors) как для эталонного изображения, так и для кадров из большого репозитория видео (Video Repository).
    • Расчет сходства: Система вычисляет показатель сходства (Similarity Value) между вектором изображения и векторами видеокадров (например, используя L2-distance или dot product similarity).
    • Перенос описания: Если показатель сходства превышает пороговое значение (Match Threshold Value), система переносит описание с изображения на видеокадр.
    • Генерация клипа: Создается короткий видеоклип вокруг совпавшего кадра, который наследует перенесенное описание и сохраняется в новый датасет (Video Captioning Database).

    Актуальность для SEO

    Высокая. Мультимодальный поиск (видео, аудио, изображения) является ключевым направлением развития поисковых систем. Для обучения современных моделей (например, трансформеров, упомянутых в патенте) требуются огромные объемы размеченных данных. Описанный метод предлагает масштабируемое и автоматизированное решение для генерации таких данных, что критически важно для улучшения понимания мультимедийного контента.

    Важность для SEO

    Влияние на SEO значительно (6.5/10), особенно для стратегий продвижения видео и мультимедийного контента. Патент описывает механизм, позволяющий Google понимать и маркировать видео и аудио контент без опоры на окружающий текст, метаданные или транскрипцию. Это означает, что визуальное и слуховое содержание само по себе становится главным источником сигналов релевантности для поиска по видео и аудио. Для традиционного веб-поиска влияние менее прямое, но для вертикалей Video/Audio Search оно определяющее.

    Детальный разбор

    Термины и определения

    Annotation System (Система аннотирования)
    Система, реализующая автоматизированный процесс майнинга и маркировки видео- и аудиоклипов.
    Audio Captioning Database (База данных аудио описаний)
    Хранилище аудиоклипов, которые были автоматически маркированы с помощью перенесенных описаний.
    Cross-modal transfer (Кросс-модальный перенос)
    Использование размеченных данных из одной модальности (например, изображения) для помощи в обучении или разметке данных в другой модальности (например, видео, аудио).
    Feature Vector (Вектор признаков)
    Числовое представление изображения, видеокадра или аудиосегмента, извлеченное с помощью модели машинного обучения (например, обученной для поиска изображений).
    Image Captioning Dataset (Датасет описаний изображений)
    Существующий набор данных, содержащий изображения и связанные с ними высококачественные текстовые описания.
    Match Threshold Value (τ) (Пороговое значение совпадения)
    Минимальное значение сходства, необходимое для того, чтобы считать изображение и видеокадр достаточно похожими для переноса описания.
    Mining Pipeline (Пайплайн майнинга)
    Автоматизированный процесс поиска видеокадров, похожих на эталонные изображения, и генерации новых датасетов.
    Multimodal Video Encoder (Мультимодальный видео энкодер)
    Модель (например, на базе трансформеров), способная обрабатывать и кодировать как визуальные (RGB кадры), так и аудио (спектрограммы) данные для задач поиска или генерации описаний.
    Seed Image / Captioned Image (Эталонное изображение / Изображение с подписью)
    Изображение из Image Captioning Dataset, используемое как основа для поиска похожих видеокадров.
    Similarity Value/Score (Показатель сходства)
    Числовая метрика, количественно определяющая сходство между двумя Feature Vectors (например, между изображением и видеокадром).
    Video Captioning Database (База данных видео описаний)
    Сгенерированный датасет, состоящий из видеоклипов и перенесенных на них текстовых описаний.
    Video Repository (Репозиторий видео)
    Большая коллекция видео (например, общедоступные видео в интернете), из которой извлекаются кадры для сравнения.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает базовый метод улучшения системы поиска (retrieval system).

    1. Система получает изображение с описанием (captioned image).
    2. Система получает первое видео с набором кадров.
    3. Определяется Feature Vector для изображения.
    4. Определяется Feature Vector для первого кадра видео.
    5. Вычисляется Similarity Value между изображением и кадром на основе их векторов.
    6. Система переносит описание (associated caption) с изображения на первый кадр видео на основе Similarity Value.

    Ядро изобретения — автоматический перенос текстовой информации из одной модальности (изображение) в другую (видео) на основе вычисленного сходства их признаков.

    Claim 2 (Зависимый от 1): Детализирует процесс создания датасета.

    1. Генерируется видеоклип из первого видео на основе первого кадра (найденного в п.1).
    2. Клип сохраняется в Video Captioning Database.
    3. Описание переносится на видеоклип на основе Similarity Value и Match Threshold Value.

    Здесь вводится понятие порогового значения для подтверждения переноса и генерация именно клипа, а не просто разметка кадра.

    Claim 3 (Зависимый от 2): Описывает применение в поиске.

    1. Система получает пользовательский ввод (запрос), связанный с описанием.
    2. В ответ на ввод система представляет пользователю сгенерированный видеоклип.

    Это подтверждает, что конечной целью является обеспечение работы текстового поиска по автоматически размеченным видеоклипам.

    Claim 8 (Зависимый от 1): Описывает процесс анализа нескольких кадров.

    1. Определяется Feature Vector для второго кадра видео.
    2. Вычисляется второе Similarity Value между изображением и вторым кадром.
    3. Описание переносится на второй кадр, если второе Similarity Value превышает Match Threshold Value.

    Система способна идентифицировать несколько релевантных кадров в одном видеопотоке.

    Claim 11 (Зависимый от 8): Детализирует генерацию клипа на основе нескольких кадров.

    1. Первый и второй кадры имеют временные метки.
    2. Определяется временной диапазон (time span) на основе этих меток.
    3. Генерируется видеоклип путем сокращения видео на основе этого временного диапазона.
    4. Клип маркируется описанием.

    Это важный механизм для определения границ релевантного сегмента внутри длинного видео.

    Claim 14 (Зависимый от 1): Описывает применение к аудио.

    1. Генерируется аудиофайл из первого видео на основе первого кадра. Аудиофайл маркируется описанием.
    2. Система получает пользовательский ввод (аудио запрос).
    3. В ответ система выводит аудиофайл.

    Механизм также используется для генерации данных и обеспечения поиска по аудио контенту.

    Где и как применяется

    Изобретение в первую очередь относится к этапам сбора и обработки данных для обучения моделей машинного обучения, которые затем используются в поиске.

    CRAWLING – Сканирование и Сбор данных
    Система требует доступа к двум источникам данных: Image Captioning Dataset (уже существующие данные) и Video Repository (например, проиндексированные видео из интернета или YouTube).

    INDEXING – Индексирование и извлечение признаков
    Основная работа механизма происходит на этом этапе (как часть процесса генерации обучающих данных). Система выполняет:

    • Извлечение Feature Vectors из изображений.
    • Извлечение Feature Vectors из видеокадров. Патент отмечает, что для эффективности признаки могут извлекаться с пониженной частотой кадров (например, 1 fps вместо 24 fps).
    • Расчет сходства и генерация новых аннотаций (Video/Audio Captioning Databases).

    Модели, обученные на этих данных (Multimodal Video Encoder, Text Encoder), впоследствии используются для индексирования мультимедийного контента, позволяя системе понимать содержание видео и аудио без текстовых метаданных.

    RANKING / METASEARCH (Применение)
    Результаты работы изобретения — обученные модели и сгенерированные базы данных — используются в системах поиска по видео и аудио (Вертикальный поиск). Они позволяют сопоставлять текстовые запросы пользователей с мультимедийным контентом на основе его содержания.

    Входные данные:

    • Эталонные изображения (Seed Images) и их описания (Captions).
    • Видеопотоки из Video Repository.

    Выходные данные:

    • Video Captioning Database (видеоклипы + перенесенные описания).
    • Audio Captioning Database (аудиоклипы + перенесенные описания).
    • Обученные модели машинного обучения для задач поиска и генерации описаний.

    На что влияет

    • Типы контента: В первую очередь влияет на видео и аудио контент. Позволяет лучше понимать содержание мультимедиа.
    • Специфические запросы: Влияет на информационные, развлекательные и любые другие запросы, где ответ может быть предоставлен в формате видео или аудио. Улучшает поиск по содержанию контента, а не только по заголовкам или тегам.
    • Форматы контента: Позволяет идентифицировать короткие релевантные клипы (Key Moments) внутри длинных видео.

    Когда применяется

    • Условия работы алгоритма: Процесс майнинга (генерации датасетов) применяется офлайн или в пакетном режиме для обработки больших объемов видео.
    • Триггеры активации: Перенос описания активируется только тогда, когда рассчитанный Similarity Value между изображением и видеокадром превышает установленный Match Threshold Value (τ).

    Пошаговый алгоритм

    Процесс автоматического аннотирования видеоклипов:

    1. Получение эталонного изображения: Система получает изображение с ассоциированным текстовым описанием из Image Captioning Dataset.
    2. Получение видеоданных: Система получает доступ к видеопотоку из Video Repository, состоящему из последовательности кадров.
    3. Извлечение признаков изображения: Вычисляется Feature Vector для эталонного изображения с использованием предобученной модели.
    4. Извлечение признаков видеокадров: Вычисляются Feature Vectors для кадров видео. Для повышения эффективности этот шаг может выполняться с пониженной частотой дискретизации (например, 1 кадр в секунду).
    5. Расчет сходства: Для каждого обработанного видеокадра вычисляется Similarity Value между его вектором и вектором эталонного изображения.
    6. Валидация по порогу: Система сравнивает Similarity Value с предустановленным Match Threshold Value (τ).
    7. Перенос описания: Если порог превышен, система переносит текстовое описание с изображения на соответствующий видеокадр.
    8. Определение временного диапазона (Опционально): Если найдено несколько последовательных совпадающих кадров (например, первый и второй кадр), система определяет временной диапазон (time span) между ними на основе их временных меток.
    9. Генерация клипа: Генерируется видеоклип. Его длительность определяется либо фиксированным значением вокруг совпавшего кадра, либо вычисленным временным диапазоном.
    10. Сохранение и индексация: Сгенерированный клип (видео и/или аудио) маркируется перенесенным описанием и сохраняется в Video/Audio Captioning Database для последующего использования в обучении или поиске.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на использовании визуальных и аудио данных для генерации текстовых аннотаций.

    • Мультимедиа факторы: Являются основой процесса. Используются исходные изображения (Seed Images), видеокадры (упоминаются RGB frames) и аудиоданные (упоминаются log-mel spectrograms).
    • Контентные факторы: Текстовые описания (Captions), связанные с исходными изображениями. Качество этих описаний напрямую влияет на качество сгенерированного датасета.

    Какие метрики используются и как они считаются

    • Feature Vectors (Векторы признаков): Извлекаются с помощью моделей глубокого обучения. В описании упоминается использование моделей, обученных для поиска изображений (image retrieval).
    • Similarity Value (Показатель сходства): Рассчитывается между векторами признаков. В патенте явно упоминаются следующие методы расчета:
      • L2-distance (Евклидово расстояние).
      • Dot product similarity (Скалярное произведение).
      • Использование искусственной нейронной сети, обученной на классификации изображений.
    • Match Threshold Value (τ) (Пороговое значение совпадения): Предопределенное значение, которое должен превысить Similarity Value для активации переноса описания. (В примере на схемах указано значение 0.6).
    • Time Span (t) (Временной диапазон): Длительность извлекаемого видеоклипа. Может быть фиксированной или динамически определяться на основе временных меток нескольких совпавших кадров.
    • Алгоритмы машинного обучения:
      • Для кодирования видео упоминается Multimodal Video Encoder на базе архитектуры Трансформер (Transformer-based model).
      • Для кодирования текста упоминается Text Encoder, например, модель BERT.
      • Для обучения моделей поиска используется контрастивная функция потерь, в частности, Noise-Contrastive Estimation (NCE).

    Выводы

    1. Автономное понимание мультимедиа: Google активно развивает методы для понимания содержания видео и аудио на основе самого контента (визуальный ряд, звук), минимизируя зависимость от текстовых метаданных, транскрипций или окружающего текста на странице.
    2. Кросс-модальный перенос как стратегия масштабирования: Перенос знаний из модальности, богатой данными (изображения), в модальности, где данных не хватает (видео, аудио), является ключевой стратегией. Это позволяет быстро и дешево генерировать огромные объемы обучающих данных.
    3. Визуальное сходство как основа релевантности: Релевантность видеоконтента определяется через его визуальное (и слуховое) сходство с известными концепциями. Если видеокадр похож на известное изображение «человек бросает мяч», система присвоит ему это описание.
    4. Генерация «Key Moments»: Описанный механизм позволяет не только понять тему видео в целом, но и точно определить временные границы (time span) конкретных событий или объектов внутри длинного видео, что является основой для функции «Ключевые моменты» в поиске.
    5. Снижение ценности ASR для SEO: Хотя транскрипция остается полезной, патент подчеркивает недостатки ASR (шум, неточное выравнивание) и предлагает альтернативный, более точный метод понимания контента, основанный на визуальном анализе.

    Практика

    Best practices (это мы делаем)

    • Обеспечение визуальной четкости и однозначности: Ключевые действия, объекты и события в видео должны быть показаны четко, с хорошим освещением и композицией. Это повышает вероятность того, что система сможет извлечь качественные Feature Vectors и корректно сопоставить их с эталонными изображениями.
    • Оптимизация под визуальные концепции: При создании видеоконтента следует учитывать, как выглядят распространенные визуальные концепции в датасетах изображений. Видео должно визуально соответствовать тем описаниям (captions), по которым вы хотите ранжироваться.
    • Использование качественного и релевантного звука: Поскольку система является мультимодальной и генерирует Audio Captioning Database, качество звуковой дорожки имеет значение. Если в видео есть пение, речь или специфические звуковые эффекты, они должны быть чистыми и соответствовать визуальному ряду.
    • Структурирование видео для «Key Moments»: Создавайте видео с четкой структурой, где разные сегменты визуально отличаются друг от друга. Это поможет системе корректно определить временные диапазоны (time span) для разных событий и улучшит навигацию по видео в поиске.

    Worst practices (это делать не надо)

    • Исключительная ставка на текст и метаданные: Нельзя полагаться только на заголовки, описания видео или транскрипцию для объяснения содержания, особенно если визуальное или аудио качество низкое. Система в первую очередь анализирует сам контент.
    • Визуально двусмысленный контент: Создание контента, который трудно интерпретировать визуально (плохое качество съемки, перегруженная композиция), снижает эффективность работы описанных механизмов распознавания.
    • Несоответствие аудио и видео: Использование звуковой дорожки, которая не соответствует происходящему на экране, может привести к некорректной работе Multimodal Video Encoder и ухудшить общее понимание контента системой.

    Стратегическое значение

    Патент подтверждает стратегический сдвиг в Video SEO от оптимизации метаданных к оптимизации самого мультимедийного актива. Способность Google понимать видео на уровне кадров и звука на основе кросс-модального обучения означает, что качество и ясность контента становятся определяющими факторами ранжирования в видео поиске. Это также открывает возможности для более точного таргетинга и поиска по конкретным моментам внутри видео.

    Практические примеры

    Сценарий: Оптимизация видео-рецепта для распознавания этапов готовки

    1. Задача: Убедиться, что Google распознает ключевые этапы рецепта (например, «нарезка лука», «обжарка курицы», «добавление специй») для функции «Key Moments».
    2. Действия (на основе патента):
      • Визуальная четкость: Снимать каждый этап крупным планом, убеждаясь, что действие хорошо видно. Например, для «нарезки лука» показать доску, нож и лук в процессе нарезки.
      • Соответствие эталонам: Убедиться, что визуальное представление действия соответствует типичным изображениям этого действия в поиске картинок.
      • Четкие границы: Делать визуальные переходы между этапами очевидными, чтобы система могла корректно определить time span для каждого действия.
    3. Ожидаемый результат: Система извлекает Feature Vectors для кадров этапа нарезки, сопоставляет их с эталонными изображениями «нарезка лука», переносит это описание на соответствующий видеоклип и индексирует его. Видео получает автоматическую разметку ключевых моментов в SERP.

    Вопросы и ответы

    Означает ли этот патент, что Google больше не использует транскрипцию (ASR) для понимания видео?

    Нет, не означает. Google использует множество сигналов. Однако патент явно указывает на недостатки ASR (шум, плохое выравнивание) и предлагает этот механизм как способ генерации более качественных и точных описаний, основанных на визуальном контенте. Это говорит о снижении зависимости от ASR и повышении роли визуального анализа.

    Как работает кросс-модальный перенос (Cross-modal transfer) в этом патенте?

    Он работает путем переноса высококачественных текстовых описаний из богатой данными модальности (изображения) в модальность с дефицитом данных (видео/аудио). Если система определяет, что видеокадр визуально очень похож (высокий Similarity Value) на изображение с подписью «собака ловит фрисби», она автоматически присваивает эту подпись видеоклипу, содержащему этот кадр.

    Как этот механизм влияет на SEO для YouTube и видео на сайтах?

    Влияние одинаково, так как механизм направлен на понимание самого видеофайла, независимо от места его размещения (при условии, что он доступен для индексации). Ключевым фактором становится содержание видео: визуальная ясность, качество звука и четкость демонстрируемых действий или объектов.

    Что такое Feature Vector и как я могу на него повлиять?

    Feature Vector — это математическое представление содержания кадра, сгенерированное нейронной сетью. Напрямую повлиять на него нельзя, но можно повлиять на входные данные. Чем чище, качественнее и однозначнее изображение в кадре, тем точнее будет вектор и выше вероятность корректного распознавания контента системой.

    Как система определяет границы видеоклипа (Key Moment)?

    Патент описывает два способа. Первый — взять фиксированный интервал времени вокруг совпавшего кадра. Второй, более продвинутый (Claim 11), — найти первый и последний кадры в последовательности, которые соответствуют одному и тому же описанию, и определить временной диапазон (time span) между ними. Этот диапазон и становится границами клипа.

    Патент упоминает аудио (Audio Captioning). Как описание изображения переносится на звук?

    Если изображение имеет описание, подразумевающее звук (например, «человек поет песню»), и система находит похожий видеокадр, она извлекает аудиодорожку, соответствующую этому кадру, и также присваивает ей это описание. Это позволяет генерировать данные для обучения моделей поиска по аудио.

    Что такое «пониженная частота кадров» и зачем она используется?

    В патенте упоминается, что система может анализировать не каждый кадр (например, 24 кадра в секунду), а только некоторые (например, 1 кадр в секунду). Это значительно снижает вычислительные затраты и использование памяти при обработке огромных объемов видео, так как соседние кадры часто содержат очень похожую визуальную информацию.

    Какие методы расчета сходства использует Google согласно патенту?

    В патенте явно перечислены три возможных метода для расчета Similarity Value между векторами признаков изображения и видеокадра: L2-distance (Евклидово расстояние), dot product similarity (скалярное произведение) и использование специализированной искусственной нейронной сети.

    Может ли система использовать несколько разных описаний для одного видеоклипа?

    Да. Если видеоклип содержит кадры, которые похожи на несколько разных эталонных изображений с разными описаниями, система может сгенерировать несколько аннотаций для разных частей клипа или присвоить несколько релевантных описаний всему клипу.

    Влияет ли качество исходного Image Captioning Dataset на работу системы?

    Да, критически влияет. Система переносит описания напрямую. Если в исходном датасете описания некачественные, грамматически некорректные или неточные, эти же проблемы будут унаследованы сгенерированным Video Captioning Database. Поэтому Google заинтересован в использовании максимально качественных исходных данных.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.