Google использует систему машинного обучения для автоматического определения ключевых моментов (Highlights) в видео. Система анализирует низкоуровневые признаки (цвет, движение, звук) для выявления повторяющихся паттернов (событий). На основе частоты и последовательности этих событий (Event Vector) классификатор определяет, является ли сегмент интересным. Это позволяет автоматически тегировать видео и выделять ключевые моменты в поиске.
Описание
Какую задачу решает
Патент решает задачу автоматической идентификации интересных или захватывающих сегментов (highlights) внутри длинных видеороликов (например, спортивных матчей), которые преимущественно состоят из менее интересного контента. Это устраняет необходимость ручного просмотра и разметки, позволяя автоматически выделять ключевые моменты и улучшать навигацию по видео.
Что запатентовано
Запатентована техника машинного обучения для классификации видео как highlight. Система использует двухэтапный подход: сначала модели событий (Event Models) обучаются в неконтролируемом режиме (unsupervised manner) для выявления повторяющихся аудиовизуальных паттернов на основе низкоуровневых признаков. Затем видео характеризуется вектором событий (Event Vector), который используется для обучения классификатора (в контролируемом режиме) для различения ключевых моментов и обычного контента.
Как это работает
Система работает следующим образом:
- Извлечение признаков: Из кадров видео извлекаются низкоуровневые визуальные и аудио признаки (цвет, движение, звук).
- Моделирование событий (Неконтролируемое): Система автоматически выявляет повторяющиеся паттерны (Events) в этих признаках, используя методы вроде Hidden Markov Models (HMM) или Gaussian Mixture Models (GMM).
- Транскрибация и Векторизация: Видео представляется как последовательность событий. Генерируется Event Vector, суммирующий частоту событий (Event Unigram) и переходов между ними (Event Bigram).
- Классификация (Контролируемая): Обученный классификатор (например, LSVM) использует Event Vector для определения, является ли клип ключевым моментом.
- Применение: Идентифицированные моменты могут быть автоматически тегированы (searchable keyword) или использованы для сегментации видео.
Актуальность для SEO
Высокая. Автоматический анализ и сегментация видеоконтента критически важны для платформ вроде YouTube (упоминается в патенте) и функций Google Поиска. Описанная технология является вероятной основой для функции «Ключевые моменты» (Key Moments), которая активно используется для улучшения пользовательского опыта в SERP.
Важность для SEO
Патент имеет высокое значение для Video SEO (VSEO). Он демонстрирует, что Google глубоко анализирует аудиовизуальное содержание видео, выходя за рамки метаданных. Понимание того, как система использует структуру и динамику контента (Event Bigrams) для определения «интересности», критично для оптимизации видео под автоматическое выделение Key Moments и повышения видимости контента. Кроме того, патент явно упоминает автоматическую генерацию поисковых тегов на основе этого анализа.
Детальный разбор
Термины и определения
- Diarization (Диаризация)
- Процесс инициализации для моделирования событий. Включает разделение видео на планы (shots), затем на короткие сегменты и их кластеризацию для определения начальных типов событий.
- Event (Событие)
- Когерентный и повторяющийся паттерн низкоуровневых признаков в видео. Выявляется автоматически (unsupervised) и не обязательно имеет высокоуровневый семантический смысл (например, «крупный план» или «быстрое движение камеры»).
- Event Models (Модели событий)
- Математические модели (например, HMM или GMM), обученные распознавать Events в потоке видеоданных.
- Event Vector (Вектор событий)
- Статистическое представление видеоклипа. Характеризует видео на основе частоты обнаруженных событий и частоты переходов между ними. Состоит из Event Unigram и Event Bigram.
- Event Unigram / Bigram (Униграмма / Биграмма событий)
- Компоненты Event Vector. Униграмма — гистограмма частоты отдельных событий. Биграмма — гистограмма частоты переходов между парами событий (последовательность).
- Features (Признаки)
- Низкоуровневая информация, извлекаемая из кадров (например, гистограммы цвета, градиенты, оптический поток, аудио признаки).
- GMM (Gaussian Mixture Model / Гауссова Смесь)
- Вероятностная модель, используемая как один из методов для моделирования событий.
- Highlight Classifier (Классификатор ключевых моментов)
- Модель машинного обучения (например, LSVM — Linear Support Vector Machine), обученная (supervised) определять, является ли клип ключевым моментом, принимая на вход Event Vector.
- HMM (Hidden Markov Model / Скрытая Марковская Модель)
- Статистическая модель, используемая для моделирования событий как развивающихся во времени паттернов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод классификации медиаконтента.
- Система получает медиаконтент.
- Извлекаются признаки (features) из кадров.
- Генерируется вектор, указывающий частоту переходов (frequencies of transitions) между вхождениями в медиаконтенте. (Это ключевой элемент, соответствующий Event Bigram в Event Vector).
- Определяется, соответствует ли вектор ранее идентифицированному событию (идентифицируемому паттерну признаков).
- Если соответствие установлено, определяется, содержит ли медиаконтент ключевой момент (highlight).
- Если да, медиаконтент помечается как содержащий highlight.
Ядром изобретения является использование статистики переходов между событиями (а не только наличия событий) для классификации контента. Это подчеркивает важность динамики и структуры видео.
Claims 2, 3, 9, 10 (Зависимые): Детализируют применение результатов классификации для SEO.
Если контент идентифицирован как highlight, система:
- Идентифицирует поисковый ключевой запрос (searchable keyword).
- Обновляет тег (tag) медиаконтента этим запросом (Claims 2, 9).
- ИЛИ помещает медиаконтент в категорию для ключевых моментов (category for highlights) (Claims 3, 10).
Это подтверждает, что результаты внутреннего анализа контента напрямую используются для генерации метаданных и улучшения поисковой видимости.
Где и как применяется
Изобретение применяется в системах обработки видеоконтента (например, YouTube) и влияет на представление видео в поиске.
INDEXING – Индексирование и извлечение признаков
Основной этап применения. После получения видеоконтента система (Highlight Learning Module) анализирует его:
- Извлекает низкоуровневые аудиовизуальные признаки.
- Детектирует события с помощью Event Models.
- Вычисляет Event Vector.
- Применяет Highlight Classifier.
- Генерирует и сохраняет метаданные (теги, категории, временные метки ключевых моментов).
RANKING – Ранжирование
Наличие идентифицированных ключевых моментов или автоматически сгенерированные теги могут служить сигналами качества и релевантности при ранжировании видео.
METASEARCH – Метапоиск и Смешивание
Идентифицированные highlights используются для генерации SERP Features, таких как «Ключевые моменты» (Key Moments), позволяя пользователям переходить сразу к интересующему фрагменту.
Входные данные:
- Видеофайл (или его фрагмент).
- Предварительно обученные Event Models (HMM/GMM).
- Предварительно обученные Highlight Classifiers (LSVM).
Выходные данные:
- Определение статуса highlight.
- Временные метки ключевых моментов.
- Сгенерированные searchable keywords (теги) и категории.
На что влияет
- Конкретные типы контента: В первую очередь видеоконтент с повторяющимися событиями. Патент фокусируется на спортивных видео, но отмечает применимость к другим типам (камеры наблюдения). В SEO это актуально для инструкций, обзоров, лекций, где важна структура.
- Определенные форматы контента: Длинные видео (для сегментации на Key Moments) и короткие клипы (для классификации и автоматического тегирования).
Когда применяется
- Триггеры активации: Применяется во время индексации нового видео или переиндексации существующего контента.
- Условия работы: Требует наличия обученных моделей (Event Models и Classifiers) для соответствующей категории видеоконтента.
Пошаговый алгоритм
Процесс состоит из фазы обучения и фазы применения.
Фаза А: Обучение Моделей (Офлайн)
Этап А1: Обучение Event Models (Unsupervised)
- Сбор данных и извлечение признаков: Из обучающих видео извлекаются низкоуровневые признаки.
- Инициализация (Diarization): Видео разделяются на планы (shots) и короткие сегменты (например, 500 мс). Сегменты кластеризуются (например, K-means) для получения начальных обозначений событий.
- Итеративное обучение:
- Обучение Event Models (HMM или GMM) на основе текущих обозначений и матрицы переходов/стоимости между ними.
- Переразметка обучающих видео с использованием новых моделей (например, с помощью алгоритма Витерби).
- Повторение шагов до сходимости.
Этап А2: Обучение Highlight Classifier (Supervised)
- Разметка данных: Ручная разметка обучающих видео на положительные (highlight) и отрицательные примеры.
- Генерация Event Vectors: Использование обученных Event Models для транскрипции каждого видео и вычисления Event Vector (Unigram + Bigram).
- Обучение классификатора: Обучение LSVM для распознавания паттернов в Event Vectors, характерных для ключевых моментов.
Фаза Б: Применение (Классификация видео)
- Получение видео и извлечение признаков.
- Детекция событий: Применение Event Models для определения последовательности событий в клипе.
- Генерация Event Vector: Расчет Event Unigram и Event Bigram.
- Классификация: Подача Event Vector на вход Highlight Classifier.
- Действие: Определение статуса highlight и генерация метаданных (теги, категории) согласно Claims 2 и 3.
Какие данные и как использует
Данные на входе
Система использует исключительно низкоуровневые признаки, извлеченные из аудиовизуального потока.
- Контентные/Мультимедиа факторы (Визуальные):
- Color histogram (Цветовая гистограмма, в т.ч. в HSV).
- Histogram of oriented gradients (HOG).
- Histogram of oriented optical flow (HOOF) (анализ движения).
- Количество обнаруженных лиц.
- Другие признаки: SIFT, SURF, текстуры, motion rigidity, края (Canny).
- Контентные/Мультимедиа факторы (Аудио):
- Громкость (Volume).
- Аудио спектрограмма (Audio spectrogram).
- Стабилизированное слуховое изображение (Stabilized auditory image).
Какие метрики используются и как они считаются
- Event Vector: Основная метрика для классификации. Агрегирует Event Unigram (частота событий) и Event Bigram (частота переходов между событиями).
- Cost Matrix (Матрица стоимости) / Transition Matrix (Матрица переходов): Используется в HMM/GMM для моделирования вероятности или стоимости перехода от одного события к другому.
- Алгоритмы машинного обучения и статистики:
- Классификация: LSVM (Linear Support Vector Machine), логистическая регрессия.
- Моделирование последовательностей: HMM, GMM.
- Кластеризация (для инициализации): K-means, иерархическая агломеративная кластеризация.
- Снижение размерности: Principal Component Analysis (PCA) (используется для уменьшения размерности векторов признаков).
- Поиск последовательности: Алгоритм Витерби (Viterbi algorithm) или Expectation-Maximization (EM).
Выводы
- Глубокий анализ видео без понимания семантики: Google анализирует видео на основе низкоуровневых аудиовизуальных признаков, не обязательно понимая семантику высокого уровня. Система ищет статистические паттерны, которые коррелируют с «интересностью» контента.
- Важность структуры и динамики (Event Bigrams): Ключевым аспектом является анализ не только наличия событий (Unigram), но и их последовательности и переходов между ними (Bigram). Это означает, что монтаж, динамика и структура повествования внутри видео алгоритмически значимы.
- Автоматическая генерация метаданных (SEO-значение): Патент явно связывает внутренний анализ контента с генерацией поисковых тегов (searchable keywords) и категоризацией. Это подтверждает, что качество и структура контента напрямую влияют на его поисковую оптимизацию.
- Основа для Key Moments: Описанный механизм является технологической основой для автоматической сегментации видео, такой как «Ключевые моменты» в Google Search и YouTube.
- Комбинированный подход к обучению: Система сочетает неконтролируемое обучение (для адаптивного выявления событий в разных типах видео) и контролируемое обучение (для точного определения, что является ключевым моментом в данном контексте).
Практика
Best practices (это мы делаем)
Рекомендации касаются Video SEO (VSEO) и оптимизации под автоматический анализ контента.
- Создание четких аудиовизуальных сигнатур для ключевых моментов: Обеспечьте, чтобы важные сегменты видео имели отчетливые визуальные и аудио характеристики. Используйте изменения в монтаже, звуковые акценты (например, изменение фоновой музыки, интонации голоса) или графику для выделения этих моментов. Это помогает системе распознать их как значимые Events.
- Четкое структурирование видео и переходы: Поскольку система анализирует переходы между событиями (Event Bigrams), важно иметь логичную структуру видео. Используйте чистые монтажные переходы между смысловыми блоками. Это помогает системе точнее определить последовательность событий.
- Обеспечение технического качества: Высокое качество видео и звука критично для надежного извлечения низкоуровневых признаков (Features), что является основой для работы всего алгоритма.
- Консистентность в оформлении (для серийного контента): Использование консистентных переходов и оформления помогает системе строить более надежные Event Models для вашего типа контента.
Worst practices (это делать не надо)
- Создание монотонного контента: Длинные видео без явных визуальных или аудио изменений (например, статичная съемка с монотонным голосом) затрудняют выделение отдельных Events. Это снижает вероятность автоматического определения ключевых моментов.
- Хаотичный монтаж и структура: Беспорядочный монтаж и нелогичные переходы могут привести к генерации «шумного» Event Vector, который классификатор не распознает как качественный контент.
- Игнорирование анализа контента и фокус только на метаданных: Полагаться исключительно на текстовую оптимизацию опасно. Патент подтверждает, что Google анализирует само содержимое видеофайла для понимания его ценности и структуры.
Стратегическое значение
Патент подчеркивает стратегический приоритет Google в области автоматического понимания мультимедийного контента без опоры на текст. Для VSEO это означает, что оптимизация должна включать аспекты видеопроизводства и структуры контента, направленные на формирование четких сигналов для систем машинного обучения. Способность автоматически генерировать теги и выделять Key Moments напрямую влияет на видимость, CTR и вовлеченность пользователей.
Практические примеры
Сценарий: Оптимизация видео-туториала для функции Key Moments
Цель: Увеличить вероятность автоматического выделения шагов инструкции как ключевых моментов в SERP.
- Планирование структуры (Event Structure): Разбить туториал на четкие шаги.
- Создание визуальных и аудио разделителей (Event Transitions): Использовать консистентные переходы между шагами. Например, всегда показывать полноэкранную графику с названием шага и использовать короткий звуковой сигнал (джингл) перед началом демонстрации. Это создает повторяющийся Event, который система распознает как границу.
- Консистентный стиль демонстрации (Event Consistency): Снимать демонстрацию каждого шага в схожем визуальном стиле (например, крупный план), отличном от вступления.
- Ожидаемый результат: Система идентифицирует разделители как повторяющиеся события. Анализируя последовательность (Event Bigrams) «Разделитель -> Демонстрация -> Разделитель», система с большей вероятностью классифицирует эти сегменты как highlights (ключевые моменты) и отобразит их в SERP, а также может сгенерировать релевантные теги.
Вопросы и ответы
Как этот патент связан с функцией «Ключевые моменты» (Key Moments) в Google Поиске?
Этот патент описывает базовую технологию, которая лежит в основе функции Key Moments. Описанный механизм автоматического обнаружения highlights путем анализа аудиовизуальных событий и их последовательностей позволяет системе без ручной разметки определять важные сегменты в длинном видео и отображать их в результатах поиска.
Что такое «Событие» (Event) в контексте этого патента?
Event — это не обязательно смысловое действие (например, «гол»). Это повторяющийся аудиовизуальный паттерн низкого уровня, распознаваемый машиной автоматически (например, «крупный план + тихий звук» или «быстрое движение камеры + громкий звук»). Система учится выделять эти паттерны без учителя (unsupervised).
Как система понимает, какие события являются ключевыми (Highlights)?
После того как система выявила события, она использует контролируемое обучение (supervised learning). На основе примеров видео, размеченных людьми как «Highlight» или «Non-Highlight», классификатор (например, LSVM) учится определять, какая комбинация, частота и последовательность этих событий (Event Vector) характерна для ключевого момента.
Почему важны переходы между событиями (Event Bigrams)?
Анализ переходов (Event Bigrams) позволяет системе понять структуру, динамику и контекст видео. Ключевой момент часто определяется не одним событием, а определенной последовательностью (например, нарастание напряжения -> кульминация). Четкая структура видео с логичными переходами помогает системе распознать эту последовательность.
Влияет ли качество видео (разрешение, звук) на работу этого алгоритма?
Да, качество исходного материала критично для этапа извлечения признаков (Feature Extraction). Низкое качество изображения или звука затрудняет извлечение надежных признаков (цветовые гистограммы, оптический поток, аудио спектрограммы), что снижает точность обнаружения событий и последующей классификации.
Применим ли этот патент только к спортивным видео?
Нет. Хотя спортивные видео используются как основной пример, технология универсальна и применима к любому видео, где есть повторяющиеся события и необходимость выделения ключевых моментов, включая обучающие видео, обзоры, презентации и даже записи с камер наблюдения.
Что означает автоматическое генерирование «searchable keyword» (Claim 2)?
Это имеет прямое значение для SEO. Если система идентифицирует фрагмент как ключевой момент, она может автоматически сгенерировать релевантный тег и добавить его к метаданным видео. Это улучшает видимость видео по этому запросу, даже если автор не указал тег вручную.
Как SEO-специалисту использовать эти знания при создании видео?
Необходимо уделять внимание структуре и продакшену. Создавайте контент с четкими и логичными переходами между смысловыми блоками, используя явные визуальные и аудио сигналы (заставки, смену планов, звуковые эффекты). Это помогает алгоритмам корректно выделить события и их последовательность, увеличивая шансы на распознавание Key Moments.
Использует ли система распознавание речи (ASR) или анализ текста (OCR) в этом механизме?
В данном патенте ASR или OCR не упоминаются. Он сфокусирован именно на низкоуровневых аудиовизуальных признаках (цвет, движение, звук). Однако в реальных системах Google эти технологии, вероятно, комбинируются для достижения наилучших результатов индексирования.
Что означают HMM и GMM в контексте моделирования событий?
Это статистические методы для распознавания паттернов. Hidden Markov Models (HMM) хорошо подходят для моделирования временных последовательностей и состояний внутри события. Gaussian Mixture Models (GMM) используются для моделирования вероятности принадлежности признаков кадра к определенному событию. Оба метода служат для автоматического обнаружения Events в видеопотоке.