Как Google автоматически выбирает лучший сегмент видео для создания анимированной превью-миниатюры

Google использует систему для автоматической генерации движущихся миниатюр (анимированных превью). Система анализирует видео покадрово, оценивая визуальное качество, наличие лиц и движение. Затем она использует метод «скользящего окна» для оценки целых сегментов и выбирает наиболее качественный и информативный фрагмент. Этот фрагмент может быть дополнительно скорректирован по границам сцен и скорости воспроизведения для повышения вовлеченности пользователей (CTR).

Описание

Какую задачу решает

Патент решает проблему выбора наиболее репрезентативного и привлекательного сегмента видео для использования в качестве движущейся миниатюры (moving thumbnail или анимированного превью). Статические миниатюры ограничены в информативности. Случайный или хронологический выбор сегмента для превью часто приводит к некачественным результатам: превью может быть неинформативным, содержать спойлеры или быть визуально непривлекательным. Цель изобретения — автоматизировать создание высококачественных движущихся миниатюр, которые привлекают внимание зрителя.

Что запатентовано

Запатентована система автоматической генерации движущихся миниатюр на основе многофакторной оценки качества контента. Суть изобретения заключается в методологии покадровой оценки качества (Frame-level quality scores) и последующей агрегации этих оценок на уровне сегментов (Group-level quality scores) с использованием техники «скользящего окна» (sliding window). Система выбирает сегмент с наивысшей оценкой для финальной миниатюры и проводит его постобработку.

Как это работает

Система работает следующим образом:

Сэмплирование: Видео анализируется с определенной частотой (например, 2 кадра в секунду), часто фокусируясь на начальной части видео.
Покадровая оценка: Каждый сэмплированный кадр оценивается несколькими скорерами (frame-level scorers), которые измеряют визуальное качество, наличие и размер лиц, а также движение.
Оценка сегментов (Скользящее окно): Применяется «скользящее окно» фиксированной длительности. Оценки кадров внутри окна агрегируются для получения общей оценки сегмента. Окно перемещается по временной шкале.
Выбор: Выбирается сегмент с наивысшей агрегированной оценкой.
Генерация и уточнение: Из выбранного сегмента создается миниатюра. Она дополнительно корректируется: обрезается по границам сцен (shot boundary) и изменяется по скорости воспроизведения в зависимости от интенсивности движения.

Актуальность для SEO

Высокая. Анимированные превью активно используются на платформах Google (включая Google Search, YouTube, Discover) для повышения CTR. Автоматизация этого процесса с фокусом на качестве критически важна для масштабирования. Методы, описанные в патенте (DNN для оценки качества, анализ лиц и движения), соответствуют современным подходам в области компьютерного зрения.

Важность для SEO

Патент имеет высокое значение для Video SEO (8.5/10). Он не описывает алгоритм ранжирования, но раскрывает механизм генерации актива (превью), который напрямую влияет на кликабельность (CTR) видео. Привлекательное превью ведет к большему количеству кликов и лучшим поведенческим сигналам, которые учитываются алгоритмами ранжирования и рекомендаций. Понимание критериев выбора сегмента позволяет оптимизировать видео для создания лучших превью.

Детальный разбор

Термины и определения

Moving Thumbnail (Движущаяся миниатюра)

Короткий видеоклип или анимированное изображение (например, GIF, WebP), представляющее собой репрезентативный сегмент видео. Используется как превью.

Frame-level Quality Score (Оценка качества на уровне кадра)

Числовое значение, присваиваемое отдельному кадру, указывающее на его пригодность для использования в миниатюре.

Frame-level Scorers (Скореры на уровне кадра)

Модули для оценки качества отдельных кадров. Включают:

Thumbnail Quality Scorer: Оценивает визуальное качество (например, с помощью DNN).
Close-up Face Scorer: Оценивает наличие и размер лиц относительно размера кадра.
Motion Scorer: Оценивает степень движения между последовательными кадрами.

Group-level Quality Score (Оценка качества на уровне группы/сегмента)

Агрегированная оценка качества для группы последовательных кадров (сегмента видео). Рассчитывается на основе Frame-level Quality Scores.

Sliding Window (Скользящее окно)

Техника анализа, при которой окно фиксированного размера перемещается по временной шкале видео для оценки различных сегментов.

Shot Boundary (Граница сцены/плана)

Точка в видео, где происходит смена плана (монтажная склейка). Характеризуется резким изменением визуального содержания.

Linear Weighted Summation (Линейное взвешенное суммирование)

Метод агрегации различных оценок качества в единую оценку кадра, при котором каждой оценке присваивается свой вес.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации движущейся миниатюры.

Сэмплирование кадров видео.
Определение Frame-level quality scores для этих кадров.
Применение sliding window для идентификации множества групп последовательных кадров. Группы перекрываются (имеют общие кадры) и оцениваются на групповом уровне.
Определение Group-level quality scores для этих групп на основе покадровых оценок.
Выбор одной группы на основе Group-level quality scores.
Создание moving thumbnail, используя видеоданные из временного диапазона выбранной группы.

Claim 4, 5, 6 (Зависимые): Детализируют процесс покадровой оценки.

Frame-level quality score рассчитывается путем суммирования оценок от нескольких скореров (Claim 4). Эти скореры включают оценку визуального качества, размера лиц и движения (Claim 5). Суммирование производится с использованием linear weighted summation (Claim 6).

Claim 10 (Зависимый от 1): Описывает постобработку миниатюры.

Миниатюра модифицируется так, чтобы ее первый и/или последний кадр находился вблизи shot boundary (границы сцены).

Claim 11 (Зависимый от 1): Описывает дополнительную постобработку.

Скорость воспроизведения (playback speed) миниатюры модифицируется на основе измерения движения в кадрах миниатюры.

Где и как применяется

Изобретение применяется на этапе обработки видео после его загрузки или во время индексации контента.

INDEXING – Индексирование и извлечение признаков

Основной этап применения патента. Система (Moving Thumbnail Generator) анализирует видеоконтент для извлечения признаков и генерации связанного ассета — оптимальной движущейся миниатюры.

Извлечение данных: Система декодирует видео и сэмплирует кадры.
Feature Extraction: Вычисляются Frame-level quality scores с применением моделей компьютерного зрения (DNN, детекторы лиц).
Анализ и Выбор: Применяются алгоритмы Sliding Window и агрегации для выбора лучшего сегмента.
Генерация и Сохранение: Создается и сохраняется финальная миниатюра (GIF, WebP, H.264).

METASEARCH / RERANKING (Уровень представления)

Результат работы алгоритма (сгенерированная миниатюра) используется для отображения в выдаче (SERP, ленты рекомендаций). Качество миниатюры влияет на CTR, что косвенно влияет на ранжирование через поведенческие сигналы.

Входные данные:

Исходный видеофайл (Video Item).
Параметры конфигурации (веса для скореров, размер скользящего окна, частота сэмплирования).

Выходные данные:

Файл движущейся миниатюры (Moving Thumbnail).

На что влияет

Конкретные типы контента: Влияет исключительно на видеоконтент на платформах Google (YouTube, Google Search, Discover).
Визуальные предпочтения: Система отдает предпочтение сегментам с высоким визуальным качеством, наличием лиц оптимального размера и интересным движением.

Когда применяется

Триггеры активации: Процесс запускается при загрузке нового видео или при переиндексации существующего контента.
Ограничения (Spoiler Avoidance): В патенте упоминается, что анализ может быть ограничен только начальной частью видео (beginning portion), например, первой половиной или двумя третями, чтобы избежать спойлеров из концовки (ending portion).

Пошаговый алгоритм

Этап 1: Сэмплирование (Video Frame Sampler)

Определение анализируемой части видео (например, первая половина).
Сэмплирование кадров с фиксированной частотой (например, 2 fps).

Этап 2: Покадровая оценка (Frame-Level Quality Scorer)

Для каждого сэмплированного кадра применяются скореры:
- Визуальное качество (Thumbnail Quality Scorer): Оценка с помощью DNN модели.
- Анализ лиц (Close-up Face Scorer): Измерение соотношения размера лица к размеру кадра. Штрафование слишком больших или маленьких лиц.
- Анализ движения (Motion Scorer): Измерение движения между соседними кадрами (например, через несходство цветовых гистограмм).
Агрегация оценок: Вычисление Frame-level Quality Score путем линейного взвешенного суммирования оценок от всех скореров.

Этап 3: Оценка сегментов и выбор (Group-Level Quality Scorer)

Применение скользящего окна фиксированной длительности (например, 8 секунд).
Для каждой позиции окна вычисляется Group-level Quality Score путем агрегации Frame-level Quality Scores кадров внутри окна.
Выбор сегмента с наивысшим Group-level Quality Score.

Этап 4: Генерация миниатюры (Animation Generator)

Извлечение всех оригинальных кадров видео из выбранного временного диапазона.
Создание движущейся миниатюры.

Этап 5: Постобработка и уточнение

Коррекция границ сцен (Shot Boundary Module): Анализ начальной и конечной частей миниатюры. Если обнаружен резкий переход (shot boundary), миниатюра обрезается так, чтобы начинаться/заканчиваться на границе сцены. Границы в середине игнорируются.
Коррекция скорости (Playback Speed Module): Измерение общего движения. Если движение слишком медленное (ниже порога), скорость воспроизведения увеличивается (например, в 1.5x — 2x).

Какие данные и как использует

Данные на входе

Система использует исключительно данные, извлеченные из самого видеофайла.

Мультимедиа факторы (Видео данные): Последовательность видеокадров. Анализируются пиксельные данные и цветовые гистограммы.
Временные факторы: Временные метки (timestamps) кадров для определения последовательности и длительности сегментов.

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик:

Visual Quality Score (Оценка визуального качества): Вычисляется с помощью модели машинного обучения (упоминаются DNN), обученной классифицировать кадры как высококачественные или низкокачественные.
Facial Quality Score (Оценка качества лиц): Рассчитывается как отношение размера обнаруженного лица к размеру кадра (Face Ratio). Патент упоминает порог (например, 0.375). Если Face Ratio превышает порог, оценка снижается по формуле, например: $2 \times (\text{Порог}) — \text{Face Ratio}$ .
Motion Quality Score (Оценка движения): Измеряет степень изменения между последовательными кадрами. Может рассчитываться как $1 — \text{cosine similarity}$ между цветовыми гистограммами кадров.
Frame-level Quality Score: Агрегированная оценка кадра. Рассчитывается как линейная взвешенная сумма (Linear Weighted Summation): $W_1 \cdot \text{Visual} + W_2 \cdot \text{Facial} + W_3 \cdot \text{Motion}$ .
Group-level Quality Score: Сумма Frame-level Quality Scores всех кадров в сегменте (скользящем окне).

Выводы

Автоматизация выбора превью с фокусом на CTR: Патент описывает сложный механизм автоматического выбора сегмента видео, который с наибольшей вероятностью привлечет внимание пользователя. Это не случайный выбор, а результат многофакторного анализа качества.
Ключевые факторы привлекательности видео: Патент четко определяет три компонента качественного превью: техническое визуальное качество (резкость, свет), наличие лиц оптимального размера и наличие интересного движения.
Приоритет начала видео (Spoiler Avoidance): Система может быть настроена на анализ только начальной части видео. Это критически важно для SEO: самые привлекательные моменты должны быть размещены в начале ролика, чтобы попасть в превью.
Важность постобработки и UX: Система не просто выбирает лучший сегмент, но и улучшает его восприятие. Выравнивание по границам сцен (Shot Boundaries) обеспечивает плавность просмотра, а корректировка скорости делает медленные сегменты более динамичными.
Оптимизация под модель: Зная критерии оценки (лица, движение, качество), можно целенаправленно создавать в видео сегменты, которые будут высоко оценены системой и выбраны в качестве превью.

Практика

Best practices (это мы делаем)

Для Video SEO этот патент дает четкие указания по оптимизации структуры и качества видео для улучшения автоматических превью и повышения CTR.

Создание «идеальных сегментов» в начале видео: Включайте в первую половину видео короткие (5-10 секунд) сегменты, сочетающие все три ключевых фактора: высокое качество съемки, лица средним или крупным планом и интересное действие. Это максимизирует вероятность выбора этого сегмента.
Оптимизация визуального качества (Production Value): Обеспечивайте отличное освещение, четкость фокуса и профессиональную композицию. Thumbnail Quality Scorer (на основе DNN) предпочтет кадры высокого качества.
Оптимальное использование лиц: Включайте четкие лица оптимального размера. Избегайте слишком общих планов или экстремально крупных. Патент упоминает порог ~37.5% от размера кадра как ориентир для оптимального размера.
Управление динамикой: Включайте динамичные сцены. Motion Scorer оценивает движение. Слишком статичные кадры могут быть проигнорированы или неестественно ускорены.
Чистый монтаж: Используйте четкие монтажные склейки. Это поможет системе аккуратно выбрать сегмент для превью, который будет начинаться и заканчиваться естественно (Shot Boundary Adjustment).

Worst practices (это делать не надо)

Откладывать главное на конец: Сохранение самого интересного контента для финала. Система может не проанализировать эту часть видео (из-за избегания спойлеров), и для превью будет выбран менее привлекательный сегмент.
Низкое качество съемки: Темные, размытые или шумные кадры получат низкие оценки от Thumbnail Quality Scorer.
Длинные статичные вступления: Использование длинных заставок или медленных вступлений в начале видео. Эти сегменты получат низкие оценки качества и движения.
Неудачное кадрирование лиц: Съемка, где лицо занимает весь кадр или находится слишком далеко, приведет к снижению оценки Face Scorer.

Стратегическое значение

Патент подтверждает фокус Google на пользовательском опыте и метриках вовлеченности. Система стремится сделать сниппет видео максимально привлекательным. Для долгосрочной стратегии Video SEO необходимо учитывать, как алгоритмы машинного зрения воспринимают визуальный ряд. Оптимизация видео под автоматический генератор миниатюр становится неотъемлемой частью процесса продвижения видеоконтента.

Практические примеры

Сценарий: Оптимизация видео-обзора гаджета для лучшего Moving Thumbnail

Анализ текущего подхода: Обзор начинается со статичной заставки и ведущего общим планом.
Применение знаний из патента: Система ищет качество, лица и движение в начале видео.
Действия по оптимизации:
- В первые 30 секунд вставить динамичный 8-секундный сегмент, где ведущий крупным планом (Face Scorer) активно взаимодействует с гаджетом (Motion Scorer).
- Обеспечить максимальное качество освещения этого сегмента (Thumbnail Quality Scorer).
- Сделать чистый монтажный переход до и после сегмента (Shot Boundary).
Ожидаемый результат: Алгоритм с высокой вероятностью выберет этот оптимизированный сегмент для Moving Thumbnail, что приведет к увеличению CTR видео.

Вопросы и ответы

Какие три основных фактора Google оценивает при выборе сегмента для анимированного превью?

Согласно патенту, система оценивает три ключевых аспекта на уровне кадров: 1. Визуальное качество (четкость, освещенность, оценивается моделью ML/DNN). 2. Наличие и размер лиц (предпочтение отдается лицам оптимального размера). 3. Движение между кадрами (уровень динамики в сцене).

Влияет ли этот патент напрямую на ранжирование видео?

Нет, напрямую не влияет. Патент описывает генерацию ассета (анимированной миниатюры), а не алгоритм ранжирования. Однако он имеет значительное косвенное влияние: более качественное превью повышает CTR и сигналы вовлеченности, которые уже учитываются алгоритмами ранжирования видео на YouTube и в Google.

Анализирует ли система все видео целиком для создания превью?

Не обязательно. В патенте указано, что анализ может быть ограничен только начальной частью видео (beginning portion), например, первой половиной или двумя третями. Это делается для того, чтобы избежать спойлеров. Это подчеркивает важность размещения качественного контента в начале ролика.

Как система определяет оптимальный размер лица в кадре?

Система использует Close-up Face Scorer, который измеряет отношение размера лица к размеру кадра. В патенте приводится пример порога (0.375 или 37.5%). Если лицо слишком маленькое или слишком большое (значительно превышает порог), оценка снижается с использованием специальной формулы. Цель — выбрать кадры с узнаваемыми, но не чрезмерно крупными лицами.

Что произойдет, если система выберет очень медленный сегмент?

Система включает модуль регулировки скорости воспроизведения (Playback Speed Module). Если измеренное общее движение в выбранном сегменте ниже определенного порога (т.е. сегмент слишком медленный), система автоматически увеличит скорость воспроизведения превью (например, в 1.5x или 2x), чтобы сделать его более динамичным.

Что такое «Shot Boundary» и почему это важно для превью?

Shot Boundary — это граница сцены или монтажная склейка. Система старается начинать и заканчивать превью именно на этих границах. Если превью начнется или закончится резко посреди сцены, это ухудшает восприятие. Система корректирует границы (обрезает начало или конец превью), чтобы обеспечить плавное воспроизведение.

Что такое метод скользящего окна (Sliding Window) в этом контексте?

Sliding Window — это метод анализа последовательности кадров. Система берет окно фиксированной длины (например, 8 секунд) и перемещает его вдоль видео. В каждой позиции она суммирует оценки качества всех кадров внутри окна. Сегмент, где эта сумма максимальна, выбирается в качестве кандидата для превью.

Как комбинируются оценки визуального качества, лиц и движения?

Используется линейное взвешенное суммирование (linear weighted summation). Это означает, что платформа может настраивать веса для каждого фактора, определяя, что важнее (например, визуальное качество может иметь больший вес, чем движение).

Как оптимизировать видео, если в нем нет лиц (например, DIY или кулинария)?

В этом случае необходимо сфокусироваться на двух других факторах: максимальном визуальном качестве и интересном движении. Создавайте сегменты с хорошим освещением, резкостью и динамичными действиями (например, процесс сборки, нарезка ингредиентов). Эти сегменты получат высокие оценки от Thumbnail Quality Scorer и Motion Scorer.

Влияет ли звук на выбор сегмента для Moving Thumbnail?

В данном патенте анализ аудиокомпонента не упоминается. Система фокусируется исключительно на визуальных характеристиках кадров. Moving Thumbnails часто воспроизводятся без звука, поэтому приоритет отдается визуальной привлекательности.