Как Google использует машинное обучение для анализа содержания видео и динамического выбора релевантных тамбнейлов

Google использует систему машинного обучения для связывания аудиовизуальных признаков видео (цвет, текстура, звук) с ключевыми словами. Это позволяет системе понимать содержание каждого кадра и динамически выбирать для тамбнейла (миниатюры) тот кадр, который наилучшим образом соответствует запросу пользователя или общему содержанию видео.

Описание

Какую задачу решает

Патент решает две ключевые проблемы в поиске видео. Во-первых, он устраняет ограничения поиска, основанного только на текстовых метаданных (заголовки, описания), которые часто не описывают все сцены видео, из-за чего релевантный контент может быть не найден. Во-вторых, он решает проблему нерепрезентативных тамбнейлов (например, случайного или среднего кадра), которые мешают пользователю оценить релевантность видео в результатах поиска.

Что запатентовано

Запатентована система для анализа фактического аудиовизуального содержания видео с целью улучшения поиска и представления результатов. Ядром системы является модель машинного обучения (Feature-Keyword Model), которая связывает низкоуровневые признаки контента (цвет, текстура, звук) с семантическими ключевыми словами. Эта модель используется для автоматического аннотирования кадров видео и последующего динамического выбора наиболее релевантных тамбнейлов.

Как это работает

Система работает в три основных этапа:

Обучение (Офлайн): Система анализирует размеченные медиафайлы (изображения/аудио с ключевыми словами). Она извлекает аудиовизуальные признаки и изучает корреляции между этими признаками и словами, создавая Feature-Keyword Model.
Индексирование (Аннотирование): Система обрабатывает видео, сэмплирует кадры и применяет обученную модель. Для каждого кадра рассчитываются оценки связи с ключевыми словами (Keyword Association Scores). Эти данные сохраняются в Video Annotation Index.
Поиск и Отображение (Онлайн): При получении запроса система находит релевантные видео. Затем, используя Video Annotation Index, она выбирает для тамбнейла тот кадр, который имеет наивысший Keyword Association Score по отношению к запросу пользователя или метаданным видео.

Актуальность для SEO

Высокая. Понимание мультимедийного контента за пределами метаданных является фундаментальной задачей современного поиска. Динамический выбор тамбнейлов активно используется в Google и YouTube. Хотя конкретные методы извлечения признаков, описанные в патенте (например, LBP, цветовые гистограммы), уступили место нейросетям, общая концепция и архитектура системы остаются крайне актуальными.

Важность для SEO

Патент имеет высокое значение для Video SEO. Он демонстрирует механизмы, позволяющие Google понимать и ранжировать видео на основе анализа его фактического аудиовизуального содержания. Он также детально описывает, как динамически выбираются тамбнейлы на основе релевантности контента запросу, что напрямую влияет на CTR и поведенческие факторы в поисковой выдаче.

Детальный разбор

Термины и определения

Click-Through Module (Модуль анализа кликов): Механизм для автоматического сбора обучающих данных. Отслеживает запросы пользователей и клики по результатам для определения ассоциаций между запросами и медиаконтентом.
Feature-Keyword Model (Модель Признак-Ключевое слово): Модель машинного обучения, которая связывает аудиовизуальные признаки (features) медиаконтента с ключевыми словами (keywords). Может быть реализована как матрица весов (feature-keyword matrix) или набор классификаторов.
Features (Признаки): Низкоуровневые характеристики контента. Для изображений: цвет (color features), текстура (texture features, например, LBP). Для аудио: MFCCs, спектрограммы.
Keyword Association Score (или Keyword Score): Числовая оценка, представляющая силу связи между ключевым словом и признаками кадра/сцены. Указывает на вероятность того, что ключевое слово описывает контент.
Labeled Training Dataset (Размеченный обучающий набор данных): Набор медиафайлов (изображения, аудиоклипы), помеченных релевантными ключевыми словами. Используется для обучения Feature-Keyword Model.
Patches (Патчи): Небольшие сегменты изображения (например, 64×64 пикселя), используемые для извлечения локальных признаков.
Video Annotation Engine (Движок аннотирования видео): Компонент, который аннотирует кадры или сцены видео ключевыми словами на основе их содержания, используя Feature-Keyword Model.
Video Annotation Index (Индекс аннотаций видео): Индекс, хранящий рассчитанные Keyword Association Scores для кадров/сцен видео. Используется для поиска и выбора тамбнейлов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый): Описывает офлайн-метод создания поискового индекса видео.

Получение labeled training dataset (медиа + ключевые слова).
Извлечение признаков (features) из медиа.
Обучение модели (machine-learned model) для изучения корреляций между признаками и ключевыми словами.
Создание видеоиндекса, который связывает кадры видео с ключевыми словами, используя признаки из видео и обученную модель.

Ядро изобретения — это создание индекса для видео, основанного на содержании. Это достигается через ML-модель, которая переводит аудиовизуальные признаки в семантические ключевые слова.

Claim 10 (Зависимый): Детализирует итеративный процесс обучения feature-keyword matrix (одной из реализаций модели).

Описывается процесс обучения ранжированию. Система инициализирует матрицу, выбирает положительный пример (медиа, связанное с ключевым словом) и отрицательный пример. Рассчитываются Keyword Scores. Если оценка положительного примера не превышает оценку отрицательного на пороговое значение, веса матрицы корректируются. Это итеративный процесс оптимизации модели.

Claim 13 (Независимый): Описывает онлайн-метод представления результатов поиска видео (выбор тамбнейлов).

Получение видео (например, как результата поиска).
Выбор кадра из видео как репрезентативного, используя video annotation index (который хранит keyword association scores).
Предоставление выбранного кадра в качестве тамбнейла.

Ключевой аспект — выбор тамбнейла не случайным образом, а на основе рассчитанной релевантности содержания кадра.

Claims 14, 15 и 16 (Зависимые): Уточняют механизм выбора кадра и источник ключевого слова.

Выбирается целевое ключевое слово, и из индекса извлекается кадр с наивысшим keyword association score для этого слова (Claim 14). Источником целевого ключевого слова может быть заголовок видео (Claim 15) или запрос пользователя (Claim 16). Это позволяет динамически выбирать тамбнейл: либо наиболее релевантный общей теме видео, либо наиболее релевантный конкретному запросу.

Где и как применяется

Изобретение применяется в системе хостинга видео (Video Hosting System) и затрагивает этапы индексирования и ранжирования/представления результатов.

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)

Сбор данных и Обучение: Click-Through Module собирает данные о поведении пользователей для формирования Labeled Training Dataset. Learning Engine анализирует эти данные и обучает Feature-Keyword Model.
Индексирование видео: Video Annotation Engine обрабатывает видео. Он сэмплирует кадры, извлекает признаки и применяет обученную модель для расчета Keyword Association Scores. Результаты сохраняются в Video Annotation Index.

RANKING, RERANKING & METASEARCH (Онлайн-процессы)

Поиск и Ранжирование: Video Search Engine может использовать Video Annotation Index для поиска видео по содержанию. Keyword Association Scores могут учитываться при ранжировании (Claim 19).
Выбор тамбнейлов (Presentation Layer): После определения набора результатов Video Search Engine использует Video Annotation Index для выбора наиболее релевантного кадра в качестве тамбнейла. Это происходит на финальных этапах формирования выдачи (RERANKING или METASEARCH).

Входные данные:

Обучающие данные (медиафайлы, ключевые слова, данные кликстрима).
Видеофайлы из базы данных.
Пользовательский запрос.
Метаданные видео (заголовки).

Выходные данные:

Обученная Feature-Keyword Model.
Заполненный Video Annotation Index.
Поисковая выдача с видеорезультатами и динамически выбранными релевантными тамбнейлами.

На что влияет

Типы контента: Основной фокус на видеоконтенте. Изображения и аудио анализируются в составе видео и используются для обучения модели.
Конкретные ниши: Влияет на все тематики. Особенно полезно для длинных видео с разнообразным содержанием (фильмы, обзоры, инструкции), где метаданные не могут описать все сцены.
Дополнительные функции: Патент также описывает использование системы для:
- Поиска конкретных сцен внутри видео, релевантных запросу (соответствует функции Key Moments).
- Предложения похожих видео (Related Videos) на основе схожести аудиовизуального содержания.
- Таргетинга рекламы в реальном времени на основе содержания текущего кадра во время воспроизведения.

Когда применяется

Обучение модели: Происходит периодически или непрерывно по мере поступления новых обучающих данных (например, кликстрима).
Индексирование (Аннотирование): При добавлении нового видео в базу данных или при периодическом переиндексировании.
Поиск и выбор тамбнейлов: В реальном времени при каждом запросе пользователя.

Пошаговый алгоритм

Процесс А: Обучение модели (Офлайн)

Сбор данных: Формирование Labeled Training Dataset путем анализа кликов пользователей (какие результаты выбираются по каким запросам) или из внешних источников.
Идентификация ключевых слов: Определение набора наиболее часто встречающихся ключевых слов.
Извлечение признаков: Сегментация медиа (например, на patches для изображений). Извлечение низкоуровневых признаков (цвет, текстура, аудио).
Кластеризация признаков: Применение алгоритмов (например, K-means) для определения набора наиболее репрезентативных векторов признаков.
Обучение ассоциаций: Итеративное обучение Feature-Keyword Model (например, матрицы). Система сравнивает положительные и отрицательные примеры и корректирует веса модели так, чтобы релевантные медиа получали более высокие оценки для соответствующих ключевых слов (как описано в Claim 10).

Процесс Б: Аннотирование и Индексирование (Офлайн/Батч)

Сэмплирование видео: Выборка кадров из видео (периодически или на основе определения границ сцен).
Извлечение признаков: Генерация векторов признаков для каждого выбранного кадра.
Расчет оценок: Применение обученной Feature-Keyword Model к векторам признаков для получения Keyword Association Scores для каждого кадра.
Индексирование: Сохранение рассчитанных оценок в Video Annotation Index с привязкой к идентификатору кадра и видео.

Процесс В: Обработка запроса и Выбор тамбнейла (Онлайн)

Получение запроса и Поиск: Получение ключевых слов от пользователя и определение набора релевантных видео.
Выбор стратегии тамбнейла: Определение источника целевого ключевого слова для выбора тамбнейла:
Вариант 1: Запрос пользователя (Claim 16).
Вариант 2: Ключевое слово из метаданных видео, например, заголовка (Claim 15).
Выбор кадра: Для каждого видео выполняется поиск в Video Annotation Index кадра с наивысшим Keyword Association Score для целевого ключевого слова.
Отображение: Представление результатов поиска с выбранными кадрами в качестве тамбнейлов.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Аудиовизуальные): Пиксельные данные кадров видео и аудиодорожки. Эти данные являются основой для извлечения признаков.
Контентные факторы (Текстовые): Ключевые слова в обучающих данных. Метаданные видео (заголовки, описания) — используются как источник ключевых слов для выбора тамбнейлов. Пользовательские запросы.
Поведенческие факторы: Данные кликстрима (Click-through data). Используются для автоматического создания Labeled Training Dataset путем анализа того, какие результаты пользователи выбирают по определенным запросам.

Какие метрики используются и как они считаются

Извлечение признаков (Features):

Color Features: Цветовые гистограммы, которые хранят распределение цветов в пределах сегмента изображения (patch).
Texture Features: Локальные бинарные шаблоны (Local Binary Patterns, LBPs). Представляют данные о текстуре и краях путем сравнения интенсивности пикселя с его соседями.
Audio Features: Мел-частотные кепстральные коэффициенты (MFCCs), стабилизированные слуховые образы (SAI), спектрограммы.

Методы машинного обучения:

Кластеризация (K-means): Используется для обработки извлеченных признаков и определения наиболее репрезентативных паттернов (доминантных цветов, текстур) в обучающем наборе.
Обучение ранжированию (Iterative Learning): Используется для обучения Feature-Keyword Model. Веса модели корректируются так, чтобы положительные примеры получали Keyword Score выше отрицательных на определенное пороговое значение (Threshold).
Классификаторы: Упоминается возможность использования дискриминативных моделей, таких как Support Vector Machines (SVM).

Метрики:

Keyword Association Score: Рассчитывается путем применения Feature-Keyword Model к вектору признаков кадра (например, путем умножения вектора признаков на feature-keyword matrix). Эта оценка определяет релевантность кадра ключевому слову.

Выводы

Глубокий анализ содержания видео: Google обладает инфраструктурой для детального анализа аудиовизуального содержания видео покадрово. Система не полагается только на метаданные, а стремится понять, что изображено и что звучит в каждом кадре.
Перевод признаков в семантику: Ключевым элементом является использование машинного обучения (Feature-Keyword Model) для перевода низкоуровневых аудиовизуальных признаков (цвет, текстура, звук) в высокоуровневые семантические концепции (ключевые слова).
Обучение на поведении пользователей: Система использует данные о кликах пользователей (Click-Through data) для автоматического сбора масштабных обучающих наборов данных, что позволяет модели постоянно совершенствоваться.
Динамический и контекстно-зависимый выбор тамбнейлов: Тамбнейл для одного и того же видео может меняться. Система может выбрать его на основе общего содержания видео (используя заголовок) ИЛИ на основе конкретного запроса пользователя, чтобы максимизировать визуальную релевантность и CTR.
Поиск внутри видео (Scene Search): Описанная инфраструктура (индекс с оценками ключевых слов для кадров) позволяет искать конкретные сцены внутри длинных видео, соответствующие запросу (Key Moments).
Мультимодальное применение: Описанные механизмы анализа содержания применяются не только для поиска, но и для рекомендаций похожих видео и таргетинга рекламы на основе содержания.

Практика

Best practices (это мы делаем)

Обеспечение высокого аудиовизуального качества: Четкое изображение и чистый звук помогают системе корректно извлекать признаки (features) и ассоциировать контент с релевантными ключевыми словами. Это улучшает способность системы понимать содержание видео.
Визуальное соответствие интенту запроса: Убедитесь, что ключевые моменты видео визуально соответствуют целевым запросам. Если видео оптимизируется под запрос «как завязать галстук», в нем должны присутствовать четкие кадры этого процесса. Это увеличивает Keyword Association Scores для этих кадров.
Создание визуально сильных и разнообразных сцен: Структурируйте видео так, чтобы ключевые моменты были визуально выражены. Так как система автоматически выбирает наиболее релевантный кадр в качестве тамбнейла, важно создавать визуально насыщенные сцены. Это повышает вероятность выбора привлекательного кадра, что положительно влияет на CTR.
Точная оптимизация метаданных (Title/Description): Метаданные остаются важными. Патент указывает (Claim 15), что заголовок видео может использоваться как источник ключевых слов для выбора наиболее репрезентативного тамбнейла. Точные метаданные помогают системе правильно интерпретировать контекст.

Worst practices (это делать не надо)

Кликбейт в метаданных и несоответствие контенту: Создание заголовков, которые не соответствуют фактическому содержанию видео. Если контента визуально нет в видео, система не сможет найти релевантный кадр для тамбнейла, что может привести к низким Keyword Association Scores и плохому выбору тамбнейла.
Низкое качество продакшена: Размытое видео, плохой звук, отсутствие четкой структуры затрудняют извлечение признаков и анализ содержания, снижая потенциал ранжирования видео.
Монотонный видеоряд: Видео, где визуальный ряд однообразен (например, статичный слайд на протяжении всего ролика), не дает системе разнообразия кадров для выбора динамических тамбнейлов под разные запросы.

Стратегическое значение

Патент подтверждает стратегическое направление Google на глубокое понимание мультимедийного контента. Для SEO-специалистов это подчеркивает важность Video SEO и необходимость оптимизации не только текстовых элементов, но и самого аудиовизуального продукта. Google стремится понять, что именно показано и сказано в видео, и использует это понимание для улучшения презентации результатов (CTR) и ранжирования.

Практические примеры

Сценарий: Оптимизация видеообзора гаджета для динамического выбора тамбнейла.

Задача: Продвинуть видеообзор нового смартфона по запросам, связанным с моделью и ее функциями (например, «обзор iPhone X» и «тест камеры iPhone X»).
Действие: При съемке видео создаются разнообразные сцены: общая презентация, четкие крупные планы устройства, демонстрация работы камеры.
Как работает система: Video Annotation Engine анализирует кадры. Кадры с крупным планом устройства получат высокие Keyword Association Scores для «iPhone X». Кадры, демонстрирующие процесс съемки или примеры фото, получат высокие оценки для «тест камеры».
Результат: По запросу «обзор iPhone X» система выберет крупный план устройства. По запросу «тест камеры iPhone X» система выберет кадр, связанный с камерой. Тамбнейл динамически адаптируется под запрос, повышая релевантность и CTR.

Вопросы и ответы

Значит ли этот патент, что метаданные для видео больше не важны?

Нет. Метаданные (заголовок, описание) остаются критически важными сигналами ранжирования. Патент показывает, что Google дополняет их анализом содержания. Кроме того, патент явно указывает (Claim 15), что заголовок видео может использоваться как источник ключевых слов для выбора наиболее репрезентативного тамбнейла.

Как Google определяет, какие кадры анализировать в видео?

Патент описывает процесс сэмплирования (Video Sampling Module). Это может происходить с фиксированной частотой (например, 1 кадр каждые 10 секунд), с частотой, зависящей от длины или популярности видео, или на основе сегментации сцен. Последний вариант предполагает выборку хотя бы одного кадра из каждой сцены для обеспечения репрезентативности.

Как система учится связывать картинку с ключевым словом?

Она использует размеченный обучающий набор данных (Labeled Training Dataset). Один из ключевых методов сбора этих данных, описанный в патенте, — это автоматический анализ поведения пользователей (Click-Through Module). Если многие пользователи, ищущие «дельфин», кликают на определенное изображение, система учится, что признаки (цвет, форма) этого изображения коррелируют со словом «дельфин».

Может ли система выбрать разные тамбнейлы для одного и того же видео по разным запросам?

Да, это одна из ключевых особенностей патента (Claim 16). Если видео релевантно двум разным запросам, например, «собака на скейтборде» и «кошка играет на пианино», система выберет кадр с собакой для первого запроса и кадр с кошкой для второго. Выбор основывается на том, какой кадр имеет наивысший Keyword Association Score для конкретного запроса.

Какие конкретно признаки анализирует система?

Патент упоминает конкретные примеры признаков. Для изображений и кадров видео это Color Features (цветовые гистограммы) и Texture Features (например, Local Binary Patterns, описывающие текстуру и края). Для аудио это спектральные характеристики, такие как MFCCs (Мел-частотные кепстральные коэффициенты).

Влияет ли этот механизм на ранжирование видео?

Да. Патент указывает (Claim 19), что Video Annotation Index и рассчитанные Keyword Association Scores могут использоваться поисковой системой (Video Search Engine) для ранжирования видео в результатах поиска. Кроме того, более релевантный тамбнейл улучшает CTR, что косвенно влияет на ранжирование.

Применяется ли это только для поиска видео?

Основной фокус патента — поиск видео и выбор тамбнейлов. Однако в тексте также упоминается применение этой технологии для смежных задач: поиска похожих видео (Related Videos) на основе схожести контента и для таргетинга рекламы в реальном времени на основе содержания текущего кадра во время воспроизведения.

Насколько актуальны описанные методы извлечения признаков (LBP, Color Histograms)?

Эти методы были стандартными на момент подачи патента (2009 г.). Сегодня Google использует гораздо более продвинутые методы, основанные на глубоких нейронных сетях (например, CNN, Transformers, MUM). Однако общая архитектура системы (Обучение модели -> Индексирование контента -> Применение для поиска и отображения) остается актуальной.

Как SEO-специалист может повлиять на автоматический выбор тамбнейла?

Напрямую выбрать кадр нельзя (если не используется кастомный тамбнейл), но можно повлиять косвенно. Создавая видео с четкими, визуально сильными сценами, которые точно соответствуют целевым ключевым словам, вы увеличиваете Keyword Association Scores для этих кадров. Это повышает вероятность того, что система выберет именно эти сцены как наиболее релевантные.

Может ли эта система помочь найти конкретную сцену в длинном видео (Key Moments)?

Да, патент описывает такую возможность. Система находит кадры с высокими Keyword Association Scores для запроса, а затем определяет границы соответствующей сцены. Это позволяет вернуть пользователю релевантный фрагмент или начать воспроизведение с нужного момента, что соответствует функциональности Key Moments.