Как Google (YouTube) использует анализ контента и поведение пользователей (Co-Watching) для автоматической генерации метаданных видео

Анализ патента Google, описывающего систему автоматического дополнения метаданных для видео. Система строит граф сходства, используя как анализ аудиовизуального контента, так и поведенческие сигналы (co-play counts – совместные просмотры). Этот граф используется для обучения классификаторов, которые затем переносят семантические метки (Cluster Weights) от хорошо описанных видео к похожим видео с недостаточными или спамными метаданными.

Описание

Какую задачу решает

Патент решает проблему низкого качества метаданных на платформах с пользовательским контентом (UGC), таких как YouTube. Пользователи часто предоставляют неполные, неточные или намеренно ложные (спамные) метаданные (теги, описания) для загружаемых видео. Это критически ухудшает работу поиска, систем рекомендаций и затрудняет классификацию контента.

Что запатентовано

Запатентована система дополнения метаданных (Metadata Augmentation System), которая автоматически улучшает метаданные цифровых объектов (видео). Система определяет сходство между объектами на основе анализа контента и/или поведенческих данных (co-play counts). Ключевым элементом является использование графа сходства для генерации обучающих данных (semi-supervised learning), которые затем используются для тренировки классификаторов сходства, переносящих метаданные от объектов с качественным описанием к объектам с недостаточным.

Как это работает

Система работает в несколько этапов:

Определение сходства и построение графа: Вычисляется сходство между парами видео на основе контента или поведенческих данных (co-play counts). Строится Similarity Graph, где узлы — это видео, а ребра — степень их сходства.
Генерация обучающих данных: Граф сходства используется для определения позитивных и негативных обучающих выборок для конкретного видео V (видео, близкие к V в графе, становятся позитивными примерами).
Извлечение признаков и обучение: Из видео извлекаются детальные аудиовизуальные и текстовые признаки. На этих признаках обучается классификатор для видео V.
Применение и перенос метаданных: Обученный классификатор применяется к другим видео для точной оценки сходства. Если сходство высоко, семантические метаданные (Cluster Weights) исходного видео масштабируются (уменьшаются) и переносятся на целевое видео.

Актуальность для SEO

Высокая. Автоматическое понимание, категоризация и тегирование огромных объемов пользовательского контента (особенно видео) остается критически важной задачей для Google и YouTube. Использование графов сходства и поведенческих сигналов (co-play) для генерации обучающих данных (semi-supervised learning) является актуальным и широко применяемым подходом в современных системах рекомендаций и поиска.

Важность для SEO

Патент имеет высокое значение для Video SEO (особенно YouTube) и Image SEO. Он раскрывает механизмы, с помощью которых система понимает содержание видео за пределами предоставленных пользователем тегов, используя как поведенческие сигналы, так и глубокий анализ контента. Понимание того, что сходство определяется как контентом, так и совместными просмотрами (co-play), критично для стратегий оптимизации видео и каналов.

Детальный разбор

Термины и определения

Cluster Weights (Веса кластеров): Производные семантические метаданные. Представляют собой набор весов (например, от 0 до 1), показывающих, насколько сильно видео связано с определенными семантическими кластерами (группами связанных слов/понятий). Вычисляются из текстовых метаданных и являются основным типом метаданных, которые система переносит.
Co-play counts (Счетчики совместных просмотров): Поведенческая метрика (экстринсивный фактор), показывающая, как часто два видео просматриваются одним и тем же пользователем последовательно или в течение короткого периода времени. Используется как мера сходства.
Digital Object (Цифровой объект): Единица контента. Хотя патент применим к разным типам (аудио, изображения), основной фокус сделан на видео (videos).
Feature Extraction (Извлечение признаков): Процесс анализа содержимого видео и извлечения дескрипторов (аудиовизуальных, текстовых, пространственно-временных), которые формируют Feature Vector для обучения классификаторов.
Path Degree of Similarity (Степень сходства по пути): Метрика, определяющая сходство между двумя узлами в графе на основе пути между ними. Может рассчитываться как произведение весов ребер на пути или с использованием коэффициента затухания (decay factor) и длины пути.
Similarity Graph (Граф сходства): Структура данных, где узлы представляют видео, а взвешенные ребра — степень схожести между ними. Используется для определения обучающих выборок или для прямого распространения метаданных.

Ключевые утверждения (Анализ Claims)

Патент защищает метод дополнения метаданных, основанный на обучении классификаторов (Embodiment 2 в описании).

Claim 1 (Независимый пункт): Описывает основной процесс дополнения метаданных с помощью машинного обучения.

Система получает набор видео.
Определяются степени схожести между парами видео (Шаг 2).
Для множества видео обучаются классификаторы. Обучение включает:
1. Формирование обучающей выборки (training set) для видео на основе ранее определенных степеней схожести (из Шага 2).
2. Обучение классификатора на основе аудиовизуальных признаков (audiovisual features), извлеченных из видео в обучающей выборке.
Применение обученного классификатора первого видео ко второму видео для определения степени схожести между ними.
Если степень схожести, определенная классификатором, выше порога:
1. Веса кластеров (cluster weights), полученные из предоставленных пользователем текстовых метаданных первого видео, уменьшаются (масштабируются) на основе этой степени схожести.
2. Полученные уменьшенные веса кластеров ассоциируются со вторым видео как его метаданные.

Ядро изобретения — это метод полу-супервизорного обучения (semi-supervised learning): использование предварительно рассчитанного сходства (которое может быть основано на поведении, например, co-play) для формирования обучающих наборов, которые затем используются для обучения классификаторов на основе контента (аудиовизуальных признаков).

Claim 3 и 4 (Зависимые): Детализируют формирование обучающей выборки (Шаг 3а). Строится Similarity Graph. Вычисляются Path Degrees of Similarity между видео либо на основе кратчайшего пути и коэффициента затухания (Claim 3), либо на основе произведения весов ребер на пути (Claim 4). Видео добавляются в обучающую выборку на основе этих метрик.

Claim 5 и 6 (Зависимые): Детализируют определение исходных степеней схожести (Шаг 2). Они могут быть основаны на статистике совместных просмотров (co-play counts) (Claim 5) или на сравнении содержимого видео (Claim 6).

Где и как применяется

Изобретение применяется в рамках системы обработки и индексирования контента видеохостинга (например, YouTube).

CRAWLING / Data Acquisition (Сбор данных)
Система собирает видео, пользовательские метаданные и логи доступа (Access log), которые фиксируют взаимодействия пользователей с видео (для расчета co-play counts).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Он включает несколько офлайн и онлайн процессов:

Извлечение признаков (Feature Extraction): Анализ аудиовизуального и текстового содержимого для создания Feature Vectors. Исходные текстовые метаданные преобразуются в Cluster Weights.
Построение Similarity Graph (Офлайн): Анализ логов доступа для определения co-play counts и/или анализ контента для определения сходства и построения графа.
Обучение классификаторов (Офлайн): Использование графа для определения обучающих выборок и обучение классификаторов сходства.
Дополнение метаданных (Индексирование/Онлайн): Применение классификаторов к видео (особенно новым или с плохими метаданными) для генерации и ассоциации новых Cluster Weights.

RANKING (Ранжирование и Рекомендации)
Дополненные метаданные (Cluster Weights) служат более точными сигналами релевантности, которые используются на этом этапе для улучшения качества поиска и рекомендаций.

Входные данные: Видео контент, исходные метаданные, логи доступа (для co-play counts).

Выходные данные: Дополненные метаданные (скорректированные Cluster Weights) для видео.

На что влияет

Типы контента: В первую очередь влияет на видеоконтент на UGC-платформах (YouTube). Также применимо к изображениям, аудио и мультимедийным документам.
Обнаруживаемость контента: Повышает вероятность нахождения видео, у которых изначально были скудные, неточные или спамные метаданные.

Когда применяется

Триггеры активации: Процесс построения графа и обучения классификаторов выполняется периодически в офлайн-режиме. Дополнение метаданных активируется при индексации нового видео или переиндексации существующего.
Преимущество для новых видео: Метод на основе классификаторов позволяет дополнять метаданные даже для новых видео, у которых еще нет данных о совместных просмотрах, так как классификатор анализирует контент.
Борьба со спамом: Применяется для разбавления (diluted) намеренно ложных метаданных путем усреднения с метаданными, полученными от похожих объектов.

Пошаговый алгоритм

Описан основной запатентованный метод (Classifier-based Propagation).

Процесс А: Построение графа и обучение классификаторов (Офлайн)

Определение сходства и построение графа:
1. Расчет базовой схожести между парами видео (используя co-play counts и/или контент).
2. Создание Similarity Graph.
Формирование обучающих наборов (для каждого видео V):
1. Вычисление Path Degrees of Similarity между V и остальными видео в графе.
2. Определение позитивного набора (сходство выше порога 1) и негативного набора (сходство ниже порога 2).
Извлечение признаков: Извлечение Feature Vectors (аудиовизуальные, текстовые и др.) из видео в обучающих наборах.
Обучение и Валидация: Тренировка классификатора (например, AdaBoost или SVM) для видео V и проверка его точности (Precision/Recall/F-score). Классификаторы с низкой точностью отбрасываются.

Процесс Б: Дополнение метаданных (Индексация/Онлайн)

Применение классификаторов: Применение обученных классификаторов от Исходных Видео (V_source) к Целевому Видео (V_target). Получение оценок сходства (Classifier Score).
Проверка порога: Определение, превышает ли оценка сходства установленный порог.
Масштабирование метаданных: Если порог превышен, Cluster Weights исходного видео V_source умножаются (масштабируются) на эту оценку сходства.
Агрегация и Ассоциация: Масштабированные веса ассоциируются с V_target. Если источников несколько, веса комбинируются (например, усредняются). Исходные веса V_target (если есть) также могут учитываться (например, через линейную комбинацию).

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных.

Поведенческие факторы (Extrinsic):

Access Log и Co-play counts: Логи доступа (Viewer ID, время доступа, тип взаимодействия) используются для расчета статистики совместных просмотров, которая применяется для построения Similarity Graph.

Контентные и Мультимедиа факторы (Intrinsic — Audiovisual Features):

Используются для Feature Extraction при обучении классификаторов. Патент перечисляет:

Гистограммы локальных признаков (SIFT, LoG, Gabor wavelet responses).
Цветовые гистограммы (HSV color space).
Признаки движения (Motion rigidity, Color motion).
Аудио признаки (SAI features, audio spectrogram).
Признаки границ и линий (Canny edge detector, Hough Transform).
Текстурные признаки (Textons), Энтропийные признаки.
Высокоуровневые детекторы: Лица (количество, размер), границы сцен (Shot boundary detection), признаки детекции порнографии.

Текстовые факторы (Metadata Features):

Исходные метаданные (title, description, tags). Используются для расчета исходных Cluster Weights и извлечения текстовых признаков (например, с помощью Noisy-Or Bayesian networks).

Географические и Временные факторы:

GPS координаты и временные метки создания.

Какие метрики используются и как они считаются

Similarity Degree (Степень схожести): Метрика схожести между двумя видео для построения графа. Рассчитывается на основе co-play counts или сравнения контента.
Path Degree of Similarity: Схожесть между узлами графа. Рассчитывается двумя способами:
1. Произведение весов ребер на пути.
2. На основе кратчайшего пути (l) и коэффициента затухания (k): k^l.
Cluster Weights: Семантическое представление видео. Вычисляются из текстовых метаданных.
Classifier Score (Оценка сходства классификатора): Выходное значение классификатора, показывающее степень сходства между двумя видео на основе их Feature Vectors. Используется как коэффициент масштабирования при переносе метаданных.
Метрики валидации: Precision, Recall, F-score. Используются для оценки качества обученных моделей.

Выводы

Синергия поведенческих и контентных сигналов (Semi-supervised learning): Патент описывает мощный двухуровневый подход. Поведенческие данные (co-play) используются для построения исходного графа сходства и генерации обучающих выборок. Затем обучаются классификаторы, которые используют детальный анализ контента (аудиовизуальные признаки) для точного определения сходства и переноса метаданных.
Автоматическое улучшение метаданных: Система активно генерирует и переносит семантические метки (Cluster Weights), не полагаясь только на пользовательский ввод. Это улучшает обнаруживаемость контента со скудными данными.
Важность Engagement (Co-play) для определения сходства: Co-play counts прямо указаны как способ определения сходства. Это подтверждает, что оптимизация сессий просмотра и удержание пользователя напрямую влияет на то, как система воспринимает тематическую связь между видео.
Глубокий анализ контента: Для финального переноса метаданных используются классификаторы, обученные на огромном количестве аудиовизуальных признаков. Система анализирует само видео для подтверждения сходства.
Устойчивость к спаму: Механизм агрегации метаданных от нескольких похожих видео (усреднение Cluster Weights) помогает «разбавить» (dilute) и уменьшить влияние неточных или спамных метаданных.
Применимость к новому контенту: Использование классификаторов позволяет улучшать метаданные даже для новых видео, у которых еще нет поведенческой статистики, путем анализа их контента.

Практика

Best practices (это мы делаем)

Рекомендации применимы в первую очередь к оптимизации видео на YouTube и других UGC-платформах.

Оптимизация сессий просмотра (Session Optimization / Co-Viewing): Это ключевая стратегия. Необходимо стимулировать просмотр ваших видео вместе с другим релевантным контентом (вашим или авторитетным в нише). Используйте плейлисты, конечные заставки и подсказки. Это увеличивает co-play counts и укрепляет связи в Similarity Graph.
Обеспечение точных исходных метаданных: Предоставляйте максимально точные и полные заголовки, описания и теги. Они используются для расчета исходных Cluster Weights. Качественные метаданные делают ваш контент надежным источником для системы.
Создание качественного и консистентного контента: Система извлекает множество аудиовизуальных признаков. Видео высокого качества с четкой структурой, хорошим звуком и визуальной консистентностью облегчает работу Feature Extraction и позволяет классификаторам точнее определять сходство.
Развитие тематической авторитетности канала: Концентрация на определенной тематике помогает установить четкие паттерны в Cluster Weights и укрепить поведенческие и контентные связи с другими видео в этой же нише.

Worst practices (это делать не надо)

Использование кликбейта и вводящих в заблуждение метаданных (Spam Tags): Патент прямо указывает, что система предназначена для борьбы с этим. Если метаданные не соответствуют контенту, система может их «разбавить» или заменить метаданными, полученными от похожих видео, что приведет к потере позиций по целевым запросам.
Игнорирование метаданных: Загрузка видео без описания и тегов заставляет систему полностью полагаться на автоматическое дополнение. Хотя система может это сделать, результат может быть менее точным, чем при наличии качественных исходных данных.
Низкое качество продакшена: Видео с плохим звуком или несвязанным визуальным рядом могут затруднить системе извлечение релевантных аудиовизуальных признаков, что снизит эффективность работы классификаторов сходства.

Стратегическое значение

Патент подчеркивает, что для Google понимание медиаконтента — это комбинация анализа самого контента (ML, Feature Extraction) и анализа поведения пользователей (Collective Intelligence, Co-play). Для успешного SEO на YouTube необходимо оптимизировать оба направления: создавать качественный контент, который легко классифицировать, и интегрировать его в экосистему просмотров так, чтобы формировать сильные поведенческие связи с релевантным контентом. Co-play играет роль, аналогичную ссылкам в веб-поиске.

Практические примеры

Сценарий: Автоматическое тегирование нового видео о путешествии

Загрузка: Пользователь загружает видео о походе в Йосемити, но указывает только заголовок «Поход» и не ставит теги.
Анализ контента: Система извлекает Feature Vectors (визуальные признаки гор, лесов, характерных объектов).
Применение классификаторов: Система применяет к новому видео классификаторы, обученные на других популярных видео о Йосемити (которые уже имеют богатые метаданные).
Оценка схожести: Классификаторы определяют высокую степень схожести на основе визуальных признаков.
Перенос метаданных: Система берет Cluster Weights от исходных видео (связанные с понятиями «Йосемити», «Национальный парк», «Хайкинг»), масштабирует их и ассоциирует с новым видео.
Результат: Видео «Поход» начинает показываться в поиске и рекомендациях по запросам, связанным с Йосемити, несмотря на отсутствие исходных тегов.

Вопросы и ответы

Что такое «Cluster Weights» и почему система переносит их, а не просто копирует теги?

Cluster Weights — это семантическое представление видео в системе. Вместо того чтобы полагаться только на теги, система преобразует текстовые данные в набор весов, показывающих связь видео с различными темами или понятиями (кластерами). Это позволяет системе понимать содержание видео на более глубоком уровне. Перенос весов позволяет усреднять информацию от разных источников и снижать влияние случайных или спамных тегов.

Как система определяет, что два видео похожи? Патент упоминает два уровня.

Первый уровень используется для построения Similarity Graph и может основываться на поведении пользователей (как часто два видео смотрят вместе — co-play counts) или на базовом анализе контента. Второй уровень используется для точного переноса метаданных и основан на применении обученных классификаторов, которые анализируют детальные аудиовизуальные признаки (Feature Vectors) видео.

Какова роль «co-play counts» (совместных просмотров) в этом патенте?

Co-play counts играют критическую роль в построении исходного Similarity Graph. Они служат индикатором того, что видео связаны между собой, основываясь на поведении пользователей. Этот граф затем используется для генерации обучающих наборов данных для машинного обучения. Для SEO это подтверждает важность оптимизации сессий просмотра и рекомендаций.

Может ли эта система помочь новым видео, у которых еще нет просмотров?

Да. Метод, основанный на классификаторах (описанный в Claim 1), позволяет это сделать. Поскольку классификаторы уже обучены на существующем корпусе видео и работают на основе анализа контента, они могут быть применены к новому видео сразу после загрузки, даже до того, как по нему накопится статистика просмотров (co-play data).

Насколько важен анализ самого видеоконтента (аудио и видеоряда)?

Он очень важен. Патент перечисляет множество аудиовизуальных признаков (цвет, движение, звук, лица, объекты, текстуры — SIFT, Textons), которые извлекаются и используются для обучения классификаторов сходства. Это означает, что система пытается понять содержание видео напрямую, а не только через метаданные или поведение пользователей.

Как этот патент помогает бороться со спамными тегами?

Патент упоминает, что перенос метаданных путем их комбинирования (например, усреднения) от нескольких похожих источников позволяет «разбавлять» (dilute) спамные или неточные метаданные. Если у видео спамные теги, но система находит похожие видео с качественными метаданными, итоговые метаданные (Cluster Weights) будут скорректированы в сторону более релевантных понятий.

Применяется ли это только к YouTube или также к Google Поиску?

Патент в примерах фокусируется на видеохостинговых сервисах типа YouTube. Описанные механизмы напрямую улучшают индексацию и ранжирование внутри этой экосистемы. Однако улучшенные метаданные видео также используются Google Поиском при ранжировании видео в универсальной выдаче или на вкладке «Видео». Технология также применима к Google Images и другим цифровым объектам.

В чем разница между прямым распространением метаданных и методом на основе классификаторов?

Прямое распространение переносит метаданные непосредственно по ребрам Similarity Graph, учитывая длину пути (затухание). Метод на основе классификаторов (защищенный в Claims) использует граф только для определения обучающих выборок. Сам перенос метаданных происходит на основе оценки, выданной классификатором, который анализирует контентные признаки. Второй метод более точный и гибкий.

Что такое «Path Degree of Similarity» в графе схожести?

Это метрика, которая показывает, насколько близки два видео в Similarity Graph, учитывая не только прямые связи, но и пути через другие видео. Чем длиннее путь или слабее связи на пути, тем ниже эта метрика. В защищенном методе она используется для определения положительных и отрицательных примеров при обучении классификаторов.

Как SEO-специалисту использовать знания из этого патента на практике?

Необходимо сфокусироваться на создании серий тематически связанного видеоконтента и оптимизировать пути пользователя между этими видео (плейлисты, конечные заставки). Это укрепит связи в графе сходства через co-play counts. Также важно обеспечить высокое качество продакшена, чтобы система могла легко извлечь релевантные аудиовизуальные признаки для подтверждения сходства.