Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google идентифицирует и маркирует конкретные объекты и действия внутри видео, используя метаданные всего ролика

    HIGH-CONFIDENCE LABELING OF VIDEO VOLUMES IN A VIDEO SHARING SERVICE (Высокоточное присвоение меток видео-объемам в сервисе обмена видео)
    • US8983192B2
    • Google LLC
    • 2015-03-17
    • 2012-08-31
    2012 Индексация Мультимедиа Патенты Google Семантика и интент

    Google использует технологию для автоматического определения и маркировки специфических объектов или действий (называемых «объемами») внутри видео. Система анализирует визуальные характеристики, сегментирует видео на пространственно-временные части и использует существующие метаданные всего видео (например, теги или описание) для присвоения высокоточных меток этим конкретным сегментам без ручного вмешательства.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему автоматической идентификации и маркировки конкретных объектов или действий внутри цифрового видео при отсутствии размеченных вручную обучающих данных для этих сегментов. Существующие методы часто могли маркировать видео в целом (например, определить, что видео о кошках), но им было сложно точно определить, какая именно часть видео (пространственно и по времени) содержит конкретный объект (кошку) или действие (бег).

    Что запатентовано

    Запатентована система для идентификации и высокоточного присвоения меток пространственно-временным сегментам видео, называемым volumes (объемы). Система сегментирует видео на неразмеченные candidate volumes, извлекает из них визуальные признаки (features), а затем использует существующие метки уровня всего видео (например, пользовательские теги) для автоматического присвоения достоверных меток (verified labels) подмножеству этих объемов. Это достигается с помощью методов машинного обучения, таких как обучение на основе консистентности (consistency learning) или обучение слабых классификаторов (weak volume classifiers).

    Как это работает

    Система работает в три основных этапа:

    1. Сегментация объемов: Видео стабилизируется для уменьшения дрожания камеры. Определяются стабильные сегменты (где фон относительно неподвижен). Затем применяется иерархическая графическая сегментация для выделения candidate volumes – пространственно-временных областей, которые потенциально представляют отдельные объекты или действия.
    2. Определение признаков: Для каждого объема извлекаются визуальные характеристики (цвет, движение, текстура). Это часто включает создание codebook (кодовой книги) общих визуальных признаков и описание объема с точки зрения этих признаков.
    3. Присвоение меток: Система использует метаданные всего видео как предварительные (и шумные) метки для всех объемов внутри него. Затем она анализирует консистентность этих меток среди визуально похожих объемов по всему корпусу видео. Если много визуально похожих объемов постоянно ассоциируются с определенной меткой из метаданных родительских видео, эта метка присваивается объему как verified label (достоверная метка).

    Актуальность для SEO

    Высокая. Автоматическое понимание содержания видео является критически важной задачей для Google (YouTube и Видео Поиск). Способность идентифицировать конкретные объекты и действия внутри видео напрямую связана с такими функциями, как «Ключевые моменты» (Key Moments), поиск по объектам внутри видео и улучшение общей релевантности видеоконтента. Методы, использующие слабые сигналы (метаданные видео) для маркировки конкретных элементов, остаются актуальными в машинном обучении.

    Важность для SEO

    Патент имеет высокое значение для Video SEO (85/100). Он раскрывает механизмы, которые Google может использовать для понимания содержания видео на гранулярном уровне, выходя за рамки анализа только метаданных. Это подчеркивает критическую важность точных и описательных метаданных, поскольку они служат исходными обучающими данными (preliminary labels) для идентификации конкретных объектов. Понимание того, как сегментируется видео (например, важность стабильных сегментов), также может влиять на стратегии создания контента для лучшей машинной интерпретации.

    Детальный разбор

    Термины и определения

    Volume / Spatio-temporal Volume (Объем / Пространственно-временной объем)
    Сегмент видео, определенный как в пространстве (область в кадре), так и во времени (последовательность кадров). Он соответствует непрерывной последовательности пространственных частей видеокадров. Представляет собой отдельный объект (например, кошку) или действие (например, бег).
    Candidate Volume (Кандидатный объем)
    Объем, автоматически сегментированный из видео, который еще не имеет семантической метки. Это неразмеченные данные, которые система пытается классифицировать.
    Video-level Metadata (Метаданные уровня видео)
    Информация, связанная с видео в целом (заголовок, описание, теги), предоставленная пользователем. Используются как источник предварительных меток.
    Preliminary Label (Предварительная метка)
    Метка, извлеченная из Video-level Metadata и временно назначенная всем объемам внутри этого видео. Является «шумным» сигналом, так как не все метки видео применимы ко всем его объемам.
    Verified Label / High-Confidence Label (Достоверная метка)
    Метка, присвоенная кандидатскому объему с высокой степенью уверенности после анализа признаков и консистентности. Указывает на конкретный объект или действие, представленное объемом.
    Volume Segmentation (Сегментация объемов)
    Процесс разделения видео на составляющие его volumes. В патенте включает стабилизацию видео и иерархическую графическую сегментацию (hierarchical graph-based video segmentation).
    Stable Segment (Стабильный сегмент)
    Последовательность кадров, в которой фон относительно неподвижен (минимальное движение камеры). Определяется с помощью алгоритма стабилизации видео.
    Codebook (Кодовая книга)
    Набор репрезентативных векторов визуальных признаков (code vectors), полученный путем кластеризации признаков из множества видеосегментов. Используется для квантования и унифицированного описания визуальных характеристик объемов.
    Consistency Learning (Обучение на основе консистентности)
    Метод маркировки, при котором объемы кластеризуются по визуальным признакам. Метка верифицируется, если предварительные метки внутри кластера согласованы.
    Weak Volume Classifier (Слабый классификатор объемов)
    Классификатор, обученный на «шумных» данных (preliminary labels). Используется для выявления высокоточных меток на основе оценок (scores).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод идентификации и маркировки видео объемов.

    1. Идентификация множества candidate volumes (пространственно-временных сегментов) в цифровых видео.
    2. Процесс идентификации включает:
      • Стабилизацию видео с помощью алгоритма стабилизации (video stabilization algorithm).
      • Идентификацию stable segment (стабильного сегмента) – непрерывной последовательности кадров, где степень движения фона ниже порога, используя меру движения фона, полученную от алгоритма стабилизации.
    3. Определение признаков (features) для каждого кандидатного объема на основе визуальных свойств.
    4. Присвоение verified label (достоверной метки) подмножеству кандидатных объемов с использованием этих признаков.

    Ядро изобретения заключается в использовании стабилизации видео и анализа движения фона как ключевого шага для идентификации сегментов, пригодных для выделения объектов/действий (где движение вызвано объектом, а не камерой), и последующем автоматическом присвоении меток этим сегментам.

    Claim 6 (Зависимый от 1): Описывает метод присвоения меток с использованием кластеризации и анализа консистентности (Consistency Learning).

    1. Ассоциация preliminary labels (из метаданных родительского видео) с каждым кандидатным объемом.
    2. Кластеризация кандидатных объемов по их признакам.
    3. Определение степени консистентности меток (degree of label consistency) внутри каждого кластера.
    4. Если консистентность превышает порог, метка с высокой частотой встречаемости в кластере присваивается как verified label.

    Если множество визуально похожих объемов получено из видео с тегом «собака», и этот тег является наиболее частым в данном визуальном кластере, система делает вывод, что эти объемы действительно изображают собаку.

    Claim 8 (Зависимый от 1): Описывает метод присвоения меток с использованием слабых классификаторов.

    1. Ассоциация preliminary labels с объемами.
    2. Для каждой метки: обучение weak volume classifier, используя объемы с этой меткой как обучающий набор.
    3. Применение классификатора к кандидатным объемам для получения оценок (scores).
    4. Если оценка превышает порог, метка присваивается как verified label.

    Это подход «слабого надзора» (weak supervision). Даже если обучающие данные зашумлены, классификатор может выявить закономерности. Высокие оценки (scores) используются как индикатор правильного соответствия между визуальными признаками и меткой.

    Где и как применяется

    Изобретение применяется в рамках системы обработки и индексирования мультимедийного контента (например, YouTube).

    CRAWLING – Сканирование и Сбор данных
    Система получает видео и связанные с ними метаданные (заголовки, описания, теги) от пользователей.

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента. Модуль идентификации объемов (Volume identification module) работает на этом этапе:

    1. Обработка видео: Видео стабилизируется (video stabilization algorithm).
    2. Сегментация: Определяются stable segments и выделяются candidate volumes.
    3. Извлечение признаков: Генерируется codebook (на основе корпуса видео), и для каждого объема вычисляются признаки (volume features).
    4. Присвоение меток: Используя Video-level metadata и вычисленные признаки, система применяет машинное обучение (кластеризацию или классификаторы) для присвоения verified labels.
    5. Обучение (Опционально): Высокоточные метки могут использоваться для обучения сильных классификаторов (strong volume classifiers) для последующего использования (Claim 9).
    6. Сохранение: Объемы и их достоверные метки сохраняются в индексе.

    RANKING – Ранжирование
    Модуль поиска видео может использовать verified labels для улучшения релевантности. Например, процент объемов в видео, метки которых соответствуют запросу, может использоваться как сигнал ранжирования (Claim 11).

    METASEARCH – Метапоиск и Смешивание
    Результаты поиска могут включать не только видео целиком, но и отдельные объемы (сегменты), соответствующие запросу (Claim 12). Это основа для функции «Ключевые моменты» (Key Moments), позволяющей перейти сразу к нужному сегменту (Claim 13).

    Входные данные:

    • Цифровые видео (визуальный контент).
    • Video-level metadata (текст, теги).

    Выходные данные:

    • Идентифицированные volumes (пространственно-временные координаты).
    • Verified labels (высокоточные метки) для этих объемов.
    • Опционально: Обученные сильные классификаторы объемов.

    На что влияет

    • Типы контента: В первую очередь влияет на видеоконтент. Особенно эффективно для видео, содержащих четкие объекты и действия.
    • Специфические запросы: Улучшает ответы на запросы, ищущие конкретные объекты или действия, которые могут составлять лишь малую часть длинного видео (например, «пингвин скользит по льду» в документальном фильме).
    • Техническое качество видео: Патент предполагает, что система лучше работает с видео, которые можно стабилизировать и где присутствуют stable segments (относительно неподвижный фон). Видео с постоянным сильным движением камеры могут быть сложнее для сегментации.

    Когда применяется

    • Триггеры активации: Процесс активируется при обработке видео в системе (например, после загрузки или периодически).
    • Условия работы: Алгоритм маркировки применяется только к тем видео, у которых есть метаданные (источник preliminary labels). Видео без метаданных исключаются из этого процесса маркировки.
    • Пороговые значения:
      • Для определения stable segment: степень движения фона должна быть ниже определенного порога.
      • Для присвоения verified label (при кластеризации): степень консистентности меток (degree of label consistency) в кластере должна превышать порог (например, упоминается порог 75%).
      • Для присвоения verified label (при классификации): оценка (score) от классификатора должна превышать установленный порог.

    Пошаговый алгоритм

    Этап 1: Сегментация объемов (Volume Segmentation)

    1. Стабилизация видео: К видео применяется алгоритм стабилизации. Алгоритм выводит стабилизированное видео и меру движения фона для каждого кадра.
    2. Идентификация стабильных сегментов: Определяются последовательности кадров, где мера движения фона ниже порога (т.е. камера относительно неподвижна).
    3. Извлечение объемов: К стабильным сегментам применяется иерархическая графическая сегментация видео. Этот процесс группирует пространственно-временные регионы по внешнему виду и движению, создавая набор неразмеченных candidate volumes.

    Этап 2: Определение признаков (Feature Determination)

    1. Генерация кодовой книги (Codebook Generation) (Офлайн или периодически на корпусе видео):
      • Множество объемов делится на сегменты фиксированной длины (например, 1 секунда).
      • Для каждого сегмента извлекается вектор визуальных признаков (цвет, текстура, движение и т.д.).
      • Векторы признаков кластеризуются (например, k-means). Центроиды кластеров формируют codebook.
    2. Вычисление признаков объема:
      • Каждый candidate volume делится на сегменты.
      • Вектор признаков каждого сегмента сопоставляется с наиболее похожим элементом в codebook.
      • Признаки объема вычисляются на основе этих сопоставлений (например, усредненный вектор признаков или гистограмма).

    Этап 3: Присвоение меток (Volume Labeling)

    1. Назначение предварительных меток: Из метаданных родительского видео извлекаются метки (теги, n-граммы). Эти метки назначаются как preliminary labels всем кандидатным объемам этого видео.
    2. Валидация меток (Вариант А: Кластеризация / Consistency Learning):
      • Все кандидатные объемы кластеризуются на основе их признаков.
      • В каждом кластере анализируется частота встречаемости preliminary labels (степень консистентности).
      • Если консистентность выше порога, наиболее частая метка присваивается соответствующим объемам кластера как verified label.
    3. Валидация меток (Вариант Б: Слабые классификаторы):
      • Для каждой уникальной метки обучается weak volume classifier (например, AdaBoost, SVM). Положительный набор – объемы с этой меткой (шумные данные).
      • Каждый классификатор применяется ко всем кандидатным объемам для получения оценок (scores).
      • Метки, соответствующие наивысшим оценкам (превышающим порог), выбираются как verified labels.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Видео/Визуальные): Визуальные свойства пикселей. Конкретные типы признаков, упомянутые как возможные: гистограммы цвета (Hue/Saturation в HSV), признаки движения (motion rigidity), текстурные признаки, отклики фильтров (например, Gabor wavelets), граничные признаки (Canny edge detector), дескрипторы (SIFT, GLOH, LESH, HOG, SURF).
    • Контентные факторы (Текст/Метаданные): Video-level metadata – заголовки, описания, теги. Используются для извлечения семантических меток (labels).
    • Технические факторы: Данные о движении фона, полученные в результате стабилизации видео.

    Какие метрики используются и как они считаются

    • Degree of background motion (Степень движения фона): Метрика, получаемая от алгоритма стабилизации видео. Используется для определения stable segments путем сравнения с порогом.
    • Segment Feature Vector (Вектор признаков сегмента): Высокоразмерный вектор, описывающий визуальные свойства короткого сегмента объема.
    • Codebook Entry / Code Vector: Репрезентативный вектор признаков, полученный путем кластеризации Segment Feature Vectors.
    • Volume Average Feature Vector (Усредненный вектор признаков объема): Нормализованная сумма векторов признаков сегментов (сопоставленных с codebook) внутри одного объема. Используется как признак для кластеризации или классификации.
    • Degree of label consistency (Степень консистентности меток): Метрика для оценки надежности кластера. Квантифицируется, например, как процент объемов в кластере, которые имеют наиболее часто встречающуюся предварительную метку.
    • Classifier Score (Оценка классификатора): Числовое значение, выдаваемое weak volume classifier, указывающее на вероятность того, что объем соответствует метке классификатора.

    Выводы

    1. Гранулярное понимание видеоконтента: Патент описывает механизм для перехода от понимания видео на уровне всего ролика к идентификации конкретных объектов и действий (volumes) внутри него. Это позволяет системе точно знать, что и когда происходит в видео.
    2. Использование метаданных как обучающего сигнала: Ключевой аспект – использование существующих, часто «шумных», метаданных уровня видео (тегов, описаний) в качестве preliminary labels для обучения системы распознаванию конкретных сегментов. Это позволяет масштабировать маркировку без ручного труда.
    3. Важность визуальной консистентности: Система полагается на предположение, что визуально похожие объекты/действия будут постоянно появляться в видео, помеченных одинаковыми тегами. Методы (кластеризация, слабые классификаторы) направлены на выявление этой консистентности для присвоения verified labels.
    4. Технические требования к сегментации: Процесс сегментации начинается со стабилизации видео и идентификации stable segments (где фон относительно неподвижен). Это указывает на то, что для успешного автоматического распознавания объектов важно, чтобы они были четко отделены от фона, а движение камеры было минимальным или компенсируемым.
    5. Основа для функций поиска (Key Moments): Идентифицированные и маркированные объемы служат основой для продвинутых функций поиска: поиска конкретных моментов внутри видео (Key Moments) и улучшения общего ранжирования видео (Claim 11).

    Практика

    Best practices (это мы делаем)

    • Точные и полные метаданные видео: Это критически важно. Обеспечьте, чтобы заголовки, описания и теги точно отражали ключевые объекты и действия в видео. Эти данные напрямую используются как preliminary labels – исходный сигнал для обучения системы. Чем точнее метаданные, тем выше шанс правильной идентификации объемов.
    • Семантическое разнообразие в метаданных: Используйте разнообразную лексику для описания содержимого. Если в видео есть разные объекты и действия (например, «собака», «кошка», «бег»), убедитесь, что все эти концепции отражены в метаданных. Это предоставляет системе больше данных для анализа и помогает различать разные объемы внутри одного видео.
    • Оптимизация под «Ключевые моменты» (Key Moments): Поскольку система автоматически идентифицирует конкретные временные сегменты (volumes) и их метки, это напрямую связано с созданием Ключевых моментов в поиске. Структурируйте видео так, чтобы важные действия были четкими и семантически однозначными.
    • Улучшение технического качества видео для сегментации: Патент подчеркивает использование стабилизации и поиск stable segments как первый шаг сегментации. При создании контента старайтесь использовать стабилизацию (штативы) и обеспечивать хороший контраст между объектами переднего плана и фоном. Это облегчает системе выделение candidate volumes.
    • Создание визуально консистентного контента: Система учится на визуальной консистентности. Если вы хотите, чтобы определенный объект или действие были распознаны, показывайте их четко и последовательно, сохраняя при этом консистентность в метаданных ваших видео.

    Worst practices (это делать не надо)

    • Кликбейт и нерелевантные метаданные: Использование популярных, но нерелевантных тегов или заголовков вводит систему в заблуждение. Это создает «шум» в preliminary labels, ухудшая качество обучения и снижая вероятность того, что объекты в вашем видео будут правильно идентифицированы и использованы в поиске.
    • Игнорирование метаданных: Загрузка видео без тегов или описания исключает его из процесса маркировки, описанного в патенте (для методов Claims 6 и 8), так как у системы нет источника preliminary labels.
    • Чрезмерно динамичная съемка без стабилизации: Видео, снятые с постоянным, хаотичным движением камеры и отсутствием стабильных сегментов, затрудняют работу алгоритмов сегментации, описанных в патенте, что снижает вероятность успешного выделения объектов.

    Стратегическое значение

    Этот патент подтверждает стратегию Google по глубокому пониманию мультимедийного контента. Для SEO-специалистов это означает, что оптимизация видео больше не ограничивается только текстом. Google активно анализирует пиксели и пытается идентифицировать сущности и действия внутри кадра. Долгосрочная стратегия Video SEO должна включать не только оптимизацию метаданных, но и оптимизацию самого визуального контента для облегчения машинного распознавания и сегментации.

    Практические примеры

    Сценарий: Оптимизация обучающего видео по ремонту для распознавания инструментов и действий.

    1. Действие (Создание контента): При съемке демонстрации использования инструмента (например, дрели), оператор использует штатив, чтобы обеспечить stable segment. Действие (сверление) показывается крупным планом.
    2. Действие (Оптимизация метаданных): В заголовке, описании и тегах используются точные термины: «Как использовать дрель [Бренд]», «сверление отверстия в дереве», теги: «дрель», «сверление».
    3. Процесс Google: Система сегментирует видео, выделяя объем, соответствующий действию сверления. Она назначает ему preliminary labels («дрель», «сверление»). Анализируя другие видео, система видит визуальную консистентность между этим объемом и другими объемами, помеченными как «сверление».
    4. Результат: Система присваивает объему verified label «сверление». Теперь этот конкретный сегмент видео может ранжироваться по запросу «как сверлить отверстие в дереве» или использоваться в качестве Ключевого момента (Key Moment).

    Вопросы и ответы

    Как этот патент связан с функцией «Ключевые моменты» (Key Moments) в Google Поиске и YouTube?

    Патент напрямую описывает технологическую основу для таких функций. «Ключевые моменты» – это результат успешной идентификации временного сегмента (volume) и присвоения ему семантической метки (verified label). Система, описанная в патенте, позволяет Google автоматически находить эти моменты и понимать, что в них происходит, используя метаданные всего видео как отправную точку.

    Насколько важны теги и описание видео согласно этому патенту?

    Они критически важны. Метаданные видео (теги, описание, заголовок) служат источником preliminary labels. Это исходные данные, которые система использует для обучения и валидации того, что находится внутри видео. Без релевантных метаданных описанный процесс маркировки не может функционировать эффективно, а неточные метаданные значительно ухудшают его качество.

    Влияет ли техническое качество и стабильность видео на распознавание объектов?

    Да, и это важный вывод из патента. Первым шагом в процессе сегментации является стабилизация видео и поиск stable segments – кадров, где фон относительно неподвижен. Это означает, что видео с чрезмерным дрожанием камеры или постоянным хаотичным движением сложнее поддаются автоматическому анализу и выделению объектов, описанному здесь.

    Может ли система распознать объект, если он не упомянут в метаданных?

    Согласно описанному базовому процессу маркировки (Claims 6 и 8) – нет, так как он полагается на метаданные для генерации кандидатов меток. Однако в патенте упоминается (Claim 9), что после получения высокоточных меток можно обучить сильные классификаторы (strong volume classifiers). Эти сильные классификаторы теоретически могут затем использоваться для распознавания объектов в новых видео, даже если эти объекты не упомянуты в метаданных.

    Что такое «Volume» (Объем) в контексте этого патента?

    Volume – это не просто временной отрезок и не просто объект в одном кадре. Это пространственно-временной сегмент. Например, если кошка бежит по экрану в течение 10 секунд, то volume включает в себя пиксели, составляющие кошку, во всех кадрах на протяжении этих 10 секунд, отслеживая ее перемещение и изменение формы.

    Как система отличает разные объекты в одном видео, если все они получают одинаковые предварительные метки?

    Система использует визуальные различия. Хотя два объекта (например, кошка и собака) в одном видео получат одинаковый набор preliminary labels, их визуальные признаки (volume features) будут разными. При кластеризации объем «кошка» попадет в кластер с другими визуально похожими объемами (другими кошками), где метка «кошка» будет доминировать по консистентности, а объем «собака» попадет в другой кластер.

    Что такое «Codebook» (Кодовая книга) и зачем он нужен?

    Codebook – это набор типичных визуальных паттернов (признаков), извлеченных из большого количества видео. Он используется для стандартизации описания объемов и снижения размерности данных. Вместо хранения огромного количества сырых визуальных данных для каждого объема, система описывает объем как комбинацию этих стандартных паттернов, что делает сравнение и кластеризацию объемов вычислительно эффективными.

    Может ли эта система распознавать действия, а не только объекты?

    Да. Патент определяет volume как представление объекта или действия. Действия (например, «бег» или «рукопожатие») характеризуются специфическими паттернами движения и визуальными признаками во времени, которые система учится распознавать так же, как и объекты.

    Что делать SEO-специалисту, чтобы помочь Google правильно идентифицировать объекты в видео?

    Необходимо сосредоточиться на двух направлениях. Первое – это качество и точность текстовых метаданных (заголовки, описания, теги), которые должны четко описывать ключевые объекты и действия. Второе – это техническое качество видео: использование стабилизации, обеспечение четкости объектов и контраста с фоном облегчают автоматическую сегментацию.

    Может ли эта система улучшить ранжирование всего видео?

    Да. В патенте упоминается (Claim 11), что verified labels могут использоваться для улучшения поиска видео. Система ранжирования может использовать степень соответствия (например, процент объемов в видео), соответствующих запросу пользователя, как сигнал релевантности. Видео с большим количеством релевантных объемов может ранжироваться выше.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.