Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска

Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.

Описание

Какую задачу решает

Патент решает проблему управления огромными библиотеками видео, например, на сайтах видеохостинга. Основные задачи — автоматическая идентификация неавторизованных копий защищенного авторским правом контента и обнаружение дубликатов для экономии места хранения и организации поисковой выдачи. Традиционные методы (например, хеширование файлов или сравнение отдельных кадров) неэффективны, так как они не могут идентифицировать видео с небольшими различиями в сжатии, разрешении, частоте кадров или времени начала/окончания.

Что запатентовано

Запатентована система и метод создания робастных цифровых отпечатков (фингерпринтов) для видеофайлов. В отличие от анализа пикселей, система фокусируется на временных метках структурных разрывов (discontinuities) в видеопотоке (смена сцен — shot boundaries) и/или аудиопотоке (точки тишины — silent points). Эти структурные характеристики устойчивы к изменениям в кодировании и форматировании видео.

Как это работает

Система работает следующим образом:

Нормализация: Входящее видео конвертируется в стандартный формат (например, снижается частота кадров и разрешение).
Обнаружение разрывов: Система анализирует видеоряд для поиска границ сцен и аудиодорожку для поиска моментов тишины.
Кодирование: Временные метки этих разрывов кодируются в компактное представление (например, битовый вектор, где ‘1’ означает разрыв в данном кадре).
Сегментация: Закодированные данные разделяются на множество перекрывающихся сегментов. Каждый сегмент является фингерпринтом. Перекрытие позволяет находить совпадения, даже если видео обрезано.
Индексация и Сравнение: Фингерпринты индексируются с использованием эффективных методов хеширования (min-hash, LSH) для быстрого поиска совпадений в большой базе данных.

Актуальность для SEO

Высокая. Управление видеоконтентом, борьба с пиратством (например, через систему Content ID на YouTube) и дедупликация данных остаются критически важными задачами для Google. Описанная технология обеспечивает надежный и масштабируемый способ идентификации видеоконтента на основе его структуры.

Важность для SEO

Патент имеет значительное влияние на Video SEO (VSEO), особенно на платформах вроде YouTube. Он не описывает ранжирование веб-страниц, но критически важен для понимания того, как Google идентифицирует уникальность видеоконтента. Система напрямую влияет на управление авторскими правами (Content ID), каноникализацию видео (объединение дубликатов) и организацию результатов поиска по видео. Для VSEO это подчеркивает абсолютную необходимость создания структурно уникального контента.

Детальный разбор

Термины и определения

Discontinuity (Разрыв): Точка во времени в аудиовизуальном контенте, где происходит значительное структурное изменение (например, смена сцены или начало тишины).
Endpoint (Конечная точка): Кадр, соответствующий временному расположению разрыва.
Fingerprint (Фингерпринт / Цифровой отпечаток): Компактное представление (например, битовая последовательность), представляющее структурные характеристики разрывов в определенном сегменте видео.
Fingerprint Sequence (Последовательность фингерпринтов): Упорядоченный набор фингерпринтов, представляющий все видео целиком.
Locality Sensitive Hashing (LSH): Метод хеширования, используемый на этапе индексации для эффективного поиска похожих элементов. Позволяет быстро находить похожие сигнатуры без прямого сравнения со всей базой.
Min-hash: Техника хеширования, применяемая к фингерпринту для генерации его сигнатуры (Signature). Уменьшает размерность данных, сохраняя при этом информацию о схожести.
Shot (Сцена/План): Непрерывная последовательность видеокадров, снятая одной камерой.
Shot Boundary (Граница сцены): Точка перехода между двумя разными сценами. Может быть резкой сменой плана (cut), затуханием (fade) или наплывом (dissolve).
Silent Point (Точка тишины): Временная метка в аудиопотоке, где громкость падает ниже определенного порога на определенное время.
Signature / Signature Blocks (Сигнатура / Блоки сигнатуры): Результат процесса индексации (например, min-hash). Сигнатура используется для быстрого сравнения фингерпринтов. Она может быть разделена на блоки для использования в LSH.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод создания фингерпринта для видео.

Идентификация множества разрывов (discontinuities) в аудиовизуальном контенте видео.
Генерация закодированного представления (encoded data representation) последовательности кадров. Кадры с разрывами (конечные точки) получают одно значение (например, 1), кадры без разрывов — другое (например, 0). Значения расположены в последовательности, соответствующей кадрам видео.
Сегментация этого представления на множество частично перекрывающихся сегментов (partially overlapping segments). Последовательные сегменты представляют контент, который перекрывается на один или более кадров.
Генерация фингерпринта для каждого сегмента.
Сохранение фингерпринтов.

Ядром изобретения является создание временного ряда, показывающего, где происходят структурные изменения, и последующее разделение этого представления на перекрывающиеся блоки (фингерпринты). Это обеспечивает устойчивость к различиям во времени начала/окончания видео.

Claim 9 (Независимый пункт): Описывает метод управления цифровой видео библиотекой. Он включает шаги из Claim 1 и добавляет индексацию.

(Шаги 1-4 аналогичны Claim 1: идентификация разрывов, кодирование, сегментация с перекрытием, генерация последовательности фингерпринтов).
Индексация последовательности видео фингерпринтов.
Сохранение индексированных фингерпринтов.

Этот пункт защищает применение технологии для управления большими массивами данных, что требует эффективной индексации.

Claim 12, 13, 14 (Зависимые от 9): Детализируют процесс индексации.

Индексация включает генерацию сигнатуры (signature) для фингерпринта с использованием первого процесса хеширования (Claim 12), который может быть процессом min-hash (Claim 13). Min-hash включает перестановку битов фингерпринта согласно предопределенному набору перестановок и сохранение позиции первой «1» после каждой перестановки (Claim 14). Сигнатура содержит меньше битов, чем исходный фингерпринт.

Claim 15, 16 (Зависимые от 12): Детализируют хранение сигнатуры.

Сигнатура делится на блоки (signature blocks), и каждый блок сохраняется в хеш-таблице с использованием второго процесса хеширования (Claim 15), который может быть Locality Sensitive Hashing (LSH) (Claim 16).

Claim 18 (Независимый пункт): Описывает метод идентификации дублирующегося видеоконтента.

(Шаги 1-5 аналогичны Claim 1: получение видео, идентификация разрывов, кодирование, сегментация с перекрытием, генерация последовательности фингерпринтов).
Поиск в эталонной базе данных (reference database) видео, имеющих последовательности фингерпринтов, совпадающие с последовательностью полученного видео.
Определение совпадающего эталонного видео.

Этот пункт фокусируется на практическом применении технологии для обнаружения дубликатов или нарушений авторских прав.

Где и как применяется

Изобретение является инфраструктурной технологией для управления видеоконтентом. Оно применяется в основном на этапах загрузки и индексации видео, а не во время ранжирования веб-страниц в реальном времени.

CRAWLING – Сканирование и Сбор данных (Ingestion)
На этом этапе Ingest Server получает новое видео от пользователя или из другого источника.

INDEXING – Индексирование и извлечение признаков (Video Processing)
Здесь происходит основная работа, описанная в патенте:

Обработка видео: Fingerprinting Module обрабатывает сырое видео. Это включает нормализацию, обнаружение конечных точек (Endpoint Detection), кодирование и сегментацию.
Индексация фингерпринтов: Indexing Module применяет техники хеширования (Min-hash, LSH) к сгенерированным фингерпринтам.
Хранение: Сырое видео сохраняется в Video Library, а индексированные фингерпринты (сигнатуры) — в Reference Database.

RANKING / METASEARCH (Управление видео и Видео-поиск)
Matching Module использует индексированные данные для сравнения видео.

Сравнение: Система сравнивает фингерпринты нового видео (или запрошенного видео) с данными в Reference Database.
Применение результатов: Результаты сравнения используются для (1) Принудительного соблюдения авторских прав (аналог Content ID), (2) Обнаружения и удаления дубликатов, (3) Организации результатов видео-поиска путем группировки похожих видео.

Входные данные:

Сырой видеофайл (включая видеоряд и аудиодорожку).

Выходные данные:

Fingerprint Sequence для видео.
Индексированные сигнатуры (Signatures) в Reference Database.
Оценки совпадения (Matching scores) при сравнении двух видео.

На что влияет

Типы контента: В первую очередь влияет на видеофайлы. Патент также упоминает возможность применения к чистым аудиофайлам, если используются только аудио разрывы (silent points).
Ниши и форматы: Влияет на весь видеоконтент, независимо от тематики или длительности. Особенно критично для платформ с пользовательским контентом (UGC), где распространены проблемы дублирования и авторских прав.

Когда применяется

Триггеры активации:
- При загрузке нового видео на платформу (Ingestion) для проверки на дубликаты и нарушения.
- Когда правообладатель предоставляет эталонное видео для поиска неавторизованных копий.
- Потенциально во время фазы организации результатов видео-поиска для группировки идентичных видео (дедупликация выдачи).

Пошаговый алгоритм

Процесс А: Генерация Фингерпринта (Fingerprint Generation)

Нормализация (Normalization): Входящее видео конвертируется в стандартный формат. Это может включать стандартизацию частоты кадров, размера кадра и глубины цвета (например, перевод в оттенки серого) для обеспечения согласованности и повышения скорости обработки.
Обнаружение конечных точек (Endpoint Detection): Анализ видео и аудио потоков для идентификации разрывов.
- Видео: Обнаружение границ сцен (shot boundaries) — резких смен плана, затуханий, наплывов. Это может быть реализовано через анализ движения (motion analysis) между кадрами.
- Аудио: Обнаружение точек тишины (silent points), где громкость звука падает ниже определенного порога.
Кодирование (Encoding): Генерация представления данных о расположении разрывов. В одном из вариантов создается битовый вектор (bit vector), где каждый бит соответствует кадру; ‘1’ указывает на конечную точку (разрыв), ‘0’ — на отсутствие разрыва.
Сегментация (Segmentation): Разделение закодированных данных на множество меньших, перекрывающихся фингерпринтов. Перекрытие (например, смещение на один кадр для генерации следующего фингерпринта) обеспечивает устойчивость к различным временам начала/окончания видео.
Генерация последовательности: Формирование упорядоченной последовательности фингерпринтов (Fingerprint Sequence) для всего видео.

Процесс Б: Индексация (Indexing — например, Min-Hash и LSH)

Получение Фингерпринта: Система получает фингерпринт (битовый вектор) из Процесса А.
Применение перестановок (Min-Hash): К битам фингерпринта применяется фиксированный набор из P перестановок (permutations). Порядок применения всегда одинаков.
Сканирование позиций (Min-Hash): Для каждого переставленного вектора находится позиция первой ‘1’.
Генерация Сигнатуры (Min-Hash): Полученные P позиций формируют сигнатуру (Signature) для данного фингерпринта.
Разделение на блоки (LSH): Сигнатура делится на несколько блоков (Signature Blocks).
Хранение в хеш-таблицах (LSH): Каждый блок хешируется в соответствующую хеш-таблицу. Вместе с блоком сохраняется уникальный идентификатор видеосегмента, который сгенерировал этот блок.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Видеоряд): Последовательность видеокадров (пиксельные данные). Используется для анализа пространственных характеристик и временных изменений (движения) с целью обнаружения границ сцен (shot boundaries).
Мультимедиа факторы (Аудиопоток): Аудиодорожка, связанная с видео. Используется для анализа уровней громкости во времени с целью обнаружения точек тишины (silent points).
Технические факторы (Метаданные): Частота кадров, разрешение, глубина цвета. Используются на этапе нормализации для приведения видео к стандартному формату.

Какие метрики используются и как они считаются

Метрики анализа движения: Используются внутри системы для обнаружения shot boundaries. Кадры, где относительное движение пикселей между кадрами достигает пика, определяются как границы сцен.
Пороги громкости звука: Используются для обнаружения silent points. Метрика определяется как временной отрезок, в течение которого громкость ниже заданного порога.
Matching Score (Оценка совпадения): Вычисляется во время сравнения. Основана на количестве совпадающих блоков сигнатуры (signature blocks) между фингерпринтом запроса и эталонными фингерпринтами, найденными через хеш-таблицы.
Метрики совпадения последовательностей: Используются для определения общего совпадения между двумя видео:
- Самая длинная непрерывная последовательность совпадающих фингерпринтов.
- Механизм голосования, основанный на временных смещениях между совпадающими сегментами.

Выводы

Структура как идентификатор: Патент демонстрирует подход Google к идентификации видео, основанный на внутренней структуре (монтаж, паузы в звуке), а не на точном содержании пикселей или хешах файлов. Время смены сцен и аудиоразрывы определяют уникальный фингерпринт видео.
Устойчивость важнее точности: Система разработана так, чтобы быть устойчивой к изменениям в кодировании, сжатии, разрешении, частоте кадров и небольшим правкам. Это позволяет идентифицировать контент, даже если он был перекодирован или немного изменен.
Перекрывающиеся фингерпринты: Ключевой особенностью является сегментация видео на перекрывающиеся фингерпринты. Это позволяет системе находить совпадения даже в тех случаях, когда видео имеют разное время начала/окончания или отсутствующие сегменты.
Эффективность в масштабе: Использование сложных методов индексации, таких как Min-hash и Locality Sensitive Hashing (LSH), критически важно для масштабирования этой технологии. Это позволяет быстро сравнивать миллиарды видеосегментов без необходимости прямого побитового сравнения полных фингерпринтов.
Инфраструктура для VSEO и управления контентом: Это инфраструктурная технология для управления видеоплатформами (такими как YouTube) и организации видео-поиска. Она фокусируется на дедупликации и обеспечении соблюдения авторских прав (Content ID).

Практика

Best practices (это мы делаем)

Примечание: Рекомендации касаются исключительно Video SEO (VSEO) и управления видеоконтентом, в частности на YouTube.

Создание уникального контента: Убедитесь, что ваш видеоконтент является структурно уникальным. Система идентифицирует контент на основе последовательности монтажных склеек и аудиоразрывов. Оригинальный монтаж и звуковое оформление формируют уникальный фингерпринт.
Понимание каноникализации видео: Осознавайте, что если существуют несколько версий одного и того же видео (например, в разном разрешении или с немного разным монтажом), Google, скорее всего, идентифицирует их как один и тот же контент. Система сгруппирует их или выберет каноническую версию в поиске.
Трансформационное использование чужого контента: При использовании клипов из сторонних источников убедитесь, что они используются трансформационно (Fair Use). Простое склеивание существующего контента или компиляции будут легко обнаружены этой системой как неуникальные.

Worst practices (это делать не надо)

Перезаливка существующего контента: Загрузка точных копий или слегка модифицированных версий существующих видео (например, добавление логотипа, изменение разрешения, ускорение/замедление) будет обнаружена. Фингерпринтинг на основе разрывов устойчив к этим изменениям.
Нарушение авторских прав: Загрузка неавторизованного защищенного авторским правом материала. Эта технология специально разработана для поиска и маркировки такого контента и составляет основу систем типа Content ID.
Незначительные правки для уникализации: Внесение тривиальных правок (например, обрезка первых нескольких секунд или последней минуты) не обманет систему благодаря сегментации с перекрытием (overlapping fingerprints). Система сможет сопоставить оставшуюся основную часть видео.

Стратегическое значение

Патент подчеркивает технологическую невозможность масштабирования видеостратегий, основанных на дублировании или незначительных модификациях существующего контента. Для VSEO барьером для входа является оригинальный, структурно уникальный контент. Это также объясняет, как Google управляет огромным масштабом видеоданных, обеспечивает соблюдение политики в отношении контента и организует результаты видео-поиска, минимизируя дублирование.

Практические примеры

Сценарий: Обнаружение нарушений авторских прав (Content ID)

Загрузка эталона: Киностудия загружает эталонную копию нового трейлера фильма в базу данных Google.
Генерация фингерпринта: Система генерирует последовательность фингерпринтов на основе смен сцен и аудиодорожки трейлера.
Индексация: Фингерпринты индексируются с использованием Min-hash и LSH.
Мониторинг загрузок: Система сравнивает эту последовательность со всеми видео, загружаемыми пользователями.
Обнаружение совпадения: Пользователь загружает копию трейлера. Даже если пользователь записал трейлер с экрана телевизора (другое разрешение, шум, артефакты) или немного изменил звук, структурные разрывы останутся прежними.
Результат: Система обнаруживает длинную последовательность совпадающих фингерпринтов и помечает загруженное пользователем видео как нарушение авторских прав.

Вопросы и ответы

Имеет ли этот патент отношение к ранжированию веб-страниц?

Нет. Этот патент описывает инфраструктурную технологию для идентификации, индексации и сопоставления видеофайлов на основе их структурного содержания (монтажа и звука). Он не связан с анализом текста, ссылок или поведенческих факторов, используемых в ранжировании веб-поиска.

Как это влияет на Video SEO (VSEO)?

Это критически важно для VSEO, поскольку определяет уникальность контента. Если ваше видео идентифицировано как дубликат существующего контента, оно может быть удалено, демонетизировано (на YouTube) или сгруппировано с оригиналом в результатах поиска. Это делает стратегию создания оригинального контента единственно возможной.

Могу ли я обойти эту систему, изменив разрешение видео или степень сжатия?

Нет. Система специально разработана для устойчивости к таким изменениям. Она анализирует временные метки смены сцен и моменты тишины, которые не меняются при перекодировании, изменении разрешения или частоты кадров.

Могу ли я обойти эту систему, добавив логотип или водяной знак?

Нет. Система фокусируется на разрывах (discontinuities) — сменах сцен и тишине. Статические наложения, такие как логотипы, обычно не влияют на обнаружение этих структурных элементов и не сделают видео уникальным для этой системы.

Что, если я обрежу начало или конец видео?

Система использует перекрывающиеся сегменты (overlapping segments) при создании фингерпринтов. Это означает, что она все равно сможет сопоставить оставшуюся основную часть видео с оригиналом, если она достаточно длинная.

Что именно определяется как «разрыв» (discontinuity) в этом патенте?

В патенте упоминаются два основных типа разрывов. Первый — это границы сцен (shot boundaries), такие как резкая смена плана, затухание или наплыв. Второй — это точки тишины (silent points), то есть моменты в аудиодорожке, где громкость падает ниже определенного порога.

Связано ли это с системой Content ID на YouTube?

Да, этот патент описывает фундаментальную технологию, которая лежит в основе систем, подобных Content ID. Она позволяет правообладателям эффективно находить неавторизованные копии своего контента в огромной библиотеке видео.

Как система обрабатывает очень короткие видео?

В патенте не указаны конкретные ограничения по длине. Однако короткие видео генерируют меньше фингерпринтов. Если в видео мало структурных разрывов, точность сопоставления может быть ниже, но система все равно будет работать на основе доступных данных.

Для чего используются Min-hash и LSH?

Min-hash и Locality Sensitive Hashing (LSH) — это сложные методы индексации, используемые для ускорения процесса сравнения. Они позволяют системе быстро находить похожие фингерпринты в огромной базе данных без необходимости сравнивать новое видео с каждым существующим видео напрямую.

Помогает ли эта технология Google понять тему видео?

Нет, этот патент касается исключительно идентификации структурного сходства между видеофайлами. Он не связан с семантическим пониманием содержания видео, распознаванием объектов или анализом речи.