Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически определяет формат 360-градусного (сферического) видео с помощью двухэтапной классификации

    SYSTEM AND METHOD FOR AUTOMATIC DETECTION OF SPHERICAL VIDEO CONTENT (Система и метод автоматического обнаружения сферического видеоконтента)
    • US10268893B2
    • Google LLC
    • 2019-04-23
    • 2015-10-30
    2015 Мультимедиа Патенты Google

    Google использует двухэтапную каскадную систему машинного обучения для автоматического определения того, является ли загруженное видео сферическим (360°). Анализируя визуальные и геометрические признаки (соотношение сторон, дисперсию на полюсах, кривизну линий), система гарантирует корректное воспроизведение видео в соответствующем плеере, независимо от метаданных.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему надежной идентификации сферического (360°) видеоконтента на платформах видеохостинга (например, YouTube). Это необходимо для корректной конфигурации медиаплеера (стандартный или 360°/VR). Система предназначена для автоматического определения формата, даже если метаданные отсутствуют, неверны или намеренно искажены (например, для обхода систем обнаружения авторских прав).

    Что запатентовано

    Запатентована система автоматического обнаружения сферического видеоконтента, использующая двухэтапный каскадный классификатор (two-level cascade classifier), основанный на машинном обучении. Система анализирует визуальные характеристики извлеченных кадров для классификации формата видео, не полагаясь исключительно на метаданные контейнера.

    Как это работает

    Система использует каскадную модель для эффективной обработки больших объемов видео:

    • Извлечение кадров: Из видео извлекается выборка кадров (например, из первых 10 секунд).
    • Этап 1 (Быстрая фильтрация): Используются вычислительно простые признаки (low cost computations), такие как соотношение сторон (aspect ratio, ожидается 2:1), стандартное отклонение на полюсах изображения (верх и низ) и совпадение левой и правой границ. Цель — быстро отсеять очевидно несферические видео.
    • Этап 2 (Глубокий анализ): Видео, прошедшие Этап 1, анализируются с использованием сложных признаков внутренних областей кадра. Это включает анализ энтропии (image entropy), использование преобразования Хафа (Hough transform) для проверки кривизны линий и анализ текстуры.
    • Оценка: Кадры получают индивидуальные оценки (frame scores), которые агрегируются для получения общей оценки видео (video score). Если эта оценка превышает порог, видео классифицируется как сферическое, и воспроизведение настраивается соответствующим образом.

    Актуальность для SEO

    Средняя. Сферический контент (360-видео и VR) остается актуальным форматом на платформах Google (в частности, YouTube). Автоматизированные системы классификации форматов контента критически важны для обеспечения корректного пользовательского опыта и эффективной обработки медиаданных в масштабе.

    Важность для SEO

    Влияние на традиционное веб-SEO минимально (3/10). Патент описывает инфраструктурный механизм классификации видеоформатов, а не алгоритм ранжирования. Для Video SEO (например, на YouTube) значение умеренное: патент не вводит новые факторы ранжирования, но корректная классификация формата критически важна для пользовательского опыта (UX), отображения (например, значок 360°) и вовлеченности при работе со сферическим контентом.

    Детальный разбор

    Термины и определения

    Equirectangular Projection (Эквидистантная проекция)
    Стандартный способ представления сферического (360°) изображения в виде двухмерной плоскости, часто с соотношением сторон 2:1. Основной фокус анализа в патенте.
    F_quick (Efficient Features)
    Набор эффективных (низкозатратных) признаков, используемых на Этапе 1 классификации. Включает соотношение сторон, дисперсию границ и полюсов.
    F_interior (Computationally Expensive Features)
    Набор более вычислительно дорогих признаков, используемых на Этапе 2, которые анализируют содержимое кадра. Включает преобразование Хафа, энтропию, текстуру.
    Hough Transform (Преобразование Хафа)
    Техника компьютерного зрения для обнаружения фигур (в данном контексте — прямых линий). Используется для проверки кривизны линий.
    Image Entropy (Энтропия изображения)
    Мера информации или контрастности в изображении. Изображения с низкой энтропией имеют мало контраста.
    Two-level Cascade Classifier (Двухуровневый каскадный классификатор)
    Подход машинного обучения, при котором классификация происходит поэтапно. Первый этап быстрый и отфильтровывает простые случаи; второй этап более сложный и анализирует оставшихся кандидатов.
    Unwarping (Развертка)
    Процесс преобразования части сферической проекции в стандартную перспективу. Используется на Этапе 2 для анализа линий.
    AdaBoost classifier
    Алгоритм машинного обучения (адаптивный бустинг), упомянутый как возможный метод для тренировки классификаторов.

    Ключевые утверждения (Анализ Claims)

    Примечание: Патент US10268893B2 является продолжением (Continuation) более ранней заявки. Формулировки изобретения (Claims) в нем сфокусированы на процессе агрегации оценок и конфигурации воспроизведения.

    Claim 1 (Независимый пункт): Описывает основной метод идентификации сферического видеоконтента.

    1. Получение видеоконтента на видеосервере.
    2. Идентификация набора кадров как candidate image frames.
    3. Классификация кандидатов по набору признаков (image features) и присвоение оценки кадра (frame score) каждому.
    4. Идентификация части кадров, чья оценка удовлетворяет пороговому условию (threshold condition).
    5. Генерация оценки видео (video score) путем агрегирования оценок выбранных кадров.
    6. Использование video score для конфигурации воспроизведения (configure playback) видео, если он удовлетворяет пороговой оценке видео.

    Claim 4 (Зависимый от 1): Детализирует процесс классификации.

    1. Развертка (unwarping) кадров-кандидатов.
    2. Обнаружение границ (detecting edges) в развернутых кадрах и определение, являются ли части этих границ изогнутыми (curved).

    Claim 5 (Зависимый от 4): Уточняет логику оценки на основе кривизны.

    Frame score удовлетворяет порогу, если в развернутой версии кадра больше изогнутых границ, чем прямых.

    Обработка Неопределенности (Противоречие Claims и Description): Формулировка Claims 4 и 5 противоречит техническому описанию (Description) патента. В Description указано, что в сферической проекции линии изогнуты, а после корректной развертки (unwarping) они должны стать прямыми (см. FIG. 4 и уравнение 16, измеряющее f_hough_ratio). Однако Claim 5 буквально утверждает, что порог удовлетворяется, если после развертки изогнутых линий больше, чем прямых. При анализе необходимо учитывать это противоречие в тексте патента. Более вероятная техническая реализация опирается на механизм, описанный в Description (сравнение кривизны до и после развертки).

    Claim 6 (Зависимый от 1): Определяет один из ключевых признаков.

    Признаки включают соотношение сторон (aspect ratio). Оно используется как индикатор сферического контента, если указывает на равное количество пикселей на градус обзора (например, 2:1).

    Claim 7 (Зависимый от 1): Определяет еще один признак.

    Признаки включают определенный уровень дисперсии (variance level) между колонками пикселей в кадре (например, сравнение левого и правого краев).

    Где и как применяется

    Патент относится к обработке контента после его загрузки на платформу (например, YouTube) и до его предоставления конечным пользователям.

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента. В процессе индексации (или обработки/инжеста) видео система выполняет:

    1. Извлечение признаков (Feature Extraction): Система извлекает кадры и вычисляет визуальные и геометрические характеристики (признаки Этапа 1 и 2).
    2. Классификация формата: Применяется двухэтапный каскадный классификатор для определения формата (сферический или нет).
    3. Аннотирование: Результат классификации сохраняется как атрибут видео.

    METASEARCH / RERANKING (Косвенно)
    Результат классификации используется на финальных этапах для корректного отображения результатов пользователю (например, добавление значка 360°) и обеспечения правильной конфигурации плеера.

    Входные данные:

    • Загруженный видеоконтент (последовательность кадров).
    • Параметры обученных классификаторов (полученные офлайн).

    Выходные данные:

    • Метка классификации (Сферическое / Несферическое).
    • Сигнал для медиаплеера о необходимости настройки воспроизведения в сферическом режиме.

    На что влияет

    • Конкретные типы контента: Влияет исключительно на видеоконтент, в частности на 360-градусные видео.
    • Определенные форматы контента: Система в первую очередь ориентирована на Equirectangular projection, но в патенте отмечается применимость к другим типам проекций (rectilinear, circular, stereographic), возможно, путем их преобразования.

    Когда применяется

    • Триггеры активации: Алгоритм активируется при обработке (индексации) нового загруженного видеоконтента на сервере. Система пассивно мониторит загружаемый контент.
    • Цель применения: Верификация формата видео в случаях, когда метаданные отсутствуют, не распознаются или потенциально сфальсифицированы.

    Пошаговый алгоритм

    Процесс А: Обучение классификаторов (Офлайн)

    1. Сбор данных: Формируется набор тренировочных видео с метками (+1 для сферических, -1 для несферических).
    2. Обучение Этапа 1: Классификатор (например, AdaBoost) обучается на основе признаков F_quick. Порог настраивается для обеспечения высокого уровня полноты (high recall).
    3. Обучение Этапа 2: Классификатор обучается на основе признаков F_interior на данных, прошедших Этап 1. Порог настраивается для минимизации ложноположительных срабатываний (FPR).

    Процесс Б: Классификация нового видео (Онлайн)

    1. Прием видео и Извлечение кадров: Извлекается выборка кадров (в экспериментах патента: каждую секунду в течение первых 10 секунд).
    2. Этап 1 Классификации (Быстрая фильтрация):
      • Вычисляются признаки F_quick (соотношение сторон, дисперсия полюсов/границ).
      • Применяется классификатор Этапа 1. Кадры, классифицированные как потенциально сферические, переходят на Этап 2 (candidate image frames).
    3. Этап 2 Классификации (Глубокий анализ):
      • Вычисляются признаки F_interior (энтропия, преобразование Хафа, текстура).
      • Применяется классификатор Этапа 2. Кадру присваивается Frame Score.
    4. Агрегация (на уровне видео): Оценки кадров, превысившие порог, агрегируются для получения Video Score.
    5. Финальная классификация и Конфигурация: Если Video Score превышает порог, видео идентифицируется как сферическое, и система настраивает воспроизведение.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на анализе визуальных и технических характеристик видеофайла.

    • Технические факторы: Размеры видео (video dimension), соотношение сторон (aspect ratio).
    • Мультимедиа факторы (Визуальные характеристики кадров): Система анализирует пиксельные данные извлеченных кадров.

    Какие метрики используются и как они считаются

    Система использует два набора метрик в каскадном классификаторе.

    Признаки Этапа 1 (F_quick – низкозатратные):

    • Aspect Ratio (Соотношение сторон): Проверка близости к 2:1.
    • Pole Variance (Дисперсия полюсов): Вычисление дисперсии пикселей вдоль верхнего и нижнего краев. Ожидается низкая дисперсия.
    • Border Difference (Разница границ): Вычисление расстояния (L2 distance) между крайним левым и крайним правым столбцами пикселей. Ожидается низкое значение (совпадение).
    • Border Variance (Дисперсия границ): Мера максимальной дисперсии самой границы.

    Признаки Этапа 2 (F_interior – более затратные):

    • Standard Deviation (Стандартное отклонение): Анализ внутреннего содержимого кадра для отсева искусственных изображений.
    • Image Entropy (Энтропия изображения): Вычисляется для grayscale версии и после обнаружения границ.
    • Hough Transform Ratio (Анализ Преобразования Хафа): Анализ кривизны линий. Сравнение результатов преобразования Хафа до и после развертки (unwarping). Согласно Description, ожидается больше прямых линий после развертки.
    • Pole Texture Ratio (Соотношение текстуры полюсов): Отношение медианной текстуры полюса к экватору.
    • Relative Border Difference (Относительная разница границ): Сравнение границы с соседними колонками пикселей.

    Алгоритмы машинного обучения:

    • Используется Two-level cascaded classifier. Упоминается использование AdaBoost для обучения и настройки весов признаков.

    Выводы

    1. Автоматизация и Компьютерное Зрение: Google применяет машинное обучение (каскадные классификаторы) для автоматического определения формата видеоконтента. Это часть инфраструктуры по пониманию мультимедийного контента.
    2. Эффективность обработки: Система оптимизирована для масштаба. Этап 1 быстро отсеивает стандартные видео, резервируя дорогие вычислительные ресурсы (Этап 2) только для потенциальных кандидатов.
    3. Независимость от метаданных: Система служит механизмом верификации, позволяя корректно классифицировать контент даже при отсутствии или ошибках в метаданных, предоставленных пользователем.
    4. Ключевые визуальные сигналы: Для обнаружения используются специфические артефакты сферической проекции: соотношение сторон (2:1), сжатие информации на полюсах (низкая дисперсия), совпадение границ и искривление прямых линий.
    5. Практический вывод для SEO: Патент имеет инфраструктурное значение. Он не влияет на ранжирование напрямую, но обеспечивает базовую функциональность платформы. Для Video SEO это подчеркивает важность соблюдения технических стандартов формата для корректного отображения и UX.

    Практика

    Best practices (это мы делаем)

    Рекомендации актуальны для специалистов, занимающихся Video SEO и YouTube SEO при работе с 360°/VR контентом.

    • Соблюдение стандартов формата: Убедитесь, что 360° видео соответствует стандартным форматам, в первую очередь Equirectangular projection с соотношением сторон 2:1. Нестандартные форматы могут быть неверно классифицированы.
    • Обеспечение чистоты швов и полюсов: Качество сшивки (stitching) критично. Левая и правая границы должны визуально совпадать (метрика Border Difference), а полюса не должны содержать грубых артефактов (метрика Pole Variance).
    • Оптимизация начала видео: Система анализирует выборку кадров (в патенте упоминаются первые 10 секунд). Избегайте длинных стандартных (несферических) заставок или титров в начале видео, так как это может привести к неверной классификации всего файла.
    • Верификация индексации: После загрузки 360° контента проверьте, корректно ли он отображается на платформе (активировался ли 360° плеер). Если нет, автоматическое обнаружение могло не сработать.

    Worst practices (это делать не надо)

    • Манипуляция форматом (Fake 360): Попытки выдать стандартное видео за 360° (например, изменив соотношение сторон) неэффективны. Система анализирует визуальный контент на Этапе 2 (кривизна линий, текстура) для противодействия этому.
    • Использование некачественной сшивки: Загрузка видео с грубыми ошибками сшивания или большими черными областями на полюсах может нарушить ожидаемые признаки и привести к ошибке классификации.
    • Игнорирование формата для обхода проверок: Намеренное искажение формата для обхода других систем (например, Content ID) может быть обнаружено этой системой классификации, как указано в патенте.

    Стратегическое значение

    Патент подтверждает инвестиции Google в инфраструктуру обработки мультимедийного контента и использование машинного обучения для автоматической классификации форматов. Для SEO это демонстрирует, что Google анализирует не только метаданные, но и само содержимое медиафайлов. Корректность формата и техническое качество контента являются базовыми требованиями для его успешной обработки и доставки пользователю.

    Практические примеры

    Сценарий: Обеспечение корректного распознавания 360° видео VR-тура

    1. Задача: Загрузить 360-градусное видео тура по объекту недвижимости на YouTube и гарантировать его воспроизведение в VR-режиме.
    2. Действия:
      • Убедиться, что видео имеет эквидистантную проекцию и соотношение сторон 2:1 (например, 3840×1920).
      • Проверить качество сшивки (совпадение границ).
      • Избегать добавления длинных несферических заставок в начало видео.
      • (Рекомендуется) Внедрить корректные сферические метаданные (Spatial Media Metadata).
    3. Ожидаемый результат: Система автоматического обнаружения проанализирует соотношение сторон и границы (Этап 1), а также кривизну линий и текстуру (Этап 2) и корректно классифицирует видео как сферическое, обеспечив правильное воспроизведение, даже если метаданные отсутствуют.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование видео в поиске Google или YouTube?

    Напрямую нет. Патент описывает механизм классификации формата видео (стандартное или 360°), а не оценки его качества или релевантности. Однако корректная классификация влияет на то, как видео отображается пользователю (выбор плеера), что косвенно влияет на поведенческие факторы (UX, время просмотра, вовлеченность) и, следовательно, может повлиять на общую эффективность видео.

    Что такое двухэтапный каскадный классификатор и зачем он нужен?

    Это подход для оптимизации производительности. Первый этап использует очень быстрые и простые вычисления (например, проверку соотношения сторон), чтобы отсеять подавляющее большинство стандартных видео. Второй этап применяет более ресурсоемкие методы (например, анализ кривизны линий) только к оставшимся кандидатам. Это позволяет обрабатывать огромные объемы загрузок эффективно.

    Какие ключевые признаки указывают системе, что видео сферическое?

    Система ищет несколько индикаторов. На Этапе 1 это соотношение сторон около 2:1, низкая дисперсия пикселей вверху и внизу кадра (полюса) и совпадение левой и правой границ кадра (шов). На Этапе 2 анализируется искривление линий: в сферической проекции прямые линии выглядят изогнутыми, и система проверяет это с помощью Hough transform.

    Нужно ли мне добавлять метаданные к 360° видео, если Google определяет формат автоматически?

    Да, добавление корректных метаданных остается лучшей практикой. Описанная система является резервным механизмом на случай отсутствия или повреждения метаданных. Полагаться только на автоматическое обнаружение рискованно, особенно если ваше видео имеет нестандартные характеристики или технические дефекты.

    Что произойдет, если мое 360° видео начнется с 20-секундной стандартной заставки?

    Это может привести к проблемам. В патенте упоминается, что система может анализировать кадры из ограниченного сегмента видео (например, первые 10 секунд). Если в этот сегмент попадает только стандартный контент, все видео может быть ошибочно классифицировано как несферическое. Рекомендуется начинать сферический контент как можно раньше.

    Может ли система ошибочно принять стандартное видео за сферическое?

    Такая вероятность минимизирована за счет Этапа 2. Если стандартное видео обрезано до соотношения 2:1 (Этап 1), Этап 2 проверит внутреннее содержание. Если линии в кадре остаются прямыми (как в стандартном видео), а не искривляются, система классифицирует его как несферическое.

    Работает ли эта система только с эквидистантной проекцией (Equirectangular)?

    Патент в основном фокусируется на equirectangular projection, так как это самый распространенный формат. Однако упоминается, что аналогичные признаки могут быть определены для других типов проекций (например, rectilinear, circular) или другие типы могут быть преобразованы в эквидистантную область для анализа.

    Как система использует преобразование Хафа (Hough Transform)?

    Преобразование Хафа используется для обнаружения прямых линий. Поскольку в сферической проекции линии искривлены, система ожидает увидеть меньше прямых линий в исходном кадре. Затем система «разворачивает» (unwarp) части изображения и повторно применяет преобразование Хафа. Если после развертки количество прямых линий увеличивается (как описано в Description), это подтверждает сферичность контента.

    Что такое энтропия изображения и как она помогает в классификации?

    Энтропия изображения (Image Entropy) измеряет визуальную сложность или контрастность кадра. Этот признак используется на Этапе 2 для отсева искусственного контента или изображений с очень низкой детализацией (например, пустого экрана), которые могли случайно пройти Этап 1, но вряд ли являются реальным сферическим видео.

    На каком этапе поиска применяется этот патент?

    Он применяется на этапе индексирования (INDEXING & Feature Extraction). Система анализирует загруженный видеофайл, извлекает технические характеристики и классифицирует его формат. Этот формат сохраняется как атрибут видео и используется позже для корректного отображения и воспроизведения.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.