
Google разработал систему для эффективного понимания содержания видео. Вместо анализа каждого кадра система выбирает ключевые кадры и использует Vision-Language Model для создания их текстового описания. Когда пользователь задает вопрос о видео, система объединяет запрос с этими описаниями и использует генеративную модель (LLM) для формирования точного ответа в реальном времени.
Патент решает проблему высокой вычислительной сложности и задержек при анализе видеоконтента для ответов на запросы пользователей в реальном времени. Обработка всех кадров видео с использованием мощных моделей компьютерного зрения (Vision-Language Models) практически невозможна в реальном времени. Изобретение направлено на сокращение задержек и экономию вычислительных ресурсов при сохранении высокой точности ответов на вопросы о содержании видео.
Запатентована система и метод преобразования визуальной информации видео в текстовый формат для взаимодействия с генеративными моделями (например, LLM). Суть заключается в предварительной обработке видео: автоматическом выборе подмножества ключевых кадров (key image frames) и генерации их текстового описания с помощью Vision-Language Model (VLM). Эти описания сохраняются и затем используются в реальном времени для формирования промпта к LLM, когда пользователь задает вопрос о видео.
Система работает в два этапа: офлайн (предварительная обработка) и онлайн (обработка запроса).
VLM обрабатывает эти ключевые кадры и генерирует их суммарное текстовое описание (Natural Language Description), которое сохраняется в базе данных.Prompt-Generating Engine объединяет запрос пользователя и это описание в единый промпт. Промпт обрабатывается генеративной моделью (LLM), которая формирует релевантный ответ, основанный на содержании видео.Высокая. Патент подан недавно и отражает текущий вектор развития Google в области мультимодального поиска, генеративного ИИ (Generative AI) и глубокого понимания видеоконтента. Интеграция VLM и LLM для анализа видео является передовой технологией, критически важной для улучшения поиска по видео и взаимодействия с пользователем (например, в YouTube или SGE).
Патент имеет значительное влияние на Video SEO (7/10). Хотя он напрямую не описывает алгоритмы ранжирования веб-страниц, он раскрывает конкретные механизмы, которые Google использует для понимания семантики видеоконтента на масштабе. Понимание того, как именно система выбирает и интерпретирует ключевые кадры, позволяет оптимизаторам создавать видео, которые будут более точно поняты и классифицированы поисковой системой, что влияет на их видимость в поиске по видео и универсальной выдаче.
Image Encoder и Text Encoder/Decoder), способная понимать взаимосвязь между изображениями и текстом. В патенте используется для генерации текстовых описаний на естественном языке для визуального контента (ключевых кадров).VLM.Natural Language Description ключевых (и, возможно, текущего) кадров.Claim 1 (Независимый пункт): Описывает основной метод работы системы.
Vision-Language Model (VLM) для генерации их текстового описания (Natural Language Description).Generative Model (LLM) для создания выходных данных (ответа).Ядро изобретения — это комбинация предварительной обработки видео (шаги 1-3) для создания сжатого текстового представления и использования этого представления для эффективного ответа на запросы в реальном времени с помощью LLM (шаги 4-7).
Claim 2 (Зависимый от 1): Уточняет процесс генерации описания, если ключевых кадров несколько.
VLM отдельно для получения соответствующего текста.Natural Language Description собирается путем комбинации этих отдельных текстов.Claim 6 (Зависимый от 1): Уточняет процесс выбора ключевых кадров.
Ключевые кадры составляют менее чем все кадры видео и выбираются на основе удовлетворения одному или нескольким критериям.
Claims 7, 8, 9 (Зависимые от 6): Определяют конкретные критерии выбора ключевых кадров.
Claim 10 (Независимый пункт): Альтернативная формулировка метода, фокусирующаяся на обработке запроса в реальном времени.
Generative Model для определения ответа.Изобретение затрагивает этапы индексирования (для предварительной обработки) и этапы обработки запроса (для генерации ответа).
INDEXING – Индексирование и извлечение признаков
Основной этап применения для предварительной обработки видео (Офлайн-процесс).
Key Frame Determination Engine анализирует видео и аудио для выбора ключевых кадров. Vision-Language Model Engine использует VLM для генерации Natural Language Description.Key Frame Description Database и индексируется вместе с метаданными видео.QUNDERSTANDING / RANKING / RERANKING (Применительно к взаимодействию с видео)
Эти этапы задействуются при обработке запроса пользователя в реальном времени (Онлайн-процесс).
Prompt-Generating Engine формирует промпт. Generative Model Engine использует LLM для генерации финального ответа.Входные данные:
Выходные данные:
Natural Language Description ключевых кадров, сохраненное в базе данных.Процесс А: Предварительная обработка видео (Офлайн)
Key Frame Determination Engine анализирует видео для выбора подмножества (n) ключевых кадров (n < N). Выбор происходит при срабатывании критериев: Vision-Language Model.VLM генерирует текстовое описание для каждого ключевого кадра.Natural Language Description для всего набора ключевых кадров.Key Frame Description Database в ассоциации с идентификатором видео.Процесс Б: Обработка запроса (Онлайн)
Natural Language Description ключевых кадров из базы данных.VLM в реальном времени для получения его описания.Prompt-Generating Engine формирует промпт, комбинируя текст запроса, описание ключевых кадров и (опционально) описание текущего кадра.Generative Model (LLM).LLM генерирует ответ на естественном языке, релевантный запросу и контексту видео.Система использует следующие типы данных:
Патент упоминает следующие метрики и методы:
VLM для преобразования пиксельных данных ключевых кадров в семантические текстовые описания (Natural Language Description).LLM для синтеза ответа на основе комбинированного промпта.Key Frames) является стратегическим решением для баланса между глубиной понимания и вычислительными затратами.VLM для понимания изображений) в связке с универсальными генеративными моделями (LLM для формирования ответов). VLM выступает "переводчиком" визуального контента в текст, понятный для LLM.Для SEO-специалистов, работающих с видеоконтентом (например, на YouTube или на сайте), этот патент дает важные ориентиры для оптимизации:
measure of visual difference) и правильно сегментирует содержание видео.VLM сгенерировать точное описание.VLM извлечение и описание этой информации для последующего использования в ответах LLM.VLM при генерации описаний ключевых кадров.Патент подтверждает стратегическую важность видео как источника информации первого порядка и стремление Google сделать этот источник доступным для анализа системами ИИ. Для SEO это означает, что оптимизация видео больше не ограничивается метаданными (заголовками, описаниями, тегами). Google активно анализирует само содержание видео на уровне кадров и аудио. Долгосрочная стратегия Video SEO должна учитывать возможности мультимодальных моделей (VLM) и оптимизировать контент для машинного восприятия.
Сценарий: Оптимизация видео-обзора нового смартфона
measure of visual difference.new object detection и поможет VLM точно описать объект.new voice detection.VLM сгенерирует точное описание (например, "Кадр показывает результаты теста батареи смартфона X; Кадр показывает интерфейс настроек производительности"). Это позволит Google точно отвечать на запросы пользователей о конкретных функциях смартфона, используя информацию из этого видео.Как Google определяет, какие кадры являются ключевыми (Key Frames)?
Патент описывает три основных критерия для автоматического выбора ключевых кадров. Первый — это когда мера визуальной разницы между соседними кадрами превышает порог (т.е. смена сцены или резкое изменение в кадре). Второй — это обнаружение нового объекта в кадре. Третий — это обнаружение нового голоса в соответствующей аудиодорожке. Это позволяет системе сегментировать видео по значимым моментам.
Означает ли это, что Google анализирует каждое видео с помощью VLM и LLM?
Система разработана так, чтобы быть масштабируемой. Анализ с помощью VLM (генерация описаний) происходит офлайн, на этапе индексирования, и только для выбранных ключевых кадров, а не для всего видео. Это значительно снижает нагрузку. LLM используется только в момент запроса пользователя для генерации ответа на основе уже готовых текстовых описаний.
Как это влияет на ранжирование моих видео в поиске?
Хотя патент фокусируется на ответах на вопросы, описанный механизм напрямую улучшает понимание содержания вашего видео поисковой системой. Чем точнее Google понимает семантику видео на уровне отдельных сегментов (благодаря анализу ключевых кадров), тем лучше он сможет ранжировать ваше видео по релевантным запросам, выделять ключевые моменты (Key Moments) и использовать контент для генеративных ответов (SGE).
Что такое Vision-Language Model (VLM) в контексте этого патента?
VLM — это мультимодальная модель ИИ, которая выступает в роли "переводчика" визуальной информации в текстовую. Она принимает на вход изображение (ключевой кадр) и генерирует его текстовое описание на естественном языке. Это описание затем используется большой языковой моделью (LLM) для формирования ответов.
Нужно ли мне оптимизировать видео под эту систему, и как?
Да, оптимизация желательна. Ключевая рекомендация — делать видео структурированным и визуально ясным. Используйте четкие визуальные переходы при смене тем (чтобы система засекла смену сцены) и убедитесь, что важные объекты или текст на экране хорошо видны и читаемы (чтобы помочь VLM точно их описать).
Анализирует ли система текущий кадр, который видит пользователь?
Патент предусматривает такую возможность как опцию. Основной механизм полагается на предварительно сгенерированные описания ключевых кадров для скорости. Однако система может дополнительно проанализировать текущий кадр (Current Image Frame) с помощью VLM в реальном времени, чтобы сделать ответ более контекстуальным, хотя это и увеличивает задержку.
Влияет ли качество видео (разрешение, битрейт) на работу этой системы?
Патент прямо не обсуждает влияние качества видео. Однако, поскольку система полагается на VLM для описания кадров и обнаружения объектов, более высокое качество видео и четкость изображения логически приведут к более точной идентификации объектов и генерации более качественных текстовых описаний, улучшая общую производительность системы.
Может ли эта система понять текст, который отображается на экране в видео?
Да. Vision-Language Models, как правило, способны распознавать и интерпретировать текст на изображениях (OCR). Если текст на экране присутствует в ключевом кадре, VLM включит его в свое Natural Language Description, и эта информация будет доступна LLM для генерации ответов.
Заменяет ли этот механизм необходимость в субтитрах или таймкодах?
Нет, не заменяет. Субтитры и таймкоды остаются важными сигналами доступности и структуры. Они могут дополнять данные, полученные через анализ ключевых кадров. Хорошая практика SEO включает использование всех доступных инструментов для передачи структуры и содержания видео поисковой системе.
Применяется ли эта технология только для YouTube или и для видео на моем сайте?
Хотя примеры в патенте похожи на интерфейс видеоплеера типа YouTube, технология описана как общая система обработки видео, принадлежащая Google. Логично предположить, что эти механизмы используются для анализа любого видеоконтента, который индексирует Google, включая видео, размещенные на сторонних сайтах.

Мультимедиа
Семантика и интент

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
EEAT и качество
Ссылки

EEAT и качество
Ссылки
SERP

Семантика и интент
Персонализация
Мультимедиа

SERP
Поведенческие сигналы
Персонализация

SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Ссылки

Персонализация
Семантика и интент
Поведенческие сигналы

Структура сайта
Техническое SEO
Индексация

Поведенческие сигналы
Индексация
SERP

Local SEO
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Семантика и интент
