Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует мультимодальный анализ (текст и движение в кадре) для автоматической сегментации видео (Key Moments)

    VIDEO SEGMENTS FOR A VIDEO RELATED TO A TASK (Видеосегменты для видео, связанного с задачей)
    • US12271420B1
    • Google LLC
    • 2025-04-08
    • 2013-06-26
    2013 Индексация Мультимедиа Патенты Google Семантика и интент

    Google автоматически разделяет видео, в частности инструкции («how-to»), на смысловые сегменты. Система использует обязательную комбинацию анализа текстовой транскрипции и технического анализа видеоряда (Motion Flow и Gradient Flow), чтобы определить точные границы между шагами или темами. Эти сегменты индексируются по ключевым фразам и позволяют пользователям переходить к нужному моменту видео из поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему навигации внутри видеоконтента, особенно инструкций (how-to videos). Пользователям сложно вручную искать конкретный шаг, список инструментов или нужный момент в длинном видео. Изобретение автоматизирует процесс понимания структуры видео и его разделения на осмысленные сегменты (главы или ключевые моменты), облегчая доступ к информации.

    Что запатентовано

    Запатентована система автоматической сегментации видео (Video Segmentation System). Ключевой особенностью, защищенной патентом, является обязательное использование комбинации текстовой транскрипции (transcript) и технического анализа видеопотока, в частности, характеристик движения (Motion Flow, Gradient Flow). Система определяет точки перехода между темами (Transitional Indicators), сегментирует видео и индексирует каждый сегмент по ключевым фразам (Key Phrases).

    Как это работает

    Система использует комбинированный (мультимодальный) подход:

    • Текстовый/Аудио анализ: Генерируется транскрипция аудиодорожки. Система ищет в тексте ключевые фразы и индикаторы перехода (например, слова «следующий шаг», «далее»).
    • Визуальный анализ: Анализируется видеоряд для вычисления характеристик движения (Motion Flow на основе Gradient Flow) и обнаружения визуальных изменений (смена сцены, затемнение).
    • Мультимодальная сегментация: Комбинируя текстовые и визуальные сигналы, система определяет точные границы сегментов.
    • Индексация: Из транскрипции каждого сегмента извлекаются Key Phrases.
    • Применение в поиске: При получении запроса система сопоставляет его с Key Phrases сегментов. Если показатель уверенности (Confidence Measure) превышает порог, в результатах поиска может быть предоставлена прямая ссылка на этот сегмент.

    Актуальность для SEO

    Критически высокая. Описанная технология лежит в основе функции «Ключевые моменты» (Key Moments) в Google Search и автоматических глав на YouTube. Мультимодальный анализ видеоконтента (понимание текста, изображения и звука одновременно) является центральным направлением развития поиска Google.

    Важность для SEO

    Влияние на SEO высокое (85/100). Патент раскрывает технические механизмы, с помощью которых Google индексирует видео не как единое целое, а как набор сегментов. Это означает, что структура видео, четкость речи и визуальное оформление переходов напрямую влияют на индексацию и видимость контента. Успешная автоматическая сегментация дает значительное преимущество в SERP.

    Детальный разбор

    Термины и определения

    Confidence Measure (Показатель уверенности)
    Метрика для оценки качества видео, его релевантности запросу и уверенности в точности сегментации. Согласно патенту (Claim 19), для сегмента она определяется на основе соответствия ключевых фраз сегмента терминам запроса.
    Gradient Flow (Градиентный поток)
    Технический метод компьютерного зрения. Используется для количественной оценки изменений в видеоряде и определения Motion Flow. Критические значения потока указывают на визуальные переходы.
    How-to Query (Запрос типа «Как сделать»)
    Поисковый запрос, выражающий потребность в инструкции для выполнения задачи.
    Key Phrase (Ключевая фраза)
    Фраза, извлеченная из транскрипции сегмента, которая описывает его содержание и используется для индексации и сопоставления с запросами.
    Motion Flow (Поток движения)
    Характеристика движения в видеоряде, определяемая на основе Gradient Flow. Используется для идентификации визуальных границ сегментов.
    Task Attributes (Атрибуты задачи)
    Компоненты задачи, описываемой в видео: шаги инструкции, необходимые инструменты, материалы, время выполнения, уровень сложности (упомянуты в описании патента).
    Transitional Indicators (Индикаторы перехода)
    Сигналы внутри видео, указывающие на смену сегмента. Могут быть текстовыми (слова-маркеры), визуальными (смена кадра, затемнение) или определяться через анализ Motion Flow.
    Transcript (Транскрипция)
    Текстовая расшифровка аудиодорожки видео.

    Ключевые утверждения (Анализ Claims)

    Патент US12271420B1 защищает конкретный метод мультимодальной сегментации видео.

    Claim 1 (Независимый пункт): Описывает основной процесс сегментации и использования ее результатов.

    1. Идентификация Transitional Indicators в видео.
    2. Определение Motion Flow на основе количественно сгруппированного Gradient Flow (технический визуальный анализ).
    3. Сегментация видео, основанная ОБЯЗАТЕЛЬНО на комбинации транскрипции (текст) И Motion Flow (визуальные данные).
    4. Ассоциация полученного сегмента с Key Phrase.
    5. При получении запроса: идентификация видео как релевантного.
    6. Выбор конкретного сегмента, если его Confidence Measure превышает установленный порог.
    7. Предоставление результата поиска.

    Ядро изобретения — это требование использовать как текстовые, так и визуальные данные о движении для разделения видео на индексируемые части.

    Claim 12 (Зависимый от 1): Уточняет технический аспект визуального анализа.

    Определяет, что критические значения (critical values) Gradient Flow соответствуют индикаторам перехода, а поток между двумя критическими значениями представляет собой видеосегмент. Это математическое описание того, как анализ движения определяет границы сегментов.

    Claim 18 (Независимый пункт): Сфокусирован на механизме доставки результата.

    Используя тот же метод сегментации (Transcript + Motion Flow), система ассоциирует ССЫЛКУ (link) на сегмент с ключевой фразой, найденной в транскрипции. В ответ на запрос предоставляется результат, включающий эту прямую ссылку.

    Claim 19 (Независимый пункт): Определяет механизм расчета релевантности во время поиска.

    1. Получение запроса и идентификация видео.
    2. Определение сегментов (созданных методом Transcript + Motion Flow), удовлетворяющих порогу Confidence Measure.
    3. Ключевое уточнение: Confidence Measure определяется (как минимум частично) на основе сопоставления (matching) Key Phrases сегмента с терминами запроса.
    4. Предоставление ссылки на сегмент.

    Где и как применяется

    Изобретение применяется в основном на этапе индексирования и влияет на ранжирование и представление результатов поиска.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап работы системы (Video Segmentation System). Происходит глубокая обработка видео:

    • Входные данные: Сырое видео (аудио и видеоряд).
    • Процесс:
      • Генерация транскрипции аудио.
      • Визуальный анализ для расчета Motion Flow и Gradient Flow.
      • Мультимодальный анализ для поиска Transitional Indicators (сопоставление текста и визуальных данных).
      • Сегментация видео.
      • Извлечение Key Phrases из транскрипции каждого сегмента.
    • Выходные данные: Индекс, содержащий разметку видеосегментов (временные метки) и связанные с ними Key Phrases.

    RANKING – Ранжирование
    На этом этапе система сопоставляет термины запроса с извлеченными Key Phrases. Рассчитывается Confidence Measure сегмента для данного запроса (согласно Claim 19).

    METASEARCH – Метапоиск и Смешивание (Представление SERP)
    Если Confidence Measure сегмента превышает порог, система может сформировать расширенный сниппет (например, блок Key Moments), предоставляя прямые ссылки на этот и другие релевантные сегменты.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на обучающие видео, инструкции (how-to), рецепты, обзоры продуктов, лекции — любой контент с четкой внутренней структурой.
    • Специфические запросы: Информационные запросы, направленные на выполнение задачи (How-to Query). Также может влиять на запросы на основе изображений (патент упоминает в описании идентификацию объектов на фото и предоставление соответствующих видеосегментов).

    Когда применяется

    • При индексировании: Алгоритм применяется при обработке видеоконтента, который система классифицирует как потенциально структурированный или инструкциональный.
    • При ранжировании: Механизм активируется, когда запрос пользователя семантически соответствует Key Phrases сегмента, и Confidence Measure этого соответствия достаточно высока для превышения порога отображения.

    Пошаговый алгоритм

    Процесс А: Офлайн-обработка и Сегментация Видео (Индексирование)

    1. Сбор данных: Получение доступа к видеофайлу.
    2. Извлечение текста: Генерация текстовой транскрипции из аудио. Извлечение текста из кадра (Video Text), если применимо.
    3. Визуальный анализ:
      1. Анализ видеоряда для вычисления характеристик движения.
      2. Расчет Gradient Flow и его количественная группировка для определения Motion Flow.
      3. Анализ цветовых характеристик и идентификация смены сцен (shot transitions), если применимо.
    4. Идентификация переходов (Transitional Indicators): Поиск точек перехода путем совмещения данных:
      • Текстовые маркеры (например, слова «следующий», «шаг 2»).
      • Визуальные маркеры (обнаружение изменений в Motion Flow, критические значения Gradient Flow, смена сцен).
    5. Сегментация: Разделение видео на Video Segments в точках идентифицированных переходов.
    6. Извлечение фраз и Индексирование: Анализ транскрипции внутри каждого сегмента для извлечения описательных Key Phrases. Связывание фраз со ссылками (временными метками) на сегменты и сохранение в индексе.

    Процесс Б: Обработка запроса (Ранжирование)

    1. Получение запроса: Получение пользовательского запроса.
    2. Поиск кандидатов: Идентификация релевантных видео и их сегментов в индексе.
    3. Расчет Confidence Measure: Сопоставление терминов запроса с Key Phrases сегментов для расчета показателя уверенности (релевантности).
    4. Применение порога: Выбор сегментов, чья Confidence Measure превышает пороговое значение.
    5. Формирование выдачи: Создание результата поиска с прямыми ссылками на выбранные сегменты.

    Какие данные и как использует

    Данные на входе

    Система использует мультимодальные данные для анализа.

    • Мультимедиа факторы (Ключевые):
      • Видеоряд: Используется для анализа движения (Motion Flow, Gradient Flow), цвета (color histograms), смены сцен (shot transitions) и распознавания текста в кадре.
      • Аудиодорожка: Используется для генерации транскрипции.
    • Контентные факторы (Извлеченные):
      • Транскрипция (Transcript): Текст, полученный из аудио или субтитров. Анализируется на наличие Key Phrases и Transitional Indicators.
    • Поведенческие и Внешние факторы (Упомянуты в описании для расчета общей Confidence Measure видео, но не для сегментации по Claims): Частота просмотров, отзывы пользователей, количество ссылок на видео, рейтинги, актуальность (timeliness).

    Какие метрики используются и как они считаются

    • Motion Flow / Gradient Flow: Метрики визуального анализа. Gradient Flow количественно оценивает изменения в видеоряде. Система ищет «критические значения» этого потока (Claim 12), которые служат визуальными границами сегментов.
    • Transitional Indicators: Определение наличия перехода на основе комбинации текстовых (слова-маркеры) и визуальных сигналов (изменения в Motion Flow, смена сцен).
    • Confidence Measure (Показатель уверенности сегмента): Согласно Claim 19, эта метрика рассчитывается на основе сопоставления (matching) между Key Phrases сегмента и терминами запроса пользователя. Она определяет, будет ли сегмент показан в поиске.

    Выводы

    1. Обязательная мультимодальная сегментация: Ключевой вывод — Google использует комбинацию анализа текста (транскрипции) И сложного визуального анализа (Motion Flow, Gradient Flow) для автоматического разделения видео на сегменты. Недостаточно иметь только хороший текст или только визуальные переходы; система ищет совпадение сигналов.
    2. Визуальная структура имеет значение: Использование анализа движения (Motion Flow) означает, что способ съемки и монтажа видео напрямую влияет на его индексацию. Четкие визуальные переходы между шагами помогают алгоритму.
    3. Транскрипция — основа для индексации сегментов: Система извлекает Key Phrases из транскрипции для определения содержания сегмента. Эти фразы затем используются для сопоставления с запросами пользователей (определяя Confidence Measure сегмента).
    4. Автоматизация Key Moments: Патент описывает механизм, позволяющий Google генерировать ключевые моменты без участия автора, что позволяет масштабировать эту функцию на весь веб.
    5. Пороговое значение для отображения: Сегменты не всегда отображаются в поиске. Это происходит только тогда, когда Confidence Measure (уверенность в релевантности сегмента запросу) превышает определенный порог.

    Практика

    Best practices (это мы делаем)

    • Обеспечение четкой структуры видео: Планируйте «how-to» видео с явным разделением на шаги или темы. Структура должна быть логичной и последовательной.
    • Использование явных вербальных индикаторов перехода: Четко проговаривайте начало нового этапа в аудиодорожке. Используйте фразы-маркеры: «Шаг 1…», «Следующий этап…», «Теперь перейдем к…». Это создает сильные Transitional Indicators в транскрипции.
    • Использование явных визуальных индикаторов перехода: Синхронизируйте вербальные маркеры с визуальными изменениями. Используйте монтажные приемы (смену кадра, затемнение) или графику (текстовые вставки с названием шага) для обозначения нового сегмента. Это помогает системе обнаружить переходы через анализ Motion Flow.
    • Оптимизация речи под ключевые фразы: Убедитесь, что речь внутри каждого сегмента ясная и содержит описательные ключевые фразы, релевантные содержанию этого отрезка. Именно они используются для сопоставления с запросами пользователей.
    • Качество аудио: Инвестируйте в хорошее качество звука. Точная транскрибация критически важна для корректной работы алгоритма.

    Worst practices (это делать не надо)

    • Сплошной поток информации: Создание видео в формате монолога без пауз, структурных маркеров или визуальных переходов значительно затрудняет автоматическую сегментацию.
    • Низкое качество аудио или невнятная речь: Приведет к ошибкам в транскрипции, что снизит точность извлечения Key Phrases и идентификации сегментов.
    • Игнорирование визуальной структуры («Говорящая голова»): Съемка всего видео одним планом без визуального разделения шагов снижает количество сигналов для анализа Motion Flow и идентификации переходов.
    • Несоответствие аудио и видеоряда: Если вербальные маркеры перехода не совпадают по времени с визуальными изменениями, система может некорректно определить границы сегментов.

    Стратегическое значение

    Патент подтверждает стратегию Google на глубокое понимание видеоконтента за пределами метаданных. Для SEO это означает, что оптимизация структуры, сценария, аудио и визуального ряда видео становится критически важной. Видеоконтент теперь индексируется гранулярно. Видео, оптимизированные под автоматическую сегментацию, получают значительное преимущество в виде расширенного отображения в SERP (Key Moments), что повышает их видимость и CTR.

    Практические примеры

    Сценарий: Оптимизация видео «Как заменить масло в автомобиле» для автоматической сегментации.

    1. Структурирование сценария: Разделить процесс на этапы (1. Подготовка инструментов, 2. Подъем автомобиля, 3. Слив старого масла, 4. Замена фильтра, 5. Заливка нового масла).
    2. Применение вербальных индикаторов: В начале каждого этапа ведущий четко говорит: «Шаг 3: Сливаем старое масло. Для этого нужно…».
    3. Применение визуальных индикаторов: При переходе к Шагу 3 на экране появляется текстовая вставка «Шаг 3: Слив масла», и меняется кадр (например, с общего плана автомобиля на крупный план сливной пробки). Это создает изменение в Motion Flow.
    4. Ожидаемый результат: Система обнаруживает совпадение вербального и визуального перехода. Она создает сегмент, извлекает Key Phrase «слив старого масла» из транскрипции и отображает этот сегмент в поиске по запросу «как слить масло в авто».

    Вопросы и ответы

    Что такое Motion Flow и Gradient Flow, и почему это важно для SEO?

    Это технические метрики визуального анализа, которые Google использует для понимания изменений и движения в видеоряде. Gradient Flow количественно оценивает эти изменения. Для SEO это важно, потому что система использует эти визуальные данные наравне с транскрипцией для определения границ сегментов (Key Moments). Если видео визуально монотонно или хаотично, алгоритму сложнее его сегментировать.

    Означает ли этот патент, что ручная разметка глав (таймкодов) больше не нужна?

    Нет, ручная разметка остается важной лучшей практикой и служит сильным сигналом для системы. Однако этот патент показывает, что Google активно развивает методы для полностью автоматической сегментации, чтобы не зависеть от данных авторов. Автоматическая система может дополнять или даже переопределять ручную разметку, если считает свою сегментацию более точной.

    Насколько важна транскрипция (субтитры) для этого алгоритма?

    Она критически важна. Согласно Claim 1 патента, сегментация основана на комбинации транскрипции И визуального анализа. Транскрипция используется для поиска индикаторов перехода (например, слов «далее», «шаг 2») и для извлечения Key Phrases, которые описывают содержание сегмента.

    Как система определяет Key Phrases для сегмента?

    Система анализирует контент, в первую очередь транскрипцию, внутри границ автоматически определенного сегмента. Она извлекает фразы, которые наилучшим образом описывают действие или тему этого отрезка. Эти фразы затем индексируются и используются для сопоставления с запросами пользователей.

    Как рассчитывается Confidence Measure для показа сегмента в поиске?

    Согласно Claim 19, Confidence Measure рассчитывается в первую очередь на основе того, насколько хорошо Key Phrases, ассоциированные с сегментом, соответствуют терминам запроса пользователя. Чем точнее совпадение, тем выше уверенность и вероятность показа Key Moment в выдаче.

    Как лучше всего сигнализировать о начале нового шага в видео?

    Лучшая практика – использовать мультимодальный подход. Необходимо одновременно использовать вербальный маркер (четко сказать: «Следующий шаг – установка фильтра») и визуальный маркер (показать текстовую вставку с этим названием или использовать четкую монтажную склейку/смену сцены). Это максимизирует шансы обнаружения Transitional Indicator.

    Влияет ли этот патент только на «how-to» видео?

    Хотя патент сфокусирован на задачах (tasks) и инструкциях (how-to), описанные технические методы сегментации (комбинация текста и визуального анализа движения) могут применяться к любому структурированному контенту, например, обзорам продуктов, лекциям, презентациям или новостным выпускам.

    Может ли система сегментировать видео, если в нем нет речи (например, только музыка)?

    Теоретически система может использовать только визуальные индикаторы (Motion Flow, смена сцен) и текст на экране. Однако, согласно Claim 1, запатентованный метод основан на комбинации транскрипции И потока движения. Отсутствие транскрипции значительно усложнит извлечение Key Phrases и, следовательно, индексацию и ранжирование сегментов.

    Что делать, если Google неправильно сегментировал мое видео?

    Проанализируйте структуру вашего видео. Вероятно, переходы между темами недостаточно четкие (визуально или на слух). Попробуйте улучшить Transitional Indicators при монтаже или предоставьте точную ручную разметку временных кодов в описании, чтобы помочь системе скорректировать сегменты при следующей индексации.

    Применяется ли эта технология в обычном поиске Google или только на YouTube?

    Эта технология применяется везде, где индексируется и ранжируется видеоконтент Google. Она особенно заметна в основном поиске Google (SERP) при отображении блоков Key Moments для видео с любых сайтов, включая YouTube и сторонние ресурсы.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.