Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google создает автоматические видео-нарезки (Composite Videos) на основе текстового запроса и аудио транскриптов

    METHODS, SYSTEMS, AND MEDIA FOR SEARCHING FOR VIDEO CONTENT (Методы, системы и носители для поиска видеоконтента)
    • US10311101B2
    • Google LLC
    • 2019-06-04
    • 2014-04-10
    2014 Мультимедиа Мультиязычность Патенты Google

    Google патентует механизм поиска видеоконтента по его аудиосодержанию. Система принимает текстовый запрос, находит точные сегменты в разных видео, где произносятся эти термины (используя транскрипты и таймкоды), и автоматически объединяет эти сегменты в одно новое композитное видео (нарезку или «mashup»). Также описан механизм регенерации результата.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности традиционного поиска видео, который полагается преимущественно на текстовые метаданные (заголовки, теги, описания). Метаданные могут неточно отражать содержание видео, особенно если пользователь ищет момент, где искомый термин именно произносится. Кроме того, патент устраняет проблему статичности результатов: он предлагает механизм для «обновления» (регенерации) результата поиска по тому же запросу, не требуя от пользователя его изменения.

    Что запатентовано

    Запатентована система для динамической генерации композитных видео (Composite Videos). В ответ на запрос система ищет совпадения не в метаданных, а в тайм-кодированных транскриптах (Transcripts) индексированных видео. Идентифицированные релевантные сегменты (Video Segments) автоматически извлекаются и объединяются (конкатенируются) в новый видеоролик, который и предоставляется пользователю как результат поиска.

    Как это работает

    • Индексирование аудио: Видео заранее обрабатываются (например, с помощью Automatic Speech Recognition — ASR) для создания транскриптов с точными временными метками (Time Stamps).
    • Обработка запроса: Система получает текстовый запрос и ищет совпадения в индексе транскриптов.
    • Идентификация и оценка сегментов: Определяются точные Video Segments, соответствующие запросу. Они могут оцениваться по релевантности, популярности (Popularity Score) и свежести (Recency Score).
    • Генерация видео: Выбранное подмножество сегментов автоматически склеивается в Composite Video.
    • Регенерация: Пользователь может запросить создание нового Composite Video по тому же запросу, используя другой набор релевантных сегментов.

    Актуальность для SEO

    Средняя. Хотя конкретное приложение, описанное в патенте (автоматический генератор видео-нарезок или «mashup»), не является функцией основного поиска Google, лежащие в его основе технологии критически важны и актуальны. Точное распознавание речи (ASR), тайм-кодированные транскрипты и идентификация видеосегментов являются фундаментом для функции «Key Moments» (Ключевые моменты) в Google Search и YouTube.

    Важность для SEO

    Влияние на SEO умеренное (4/10). Патент описывает конкретное приложение для генерации контента, а не алгоритмы ранжирования основного поиска. Однако он имеет стратегическое значение для Video SEO, так как детально раскрывает инфраструктуру Google для понимания разговорного контента внутри видео. Это подтверждает критическую важность качества аудио и точности транскриптов для глубокой индексации видеоконтента.

    Детальный разбор

    Термины и определения

    Composite Video (Композитное видео)
    Новое видео, сгенерированное системой путем объединения (конкатенации) нескольких Video Segments из разных источников, которые соответствуют поисковому запросу.
    Matching Score (Оценка соответствия)
    Метрика, используемая для оценки и выбора Video Segments. Может основываться на Relevancy Score, Popularity Score и Recency Score.
    Regeneration Interface Element (Элемент интерфейса регенерации)
    Элемент управления (например, кнопка «обновить»), позволяющий пользователю запросить генерацию нового Composite Video по тому же запросу, используя другой набор сегментов.
    Time Stamp (Временная метка)
    Точный временной код, связанный со словом или фразой в транскрипте. Используется для определения начала и конца Video Segment.
    Transcript (Транскрипт)
    Текстовая версия аудиоконтента видео, синхронизированная по времени. Может быть получена из субтитров или с помощью ASR (Automatic Speech Recognition).
    Video Segment (Видеосегмент)
    Часть видеоконтента, идентифицированная системой как соответствующая запросу на основе наличия ключевых слов в соответствующей части транскрипта.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Определяет основной метод динамической генерации и регенерации композитных видео.

    1. Система получает поисковый запрос с несколькими терминами.
    2. Идентифицируются видео, аудио которых содержит эти термины.
    3. Выбирается первый набор видеосегментов (first subset), содержащих эти термины.
    4. Генерируется первое Composite Video путем конкатенации этих сегментов.
    5. Предоставляется интерфейс, включающий это видео и Regeneration Interface Element.
    6. В ответ на активацию элемента регенерации:
    7. Выбирается второй набор видеосегментов (second subset), который отличается от первого.
    8. Генерируется второе Composite Video.
    9. Интерфейс обновляется для показа второго видео.

    Ядром изобретения является автоматизированный процесс создания видео на основе аудиосодержания и механизм для динамического создания альтернативных компиляций по тому же запросу.

    Claim 3 и 4 (Зависимые): Уточняют механизм выбора сегментов. Выбор может основываться на Matching Score. Эта оценка рассчитывается на основе Relevancy Score (степень соответствия запросу), Popularity Score (популярность видеоисточника) и Recency Score (свежесть видеоисточника).

    Claim 5 и 6 (Зависимые): Описывают технический процесс идентификации сегмента. Он включает поиск ключевых слов в транскрипте и определение временных меток начала (first time stamp) и конца (second time stamp), которые используются для выделения точного Video Segment.

    Claim 7 (Зависимый): Указывает, что выбор сегментов из набора может осуществляться случайным образом (randomly).

    Где и как применяется

    Изобретение требует значительной предварительной обработки данных на этапе индексирования и задействует этапы ранжирования и генерации контента.

    INDEXING – Индексирование и извлечение признаков
    Это критически важный этап. Происходит обработка видео: извлечение аудио, использование ASR для генерации Transcripts, синхронизация текста с видеопотоком (создание time-aligned transcripts). Создается индекс (например, inverted index), позволяющий быстро находить слова и соответствующие им Time Stamps. Также рассчитываются статические сигналы, такие как Popularity Score.

    RANKING – Ранжирование (Retrieval и Scoring)
    Система извлекает кандидатов — не целые видео, а конкретные Video Segments — на основе совпадения ключевых слов в транскриптах. Для этих сегментов рассчитывается Matching Score.

    METASEARCH / Content Generation (Генерация Контента)
    На этом этапе происходит уникальная часть процесса. Система выбирает подмножество из ранжированных сегментов (используя скоринг или случайный выбор) и выполняет фактическую обработку видео (конкатенацию) для генерации Composite Video. Также здесь обрабатывается запрос на регенерацию.

    Входные данные:

    • Поисковый запрос пользователя.
    • Индекс тайм-кодированных транскриптов.
    • База данных видеофайлов.
    • Метрики популярности и свежести видео.

    Выходные данные:

    • Сгенерированный файл Composite Video (или данные для его стриминга).

    На что влияет

    • Типы контента: Влияет исключительно на видеоконтент, содержащий аудиодорожку с распознаваемой речью (лекции, интервью, новости, обзоры). Не применимо к видео без звука или только с музыкой.
    • Формат выдачи: Влияет на формат представления результатов поиска в рамках специализированного приложения, предлагая автоматически сгенерированную нарезку вместо списка ссылок.

    Когда применяется

    • Условия работы: Алгоритм применяется в рамках специализированного приложения или сервиса, функционал которого предусматривает генерацию видео-компиляций. Он не применяется в стандартном веб-поиске.
    • Триггеры активации: Основной процесс запускается поисковым запросом в этом приложении. Процесс регенерации активируется явным запросом пользователя (например, нажатием кнопки «обновить»).

    Пошаговый алгоритм

    Фаза А: Предварительная обработка (Офлайн)

    1. Извлечение аудио: Выделение аудиодорожки из видеофайлов.
    2. Генерация транскрипта: Обработка аудио с помощью ASR или извлечение субтитров.
    3. Синхронизация по времени: Ассоциирование текста с точными Time Stamps.
    4. Индексирование: Создание индекса для поиска по тексту транскрипта.

    Фаза Б: Обработка запроса (Рантайм)

    1. Получение и анализ запроса: Система получает запрос и определяет ключевые слова.
    2. Поиск по транскриптам: Система ищет совпадения в индексе.
    3. Идентификация сегментов: На основе временных меток определяются кандидаты Video Segments.
    4. Оценка сегментов (Scoring): Для кандидатов рассчитывается Matching Score (учитывая релевантность, популярность, свежесть).
    5. Выбор набора (Selection): Выбирается подмножество сегментов (на основе скоринга или псевдослучайной функции).
    6. Генерация видео (Composition): Выбранные сегменты конкатенируются в Composite Video.
    7. Представление результата: Видео предоставляется пользователю.
    8. Обработка регенерации (Опционально): По запросу пользователя процесс возвращается к шагу 5 для выбора другого набора сегментов.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Аудио/Транскрипт): Основной источник данных — слова, произнесенные в видео, представленные в виде Transcripts. Точность ASR критична.
    • Временные факторы: Критически важными являются Time Stamps. Также упоминается свежесть (Recency Score) видео как фактор оценки.
    • Поведенческие/Популярность: Упоминаются метрики популярности (Popularity Score). Патент указывает, что популярность может измеряться через click-through-rate (CTR), количество веб-ссылок или количество комментариев.

    Какие метрики используются и как они считаются

    • Matching Score: Агрегированная оценка для выбора сегментов. Может быть взвешенной суммой следующих метрик.
    • Relevancy Score: Оценка того, насколько хорошо сегмент соответствует запросу. Факторы включают: количество совпадающих терминов, их близость (proximity) друг к другу, предпочтение точных совпадений перед синонимами.
    • Popularity Score: Оценка популярности родительского видео.
    • Recency Score: Оценка свежести видеоконтента.
    • Методы выбора: Система может использовать ранжирование по Matching Score или псевдослучайный выбор (pseudorandom function) для обеспечения разнообразия при регенерации.

    Выводы

    1. Гранулярное индексирование видео по аудио: Патент демонстрирует возможности Google по глубокой индексации видеоконтента. Система оперирует не метаданными видео, а точными временными метками (Time Stamps) произнесенных слов и фраз.
    2. Критичность транскриптов и качества аудио: Работа механизма полностью зависит от наличия точных Transcripts. Это подчеркивает важность качества исходного аудио и точности распознавания речи (ASR) или предоставления качественных субтитров.
    3. Фокус на генерации контента, а не на ранжировании: Описанная система является приложением для генерации нового контента (видео-нарезок), а не алгоритмом ранжирования основного поиска.
    4. Использование стандартных сигналов качества: Даже для выбора сегментов в нарезку система может полагаться на стандартные сигналы, такие как популярность (Popularity Score) и свежесть (Recency Score) исходного видео.
    5. Технологическая основа для Key Moments: Технологии, описанные здесь (индексация по тайм-кодам и транскриптам), лежат в основе функций типа «Key Moments» в SERP и автоматических глав на YouTube.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает специфическое приложение, лежащие в его основе технологии имеют прямое отношение к общему Video SEO и функциям типа «Key Moments».

    • Обеспечение высокого качества аудио: Это критически важно для точного автоматического распознавания речи (ASR). Если Google не сможет точно распознать речь, контент не будет корректно индексирован на уровне сегментов.
    • Четкая дикция и структура речи: Ясное произношение ключевых терминов и логичная структура повествования помогают системе правильно идентифицировать релевантные Video Segments. Это напрямую влияет на вероятность появления видео в «Key Moments».
    • Проверка и загрузка точных субтитров: Рекомендуется проверять транскрипты, сгенерированные ASR, и корректировать ошибки или загружать собственные качественные субтитры. Это гарантирует индексацию видео по правильным терминам.
    • Стимулирование вовлеченности: Поскольку Popularity Score может использоваться для выбора сегментов, работа над повышением общей популярности видео (просмотры, комментарии, ссылки) остается важной задачей.

    Worst practices (это делать не надо)

    • Низкое качество звука и неразборчивая речь: Такой контент будет некорректно проиндексирован системами ASR, что снижает его потенциал в поиске.
    • Игнорирование качества транскриптов: Полагаться на неточные автоматические субтитры рискованно, так как это может привести к ошибкам в индексации.
    • Опора исключительно на метаданные: Патент подтверждает, что Google анализирует само содержание видео (аудиодорожку). Оптимизация только Title и Description недостаточна для глубокого понимания контента.

    Стратегическое значение

    Патент подтверждает стратегический вектор Google на глубокое понимание мультимедийного контента. Видео больше не рассматривается как «черный ящик», индексируемый по метаданным. Система стремится понять содержание на гранулярном уровне, разбивая его на сегменты. SEO-стратегия должна включать оптимизацию самого аудиовизуального ряда (в частности, аудиодорожки и транскриптов), а не только его текстового окружения.

    Практические примеры

    Сценарий: Оптимизация видео для появления в «Key Moments» (использование технологий патента)

    1. Цель: Увеличить видимость обучающего видео «Как приготовить лазанью».
    2. Анализ (на основе патента): Чтобы Google выделил ключевые моменты, система должна точно распознать речь (ASR) и идентифицировать сегменты (Video Segments) с помощью Time Stamps.
    3. Действия:
      • Во время записи видео четко проговаривать названия этапов. Например: «Этап первый: готовим соус болоньезе», «Этап второй: готовим соус бешамель».
      • Обеспечить чистый звук для улучшения качества ASR.
      • После загрузки проверить автоматические субтитры и исправить ошибки или загрузить ручной транскрипт.
    4. Результат: Google с большей вероятностью корректно проиндексирует содержание видео на гранулярном уровне и сможет автоматически выделить эти сегменты как «Key Moments» в результатах поиска, что повысит CTR.

    Вопросы и ответы

    Означает ли этот патент, что Google ранжирует видео на основе того, что в них говорится?

    Патент не описывает алгоритм ранжирования основного поиска. Он описывает, как Google индексирует разговорный контент внутри видео с точной привязкой ко времени и использует этот индекс для создания нового продукта — автоматических видео-нарезок (Composite Videos). Однако способность понимать содержание видео на таком гранулярном уровне, безусловно, используется и в других системах, включая ранжирование и выделение ключевых моментов (Key Moments).

    Как система определяет границы видеосегмента (Video Segment)?

    Система использует Time Stamps из транскрипта. Она определяет временную метку начала и временную метку конца фразы или группы слов, соответствующих запросу. Эти две метки определяют начало и конец Video Segment, который будет вырезан из исходного видео.

    Что такое Composite Video?

    Это новое видео, которое система генерирует на лету. Оно состоит из последовательности клипов (Video Segments), вырезанных из разных видео, где произносятся слова из поискового запроса. Это похоже на автоматический «mashup» или видео-нарезку по заданной теме или фразе.

    Как система решает, какие именно клипы включить в Composite Video?

    Патент описывает несколько методов. Система может рассчитывать Matching Score для каждого сегмента, учитывая его релевантность запросу, популярность (Popularity Score) и свежесть (Recency Score) исходного видео. Затем она может выбрать лучшие сегменты. Также упоминается возможность случайного выбора.

    Что такое «регенерация» результата, упомянутая в патенте?

    Это ключевая особенность. Пользователь может нажать кнопку (Regeneration Interface Element), и система сгенерирует новое Composite Video для того же самого запроса, но используя другой набор клипов. Это позволяет пользователю увидеть больше вариантов без необходимости менять запрос.

    Как этот патент связан с функцией «Key Moments» (Ключевые моменты) в поиске?

    Функция «Key Moments» является практической реализацией базовых технологий, описанных в этом патенте. Для выделения ключевых моментов Google использует те же механизмы: анализ транскриптов (ASR), идентификацию релевантных тем и определение точных временных меток (Time Stamps).

    Нужно ли мне предоставлять собственные транскрипты (субтитры)?

    Патент упоминает, что транскрипты могут быть сгенерированы автоматически (ASR) или получены из субтитров. Предоставление собственных точных субтитров гарантирует, что Google индексирует правильные термины. Если полагаться на ASR, критически важно иметь чистое и разборчивое аудио.

    Влияет ли популярность видео на этот механизм?

    Да, влияет. Патент явно указывает Popularity Score как один из компонентов Matching Score, который используется для выбора сегментов. Сегменты из более популярных видео могут иметь приоритет при включении в Composite Video.

    Работает ли это для всех языков?

    Патент не накладывает языковых ограничений. Однако эффективность системы напрямую зависит от качества технологии автоматического распознавания речи (ASR) для конкретного языка. Для языков с хорошо развитыми моделями ASR индексация будет более точной.

    Что важнее для Video SEO в контексте этого патента: метаданные или содержание аудио?

    В контексте этого патента содержание аудио является первичным. Весь механизм направлен на поиск внутри видео по его звуковой дорожке, чтобы преодолеть ограничения поиска только по метаданным. Это подчеркивает необходимость оптимизации самого контента видео (аудиодорожки).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.