Как Google использует LLM для глубокого понимания видео и изображений через интеграцию ASR и OCR

Google автоматически генерирует семантически обогащенные структурированные документы из видео и изображений, объединяя транскрипцию аудио (ASR), текст с экрана (OCR) и данные о спикерах. Большие Языковые Модели (LLM) используют эти документы как контекст для глубокого понимания контента, генерации саммари и ответов на конкретные вопросы пользователей.

Описание

Какую задачу решает

Патент решает проблему сложности поиска, навигации и извлечения конкретной информации из мультимедийного контента (видео, аудио, изображения). Традиционные методы, такие как ручная перемотка (скраббинг) или поиск по ключевым словам в транскриптах, неэффективны. Они не обеспечивают семантического понимания запросов и часто упускают информацию, представленную визуально (например, текст на экране), если она не была произнесена вслух.

Что запатентовано

Запатентована система автоматического создания «семантически обогащенного структурированного документа» (semantically-rich, structured document) из потока контента. Этот документ синтезирует данные из разных модальностей: транскрипцию аудио (ASR), распознанный текст с экрана (OCR) и диаризацию спикеров. Все элементы синхронизированы по времени. Ядром системы является использование Large Language Model (LLM) для обработки этого документа и генерации прямых ответов на запросы пользователей.

Как это работает

Система работает в два этапа:

Индексирование (Генерация документа): Система (Document Structurer) обрабатывает контент. Используются ASR для транскрипции аудио, OCR для распознавания текста на экране (Creator-provided Text) и диаризация для идентификации спикеров. Все данные объединяются в Structured Document с точными временными метками.
Взаимодействие (Q&A): Когда пользователь задает вопрос о контенте, LLM получает запрос и использует Structured Document как контекст (посредством few-shot learning). LLM генерирует точный ответ.
Вывод: Ответ предоставляется в виде текста, синтезированной речи (TTS) или путем воспроизведения релевантного фрагмента исходного аудио/видео.

Актуальность для SEO

Критически высокая. Патент опубликован в 2025 году и напрямую связан со стратегическими инициативами Google по применению генеративного ИИ (LLM) и мультимодального понимания контента (в описании упоминается MUM). Технология лежит в основе глубокой индексации видео (например, YouTube) и создания интерактивного пользовательского опыта.

Важность для SEO

Влияние на SEO высокое (85/100). Хотя патент описывает улучшение UX (интерактивный Q&A в плеере), лежащая в основе технология (создание мультимодального Structured Document) критически важна для индексации и ранжирования. Она демонстрирует, как Google объединяет сигналы из аудио (ASR) и визуального текста (OCR) для глубокого понимания содержания видео и изображений. Это требует комплексной оптимизации всех модальностей контента.

Детальный разбор

Термины и определения

Alignment Information (Информация о выравнивании): Временные метки, которые синхронизируют каждый элемент (слово в ASR, текст в OCR) с соответствующим аудиосегментом или кадром. Позволяет определить точное время появления информации.
Annotated Transcription (Аннотированная транскрипция): Транскрипция речи (ASR), дополненная вставками распознанного текста с экрана (Creator-provided Text) в хронологически релевантных местах на основе Alignment Information.
ASR (Automatic Speech Recognition): Автоматическое распознавание речи. Используется для преобразования аудиодорожки в текст.
Content Feed (Поток контента): Входные данные: видео (аудиовизуальный поток), аудио (подкаст) или изображения.
Creator-provided Text (Текст, предоставленный создателем): Текст, распознанный модулем OCR в кадрах видео или на изображении. Включает графические оверлеи, текст на слайдах или текст в сцене.
Document Structurer (Структуратор документа): Основная система, которая обрабатывает Content Feed и генерирует Structured Document, используя модули ASR, OCR и Diarization.
Few-shot Learning (Обучение на нескольких примерах): Метод, при котором предварительно обученная LLM использует Structured Document как контекст для генерации ответа на запрос. Позволяет модели адаптироваться к содержанию конкретного медиафайла «на лету».
Large Language Model (LLM): Большая языковая модель (упоминаются архитектуры Transformer, Conformer, MUM). Используется для семантического понимания запроса в контексте структурированного документа и генерации ответа или саммари.
OCR (Optical Character Recognition): Оптическое распознавание символов. Используется для извлечения текста из кадров видео или изображений.
Speaker Diarization (Диаризация спикеров): Процесс определения «кто говорит и когда». Присваивает метки спикеров (speaker label) различным аудиосегментам.
Structured Document (Структурированный документ): Семантически обогащенный документ, автоматически генерируемый из контент-потока. Содержит ASR, OCR, данные о спикерах и Alignment Information.

Ключевые утверждения (Анализ Claims)

ВАЖНОЕ ПРИМЕЧАНИЕ: Патент US20250094491A1 является продолжением (continuation) предыдущих заявок. Его Описание (Description) детально описывает комплексную систему для обработки ВИДЕО (ASR, OCR, Diarization). Однако, приведенные Claims 1-20 юридически сужены и фокусируются только на обработке ИЗОБРАЖЕНИЙ и использовании OCR. Для SEO важно анализировать полное описание системы, но юридическая защита сосредоточена на Claims.

Claim 1 (Независимый пункт): Описывает метод обработки данных изображения для ответов на вопросы.

Получение данных изображения (image data), содержащих кадр.
Обработка данных для генерации Structured Document, который включает текст (creator-provided text), распознанный в кадре (OCR).
Получение запроса (query) от пользователя с запросом информации, содержащейся в данных изображения.
Обработка запроса и Structured Document для генерации ответа (response).

Claim 3 (Зависимый от 1): Уточняет механизм обработки.

Обработка запроса и документа выполняется с использованием Large Language Model (LLM).

Claim 5 (Зависимый): Детализирует работу LLM.

Предварительно обученная LLM генерирует ответ с помощью few-shot learning, при этом Structured Document используется как контекст для запроса.

Claim 8 (Зависимый от 1): Описывает формат ответа.

Ответ является текстовым и передается в виде связного, сфокусированного ответа (coherent, focused response).

Claim 10 (Зависимый от 1): Указывает на одно из применений.

Ответ может представлять собой сводку (summary) данных изображения, основанную на распознанном тексте.

Где и как применяется

Изобретение затрагивает этапы индексирования контента и взаимодействия с ним.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Document Structurer выполняет глубокий мультимодальный анализ контента (видео/аудио/изображения).

Извлечение признаков: Запускаются процессы ASR (речь), OCR (визуальный текст) и Diarization (спикеры).
Структурирование: Ключевая особенность — временное выравнивание (Alignment Information) всех признаков и их объединение в Structured Document. Это значительно обогащает представление контента в индексе.

RANKING – Ранжирование
Structured Document предоставляет богатый набор семантических сигналов (ASR+OCR), что позволяет системе ранжирования лучше понимать релевантность видео и изображений информационным запросам.

RERANKING / Генерация ответов (Интерфейс плеера/SERP)
Structured Document загружается в LLM для обеспечения интерактивных функций в реальном времени:

Ответы на вопросы пользователя о содержании (Q&A).
Генерация автоматических сводок (Summary) или глав (например, Key Moments).

Входные данные:

Content Feed (Audio Data, Image Data).
Запрос пользователя (Query).

Выходные данные:

Structured Document (для индексации и контекста LLM).
Response (ответ пользователю от LLM).

На что влияет

Конкретные типы контента: Наибольшее влияние на информационный и образовательный контент, где информация распределена между аудио и визуальным рядом: инструкции (How-to), лекции (слайды), обзоры, кулинарные рецепты, подкасты, инфографика.
Специфические запросы: Информационные запросы, направленные на извлечение фактов из контента («Сколько нужно кумина?», «Что он сказал о характеристиках?»).

Когда применяется

Условия применения (Индексация): При обработке (индексации или переиндексации) мультимедийного контента для генерации Structured Document.
Триггеры активации (Взаимодействие): Когда пользователь вводит запрос во время воспроизведения или просмотра контента, для которого доступен Structured Document.

Пошаговый алгоритм

Процесс А: Генерация Структурированного Документа (Document Structurer)

Получение данных: Система получает Content Feed (аудио и/или изображения).
Мультимодальная обработка (Параллельно):
- Аудио: Diarization Module сегментирует аудио и определяет спикеров. ASR Module генерирует транскрипцию речи.
- Изображения: OCR Module анализирует кадры и распознает Creator-provided Text.
Выравнивание (Alignment): Все извлеченные данные (слова ASR, текст OCR, метки спикеров) получают точные временные метки (Alignment Information), привязанные к аудиодорожке.
Генерация и Аннотирование (Generator): Создается Structured Document. Опционально создается Annotated Transcription путем вставки текста из OCR между словами из ASR на основе временного выравнивания.

Процесс Б: Обработка запроса и генерация ответа (Q&A)

Получение Запроса: Система получает запрос (query) от пользователя во время взаимодействия с контентом.
Обработка LLM: Large Language Model получает запрос и соответствующий Structured Document.
Генерация Ответа: LLM использует few-shot learning, применяя документ как контекст, и генерирует текстовый ответ (response) или саммари.
Форматирование Вывода (Output Module): Система определяет способ предоставления ответа:
- Текст/TTS: Текстовый ответ отображается или конвертируется в речь (TTS). Воспроизведение может быть приостановлено.
- Воспроизведение сегмента: Система идентифицирует временные метки ответа в оригинальном аудио/видео (используя Alignment Information) и воспроизводит этот фрагмент.

Какие данные и как использует

Данные на входе

Мультимедиа факторы:
- Audio Data: Речь спикеров. Используется для ASR и Diarization.
- Image Data: Кадры видео или изображения. Используются для OCR.
Пользовательские факторы:
- Query: Запрос пользователя в естественном языке.

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования, но фокусируется на методах извлечения и моделирования данных:

Методы анализа контента:
- ASR (Automatic Speech Recognition).
- OCR (Optical Character Recognition): Извлечение Creator-provided Text.
- Speaker Diarization: Идентификация спикеров.
Алгоритмы машинного обучения:
- Large Language Models (LLM): Используются для понимания запроса и генерации ответа. Упоминаются архитектуры Transformer, Conformer, модель MUM.
- Few-shot learning: Ключевой механизм, позволяющий LLM использовать Structured Document как специфический контекст.
- Zero-shot learning: Упоминается возможность LLM использовать общие знания о мире для генерации ответов.
Методы структурирования данных:
- Time Alignment (Временное выравнивание): Критически важный процесс синхронизации данных ASR и OCR с временной шкалой аудиодорожки.

Выводы

Мультимодальное понимание как стандарт: Google переходит к комплексному анализу видео, объединяя все, что пользователь видит (OCR) и слышит (ASR). Система стремится синтезировать эти данные в единое представление (Annotated Transcription).
Критическая роль OCR в видео и изображениях: Распознавание текста на экране (Creator-provided Text) является ключевым источником информации. И Claims (фокусирующиеся на изображениях), и Description (на видео) подчеркивают его важность.
LLM как интерпретатор контента: Structured Document создается для того, чтобы служить контекстной базой знаний для LLM. Механизм few-shot learning позволяет универсальной LLM точно отвечать на вопросы по содержанию конкретного медиафайла.
Автоматическое структурирование и суммаризация: Система способна автоматически генерировать богатую структуру контента без ручного труда авторов, а также создавать саммари разделов с помощью LLM.
Индексация и UX: Улучшение понимания контента (Индексация) напрямую ведет к улучшению его ранжирования в поиске и созданию новых функций взаимодействия (UX), таких как Q&A в плеере.

Практика

Best practices (это мы делаем)

Рекомендации касаются Video SEO и Image SEO.

Оптимизация визуального текста (On-Screen Text для OCR): Активно использовать четкий, читаемый текст на экране в видео (оверлеи, слайды, титры) и на изображениях (инфографика) для передачи ключевой информации. Поскольку Google извлекает Creator-provided Text, он должен быть семантически значимым и легко распознаваемым.
Оптимизация аудиодорожки (для ASR и Diarization): Обеспечивать высокое качество звука, четкую дикцию и структурированное повествование. Чистый звук критически важен для точности Structured Document.
Синхронизация речи и визуала: Обеспечивать соответствие между тем, что говорится (ASR), и тем, что показывается (OCR). Патент подчеркивает важность временного выравнивания для формирования Annotated Transcription. Если вы показываете список на экране, синхронизируйте его с аудиоповествованием.
Четкая структура повествования: Создавать видео с логичной структурой. Это облегчает работу LLM по интерпретации Structured Document, генерации точных ответов и автоматическому созданию сводок (Summary) или глав (Key Moments).

Worst practices (это делать не надо)

Использование нечитаемого текста: Применение мелких, неконтрастных или декоративных шрифтов, или размещение текста поверх сложных фонов. Если OCR Module не сможет распознать текст, он будет потерян для системы.
Низкое качество звука и речи: Плохая дикция, фоновый шум, несколько одновременно говорящих спикеров. Это снижает качество ASR и Diarization, делая Structured Document неточным.
Расхождение аудио и визуального текста: Демонстрация визуального текста, не соответствующего тому, о чем говорит спикер в данный момент. Это может затруднить системе точную интерпретацию и интеграцию данных.
Игнорирование текста на медиафайлах: Полагаться только на аудиодорожку в видео или только на alt-текст для изображений. Отсутствие OCR-текста снижает объем информации, доступной LLM.

Стратегическое значение

Патент подтверждает стратегический приоритет мультимодального поиска (MUM). Для SEO это означает, что оптимизация видео и изображений требует комплексного подхода, учитывающего все аспекты контента: метаданные, качество аудио (для ASR) и визуальный текст (для OCR). Глубокое понимание содержания позволит Google более точно ранжировать мультимедийный контент по узкоспециализированным запросам и эффективнее использовать его в AI Overviews.

Практические примеры

Сценарий 1: Оптимизация кулинарного видео (Пример из патента, FIG. 3)

Действие: При создании видео о маринаде, показать список ингредиентов («1.5 tsp coriander, 0.5 tsp cumin») текстом на экране в тот момент, когда ведущий упоминает эти специи в речи.
Как это работает: OCR распознает текст с пропорциями. ASR распознает упоминание специй. Document Structurer синхронизирует их по времени и создает Annotated Transcription.
Ожидаемый результат: Google точно индексирует рецепт. Если пользователь спросит «Сколько кумина?», LLM найдет ответ в Structured Document (в данных OCR), даже если ведущий не произносил количество вслух.

Сценарий 2: Оптимизация инфографики для Image Search (На основе Claims 1-20)

Действие: Создать инфографику со статистическими данными, используя четкий и структурированный текст.
Как это работает: OCR извлекает весь текст и создает Structured Document.
Ожидаемый результат: Google может использовать LLM для создания саммари инфографики (Claim 10) или для ответа на вопросы пользователей на основе данных из изображения, что повышает релевантность изображения в поиске.

Вопросы и ответы

Насколько важен текст на экране (внутри видео или на изображении) согласно этому патенту?

Он критически важен. Система активно извлекает Creator-provided Text с помощью OCR и интегрирует его в Structured Document наравне с аудио транскриптом. Это позволяет LLM понимать контент, даже если информация была только показана, но не произнесена. Более того, Claims в данной заявке сфокусированы именно на механизме OCR.

Что такое «Structured Document» и чем он отличается от обычных субтитров?

Structured Document — это гораздо более богатое представление контента, чем субтитры. Он объединяет транскрипт аудио (ASR), распознанный текст с экрана (OCR) и данные о том, кто говорит (Diarization). Ключевое отличие — все эти мультимодальные данные точно синхронизированы по времени (Alignment Information).

Какую роль играют Большие Языковые Модели (LLM) в этой системе?

LLM выступает в роли интерпретатора. Она анализирует Structured Document для глубокого семантического понимания контента. Когда пользователь задает вопрос, LLM использует этот документ как контекст, чтобы сгенерировать точный ответ на естественном языке или создать саммари.

Что такое few-shot learning в контексте этого патента?

Это означает, что Google использует предварительно обученную универсальную LLM и адаптирует ее «на лету» для анализа конкретного видео. Structured Document подается модели как контекст (несколько примеров). Это позволяет LLM давать точные ответы по данному видео без необходимости переобучения модели.

Как этот патент влияет на Video SEO стратегию?

Стратегия должна стать мультимодальной. Необходимо оптимизировать не только метаданные, но и сам контент: обеспечивать высокое качество аудио для ASR и стратегически использовать читаемый текст на экране для OCR. Контент должен быть четко структурирован, чтобы облегчить LLM его анализ и суммаризацию.

Влияет ли эта технология на генерацию Key Moments в Поиске?

Да, напрямую. Structured Document содержит всю необходимую информацию (ASR, OCR, временные метки). Способность LLM генерировать саммари разделов (как указано в патенте) является основой для автоматического определения и наименования ключевых моментов (Key Moments).

Нужно ли по-прежнему загружать субтитры вручную?

Да, это остается лучшей практикой. Хотя ASR работает автоматически, в патенте упоминается, что предоставленные создателем субтитры могут использоваться для улучшения результатов ASR или вместо них. Качественные субтитры гарантируют точность Structured Document, особенно для сложных терминов.

Что делать, если ASR допускает ошибки при распознавании специфических терминов?

Патент описывает механизм, где данные OCR могут помочь улучшить точность ASR. Если термин неправильно распознан в речи, но правильно написан на экране (например, название блюда «Haw Mok Talay»), система может использовать данные OCR для коррекции транскрипции. Поэтому важно дублировать сложные термины на экране.

Может ли LLM использовать внешние знания, кроме тех, что есть в видео?

Да. Патент упоминает, что LLM может выполнять zero-shot learning, опираясь на свои общие знания о мире. Также упоминается, что сгенерированный ответ может включать ссылки на внешние источники (references to source material) для подтверждения авторитетности информации.

Почему Claims (Формула изобретения) говорят только об изображениях, если описание патента о видео?

Это особенность патентного процесса в заявках-продолжениях (continuation applications). Описание раскрывает полную архитектуру системы для видео (ASR+OCR). Однако юридические Claims были намеренно сужены для защиты конкретного аспекта — механизма использования LLM для ответов на вопросы по тексту, извлеченному из изображений (OCR). Для понимания стратегии Google важно анализировать полное описание.