Как Google автоматически определяет и отображает ключевые моменты (Key Moments) в видео для улучшения навигации

Google использует систему для анализа видеоконтента с помощью текстовых, визуальных и аудиосигналов. Система определяет «ключевые моменты» (salient topics), генерирует для них текстовые метки и интеллектуально выбирает наиболее релевантные стоп-кадры. Эти «временные анкоря» (Video Timed Anchors) позволяют пользователям понять структуру видео и перейти к интересующему сегменту прямо из поиска или плеера.

Описание

Какую задачу решает

Патент решает проблему сложности навигации и быстрого ознакомления («сканирования») видеоконтента по сравнению с текстом. Пользователям трудно найти конкретную информацию внутри видео без его полного просмотра или ручной перемотки. Изобретение улучшает пользовательский опыт, предоставляя обзор содержания видео и возможность быстрого перехода к интересующим сегментам (key moments), что также экономит сетевые ресурсы.

Что запатентовано

Запатентована система автоматической генерации и отображения временных анкорей для видео (Video Timed Anchors), известных как «Key Moments». Система идентифицирует ключевые моменты в видео на основе критериев интереса (interest criteria), которые определяют значимые темы (salient topics). Для каждого момента генерируется текстовая метка (textual label) и интеллектуально выбирается наиболее подходящий и информативный видеокадр (video frame).

Как это работает

Система использует мультимодальный анализ для обработки видео:

Идентификация моментов: Анализируются текстовые сигналы (OCR, субтитры, метаданные), визуальные сигналы (анализ кадров, смена сцен) и аудиосигналы для определения ключевых моментов на основе Interest Criteria (например, смена темы, начало нового шага).
Анализ сегмента: Для каждого момента выбирается короткий фрагмент (proper subset).
Генерация метки и кадра: Из этого фрагмента генерируется текстовая метка. Система также оценивает кадры, используя меры сходства (Similarity Measure) и разнообразия (Diversity Measure), чтобы выбрать лучший кадр или решить не использовать изображение, если кадры однообразны.
Отображение: Созданные анкоря отображаются пользователю и связываются с индикаторами на временной шкале видеоплеера.

Актуальность для SEO

Высокая. Патент опубликован в 2024 году и описывает технологию, лежащую в основе функции «Key Moments» в Google Поиске и автоматических глав (Auto Chapters) на YouTube. Это центральный элемент современной стратегии структурирования видеоконтента.

Важность для SEO

Влияние на SEO значительно (85/100). Патент описывает механизм, который критически влияет на видимость и кликабельность видео в поиске. Получение Key Moments формирует расширенный сниппет (Rich Result), значительно увеличивает занимаемое пространство в SERP и может повысить CTR. Понимание того, как Google автоматически генерирует эти моменты, необходимо для эффективной оптимизации видеоконтента.

Детальный разбор

Термины и определения

Video Timed Anchor / Video Anchor: Временной анкорь видео («Key Moment»). Интерактивный элемент интерфейса, включающий Textual Label, временную метку и, опционально, изображение. Позволяет пользователю перейти к определенному моменту воспроизведения (playback time).
Key Moment Identifier (Идентификатор ключевого момента): Данные, указывающие на значимый момент в видео. Включают временную метку (time index value) и соответствуют Interest Criteria.
Interest Criteria (Критерии интереса): Правила или модели, определяющие, что является «значимой темой» (salient topic) в видео. Критерии адаптируются под тип контента (например, голы в спорте, смена шага в инструкции, смена темы в лекции).
Proper Subset of the Video (Подмножество видео): Короткий сегмент видео (в патенте упоминается пример 6 секунд), начинающийся во время ключевого момента. Этот сегмент анализируется для генерации метки и выбора кадра. Он короче, чем весь сегмент до следующего момента.
Textual Label (Текстовая метка): Краткое описание содержания ключевого момента.
Similarity Measure (Мера сходства): Метрика для выбора миниатюры. Оценивает, насколько визуальное содержание кадра семантически соответствует сгенерированной Textual Label сегмента.
Diversity Measure (Мера разнообразия): Метрика, оценивающая визуальные различия между кадрами в Proper Subset. Помогает определить информативность кадров. Если разнообразие низкое (например, «говорящая голова»), изображение может быть опущено.
Dominant Intent (Доминирующее намерение): Основная тема или цель видео в определенный момент времени. Смена доминирующего намерения часто служит триггером для нового ключевого момента.
Manual Curations (Ручная разметка): Аннотации или временные метки, предоставленные человеком (например, автором видео).

Ключевые утверждения (Анализ Claims)

Примечание: В предоставленном тексте патента пункты 1-22 отменены (canceled). Анализ основан на действующих пунктах 23 и далее.

Claim 23 (Независимый пункт): Описывает процесс на стороне пользовательского устройства (клиента).

Устройство получает данные для отображения набора Video Anchors. Каждый анкорь содержит Textual Label для ключевого момента и инструкцию для перехода к этому времени воспроизведения (playback time).
Устройство отображает анкоря в видеоплеере.
Устройство отображает первый кадр видео.
При выборе пользователем конкретного анкоря устройство начинает воспроизведение видео с указанного времени.

Claim 30 (Зависимый): Детализирует процесс генерации анкоря (серверная сторона), на который опирается клиент.

Выбор подмножества видео (subset of the video), начиная с времени ключевого момента.
Определение Textual Label для этого подмножества.
Обработка кадров подмножества для принятия решения, следует ли выбирать кадр для анкоря.
Генерация Video Anchor.

Claim 32 (Зависимый от 30): Описывает механизм выбора кадра (миниатюры).

Для каждого кадра в подмножестве определяются метки (set of labels), описывающие его содержание.
Вычисляется Similarity Measure между метками кадра и Textual Label анкоря.
Для включения в анкорь выбирается кадр с наивысшей мерой сходства.

Где и как применяется

Изобретение в основном применяется на этапе индексирования, а результаты используются при формировании выдачи.

INDEXING – Индексирование и извлечение признаков
Это основной этап работы системы. Video Time Anchor Generator System анализирует видеоконтент.

Key Moment Identifier Network (часто нейронная сеть) обрабатывает мультимодальные сигналы (текст, визуал, аудио) для определения ключевых моментов на основе Interest Criteria и смены Dominant Intent.
Video Frame Selection Engine анализирует сегменты (Proper Subsets) вокруг этих моментов, генерирует текстовые метки и интеллектуально выбирает (или отклоняет) кадры.
Сгенерированные анкоря сохраняются в Video Anchor Index.

METASEARCH – Метапоиск и Смешивание
На этапе формирования ответа пользователю система извлекает релевантные видео. Если для видео существуют данные в Video Anchor Index, они используются для обогащения сниппета видео в SERP (создание Rich Result с Key Moments) или в интерфейсе видеоплеера.

Входные данные:

Видеофайл (Видео и Аудио).
Текстовые сигналы: OCR (текст на экране), Субтитры (Caption), Метаданные (Metadata).
Визуальные сигналы: Эмбеддинги, результаты распознавания объектов.
Ручная разметка (Manual Curations).
База данных критериев интереса (Interest Criteria).

Выходные данные:

Набор Video Timed Anchors (временная метка, Textual Label, ссылка на изображение).

На что влияет

Конкретные типы контента: Наибольшее влияние на структурированный контент. Патент выделяет:
- Инструкции (How-to): начало каждого шага.
- Лекции и образовательный контент: смена темы.
- Обзоры продуктов и списки (Listicles): переключение между элементами списка.
- Спортивные видео: голы, фолы, важные события.
Специфические запросы: Информационные и обучающие запросы, где пользователь ищет конкретный фрагмент внутри видео.

Когда применяется

При каких условиях работает алгоритм: Алгоритм генерации работает во время индексации видеоконтента.
Триггеры активации: Активация происходит, когда система обнаруживает контент, соответствующий Interest Criteria. Триггерами служат:
- Изменение Dominant Intent видео.
- Семантические индикаторы в аудио/тексте: фразы типа «The next step», «Moving on».
- Визуальные индикаторы: смена сцены, появление нового объекта в кадре, текст на экране (OCR).

Пошаговый алгоритм

Процесс генерации временных анкорей (Server-Side)

Идентификация ключевых моментов: Анализ мультимодальных сигналов видео для определения Key Moment Identifiers, соответствующих Interest Criteria (например, путем отслеживания смены Dominant Intent).
Выбор подмножества видео: Для каждого идентификатора выбирается короткий сегмент (Proper Subset, например, 6 секунд), начинающийся в этот момент.
Генерация текстовой метки: Анализ контента (речь, OCR, субтитры) в Proper Subset для генерации описательной Textual Label.
Анализ кадров и выбор миниатюры: Video Frame Selection Engine обрабатывает кадры в Proper Subset:
1. Оценка разнообразия: Вычисляется Diversity Measure. Если разнообразие низкое (например, только «говорящая голова»), система может решить не включать изображение (переход к шагу 5).
2. Генерация меток кадра: Для кадров определяются метки, описывающие их визуальное содержание.
3. Расчет сходства: Вычисляется Similarity Measure между метками кадра и Textual Label сегмента.
4. Выбор кадра: Выбирается кадр с наивысшим сходством, при условии, что он превышает порог (selection threshold).
Генерация анкоря: Создается Video Timed Anchor, включающий метку, выбранное изображение (если есть) и временной индекс.
Индексация: Анкоря сохраняются в Video Anchor Index.

Какие данные и как использует

Данные на входе

Система использует мультимодальный подход, анализируя следующие типы данных:

Мультимедиа факторы:
- Видеокадры (Visual Signals): используются для генерации эмбеддингов, распознавания объектов (Label Generation), анализа смены сцен.
- Аудиодорожка (Audio): используется для распознавания речи и анализа интента.
Контентные факторы (Text Signals):
- OCR: Текст, распознанный из кадров видео.
- Субтитры (Caption data).
- Метаданные (Metadata).
Пользовательские факторы:
- Manual Curations: Таймкоды или аннотации, созданные вручную авторами.

Какие метрики используются и как они считаются

Interest Criteria: Правила или модели ML (упоминаются нейронные сети), определяющие значимые темы (salient topics). Они могут основываться на анализе Dominant Intent и поиске семантических или визуальных индикаторов.
Similarity Measure (Мера сходства): Метрика, измеряющая сходство между метками, описывающими содержание кадра, и Textual Label анкоря. Используется для выбора наиболее релевантного кадра.
Selection Threshold (Порог выбора): Минимальный порог Similarity Measure, необходимый для выбора кадра.
Diversity Measure (Мера разнообразия): Метрика, измеряющая разницу между видеокадрами в Proper Subset. Используется для оценки визуальной информативности и принятия решения о включении изображения.

Выводы

Мультимодальный анализ для структурирования видео: Google индексирует видео не как единый объект, а как набор сегментов. Для этого используется сложная комбинация аудио, визуальных и текстовых сигналов (включая OCR и субтитры) для автоматического понимания структуры контента.
Адаптивные критерии идентификации: Система использует гибкие Interest Criteria, зависящие от типа видео (лекция, спорт, инструкция), для определения того, что является «ключевым моментом».
Интеллектуальный и семантический выбор миниатюр: Выбор миниатюры не случаен. Система стремится выбрать кадр, который визуально наиболее релевантен текстовой метке сегмента, используя Similarity Measure.
Приоритет информативности и отказ от однообразия: Патент явно описывает механизм отказа от миниатюр, если видеоряд однообразен (низкая Diversity Measure) и неинформативен (например, статичная лекция). В таких случаях предпочтение отдается текстовому описанию.
Точность через анализ коротких фрагментов: Для генерации меток и выбора кадров анализируются только короткие фрагменты (Proper Subset) в начале момента, чтобы обеспечить высокую точность и избежать «дрейфа темы».
Важность ручной разметки: Manual Curations (таймкоды автора) официально признаются одним из источников данных для системы.

Практика

Best practices (это мы делаем)

Четкое структурирование контента: Создавайте видео с логичной структурой и явными переходами между разделами. Это помогает системе идентифицировать дискретные salient topics и смену Dominant Intent.
Использование явных сигналов (Signposting):
- Вербальные индикаторы: Используйте четкие фразы для обозначения смены темы или начала нового шага («Следующий шаг», «Теперь рассмотрим»). Патент указывает, что такие семантические индикаторы помогают определить Key Moments.
- Текст на экране (OCR): Дублируйте заголовки разделов текстом в кадре. OCR является важным текстовым сигналом для генерации Textual Label.
Обеспечение визуальной релевантности и разнообразия: Убедитесь, что видеоряд соответствует обсуждаемой теме, особенно в начале сегмента (Proper Subset). Система использует Similarity Measure для выбора кадра и Diversity Measure для оценки его информативности. Если вы говорите о продукте, покажите продукт крупным планом.
Высокое качество аудио и субтитры: Обеспечьте чистый звук для корректного распознавания речи и загружайте точные субтитры, так как это ключевые источники для определения тем.
Предоставление ручной разметки (таймкоды): Всегда предоставляйте таймкоды (например, в описании YouTube). Патент подтверждает использование Manual Curations как источника данных.

Worst practices (это делать не надо)

Монотонный видеоряд («Говорящая голова»): Видео с однообразным видеорядом рискуют не получить визуальные анкоря. Система определит низкую Diversity Measure и может решить не включать изображения, что снижает привлекательность в SERP.
Отсутствие структуры и плавные переходы: Неструктурированный контент без четких границ между темами затрудняет автоматическое выделение ключевых моментов.
Рассинхронизация визуала и аудио: Если аудиодорожка не соответствует видеоряду, система может сгенерировать нерелевантные метки или выбрать неподходящие кадры из-за низкого Similarity Measure.
Низкое качество продакшена: Плохой звук или нечеткое изображение затрудняют анализ аудио и визуальных сигналов.

Стратегическое значение

Патент подтверждает стратегический курс Google на глубокое мультимодальное понимание видеоконтента. Цель — сделать видео таким же удобным для навигации и «сканирования», как веб-страницы. Для SEO это означает, что оптимизация внутренней структуры видео становится критически важной. Получение Key Moments дает значительное конкурентное преимущество в SERP, позволяя видео ранжироваться по различным интентам, соответствующим его сегментам.

Практические примеры

Сценарий: Оптимизация видео-обзора трех смартфонов для получения Key Moments.

Цель: Получить отдельные анкоря для обзора каждого смартфона (Pixel 3, Pixel 3 XL, Pixel 2).

Структурирование: Четко разделить видео на три сегмента.
Сигнализирование начала сегмента (например, Pixel 3 XL):
- Аудио: Четко сказать: «Переходим к номеру 2: Google Pixel 3 XL».
- Текст на экране (OCR): Показать плашку с текстом «No. 2: Google Pixel 3 XL».
Обеспечение визуальной релевантности (Proper Subset): В течение первых секунд этого сегмента показать крупным планом Pixel 3 XL, а не лицо ведущего.
Ожидаемый результат: Google идентифицирует начало обзора как Key Moment. Используя аудио и OCR, генерирует точный Textual Label («No. 2: Google Pixel 3 XL»). Анализируя кадры, система определяет высокое сходство (Similarity Measure) между кадрами с телефоном и меткой, и выбирает релевантный кадр для визуального анкоря (как показано на FIG. 1 патента).

Вопросы и ответы

Как Google решает, показывать ли изображение в Key Moment или только текст?

Решение основано на информативности кадров в начале сегмента. Система анализирует «меру разнообразия» (Diversity Measure). Если кадры однообразны (например, статичное лицо спикера) и не добавляют информации, Google может опустить изображение и показать только текст, возможно, более длинный и описательный.

Какой именно кадр Google выберет для миниатюры Key Moment?

Система анализирует короткий фрагмент (Proper Subset, например, 6 секунд) в начале момента. Она не берет первый кадр, а выбирает тот, который имеет наивысшую «меру сходства» (Similarity Measure) с сгенерированной текстовой меткой сегмента. Это гарантирует выбор наиболее репрезентативного кадра.

Какие источники данных Google использует для генерации текста (меток) Key Moments?

Используется мультимодальный подход. Основные источники: аудиодорожка (распознавание речи), субтитры (Caption data), текст, видимый на экране (распознанный через OCR), метаданные видео и ручная разметка (Manual Curations), предоставленная авторами (таймкоды).

Влияет ли тип видео на то, как Google ищет ключевые моменты?

Да, патент明确 указывает, что «критерии интереса» (Interest Criteria) адаптируются к разным типам видео. Логика идентификации значимых тем (salient topics) будет отличаться для спорта (голы), инструкций (новые шаги) и лекций (смена темы).

Что такое «Proper Subset of the Video» и почему он важен для SEO?

Это короткий фрагмент видео (несколько секунд) в самом начале ключевого момента. Система анализирует именно его для генерации метки и выбора кадра. Для SEO это означает, что критически важно оптимизировать первые секунды каждого раздела видео: четко заявить тему (аудио/текст) и показать релевантный визуал.

Как SEO-специалист может повлиять на текст и изображение, выбранные Google?

Необходимо обеспечить четкие сигналы в начале сегмента. Используйте описательные формулировки в речи и дублируйте их текстом на экране (для OCR). Убедитесь, что визуальный ряд соответствует теме: если вы хотите показать продукт на миниатюре, покажите его крупным планом в начале сегмента.

Является ли ручная разметка таймкодов (YouTube Chapters) гарантией появления Key Moments?

Патент упоминает Manual Curations как один из источников данных. Хотя это не гарантия, предоставление точной ручной разметки значительно увеличивает вероятность того, что система использует эти данные для формирования Video Timed Anchors, и они обычно имеют приоритет над автоматическими.

Что такое «Dominant Intent» и как он используется?

Dominant Intent — это основная тема сегмента видео, определяемая с помощью моделей машинного обучения. Система отслеживает это намерение с течением времени. Когда Dominant Intent меняется (например, переход от вступления к шагу 1), это служит сильным триггером для идентификации нового ключевого момента.

Описывает ли патент использование наличия Key Moments в ранжировании видео?

Патент фокусируется на генерации анкорей для улучшения навигации и не описывает их как прямой фактор ранжирования. Однако наличие Key Moments значительно улучшает представление в SERP (Rich Result) и положительно влияет на поведенческие сигналы (например, CTR, вовлеченность), что косвенно влияет на эффективность видео.

Применяется ли эта технология только в результатах поиска Google?

Нет. Патент описывает применение в любом окружении для воспроизведения видео (video player environment). Это включает как сниппеты в результатах поиска (Key Moments), так и интерфейсы видеоплееров, например, для автоматической генерации глав на YouTube.