
Google использует систему для анализа видеоконтента с помощью текстовых, визуальных и аудиосигналов. Система определяет "ключевые моменты" (salient topics), генерирует для них текстовые метки и интеллектуально выбирает наиболее релевантные стоп-кадры. Эти "временные анкоря" (Video Timed Anchors) позволяют пользователям понять структуру видео и перейти к интересующему сегменту прямо из поиска или плеера.
Патент решает проблему сложности навигации и быстрого ознакомления («сканирования») видеоконтента по сравнению с текстом. Пользователям трудно найти конкретную информацию внутри видео без его полного просмотра или ручной перемотки. Изобретение улучшает пользовательский опыт, предоставляя обзор содержания видео и возможность быстрого перехода к интересующим сегментам (key moments), что также экономит сетевые ресурсы.
Запатентована система автоматической генерации и отображения временных анкорей для видео (Video Timed Anchors), известных как «Key Moments». Система идентифицирует ключевые моменты в видео на основе критериев интереса (interest criteria), которые определяют значимые темы (salient topics). Для каждого момента генерируется текстовая метка (textual label) и интеллектуально выбирается наиболее подходящий и информативный видеокадр (video frame).
Система использует мультимодальный анализ для обработки видео:
Interest Criteria (например, смена темы, начало нового шага).proper subset).Similarity Measure) и разнообразия (Diversity Measure), чтобы выбрать лучший кадр или решить не использовать изображение, если кадры однообразны.Высокая. Патент опубликован в 2024 году и описывает технологию, лежащую в основе функции «Key Moments» в Google Поиске и автоматических глав (Auto Chapters) на YouTube. Это центральный элемент современной стратегии структурирования видеоконтента.
Влияние на SEO значительно (85/100). Патент описывает механизм, который критически влияет на видимость и кликабельность видео в поиске. Получение Key Moments формирует расширенный сниппет (Rich Result), значительно увеличивает занимаемое пространство в SERP и может повысить CTR. Понимание того, как Google автоматически генерирует эти моменты, необходимо для эффективной оптимизации видеоконтента.
Textual Label, временную метку и, опционально, изображение. Позволяет пользователю перейти к определенному моменту воспроизведения (playback time).time index value) и соответствуют Interest Criteria.salient topic) в видео. Критерии адаптируются под тип контента (например, голы в спорте, смена шага в инструкции, смена темы в лекции).Textual Label сегмента.Proper Subset. Помогает определить информативность кадров. Если разнообразие низкое (например, «говорящая голова»), изображение может быть опущено.Примечание: В предоставленном тексте патента пункты 1-22 отменены (canceled). Анализ основан на действующих пунктах 23 и далее.
Claim 23 (Независимый пункт): Описывает процесс на стороне пользовательского устройства (клиента).
Video Anchors. Каждый анкорь содержит Textual Label для ключевого момента и инструкцию для перехода к этому времени воспроизведения (playback time).Claim 30 (Зависимый): Детализирует процесс генерации анкоря (серверная сторона), на который опирается клиент.
subset of the video), начиная с времени ключевого момента.Textual Label для этого подмножества.Video Anchor.Claim 32 (Зависимый от 30): Описывает механизм выбора кадра (миниатюры).
set of labels), описывающие его содержание.Similarity Measure между метками кадра и Textual Label анкоря.Изобретение в основном применяется на этапе индексирования, а результаты используются при формировании выдачи.
INDEXING – Индексирование и извлечение признаков
Это основной этап работы системы. Video Time Anchor Generator System анализирует видеоконтент.
Key Moment Identifier Network (часто нейронная сеть) обрабатывает мультимодальные сигналы (текст, визуал, аудио) для определения ключевых моментов на основе Interest Criteria и смены Dominant Intent.Video Frame Selection Engine анализирует сегменты (Proper Subsets) вокруг этих моментов, генерирует текстовые метки и интеллектуально выбирает (или отклоняет) кадры.Video Anchor Index.METASEARCH – Метапоиск и Смешивание
На этапе формирования ответа пользователю система извлекает релевантные видео. Если для видео существуют данные в Video Anchor Index, они используются для обогащения сниппета видео в SERP (создание Rich Result с Key Moments) или в интерфейсе видеоплеера.
Входные данные:
Caption), Метаданные (Metadata).Manual Curations).Interest Criteria).Выходные данные:
Video Timed Anchors (временная метка, Textual Label, ссылка на изображение).Interest Criteria. Триггерами служат: Dominant Intent видео.Процесс генерации временных анкорей (Server-Side)
Key Moment Identifiers, соответствующих Interest Criteria (например, путем отслеживания смены Dominant Intent).Proper Subset, например, 6 секунд), начинающийся в этот момент.Proper Subset для генерации описательной Textual Label.Video Frame Selection Engine обрабатывает кадры в Proper Subset: Diversity Measure. Если разнообразие низкое (например, только «говорящая голова»), система может решить не включать изображение (переход к шагу 5).Similarity Measure между метками кадра и Textual Label сегмента.selection threshold).Video Timed Anchor, включающий метку, выбранное изображение (если есть) и временной индекс.Video Anchor Index.Система использует мультимодальный подход, анализируя следующие типы данных:
Visual Signals): используются для генерации эмбеддингов, распознавания объектов (Label Generation), анализа смены сцен.Audio): используется для распознавания речи и анализа интента.Text Signals): Caption data).Metadata).Manual Curations: Таймкоды или аннотации, созданные вручную авторами.salient topics). Они могут основываться на анализе Dominant Intent и поиске семантических или визуальных индикаторов.Textual Label анкоря. Используется для выбора наиболее релевантного кадра.Similarity Measure, необходимый для выбора кадра.Proper Subset. Используется для оценки визуальной информативности и принятия решения о включении изображения.Interest Criteria, зависящие от типа видео (лекция, спорт, инструкция), для определения того, что является «ключевым моментом».Similarity Measure.Diversity Measure) и неинформативен (например, статичная лекция). В таких случаях предпочтение отдается текстовому описанию.Proper Subset) в начале момента, чтобы обеспечить высокую точность и избежать «дрейфа темы».Manual Curations (таймкоды автора) официально признаются одним из источников данных для системы.salient topics и смену Dominant Intent.Key Moments.Textual Label.Proper Subset). Система использует Similarity Measure для выбора кадра и Diversity Measure для оценки его информативности. Если вы говорите о продукте, покажите продукт крупным планом.Manual Curations как источника данных.Diversity Measure и может решить не включать изображения, что снижает привлекательность в SERP.Similarity Measure.Патент подтверждает стратегический курс Google на глубокое мультимодальное понимание видеоконтента. Цель — сделать видео таким же удобным для навигации и «сканирования», как веб-страницы. Для SEO это означает, что оптимизация внутренней структуры видео становится критически важной. Получение Key Moments дает значительное конкурентное преимущество в SERP, позволяя видео ранжироваться по различным интентам, соответствующим его сегментам.
Сценарий: Оптимизация видео-обзора трех смартфонов для получения Key Moments.
Цель: Получить отдельные анкоря для обзора каждого смартфона (Pixel 3, Pixel 3 XL, Pixel 2).
Key Moment. Используя аудио и OCR, генерирует точный Textual Label («No. 2: Google Pixel 3 XL»). Анализируя кадры, система определяет высокое сходство (Similarity Measure) между кадрами с телефоном и меткой, и выбирает релевантный кадр для визуального анкоря (как показано на FIG. 1 патента).Как Google решает, показывать ли изображение в Key Moment или только текст?
Решение основано на информативности кадров в начале сегмента. Система анализирует «меру разнообразия» (Diversity Measure). Если кадры однообразны (например, статичное лицо спикера) и не добавляют информации, Google может опустить изображение и показать только текст, возможно, более длинный и описательный.
Какой именно кадр Google выберет для миниатюры Key Moment?
Система анализирует короткий фрагмент (Proper Subset, например, 6 секунд) в начале момента. Она не берет первый кадр, а выбирает тот, который имеет наивысшую «меру сходства» (Similarity Measure) с сгенерированной текстовой меткой сегмента. Это гарантирует выбор наиболее репрезентативного кадра.
Какие источники данных Google использует для генерации текста (меток) Key Moments?
Используется мультимодальный подход. Основные источники: аудиодорожка (распознавание речи), субтитры (Caption data), текст, видимый на экране (распознанный через OCR), метаданные видео и ручная разметка (Manual Curations), предоставленная авторами (таймкоды).
Влияет ли тип видео на то, как Google ищет ключевые моменты?
Да, патент明确 указывает, что «критерии интереса» (Interest Criteria) адаптируются к разным типам видео. Логика идентификации значимых тем (salient topics) будет отличаться для спорта (голы), инструкций (новые шаги) и лекций (смена темы).
Что такое «Proper Subset of the Video» и почему он важен для SEO?
Это короткий фрагмент видео (несколько секунд) в самом начале ключевого момента. Система анализирует именно его для генерации метки и выбора кадра. Для SEO это означает, что критически важно оптимизировать первые секунды каждого раздела видео: четко заявить тему (аудио/текст) и показать релевантный визуал.
Как SEO-специалист может повлиять на текст и изображение, выбранные Google?
Необходимо обеспечить четкие сигналы в начале сегмента. Используйте описательные формулировки в речи и дублируйте их текстом на экране (для OCR). Убедитесь, что визуальный ряд соответствует теме: если вы хотите показать продукт на миниатюре, покажите его крупным планом в начале сегмента.
Является ли ручная разметка таймкодов (YouTube Chapters) гарантией появления Key Moments?
Патент упоминает Manual Curations как один из источников данных. Хотя это не гарантия, предоставление точной ручной разметки значительно увеличивает вероятность того, что система использует эти данные для формирования Video Timed Anchors, и они обычно имеют приоритет над автоматическими.
Что такое «Dominant Intent» и как он используется?
Dominant Intent — это основная тема сегмента видео, определяемая с помощью моделей машинного обучения. Система отслеживает это намерение с течением времени. Когда Dominant Intent меняется (например, переход от вступления к шагу 1), это служит сильным триггером для идентификации нового ключевого момента.
Описывает ли патент использование наличия Key Moments в ранжировании видео?
Патент фокусируется на генерации анкорей для улучшения навигации и не описывает их как прямой фактор ранжирования. Однако наличие Key Moments значительно улучшает представление в SERP (Rich Result) и положительно влияет на поведенческие сигналы (например, CTR, вовлеченность), что косвенно влияет на эффективность видео.
Применяется ли эта технология только в результатах поиска Google?
Нет. Патент описывает применение в любом окружении для воспроизведения видео (video player environment). Это включает как сниппеты в результатах поиска (Key Moments), так и интерфейсы видеоплееров, например, для автоматической генерации глав на YouTube.

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент

Семантика и интент
Мультимедиа
Индексация

Семантика и интент
Мультимедиа
Индексация

Семантика и интент
Knowledge Graph

Семантика и интент
Поведенческие сигналы
Local SEO

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Knowledge Graph
Ссылки
EEAT и качество

Ссылки
Индексация
Техническое SEO

Персонализация
EEAT и качество
Поведенческие сигналы

Ссылки
Антиспам
Краулинг

Семантика и интент
Персонализация
Поведенческие сигналы
