Как Google делает объекты в видео интерактивными, связывая их с товарами, рекламой или внешним контентом

Патент Google, описывающий технологию для видеоплатформ (например, YouTube), которая позволяет автоматически распознавать объекты в видео (товары, лица) и делать их кликабельными. Авторы или рекламодатели могут привязывать к этим объектам теги (ссылки на сайты, рекламу, другие видео), которые отображаются зрителю во время просмотра.

Описание

Какую задачу решает

Патент решает задачу превращения пассивного видеоконтента в интерактивный опыт. Он устраняет разрыв между просмотром объектов в видео (например, товаров) и взаимодействием с ними (например, покупкой или получением информации). Система направлена на повышение вовлеченности зрителей и создание новых возможностей для монетизации видеоконтента, таких как «shoppable video».

Что запатентовано

Запатентована система создания и обработки интерактивных тегов (Tags) для объектов (Objects) в видео. Ключевыми элементами являются автоматическое распознавание объектов с помощью object recognition techniques и предварительная обработка (Preprocessing) видео для отслеживания этих объектов во всех кадрах. Также запатентован интерфейс воспроизведения, включающий отдельную область (Second display area), где тегированные объекты сохраняются (persist) даже после исчезновения из основного кадра.

Как это работает

Система работает в двух основных режимах:

Создание тегов: Автор или рекламодатель идентифицирует объект (выбирая его в кадре или загружая внешнее изображение) и привязывает к нему Tag (например, URL). Система использует данные Preprocessing, чтобы автоматически найти все вхождения этого объекта в видео и ассоциировать с ними тег.
Воспроизведение: Во время просмотра тегированные объекты могут подсвечиваться (highlighted) в кадре или отображаться в отдельной панели (Second display area). Если зритель кликает на объект, система обрабатывает Tag и отображает связанный контент (например, открывает веб-сайт) одновременно (concomitant) с воспроизведением.

Актуальность для SEO

Высокая (для видеоплатформ). Описанная технология напрямую связана с развитием интерактивной видеорекламы и функций e-commerce на платформах вроде YouTube (упомянутом в патенте). Учитывая тренд на «shoppable video», механизмы автоматического распознавания товаров и их интеграции с коммерческими ссылками крайне актуальны на 2025 год.

Важность для SEO

(2/10). Влияние на традиционное SEO (ранжирование в веб-поиске) минимальное. Патент не описывает алгоритмы ранжирования. Он полностью сосредоточен на функциональности видеоплеера и инфраструктуре видеоплатформы. Однако он имеет значение для VSEO (Video SEO) с точки зрения понимания инструментов для повышения вовлеченности, монетизации и генерации прямого трафика из видео на внешние ресурсы.

Детальный разбор

Термины и определения

Object (Объект): Любая визуально различимая область или регион в видеоконтенте. Примеры: товары (product), лица (face), люди, места, текст.
Tag (Тег): Ссылка (reference) на внешний медиаресурс (media content item), привязанная к объекту. Включает инструкции по отображению контента.
Preprocessing (Препроцессинг): Предварительный анализ видеоконтента для распознавания объектов и идентификации всех их вхождений в разных кадрах до момента тегирования или воспроизведения.
Object recognition techniques (Техники распознавания объектов): Методы компьютерного зрения для идентификации и отслеживания объектов. Включает image recognition и специализированные facial recognition techniques.
First display area (Первая область отображения): Основная область интерфейса, где воспроизводится видео.
Second display area (Вторая область отображения / Object Display Area): Отдельная область интерфейса, где отображаются тегированные объекты. Объекты могут сохраняться (persist) в этой области даже после того, как они исчезли из First display area.
Sponsored-content item (Спонсорский контент): Медиаресурс, связанный с тегом, часто рекламного характера (advertisement).
Video Preprocessor / Video Analyzer: Компоненты системы, выполняющие анализ и распознавание объектов в видео.
Tag Attacher: Компонент системы, генерирующий и привязывающий теги к объектам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод создания интерактивного тега, акцентируя внимание на использовании внешнего изображения и препроцессинге.

Система (Video content item provider) получает изображение, изображающее первый объект.
Выполняется препроцессинг (pre-processing) видеоконтента (отдельно от полученного изображения) для идентификации вхождений этого объекта в кадрах видео.
Система вызывает отображение видеоконтента на устройстве пользователя.
Система получает выбор первого объекта в первом кадре.
Система получает первую ссылку (first reference) на дополнительный контент.
Генерируется первый тег (first tag) для объекта. Тег включает ссылку и инструкции, вызывающие отображение дополнительного контента одновременно (concomitant) с воспроизведением видео.

Ключевой аспект Claim 1: система может идентифицировать объект на основе внешнего изображения, а не только путем выбора в кадре. Это критически важно для рекламодателей, желающих найти все вхождения своего продукта.

Claim 2 (Зависимый от 1): Детализирует механизм препроцессинга.

Препроцессинг включает выполнение object recognition technique для кадров видео. Для каждого найденного вхождения объекта система сохраняет ассоциацию между объектом и кадром.

Claim 3 (Зависимый от 1): Описывает визуальное выделение объекта.

Система вызывает отображение первого кадра так, что часть кадра, включающая первый объект, подсвечивается (highlighted) во время показа.

Claim 5 (Зависимый от 1): Описывает альтернативный интерфейс отображения.

Система вызывает отображение части кадра, включающей первый объект, во второй области отображения (second display area), которая отделена от первой области отображения (first display area).

Claim 8 (Зависимый от 7): Перечисляет опции управления показом контента.

Опции включают: прерывание воспроизведения видео; открытие в новом окне; подсветку объекта; показ контента в отдельной области; показ контента после завершения видео.

Claim 9 (Зависимый от 1): Описывает автоматизацию тегирования.

Система идентифицирует дополнительные вхождения первого объекта в других кадрах и помечает (tagging) по крайней мере одно из них тем же первым тегом. Это обеспечивает интерактивность объекта на протяжении всего видео.

Где и как применяется

Этот патент не относится к стандартной 6-этапной архитектуре веб-поиска Google (CRAWLING, RANKING и т.д.). Он описывает инфраструктуру и функциональность платформы видеохостинга (например, YouTube) и видеоплеера.

Обработка и Анализ Видео (Аналог INDEXING для видеоплатформы)
Происходит после загрузки видео. Компоненты Video preprocessor и Video analyzer выполняют Preprocessing, используя object recognition techniques для идентификации визуальных объектов и их местоположения в кадрах. Это этап извлечения признаков, сфокусированный на интерактивности.

Управление Контентом (Content Management)
Интерфейс для авторов. Компонент Tag attacher используется для привязки Tags к идентифицированным объектам на основе ввода пользователя (выбор объекта или загрузка изображения) и данных препроцессинга.

Воспроизведение и Взаимодействие (Playback Phase)
Происходит на устройстве пользователя. Video Server доставляет видео и метаданные тегов. Video Player отображает видео, подсветку объектов и Second display area. Tag processor обрабатывает клики пользователя и отображает связанный контент.

Входные данные:

Видеоконтент.
Изображение объекта (предоставленное автором для идентификации).
Ссылка на внешний ресурс (Tag) и настройки отображения.

Выходные данные:

Метаданные, идентифицирующие объекты и их расположение в кадрах.
Интерактивный видеоконтент с привязанными тегами.

На что влияет

Конкретные типы контента: Исключительно видеоконтент на платформах, поддерживающих эту технологию.
Конкретные ниши или тематики: Наибольшее влияние в E-commerce («shoppable video», обзоры продуктов), образовании (интерактивные туры) и видеорекламе.

Когда применяется

При загрузке/обработке видео: Активируется Preprocessing для анализа объектов.
При редактировании видео: Когда автор использует инструменты для добавления интерактивности (привязки Tags).
При просмотре видео: Когда зритель взаимодействует с тегированным объектом в плеере.

Пошаговый алгоритм

Этап А: Предварительная обработка (Офлайн / Фоновый режим)

Получение видео: Видео загружается на платформу.
Анализ кадров: Video Preprocessor анализирует кадры видео.
Распознавание и отслеживание: Применение object recognition techniques для идентификации визуальных объектов и группировки экземпляров одного и того же объекта в разных кадрах.
Сохранение данных: Сохранение идентификаторов объектов и их местоположения в виде метаданных.

Этап Б: Создание тегов (Интерфейс автора)

Идентификация объекта: Автор предоставляет изображение объекта (Claim 1) ИЛИ выбирает его в одном из кадров.
Поиск соответствий: Система использует данные Этапа А или выполняет анализ для идентификации всех вхождений этого объекта.
Предоставление ссылки и настроек: Автор предоставляет ссылку (reference) и выбирает параметры отображения (Claim 8).
Генерация и привязка тега: Tag Attacher генерирует Tag и ассоциирует его с идентифицированными вхождениями объекта (Claim 9).

Этап В: Воспроизведение и взаимодействие (Интерфейс зрителя)

Воспроизведение: Video Player воспроизводит видео и данные тегов.
Индикация интерактивности: Объекты с тегами подсвечиваются (Claim 3) И/ИЛИ отображаются в Second display area (Claim 5).
Выбор объекта: Зритель взаимодействует с объектом.
Обработка тега: Tag Processor обрабатывает тег и отображает связанный контент одновременно с видео (Claim 1), согласно настройкам.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Видеоданные (пиксели в кадрах) являются основным источником для распознавания. Внешние изображения (image depicting a first object), предоставляемые авторами, используются как эталон для поиска.
Пользовательские факторы (Взаимодействие): Данные, вводимые автором (ссылки, настройки тегов). Данные о выборе объекта зрителем (клик/касание).

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования. Он фокусируется на механизмах идентификации.

Методы анализа (Computer Vision): Ключевым методом является Object recognition technique. Он используется для сравнения эталонного изображения объекта с контентом в кадрах видео. Также упоминаются facial recognition techniques.
Пороговые значения: При поиске совпадений система может использовать пороги вероятности (threshold probability), чтобы определить, является ли объект в кадре искомым объектом.

Выводы

Инфраструктура для интерактивного видео, а не поиск: Патент описывает функциональность видеоплатформы и плеера. Он не имеет отношения к алгоритмам органического поиска Google и не дает выводов для традиционного SEO.
Автоматизация через компьютерное зрение: Ключевой технологией является автоматическое распознавание (Object Recognition) и отслеживание объектов через Preprocessing. Это позволяет масштабировать привязку тегов ко всем вхождениям объекта в видео.
Гибкость идентификации объектов: Система поддерживает идентификацию объектов как через выбор в кадре, так и через загрузку внешнего изображения (Claim 1), что удобно для рекламодателей.
Улучшение UX взаимодействия: Механизм Second display area позволяет сохранять кликабельные объекты доступными, даже если они появились в кадре ненадолго. Подсветка (highlighting) также улучшает заметность интерактивных элементов (Claim 3).
Фокус на монетизации и E-commerce: Система явно ориентирована на связь видеоконтента с коммерческими предложениями (Sponsored-content), закладывая основу для «shoppable video».

Практика

ВАЖНО: Патент является инфраструктурным и описывает функционал видеоплатформы (например, YouTube). Практическое применение касается VSEO (Video SEO) и стратегии контент-маркетинга на этих платформах, а не традиционного SEO.

Best practices (это мы делаем)

Использование функций интерактивности (YouTube Shopping): Активно использовать инструменты платформы, основанные на этой технологии, для отметки товаров в видео. Это позволяет напрямую генерировать трафик и конверсии из видеоконтента на целевые страницы сайта.
Обеспечение визуальной четкости объектов: При создании коммерческого видео (обзоры, демонстрации) необходимо обеспечивать четкое, хорошо освещенное изображение ключевых товаров. Это повышает вероятность их корректного автоматического распознавания системой (Object Recognition) для последующего тегирования.
Стимулирование взаимодействия с учетом UX: Понимая, что тегированные объекты могут быть доступны в отдельной панели (Second display area) или подсвечены в кадре (highlighting), следует вербально или визуально поощрять зрителей к взаимодействию с этими элементами (например, «Товары из обзора доступны по ссылкам рядом с видео»).

Worst practices (это делать не надо)

Игнорирование инструментов монетизации: Неиспользование доступных функций для привязки тегов к объектам в коммерческом контенте приводит к упущенной выгоде и снижению эффективности видеомаркетинга.
Создание визуально «зашумленного» контента: Плохое освещение, быстрое движение или перегрузка кадра могут снизить эффективность автоматического распознавания объектов и усложнить взаимодействие зрителя с тегами.
Вводящее в заблуждение тегирование: Привязка нерелевантных ссылок к объектам. Это ухудшает пользовательский опыт и может нарушать правила платформы.

Стратегическое значение

Патент подтверждает стратегию Google по превращению видеоплатформ в интерактивные площадки с глубокой интеграцией e-commerce. Для бизнеса это подчеркивает важность использования видео как прямого инструмента продаж. Стратегия VSEO должна учитывать возможности интерактивного взаимодействия и оптимизировать контент для эффективного использования технологий распознавания объектов.

Практические примеры

Сценарий: Использование YouTube Shopping для обзора техники

Задача: Максимизировать продажи нового смартфона через видеообзор.
Применение технологии: Автор использует инструменты YouTube Studio (реализующие механизмы патента).
Действия:
- При монтаже обеспечивается четкий показ смартфона с разных ракурсов.
- После загрузки автор использует функцию тегирования товаров. Он может загрузить фото смартфона (Claim 1) или выбрать его в кадре и привязать ссылку на магазин.
- Система (используя Preprocessing и Object Recognition) автоматически отслеживает смартфон на протяжении видео (Claim 9).
Результат: Во время просмотра зрители видят смартфон в панели товаров под видео (Second display area) или всплывающие интерактивные подсказки в кадре (highlighting). Кликнув на элемент, зритель переходит на страницу покупки, что повышает конверсию.

Вопросы и ответы

Влияет ли этот патент на ранжирование видео в поиске Google или YouTube?

Нет, напрямую не влияет. Патент описывает функциональность внутри видеоплеера – как сделать объекты кликабельными. Он не касается алгоритмов ранжирования. Однако успешное использование интерактивности может улучшить поведенческие факторы (например, вовлеченность и кликабельность), что косвенно может положительно сказаться на рекомендациях внутри платформы YouTube.

Что такое «Препроцессинг» (Preprocessing) видео в контексте этого патента?

Это предварительный автоматический анализ видеоконтента системой после его загрузки. Во время препроцессинга система использует object recognition techniques, чтобы идентифицировать все объекты в видео (товары, лица) и определить, в каких кадрах появляется каждый объект. Это позволяет в дальнейшем автоматически применять теги ко всем вхождениям объекта.

Что такое «Вторая область отображения» (Second display area) и зачем она нужна?

Это отдельная панель интерфейса плеера, помимо основного окна видео (например, полка с товарами под видео на YouTube). В ней отображаются тегированные объекты. Ключевая особенность – объекты сохраняются (persist) в этой области, даже если они уже исчезли из кадра. Это позволяет зрителю взаимодействовать с объектом, который мог появиться в видео ранее или на короткое время.

Могу ли я загрузить фото своего товара, чтобы система нашла его в видео?

Да, патент (Claim 1) явно предусматривает такую возможность. Вместо ручного выбора объекта в кадре, автор или рекламодатель может предоставить внешнее изображение объекта. Система использует его как образец для поиска совпадений в кадрах видео с помощью технологий распознавания.

Какие типы контента можно привязать к объекту с помощью тега?

Патент упоминает широкий спектр медиаресурсов: веб-страницы (URL), аудиоконтент, другие видео. Особо выделяется возможность привязки рекламы (advertisement) и спонсорского контента (sponsored-content item). На практике это ссылки на товары, сайты, плейлисты и т.д.

Какое практическое значение этот патент имеет для VSEO (Video SEO)?

Основное значение – улучшение конверсии и перенаправление трафика. Этот патент лежит в основе функций типа YouTube Shopping. Для VSEO это означает, что видео можно оптимизировать как прямой канал лидогенерации, используя интерактивные теги для перевода зрителей на целевые коммерческие страницы.

Может ли система автоматически подсвечивать объекты в видео?

Да, в патенте (Claim 3) описана возможность подсветки (highlighting) той части кадра, где находится тегированный объект. Это используется для привлечения внимания пользователя и указания на интерактивность объекта.

В чем разница между этой технологией и обычными подсказками (Cards) на YouTube?

Подсказки на YouTube привязаны к определенному времени в видео и появляются как наложенный элемент. Описанная технология позволяет привязать интерактивность непосредственно к визуальному объекту в кадре (например, к товару) и автоматически отслеживать этот объект по мере его перемещения в видео.

Используется ли здесь распознавание лиц?

Да, в описании патента явно упоминается возможность использования facial recognition techniques. Это позволяет, например, привязать тег к конкретному человеку в кадре, который ведет на его профиль в социальной сети или биографическую справку.

Кто может добавлять теги к видео согласно патенту?

Патент описывает процесс с точки зрения «пользователя», добавляющего теги (обычно это автор или рекламодатель). Также в описании (не в Claims) упоминается возможность предложить зрителю добавить тег, если он кликнул на нетегированный объект, что предполагает возможность краудсорсинга тегов.