Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически распознает товары в видео, комбинируя анализ текста и изображений

    PRODUCT IDENTIFICATION IN MEDIA ITEMS (Идентификация продуктов в медиа-элементах)
    • US20240037145A1
    • Google LLC
    • 2024-02-01
    • 2022-08-01
    2022 Google Shopping Мультимедиа Патенты Google

    Google использует мультимодальную систему для идентификации продуктов в контенте (например, видео). Система анализирует метаданные (заголовок, описание, субтитры) и визуальные данные (кадры видео) с помощью отдельных моделей. Затем Fusion Model объединяет эти сигналы для точного определения продукта и его временной метки. Результаты используются для автоматического обогащения метаданных контента и улучшения точности субтитров.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему точной и автоматизированной идентификации продуктов, представленных или упомянутых в медиа-контенте (например, видео или изображениях). Традиционные методы, полагающиеся только на создателей контента или анализ одного типа данных (только текст или только изображение), часто бывают неточными, трудоемкими или неполными. Изобретение улучшает способность поисковой системы понимать коммерческий контекст медиа-контента, автоматически связывать его с конкретными товарами и улучшать пользовательский опыт, связанный с покупками.

    Что запатентовано

    Запатентована система и метод мультимодальной идентификации продуктов в контенте. Суть изобретения заключается в использовании Fusion Model (модели объединения), которая принимает на вход результаты работы двух независимых систем: системы анализа метаданных (текста) и системы анализа изображений. Fusion Model вычисляет итоговую оценку уверенности (fused confidence value) для каждого идентифицированного продукта. На основе этой оценки система автоматически корректирует метаданные контента.

    Как это работает

    Система работает по следующей схеме:

    • Текстовый анализ: Первая модель (Text Parsing Model) анализирует метаданные контента (название, описание, субтитры) для выявления упоминаний продуктов и генерирует first confidence value.
    • Визуальный анализ: Вторая модель (Image Parsing Model) анализирует кадры видео. Она использует обнаружение объектов (Object Detection) и генерацию эмбеддингов (Embedding) для сравнения изображений с индексом продуктов (Product Image Index) и генерирует second confidence value.
    • Fusion (Объединение): Третья модель (Fusion Model) принимает на вход идентификаторы и оценки уверенности от первых двух моделей.
    • Итоговая оценка: Fusion Model вычисляет итоговую third confidence value.
    • Корректировка метаданных: На основе итоговой оценки система корректирует метаданные контента. Это может включать добавление тегов продуктов, временных меток (timestamps) или исправление ошибок в автоматически сгенерированных субтитрах (machine-generated captions).

    Актуальность для SEO

    Высокая. Автоматическое распознавание продуктов и превращение контента в инструмент электронной коммерции является стратегическим направлением для Google (особенно YouTube и Google Images). Мультимодальный анализ (объединение текста, аудио и видео) лежит в основе современных моделей ИИ (например, Gemini). Этот патент, поданный в 2022 году и опубликованный в 2024, описывает конкретную реализацию этой стратегии для e-commerce.

    Важность для SEO

    Патент имеет высокое значение для SEO, особенно в области Video SEO и E-commerce. Он раскрывает механизмы, с помощью которых Google преобразует неструктурированный контент (видео) в структурированные данные о продуктах. Понимание этого процесса критически важно для оптимизации контента с целью повышения его видимости в товарных вертикалях и улучшения релевантности по коммерческим запросам. Также он подчеркивает важность точности субтитров, так как система может автоматически их корректировать на основе визуального распознавания.

    Детальный разбор

    Термины и определения

    Content Item (Контент / Медиа-элемент)
    Цифровой контент, такой как видео, аудио, изображения или веб-страницы, в котором система пытается идентифицировать продукты.
    Product Identification System (Система идентификации продуктов)
    Система, предназначенная для автоматического распознавания продуктов в контенте.
    Metadata (Метаданные)
    Данные, ассоциированные с контентом. В контексте патента First metadata часто относится к текстовым данным: заголовку (Title), описанию (Description) и субтитрам (Captions).
    Image Data (Данные изображения)
    Визуальные данные контента, например, кадры (frames) из видео.
    Product Identifier (Идентификатор продукта)
    Уникальный код или название, идентифицирующее конкретный продукт.
    Confidence Value (Оценка уверенности)
    Числовая метрика, указывающая на вероятность того, что идентифицированный продукт действительно присутствует в контенте.
    Trained Machine Learning Model / Fusion Model (Обученная модель машинного обучения / Fusion-модель)
    Модель (часто упоминаемая как третья модель), которая принимает на вход результаты текстового и визуального анализа (идентификаторы и оценки уверенности) и генерирует итоговую (третью) оценку уверенности.
    Text Parsing Model (Модель анализа текста)
    Модель, используемая для извлечения идентификаторов продуктов из метаданных.
    Image Parsing Model / Image Identification (Модель анализа изображений)
    Модель или набор моделей, используемых для распознавания продуктов в визуальных данных.
    Embedding (Векторное представление / Эмбеддинг)
    Процесс преобразования данных (например, изображения) в низкоразмерное векторное представление (dimensionally reduced data).
    Object Detection (Обнаружение объектов)
    Процесс идентификации и локализации объектов на изображении.
    Machine-generated captions (Автоматически сгенерированные субтитры)
    Субтитры, созданные с помощью технологии преобразования речи в текст.
    Text Correction (Коррекция текста)
    Процесс исправления ошибок в тексте, например, исправление неверно распознанного названия продукта в субтитрах.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод объединения данных из разных источников для идентификации продукта.

    1. Получение первых данных: идентификатор продукта и оценка уверенности, определенные на основе первых метаданных (текста) контента.
    2. Получение вторых данных: идентификатор того же продукта и оценка уверенности, определенные на основе первых данных изображения контента.
    3. Предоставление первых и вторых данных обученной модели машинного обучения (Fusion Model).
    4. Получение от модели третьей оценки уверенности для этого продукта.
    5. Корректировка вторых метаданных контента на основе этой третьей оценки уверенности.

    Ядро изобретения — использование Fusion Model для объединения результатов текстового и визуального анализа с целью повышения точности и последующего автоматического обновления метаданных.

    Claim 3 (Зависимый от 2): Уточняет, что первые метаданные включают заголовок, описание или субтитры.

    Claim 4 (Зависимый от 1): Детализирует процесс визуального анализа.

    1. Предоставление данных изображения второй модели.
    2. Получение первых данных пониженной размерности (Embeddings) на выходе второй модели.
    3. Получение из хранилища вторых данных пониженной размерности, ассоциированных с продуктом.

    Визуальный анализ основан на сравнении векторных представлений (Embeddings) объекта в контенте с эталонными представлениями продуктов в базе данных.

    Claim 7 (Зависимый от 1): Описывает применение к видеоконтенту.

    Если контент — это видео, первые данные также включают указание на временную метку (timestamp) одного или нескольких кадров, связанных с продуктом. Корректировка метаданных включает добавление указания на продукт и эту временную метку.

    Claim 8 (Зависимый от 1): Уточняет, что корректировка метаданных может включать корректировку субтитров, связанных с продуктом.

    Claim 9 (Зависимый от 1): Описывает процесс обучения Fusion Model.

    Модель обучается на исторических данных, где на вход подаются результаты анализа изображений и метаданных (с оценками уверенности), а целевым выходом являются фактические (ground truth) данные о продуктах в контенте.

    Claim 11 (Независимый пункт): Описывает тот же процесс, что и Claim 1, но в виде последовательного конвейера из трех моделей.

    1. Метаданные -> Модель 1 -> Выход 1 (ID + Уверенность).
    2. Данные изображения -> Модель 2 -> Выход 2 (ID + Уверенность).
    3. Выход 1 + Выход 2 -> Модель 3 (Fusion) -> Выход 3 (ID + Уверенность).
    4. Корректировка метаданных на основе Выхода 3.

    Claim 15 (Зависимый от 11): Конкретизирует механизм коррекции субтитров.

    Если вторые метаданные включают автоматически сгенерированные субтитры, и язык, связанный с продуктом, был неправильно транскрибирован при их генерации, обновление метаданных включает замену неправильной части субтитров текстовым идентификатором продукта.

    Где и как применяется

    Изобретение в основном применяется на этапе индексирования и обработки контента после его загрузки на платформу, но влияет на последующие этапы ранжирования и отображения.

    CRAWLING / INDEXING – Сканирование, Индексирование и извлечение признаков

    Основной этап применения. После того как контент загружен или просканирован, система Product Identification System запускает процесс анализа:

    1. Извлечение признаков (Feature Extraction): Система извлекает метаданные (текст) и визуальные данные (кадры видео).
    2. NLP и Семантика (Text Identification): Текстовые данные обрабатываются моделью Text Parsing Model для поиска упоминаний продуктов.
    3. Компьютерное зрение (Image Identification): Визуальные данные обрабатываются для обнаружения объектов и генерации Embeddings. Происходит сравнение с индексом продуктов (Product Image Index).
    4. Fusion: Результаты объединяются с помощью Fusion Model.
    5. Обновление Индекса: Метаданные контента корректируются (Adjusting metadata) — в индекс добавляются структурированные данные о продуктах, временные метки и исправленные субтитры.

    RANKING – Ранжирование

    Система ранжирования использует обновленные метаданные. Наличие точных структурированных данных о продуктах и исправленных субтитров позволяет лучше оценить релевантность контента для товарных и информационных запросов.

    METASEARCH – Метапоиск и Смешивание

    Идентифицированные продукты могут использоваться для формирования специальных блоков в выдаче (SERP Features), таких как карусели товаров или блоки «Products in this video», связывая контент с вертикалью Google Shopping.

    Входные данные:

    • Сырой контент (видео, изображение).
    • Метаданные: Заголовок, Описание, Автоматические субтитры.
    • Индекс продуктов (Product Image Index, Product Identifiers).

    Выходные данные:

    • Идентификаторы продуктов, ассоциированных с контентом.
    • Итоговые оценки уверенности (third confidence value).
    • Временные метки (Timestamps) появления продуктов (для видео).
    • Скорректированные метаданные (включая исправленные субтитры).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на видеоконтент (YouTube) и изображения (Google Images).
    • Специфические запросы: Улучшает ранжирование по коммерческим запросам (названия продуктов, обзоры, сравнения).
    • Конкретные ниши или тематики: Наибольшее влияние в e-commerce, обзорах техники, моде, красоте, DIY — нишах, где часто демонстрируются конкретные товары.

    Когда применяется

    • Триггеры активации: Применяется при обработке нового контента или при повторной обработке существующего контента на платформе.
    • Условия работы: Система активируется, когда обнаруживает потенциальные продукты как в текстовых, так и в визуальных данных. Итоговая корректировка метаданных, вероятно, происходит, когда итоговая оценка уверенности (third confidence value) превышает определенный порог.

    Пошаговый алгоритм

    Процесс идентификации продуктов (на основе FIG. 3B и Claims):

    1. Инициализация и сбор данных: Получение контента (например, видео) и его метаданных (Заголовок, Описание, Субтитры).
    2. Параллельный анализ текста (Text Identification):
      1. Предоставление метаданных модели анализа текста (Text Parsing Model).
      2. Модель сравнивает текст с базой идентификаторов продуктов.
      3. Генерация Выхода 1: список кандидатов (first product identifier) и их оценок уверенности (first confidence value).
    3. Параллельный анализ изображений (Image Identification):
      1. Выбор кадров из видео (Frame Selection).
      2. Обнаружение объектов на кадрах (Object Detection).
      3. Генерация векторных представлений обнаруженных объектов (Embedding).
      4. Сравнение векторных представлений с индексом изображений продуктов (Product Image Index).
      5. Генерация Выхода 2: список кандидатов (second product identifier) и их оценок уверенности (second confidence value).
    4. Fusion (Объединение результатов):
      1. Сбор Выхода 1 и Выхода 2.
      2. Извлечение дополнительного контекста (Context Term Extraction) и признаков (Additional Feature Extraction).
      3. Предоставление всех данных на вход Fusion Model.
      4. Генерация Выхода 3: итоговый список продуктов (third product identifier) и финальных оценок уверенности (third confidence value).
    5. Корректировка метаданных (Adjusting Metadata):
      1. Если финальная оценка уверенности высока, метаданные контента обновляются.
      2. Добавление ассоциации с продуктом и временных меток.
      3. (Опционально) Коррекция текста: Если обнаружено расхождение между визуальной идентификацией и субтитрами, система исправляет субтитры, заменяя неверный текст на правильное название продукта (согласно Claim 15).

    Какие данные и как использует

    Данные на входе

    Система использует мультимодальные данные:

    • Контентные (Текстовые) факторы:
      • Заголовки (Title).
      • Описания (Description).
      • Субтитры (Captions), включая автоматически сгенерированные (machine-generated captions).
    • Мультимедиа (Визуальные) факторы:
      • Изображения или кадры видео (Image Data, Frames).
    • Системные данные:
      • База данных известных продуктов (Product Image Index, Product Identifiers).

    Какие метрики используются и как они считаются

    • Confidence Values (Оценки уверенности): Ключевая метрика патента. Вычисляются на трех этапах:
      • First confidence value: Уверенность текстовой модели.
      • Second confidence value: Уверенность визуальной модели. Вероятно, рассчитывается на основе схожести векторных представлений (например, косинусное расстояние между Embedding объекта и эталоном продукта).
      • Third confidence value: Итоговая уверенность Fusion Model. Рассчитывается путем обучения модели на исторических данных для оптимального взвешивания первых двух оценок и дополнительных признаков.
    • Dimensionally reduced data (Данные пониженной размерности / Embeddings): Векторные представления изображений, используемые для эффективного сравнения визуальной схожеosti.

    Выводы

    1. Мультимодальность как стандарт точности: Google не полагается только на текст или только на изображение для идентификации продуктов. Точность достигается за счет объединения сигналов из разных модальностей (текст, изображение) через Fusion Model.
    2. Автоматическое структурирование данных: Патент описывает конкретный механизм преобразования неструктурированного контента в структурированные сущности (продукты). Это позволяет Google лучше понимать содержание видео и связывать его с Knowledge Graph и Google Shopping.
    3. Визуальное подтверждение улучшает текстовую релевантность: Ключевой аспект (Claim 15) — возможность системы исправлять автоматически сгенерированные субтитры, если название продукта было неверно транскрибировано, но продукт был уверенно распознан визуально. Это означает, что визуальное содержание может напрямую влиять на текстовое содержание, индексируемое поиском.
    4. Важность векторных представлений (Embeddings): Визуальный поиск основан на генерации и сравнении Embeddings. Это подтверждает сдвиг в сторону семантического и визуального поиска, а не только поиска по ключевым словам.
    5. Временные метки и глубокое понимание видео: Система не просто определяет наличие продукта в видео, но и знает, когда он появляется (timestamp). Это используется для функций типа «Перейти к моменту упоминания продукта» и позволяет Google понимать структуру и ключевые моменты видео.

    Практика

    Best practices (это мы делаем)

    • Обеспечение мультимодальной согласованности: Для максимальной вероятности идентификации продукта необходимо обеспечить его четкое присутствие во всех модальностях:
      • Текст: Четко указывать полные названия продуктов в заголовке, описании и (если применимо) в загружаемых субтитрах.
      • Аудио: Четко произносить названия продуктов в видео, чтобы минимизировать ошибки автоматических субтитров.
      • Видео: Демонстрировать продукт четко, с хорошим освещением и с разных ракурсов, чтобы облегчить работу Object Detection и Embedding.
    • Мониторинг и коррекция автоматических субтитров: Несмотря на то, что система может автоматически исправлять ошибки (Claim 15), рекомендуется проверять и исправлять автоматические субтитры вручную, чтобы гарантировать точность текстовых данных, подаваемых на вход Text Parsing Model.
    • Оптимизация под функции «Shoppable Content»: Создавать контент с учетом того, что он может быть автоматически размечен для покупок (как показано в FIG. 4A-4E). Использование временных меток (timestamps) в описании для указания на продукты может коррелировать с автоматическим обнаружением временных меток системой (Claim 7).
    • Улучшение визуального качества контента: Инвестировать в качество съемки. Четкое изображение повышает шансы на успешное визуальное распознавание и генерацию точных Embeddings.

    Worst practices (это делать не надо)

    • Несоответствие между упоминанием и показом: Упоминание продукта в метаданных без его показа в видео (или наоборот) снижает вероятность того, что Fusion Model достигнет высокого порога уверенности, так как данные из одной из модальностей будут отсутствовать или иметь низкую уверенность.
    • Использование нечетких или сокращенных названий продуктов: Использование жаргона или сокращений вместо полных официальных названий усложняет работу Text Parsing Model.
    • Плохое качество видео и аудио: Низкое разрешение, плохое освещение или неразборчивая речь затрудняют работу всех компонентов системы (визуальное распознавание и генерацию субтитров).

    Стратегическое значение

    Этот патент подтверждает стратегическую важность интеграции контент-платформ (как YouTube) и электронной коммерции. Для SEO-специалистов это означает, что оптимизация видеоконтента теперь напрямую связана с товарным поиском. Способность Google точно идентифицировать продукты в видео превращает любой обзор или демонстрацию в потенциальную точку входа в воронку продаж. Стратегия должна включать оптимизацию контента таким образом, чтобы способствовать автоматическому распознаванию продуктов системой Google, обеспечивая согласованность визуальных и текстовых сигналов.

    Практические примеры

    Сценарий: Оптимизация видеообзора нового смартфона для YouTube

    1. Задача: Обеспечить максимальную видимость обзора смартфона «BrandX Model 123» и активировать функции «Products in this video».
    2. Действия (Согласование модальностей):
      • Текст: Включить «BrandX Model 123» в заголовок и первые строки описания.
      • Аудио: В начале видео четко произнести: «Сегодня мы рассматриваем BrandX Model 123».
      • Видео: Показать крупным планом сам смартфон и его упаковку с названием модели в первые 60 секунд видео.
    3. Ожидаемый результат (Работа системы): Text Parsing Model идентифицирует продукт из метаданных и субтитров. Image Identification распознает внешний вид смартфона и упаковку, сравнивая их Embeddings с базой данных. Fusion Model получает высокие оценки уверенности из обоих источников и подтверждает наличие продукта. Система обновляет метаданные видео, добавляя структурированную информацию о «BrandX Model 123» и временные метки.

    Вопросы и ответы

    Что такое Fusion Model и почему она важна?

    Fusion Model — это обученная модель машинного обучения, которая принимает результаты из разных источников анализа (текстового и визуального) и объединяет их для получения итоговой оценки. Ее важность заключается в повышении точности идентификации продуктов. Вместо того чтобы полагаться на один источник, который может быть ошибочным (например, неверные субтитры или плохое изображение), система использует мультимодальный подход для подтверждения наличия продукта.

    Как система распознает продукты визуально?

    Визуальный анализ включает несколько этапов. Сначала система выбирает кадры из видео и обнаруживает на них объекты (Object Detection). Затем для этих объектов создаются векторные представления (Embeddings) — это математическое описание внешнего вида объекта. Наконец, эти представления сравниваются с базой данных (Product Image Index) известных продуктов для поиска совпадений.

    Что означает «корректировка метаданных» (Adjusting metadata) в этом патенте?

    Это автоматическое обновление информации о контенте после успешной идентификации продукта. Это может включать добавление структурированных данных о продукте к видео, добавление временных меток (timestamps), указывающих, когда продукт появляется в видео, а также, что очень важно, исправление ошибок в автоматически сгенерированных субтитрах.

    Может ли система исправить субтитры, если название продукта произнесено неверно или нечетко?

    Да, это одна из важных функций, описанных в патенте (Claim 15). Если автоматические субтитры неверно транскрибировали название продукта, но система смогла уверенно распознать продукт визуально, она может заменить ошибочный текст в субтитрах на правильное название продукта. Это значительно улучшает текстовую релевантность видео.

    Как SEO-специалисту использовать этот патент для оптимизации видео?

    Ключевая стратегия — это обеспечение согласованности сигналов. Продукт должен быть четко виден в кадре, его название должно быть четко произнесено и четко написано в заголовке и описании. Это максимизирует оценки уверенности как от текстовой, так и от визуальной модели, что приведет к успешной идентификации через Fusion Model.

    Влияет ли этот патент на обычный веб-поиск или только на YouTube/Google Images?

    Хотя основное применение, вероятно, находится на контент-платформах, результаты влияют и на веб-поиск. Идентифицированные продукты улучшают понимание контента, что влияет на ранжирование видео в основной выдаче Google. Кроме того, эти данные используются для создания SERP features, таких как карусели товаров или блоки с продуктами из видео, в результатах веб-поиска.

    Что делать, если мой продукт не распознается системой?

    Во-первых, убедитесь, что ваш продукт присутствует в базе данных Google (например, через Merchant Center). Во-вторых, улучшите качество представления продукта в контенте: используйте высококачественные изображения, четкие ракурсы, официальные названия в метаданных и обеспечьте хорошее качество аудио для корректной генерации субтитров.

    Использует ли система информацию о категории продукта?

    Да, патент упоминает (Claim 10), что система может получать и предоставлять Fusion Model данные о категории продукта (product category). Это помогает сузить область поиска и повысить точность идентификации, особенно если продукт похож на другие товары в разных категориях.

    Заменяет ли эта система ручную разметку продуктов создателями контента?

    Она дополняет и автоматизирует ее. Система позволяет идентифицировать продукты без участия создателя контента, что масштабирует процесс на всю платформу. Однако ручная разметка (если платформа ее поддерживает) по-прежнему может служить сильным сигналом или использоваться в качестве ground truth данных для обучения моделей.

    Насколько важны временные метки (timestamps) в этом процессе?

    Они очень важны для видеоконтента (Claim 7). Система не только определяет, что продукт есть в видео, но и когда именно он появляется. Эти данные используются для улучшения навигации по видео (например, функции перехода к моменту демонстрации продукта) и для более глубокого понимания структуры контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.