Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google связывает изображения и видео на основе визуального сходства для обогащения поисковой выдачи и обмена метаданными

    ASSOCIATING STILL IMAGES AND VIDEOS (Ассоциация статичных изображений и видео)
    • US10922350B2
    • Google LLC
    • 2021-02-16
    • 2011-04-29
    2011 EEAT и качество Google Shopping Knowledge Graph Патенты Google

    Патент Google описывает систему для автоматического определения связи между статичными изображениями и видеороликами. Система анализирует визуальные признаки изображения и сравнивает их с признаками, извлеченными из репрезентативных кадров видео. Установленные связи используются для переноса метаданных (например, геолокации или ключевых слов) между ресурсами и для смешивания разных типов медиаконтента в результатах поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему идентификации и оценки релевантности медиаконтента (изображений и видео), который имеет недостаточное текстовое описание или метаданные (например, геолокацию). Когда традиционных текстовых сигналов мало, точность ранжирования снижается. Изобретение позволяет находить релевантный контент, основываясь на визуальном содержании, и переносить контекст между разными типами медиа.

    Что запатентовано

    Запатентована система и метод для ассоциации статичных изображений и видеороликов на основе их визуального сходства. Система извлекает визуальные признаки (features) из изображения и сравнивает их с признаками, извлеченными из набора репрезентативных кадров (representative frames) видео. Если степень сходства (strength of relationship) превышает порог, ресурсы считаются связанными. Эти связи сохраняются в базе данных (association data store) и используются для улучшения поиска.

    Как это работает

    Система работает в несколько этапов:

    • Выборка кадров: Из видео извлекается набор representative frames, которые суммируют его содержание (не все кадры).
    • Категоризация (Опционально): Изображение и видео могут быть категоризированы (например, как продукт, лицо, пейзаж) на основе связанного текста.
    • Извлечение признаков: Из изображения и из каждого репрезентативного кадра извлекаются визуальные features (например, с помощью SIFT, SURF). Выбор метода извлечения может зависеть от определенной категории.
    • Сравнение и оценка: Признаки сравниваются для определения strength of relationship.
    • Ассоциация и Применение: Если сходство достаточное, связь сохраняется. Эти ассоциации используются для: (i) переноса метаданных (аугментации) с одного ресурса на связанный; (ii) включения связанных ресурсов в выдачу (например, показ видео в результатах поиска по картинкам).

    Актуальность для SEO

    Высокая. В современном поиске визуальный контент играет ключевую роль (Google Images, YouTube, Discover, Google Lens). Способность Google понимать и связывать контент не только по тексту, но и по визуальному содержанию (используя компьютерное зрение и кросс-модальные модели, такие как MUM), является критически важной. Этот патент описывает фундаментальный механизм для мультимедийного поиска.

    Важность для SEO

    Влияние на SEO значительно (85/100). Патент описывает механизм, который напрямую влияет на видимость изображений и видео. Он позволяет контенту с минимальным текстовым описанием ранжироваться за счет метаданных, заимствованных у связанных визуально похожих ресурсов. Кроме того, он позволяет сайтам получать трафик из смежных вертикалей (изображения могут приводить к показу связанных видео, и наоборот), что подчеркивает важность комплексной мультимедийной стратегии.

    Детальный разбор

    Термины и определения

    Association Data Store (Хранилище данных ассоциаций)
    База данных, в которой хранятся связи между изображениями и видео, признанными похожими. Также хранит степень сходства (strength of relationship).
    Features (Признаки)
    Визуальные характеристики, извлеченные из изображения или кадра видео с помощью алгоритмов компьютерного зрения (например, SIFT, SURF, GLOH). Примеры включают края, углы, блобы, цвета, сигнатуры лиц.
    Metadata (Метаданные)
    Данные, описывающие контент или контекст изображения или видео (например, геолокация, ключевые слова, описание продукта, ассоциированный текст запроса).
    Relation Engine (Механизм связей)
    Компонент системы, который сравнивает видео и изображения для определения их связанности.
    Representative Frames (Репрезентативные кадры)
    Набор кадров, извлеченных из видео для суммирования его содержания. Это подмножество всех кадров видео, часто выбираемое путем идентификации ключевых сцен.
    Scene (Сцена)
    Один или несколько последовательных планов (shots), объединенных по сходству. Из сцен извлекаются репрезентативные кадры.
    Shot (План)
    Последовательность смежных кадров в видео, разделенных границами плана (shot boundaries), которые возникают между непохожими кадрами.
    Strength of Relationship (Степень связи/сходства)
    Метрика, оценивающая визуальное сходство между изображением и видео на основе сравнения их признаков.

    Ключевые утверждения (Анализ Claims)

    Патент US10922350B2 является продолжением (continuation) более ранних заявок и фокусируется на применении механизма ассоциации в контексте обработки поискового запроса.

    Claim 1 (Независимый пункт): Описывает процесс использования установленных связей в ответ на поисковый запрос.

    1. Система получает поисковый запрос от пользователя.
    2. Идентифицируются одно или несколько изображений, релевантных запросу.
    3. Определяется, что видео связано с одним или несколькими из этих релевантных изображений. Это определение включает:
      • Извлечение признаков (features) из конкретного релевантного изображения.
      • Извлечение признаков из видео.
      • Сравнение признаков изображения и видео.
      • Определение связи на основе этого сравнения.
    4. Видео представляется вместе (alongside) с релевантными изображениями на дисплее устройства пользователя.

    Claim 2 (Зависимый): Уточняет извлечение признаков из видео.

    Извлечение признаков из видео включает идентификацию одного или нескольких Representative Frames в видео и извлечение признаков из каждого из них. Это подтверждает, что система не анализирует все видео целиком.

    Claim 4 и 5 (Зависимые): Детализируют механизм определения связи.

    Связь определяется путем вычисления Strength of Relationship (оценки визуального сходства) на основе сравнения признаков и проверки, удовлетворяет ли эта степень пороговому значению.

    Claim 6 и 7 (Зависимые): Описывают категоризацию контента.

    Система определяет категорию видео и категорию изображения (например, на основе ассоциированного текста, как указано в Claim 7). Извлечение признаков выполняется с использованием методов, основанных на этих категориях. Это означает, что разные типы контента (например, лица vs продукты) анализируются по-разному.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, работая как офлайн, так и в режиме реального времени.

    INDEXING – Индексирование и извлечение признаков
    Основная работа по анализу и ассоциации происходит на этом этапе (офлайн).

    • Relation Engine анализирует медиаконтент.
    • Из видео извлекаются Representative Frames.
    • Контент категоризируется для выбора оптимальных методов извлечения Features.
    • Вычисляется Strength of Relationship между парами изображение-видео.
    • Ассоциации сохраняются в Association Data Store.
    • Происходит аугментация метаданных: метаданные (например, геолокация, текст) переносятся между связанными ресурсами.

    RANKING – Ранжирование
    На этапе ранжирования система может использовать аугментированные (заимствованные) метаданные для оценки релевантности ресурса, у которого изначально этих данных не было.

    METASEARCH – Метапоиск и Смешивание
    На этом этапе система использует Association Data Store для обогащения выдачи (онлайн). Если найдены релевантные изображения, система может добавить в выдачу связанные с ними видео (и наоборот). Результаты могут быть представлены в виде смешанной выдачи, кластеров или на карте.

    Входные данные:

    • Набор изображений и набор видео.
    • Метаданные, ассоциированные с ресурсами (текст, геолокация, запросы).

    Выходные данные:

    • Association Data Store, хранящий связи.
    • Аугментированные метаданные для ресурсов в индексе.

    На что влияет

    • Конкретные типы контента: Статичные изображения и видео.
    • Специфические запросы: Запросы с сильной визуальной составляющей (поиск товаров, достопримечательностей, знаменитостей).
    • Конкретные ниши или тематики: Упоминаются примеры применения:
      • E-commerce: Связь изображений товаров с видеообзорами.
      • Реклама: Связь рекламных изображений с видео.
      • Медиа/Развлечения: Связь постеров фильмов с трейлерами.
      • Локальный поиск/Карты: Связь изображений локаций (например, Street View) с видео, снятыми там же, и обмен геолокацией.

    Когда применяется

    • Офлайн (Ассоциация): При индексации медиаконтента. Применяется, если Strength of Relationship удовлетворяет заданному порогу.
    • Онлайн (Обработка запроса): Когда формируется выдача (например, Image Search) и система находит связанные ресурсы другого типа в Association Data Store для обогащения SERP.

    Пошаговый алгоритм

    Процесс А: Офлайн-ассоциация изображений и видео

    1. Получение данных: Система получает наборы изображений и видео.
    2. Обработка видео (Извлечение кадров): Для каждого видео извлекаются Representative Frames. Это включает:
      1. Определение границ планов (shot boundaries) путем сравнения соседних кадров.
      2. Объединение планов в сцены на основе сходства.
      3. Кластеризация сцен и выбор репрезентативных сцен, которые лучше всего суммируют видео (используя оценку G(S), которая может учитывать движение и аудио).
      4. Извлечение кадра из каждой выбранной сцены.
    3. Категоризация (Опционально): Определение категории изображения и видео на основе ассоциированного текста.
    4. Извлечение признаков: Извлечение визуальных Features из изображения и из каждого репрезентативного кадра. Метод выбирается на основе категории (если она определена).
    5. Сравнение признаков: Сравнение признаков изображения с признаками кадров (например, путем вычисления расстояния Хэмминга между хэш-ключами признаков).
    6. Вычисление степени сходства: Расчет Strength of Relationship между изображением и видео.
    7. Применение порога и Сохранение: Если порог удовлетворен, связь сохраняется в Association Data Store.
    8. Аугментация метаданных: Перенос метаданных между связанными ресурсами.

    Процесс Б: Использование ассоциаций при обработке запроса

    1. Получение запроса и Первичный поиск: Идентификация релевантных ресурсов первого типа (например, изображений).
    2. Поиск связанных ресурсов: Запрос к Association Data Store для поиска ресурсов второго типа (например, видео).
    3. Формирование выдачи: Представление результатов поиска, включающих связанные медиа (смешанная выдача, ссылка на связанные видео, кластеры).

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Ключевые): Пиксельные данные изображений и кадров видео. Основа для извлечения Features.
    • Контентные/Текстовые факторы: Используются для категоризации контента и как источник метаданных для аугментации. Включают: метки, окружающий текст, анкорный текст, комментарии, текст, извлеченный с помощью OCR.
    • Поведенческие факторы: Текст запросов (query text) из логов, ассоциированных с ресурсом. Используется для категоризации и как метаданные.
    • Географические факторы: Данные о геолокации (geographic location metadata). Являются важным типом метаданных для переноса.

    Какие метрики используются и как они считаются

    • Визуальные признаки (Feature Vectors): Генерируются алгоритмами типа SIFT, SURF, GLOH, LESH. Могут быть преобразованы в хэш-ключи (например, с помощью LSH).
    • Метрики расстояния/сходства:
      • Расстояние между кадрами (для определения границ планов). Приведена формула: d(FA, FB) = 1 — (FA · FB) / (|FA||FB|).
      • Сходство между планами/сценами (Similarity S).
      • Расстояние Хэмминга (Hamming distance) между хэш-ключами признаков (для сравнения изображения и кадра).
    • Оценка сцены (Score G(s)): Метрика для выбора репрезентативных сцен. Учитывает важность сцены, а также может включать меры движения (M(s)) и аудио (A(s)) с определенными весами. Формула: G(S) = Wrel*σ(s) + Wmotion*M(s) + Waudio*A(s).
    • Strength of Relationship: Итоговая оценка визуального сходства между изображением и видео.
    • Кластеризация: Упоминаются методы (HAC, k-medoids) для группировки сцен и результатов поиска. Также упоминается VisualRank для выбора канонических изображений в кластерах.

    Выводы

    1. Визуальное сходство как мост между типами медиа: Google активно использует компьютерное зрение для установления связей между изображениями и видео. Это позволяет системе понимать контент за пределами текста и создавать кросс-медийный поисковый опыт.
    2. Аугментация метаданных (Metadata Augmentation) критически важна: Ключевая функция системы — перенос метаданных (текста, ключевых слов, геолокации) между визуально похожими ресурсами. Это позволяет контенту с плохим описанием наследовать контекст от богатых данными связанных ресурсов.
    3. Эффективность за счет репрезентативных кадров: Система не сравнивает изображение со всеми кадрами видео. Вместо этого она использует сложный процесс анализа структуры видео (планы, сцены) для выбора небольшого набора Representative Frames.
    4. Категоризация контента для точного анализа: Google может применять разные алгоритмы извлечения признаков в зависимости от типа контента (лица, продукты, достопримечательности). Категоризация основана на ассоциированном тексте и запросах, что подчеркивает важность текстовой оптимизации для правильной визуальной интерпретации.
    5. Разнообразие форматов выдачи: Установленные связи позволяют Google не только смешивать результаты (Blending), но и представлять их в виде визуальных кластеров или на картах (используя унаследованные геоданные).

    Практика

    Best practices (это мы делаем)

    • Комплексная мультимедийная стратегия и Визуальная консистентность: Создавайте как высококачественные изображения, так и видео по ключевым темам (например, товарные страницы должны иметь и фото, и видеообзор). Обеспечьте визуальное сходство между ними (одинаковые объекты, схожие ракурсы). Это увеличивает вероятность того, что Google установит связь между вашим контентом.
    • Оптимизация для визуальной ясности и качества: Убедитесь, что ключевые объекты четко видны как на изображениях, так и в видео. Высокое качество облегчает извлечение Features и повышает вероятность точного сопоставления.
    • Максимизация метаданных ключевых ресурсов: Обеспечивайте максимальное количество метаданных для всех активов (текст, теги, структурированные данные, геолокация). Если один актив имеет сильные метаданные и связан с другим, эти метаданные могут быть перенесены, усиливая оба ресурса.
    • Оптимизация ключевых кадров видео (Thumbnails): Так как система использует Representative Frames, важно, чтобы видео содержало четкие, информативные кадры. Оптимизированные превью (thumbnails) также критичны, так как они часто участвуют в анализе как статичные изображения.
    • Использование текста для задания категории контента: Помните, что окружающий текст помогает Google определить категорию медиафайла, что влияет на то, как он будет проанализирован. Размещайте мультимедиа в релевантном текстовом окружении, чтобы помочь системе правильно его классифицировать.

    Worst practices (это делать не надо)

    • Изоляция медиаконтента: Рассматривать SEO для картинок и SEO для видео как полностью отдельные процессы. Этот патент показывает, что они тесно взаимосвязаны.
    • Использование низкокачественного или «шумного» визуального контента: Изображения и видео с плохим освещением или низким разрешением затрудняют извлечение качественных признаков и снижают вероятность установления ассоциаций.
    • Игнорирование метаданных медиафайлов: Не использовать все доступные поля метаданных (Alt-text, structured data, геотеги). Они являются источником для аугментации связанных ресурсов.
    • Вводящие в заблуждение превью (Кликбейт): Использование превью, которые визуально не соответствуют содержанию видео. Это может привести к разрыву визуальной ассоциации между изображением (превью) и реальным содержанием видео.

    Стратегическое значение

    Этот патент подтверждает стратегический курс Google на глубокое понимание контента вне зависимости от его формата (кросс-модальный поиск). Для SEO это означает, что оптимизация должна выходить за рамки ключевых слов. Визуальное качество, контекст и взаимосвязь между различными медиаактивами становятся факторами, влияющими на ранжирование и видимость. Стратегия должна быть направлена на создание экосистемы контента, где изображения и видео дополняют друг друга как семантически, так и визуально.

    Практические примеры

    Сценарий 1: Улучшение видимости видео через оптимизацию изображений товара (E-commerce)

    • Ситуация: У интернет-магазина есть видеообзор нового смартфона, но он плохо ранжируется.
    • Действие: На страницу товара добавляются высококачественные фотографии смартфона с детальными Alt-тегами и микроразметкой. SEO-специалист убеждается, что ракурсы на фото схожи с кадрами в видеообзоре.
    • Механизм: Google сравнивает Features фотографий с Representative Frames видеообзора. Устанавливается сильная связь. Метаданные и текстовый контекст из оптимизированной страницы товара переносятся на видео.
    • Результат: Когда пользователь ищет фото смартфона в Google Images, в результатах поиска под фотографией может появиться ссылка «Related Videos», или видеообзор может быть показан в смешанной веб-выдаче.

    Сценарий 2: Локальный поиск и наследование геолокации (Travel)

    • Ситуация: Туристический блогер снял видео о прогулке по мосту Золотые Ворота, но забыл добавить геотеги к видео.
    • Действие: Блогер также сделал несколько фотографий моста и загрузил их с точными геоданными.
    • Механизм: Система сравнивает фотографии с кадрами видео. Устанавливается связь. Geographic location metadata фотографий ассоциируются с видео.
    • Результат: Когда пользователь ищет «golden gate bridge» на карте (как показано в патенте, FIG. 8), видео блогера появляется на карте в правильной локации рядом с фотографиями, несмотря на отсутствие исходных геотегах в видео.

    Вопросы и ответы

    Как система определяет, какие кадры из видео являются «репрезентативными» (Representative Frames)?

    Патент описывает сложный процесс. Система не просто берет кадры через равные интервалы. Она идентифицирует границы планов (shot boundaries), объединяет похожие планы в сцены, а затем кластеризует эти сцены. Из кластеров выбираются сцены, которые лучше всего суммируют видео, максимизируя специальную оценку (Score G), которая может учитывать важность сцены, движение и аудио. Из этих выбранных сцен затем извлекается по одному кадру.

    Какие алгоритмы Google использует для определения визуального сходства?

    Патент упоминает широкий спектр стандартных алгоритмов извлечения признаков, включая SIFT (Scale-invariant feature transform), SURF (Speeded Up Robust Features), GLOH (Gradient Location and Orientation Histogram). Для сравнения признаков упоминаются методы, такие как вычисление расстояния Хэмминга между хэш-ключами признаков, Locality Sensitive Hashing (LSH) и другие методы поиска ближайших соседей.

    Может ли мой видеоролик начать ранжироваться по тексту, который есть только у связанного изображения?

    Да, это одна из ключевых функций, описанных как аугментация метаданных. Если изображение имеет релевантные метаданные (ключевые слова, описание, ассоциированный текст запроса), эти данные могут быть ассоциированы со связанным видео. Это позволяет поисковой системе использовать эти аугментированные метаданные для ранжирования видео, даже если у него самого не было этого текста.

    Как Google определяет категорию изображения или видео для выбора метода анализа?

    Система определяет категорию (например, продукт, лицо, достопримечательность) преимущественно на основе текста, ассоциированного с ресурсом. Это включает окружающий текст, метки, комментарии, анкорный текст и текст запросов (query text), по которым этот ресурс ранее находили. Правильная текстовая оптимизация помогает правильной визуальной интерпретации.

    Как SEO-специалист может повлиять на процесс ассоциации изображений и видео?

    Можно повысить вероятность успешной ассоциации путем обеспечения высокого качества и визуальной ясности медиаконтента. Необходимо создавать изображения и видео на одну и ту же тему с визуально похожими объектами в кадре. Также важно максимально заполнять метаданные для всех ресурсов, чтобы облегчить категоризацию и предоставить данные для аугментации.

    Влияет ли этот патент на локальный поиск?

    Да, значительно. В патенте прямо указывается возможность переноса географических метаданных (geographic location metadata). Если фотография имеет точную геолокацию, а связанное видео — нет, видео может унаследовать эту локацию и появиться в результатах поиска на карте или в локальной выдаче.

    Что важнее для установления связи: сходство объектов в кадре или общий визуальный стиль?

    Патент фокусируется в первую очередь на сравнении конкретных визуальных признаков (features) — краев, углов, текстур, что указывает на приоритет сходства объектов и сцен. Выбор алгоритмов зависит от категории: для продуктов важна четкость объекта, для достопримечательностей — локальные признаки.

    Могут ли два изображения быть связаны, если они оба похожи на одно и то же видео?

    Да. Патент упоминает, что если два ресурса одного типа (например, два изображения) ассоциированы с одним и тем же ресурсом другого типа (например, видео), система может сохранить данные, ассоциирующие эти два ресурса первого типа между собой. Это позволяет идентифицировать связанные изображения через общее видео.

    Как система обрабатывает ситуацию, когда изображение связано с несколькими разными видео?

    Система сохраняет все связи, которые удовлетворяют пороговому значению сходства. При обработке поискового запроса система может выбрать одно или несколько связанных видео для показа. Вероятно, приоритет будет отдан видео с наибольшей степенью сходства (Strength of Relationship) или наивысшим общим рейтингом ранжирования.

    Применяется ли этот механизм только к контенту в индексе Google или также к рекламным объявлениям?

    Патент упоминает, что изображения и видео могут быть как из индекса поисковой системы, так и используемыми в рекламе. Описан пример сравнения изображений из рекламы с видео, релевантными ключевым словам, используемым для таргетинга этой рекламы.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.