Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google учится распознавать объекты в видео и изображениях, используя неточные теги (Алгоритм CRANE)

    CLASSIFICATION USING CONCEPT RANKING ACCORDING TO NEGATIVE EXEMPLARS (Классификация с использованием ранжирования концепций по негативным примерам)
    • US9619521B1
    • Google LLC
    • 2017-04-11
    • 2013-12-30
    2013 Мультимедиа Патенты Google Семантика и интент

    Google использует алгоритм CRANE, чтобы понять, какая именно часть медиафайла (например, видео) соответствует тегу, даже если тег неточен. Система сравнивает сегменты медиафайла с тысячами негативных примеров, чтобы выделить истинный объект (концепцию) и игнорировать фон. Это улучшает понимание мультимедийного контента для поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему обучения систем компьютерного зрения и распознавания контента с использованием слабо размеченных данных (weakly labeled data). В интернете много контента (видео, изображения) с тегами, но эти теги часто применяются ко всему файлу и не локализованы. Например, видео с тегом «собака» может содержать только несколько секунд с собакой, а остальное время — фон. Задача — автоматически определить, какие именно пространственно-временные сегменты видео действительно содержат «собаку», чтобы использовать их для обучения точных классификаторов.

    Что запатентовано

    Запатентован метод Concept Ranking According to Negative Exemplars (CRANE). Это алгоритм, который анализирует сегменты из медиафайлов, помеченных определенной концепцией (позитивные примеры), и сравнивает их с сегментами из файлов, не помеченных этой концепцией (негативные примеры). CRANE ранжирует позитивные сегменты на основе того, насколько они отличаются от негативных. Сегменты, которые сильно похожи на негативные примеры, считаются фоном и ранжируются ниже, а уникальные сегменты ранжируются выше как истинные примеры концепции.

    Как это работает

    Система работает следующим образом:

    • Сбор данных: Собираются медиафайлы, разделенные на позитивные (есть тег концепции) и негативные (тега нет).
    • Сегментация: Все файлы делятся на сегменты (например, пространственно-временные объемы в видео).
    • Анализ в пространстве признаков: Каждый сегмент представляется как точка в многомерном пространстве признаков (feature space).
    • Механизм CRANE: Для каждого негативного сегмента система находит ближайший к нему позитивный сегмент.
    • Пенализация: Позитивный сегмент, оказавшийся ближайшим к негативному, получает «штраф» (увеличивает свой счетчик). Логика в том, что если сегмент похож на негативный пример, он, вероятно, является фоном.
    • Ранжирование: Позитивные сегменты ранжируются. Те, у кого меньше всего штрафов (наименьший счетчик), считаются наиболее вероятными примерами искомой концепции.
    • Обучение классификатора: Высокоранжированные сегменты используются как качественные данные для обучения классификатора, который затем может распознавать эту концепцию в новых медиафайлах.

    Актуальность для SEO

    Высокая. Понимание содержания мультимедийного контента (видео и изображений) является критически важным для Google (YouTube, Google Images, Визуальный поиск). Использование слабо размеченных данных для обучения ИИ-моделей остается стандартной практикой, и методы, подобные CRANE, лежат в основе систем, позволяющих Google понимать контент за пределами текста и метаданных.

    Важность для SEO

    Влияние на SEO оценивается как среднее (6.5/10), но оно критически важно для мультимедийного SEO (Video SEO и Image SEO). Этот патент описывает не алгоритм ранжирования веб-страниц, а инфраструктурный механизм обучения ИИ для понимания контента. Для SEO это означает, что Google обладает сложными методами для анализа того, что именно показано в видео или на изображении, не полагаясь только на окружающий текст или метаданные. Это напрямую влияет на то, как мультимедийный контент ранжируется в поиске по картинкам, видео и универсальной выдаче.

    Детальный разбор

    Термины и определения

    CRANE (Concept Ranking According to Negative Exemplars)
    Ранжирование концепций по негативным примерам. Название запатентованного алгоритма для идентификации истинных примеров концепции в слабо размеченных данных путем сравнения с негативными примерами.
    Weakly-labeled content (Слабо размеченный контент)
    Контент (видео, изображение, аудио), к которому применена метка (тег), но эта метка относится только к части контента и не локализована во времени или пространстве.
    Concept media item (Позитивный медиафайл)
    Медиафайл, который был классифицирован (например, помечен пользователем) как содержащий определенную визуальную концепцию.
    Non-concept media item (Негативный медиафайл)
    Медиафайл, который был классифицирован как не содержащий определенную визуальную концепцию.
    Concept segment
    Сегмент, извлеченный из Concept media item. Он может содержать искомую концепцию (истинный позитивный сегмент) или фон (фоновый сегмент).
    Non-concept segment
    Сегмент, извлеченный из Non-concept media item. Предполагается, что он не содержит искомую концепцию.
    Feature Space (Пространство признаков)
    Многомерное пространство, в котором каждый сегмент представлен как точка на основе вычисленных для него признаков (цвет, текстура, движение и т.д.).
    Spatiotemporal segmentation (Пространственно-временная сегментация)
    Процесс разделения видео на согласованные объемы (сегменты) в пространстве и времени, часто с целью сохранения границ объектов. В патенте упоминается как spatiotemporal (3D) volume.
    Classifier (Классификатор)
    Модель машинного обучения, которая обучается на результатах работы CRANE для распознавания определенного концепта в новых медиафайлах.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс работы системы (CRANE).

    1. Система получает множество медиафайлов, идентифицированных либо как concept media item (содержат визуальную концепцию), либо как non-concept media item (не содержат).
    2. Система получает concept segments и non-concept segments. Все сегменты представлены в feature space.
    3. Для каждого non-concept segment система идентифицирует ближайший (closest) concept segment. Близость определяется на основе парных расстояний (pairwise distances) в feature space.
    4. Для каждого concept segment определяется счетчик (respective count): сколько раз он был идентифицирован как ближайший к какому-либо non-concept segment.
    5. Система ранжирует concept segments по вероятности содержания концепции. Ранжирование происходит так, что сегменты с меньшим счетчиком (lower counts) предпочитаются (ранжируются выше) сегментам с большим счетчиком.
    6. Система помечает concept segments, которые находятся ниже порогового ранга (threshold rank), как не содержащие данную визуальную концепцию.

    Ядро изобретения — это метод ранжирования, который использует негативные примеры для очистки позитивных данных. Если сегмент из позитивного видео часто оказывается ближайшим соседом для сегментов из негативных видео, он получает высокий счетчик (штраф) и низкий ранг, так как он, вероятно, является фоном, а не искомым объектом.

    Claim 2 (Зависимый от 1): Уточняет применение результатов.

    1. Система обучает классификатор (classifier) на основе ранжированных concept segments и non-concept segments.
    2. Система классифицирует новый медиафайл с помощью этого обученного классификатора.

    Claim 6 (Зависимый от 1): Детализирует тип данных.

    Если медиафайлы являются видео, то каждый сегмент представляет собой пространственно-временной (3D) объем (spatiotemporal volume), представленный как точка в многомерном Feature Space с использованием стандартных признаков.

    Где и как применяется

    Этот патент описывает инфраструктурный процесс машинного обучения (Training Pipeline), который происходит офлайн, а не в реальном времени при обработке запроса пользователя. Он относится к улучшению понимания контента.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собирается корпус слабо размеченных медиафайлов (например, видео с YouTube с пользовательскими тегами или изображения из интернета).

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента происходит в процессах, связанных с этим этапом:

    1. Обработка контента (Офлайн): Медиафайлы сегментируются (Spatiotemporal segmentation).
    2. Извлечение признаков (Офлайн): Для каждого сегмента вычисляются признаки, формирующие его представление в Feature Space.
    3. Обучение моделей (Model Training — Офлайн): Алгоритм CRANE применяется для анализа этих сегментов и их слабых меток для генерации очищенного набора данных. На этом наборе обучаются классификаторы.
    4. Применение классификаторов (Индексирование): Обученные классификаторы используются при индексировании новых медиафайлов для извлечения точных семантических сигналов (например, «в этом видео есть собака с 10 по 15 секунду»).

    RANKING / QUNDERSTANDING
    Прямого применения CRANE нет. Однако улучшенные классификаторы, созданные с помощью CRANE, позволяют системам Ранжирования лучше оценивать релевантность мультимедийного контента запросам пользователей.

    Входные данные:

    • Корпус медиафайлов (видео, изображения, аудио).
    • Слабые метки (теги), ассоциированные с этими файлами.

    Выходные данные:

    • Ранжированный список сегментов с оценкой вероятности содержания концепции.
    • Обученный классификатор для распознавания концепции.

    На что влияет

    • Типы контента: Влияет исключительно на мультимедийный контент — видео и изображения. В патенте особо подчеркивается применение к видео (spatiotemporal segmentation).
    • Специфические запросы: Влияет на запросы в Google Images и Google Video, где визуальная релевантность играет ключевую роль.
    • Ниши: Влияет на все ниши, где используется визуальный контент: E-commerce (распознавание товаров), Travel, Lifestyle, How-to (распознавание действий и сцен).

    Когда применяется

    Алгоритм применяется в процессе обучения и переобучения моделей машинного обучения Google.

    • Условия работы: Наличие большого объема слабо размеченного контента (weakly labeled data).
    • Временные рамки: Это офлайн-процесс, который выполняется периодически для улучшения качества классификаторов. Патент также отмечает, что CRANE разработан с возможностью параллелизации для обработки больших датасетов.

    Пошаговый алгоритм

    Процесс применения алгоритма CRANE для обучения классификатора.

    1. Сбор и классификация медиафайлов: Для концепции ‘C’ медиафайлы делятся на две группы: Concept media items (P, позитивные, помеченные ‘C’) и Non-concept media items (N, негативные, не помеченные ‘C’).
    2. Сегментация: Все медиафайлы в наборах P и N сегментируются (например, Spatiotemporal segmentation для видео). Получаются наборы Concept segments и Non-concept segments.
    3. Извлечение признаков и представление: Для каждого сегмента вычисляются признаки. Все сегменты представляются как точки в общем Feature Space.
    4. Вычисление расстояний: Вычисляются парные расстояния между всеми сегментами из N и всеми сегментами из P в пространстве признаков.
    5. Идентификация ближайших соседей (Ядро CRANE): Для каждого отдельного Non-concept segment (из N) система находит один Concept segment (из P), который является ближайшим к нему.
    6. Подсчет и пенализация: Инициализируются счетчики для каждого Concept segment. Каждый раз, когда Concept segment оказывается ближайшим соседом для какого-либо Non-concept segment, его счетчик увеличивается (пенализация).
    7. Ранжирование: Все Concept segments ранжируются на основе их счетчиков. Сегменты с наименьшими счетчиками получают наивысший ранг (они наименее похожи на негативные примеры и, следовательно, скорее всего, содержат концепцию ‘C’).
    8. Применение порога и очистка данных: Выбирается пороговый ранг (threshold rank). Concept segments ниже этого порога помечаются как не содержащие концепцию ‘C’ (фоновые сегменты).
    9. Обучение классификатора: Система обучает классификатор. Высокоранжированные Concept segments используются как позитивные примеры. Non-concept segments и низкоранжированные (фоновые) Concept segments используются как негативные примеры.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на обработке мультимедийных данных и метаданных.

    • Мультимедиа факторы: Пиксельные данные изображений и видеокадров. Они являются основой для сегментации и извлечения низкоуровневых визуальных признаков (цвет, текстура, движение и т.д.), которые формируют Feature Space.
    • Метаданные (Слабые метки): Теги, заголовки или другие метаданные, ассоциированные с медиафайлами. Они используются для первоначального разделения корпуса на позитивные и негативные наборы (Concept и Non-concept media items).

    Другие типы факторов (ссылочные, поведенческие, технические и т.д.) в данном патенте не упоминаются.

    Какие метрики используются и как они считаются

    • Distance in Feature Space (Расстояние в пространстве признаков): Метрика визуальной близости между сегментами. Используется для нахождения ближайшего соседа на основе pairwise distances (парных расстояний).
    • Count of instances (Счетчик ближайших соседей / Счетчик штрафов): Основная метрика алгоритма CRANE. Для каждого Concept segment подсчитывается, сколько раз он оказался ближайшим к какому-либо Non-concept segment.
    • Ranking (Ранжирование): Ранг сегмента обратно пропорционален его счетчику. Меньший счетчик дает более высокий ранг.
    • Threshold Rank (Пороговый ранг): Значение, используемое для разделения высокоранжированных сегментов (истинная концепция) от низкоранжированных (фон).

    Выводы

    1. От слабых меток к точному пониманию: Патент описывает конкретный механизм (CRANE), позволяющий Google преодолеть ограничения неточных и нелокализованных пользовательских тегов (weakly labeled data) для обучения своих систем распознавания мультимедийного контента.
    2. Обучение через исключение (Важность негативных примеров): Ключевая идея патента — использовать негативные примеры для определения того, чем концепция не является. Истинная концепция определяется как то, что остается после фильтрации всего, что похоже на негативные примеры (фон).
    3. Инфраструктура для Мультимедийного Поиска: Это инфраструктурный патент. Он не описывает, как ранжировать контент для пользователя, но описывает, как обучить модели, которые затем будут использоваться для извлечения сигналов ранжирования из видео и изображений.
    4. Сдвиг от метаданных к анализу контента: CRANE позволяет Google анализировать фактическое содержание (пиксели) медиафайлов, уменьшая зависимость от окружающего текста (Alt-тегов, описаний) при ранжировании мультимедиа.
    5. Устойчивость к шуму и масштабируемость: Алгоритм разработан с учетом устойчивости к шуму в данных (например, неправильные теги) и возможности параллелизации для обработки огромных объемов данных (например, всего корпуса YouTube).

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает внутренние процессы обучения Google, он дает важное понимание того, как система учится распознавать контент. Практики касаются Video SEO и Image SEO.

    • Оптимизация визуальной ясности и контрастности: Чтобы классификаторы (обученные с помощью CRANE) корректно идентифицировали ключевые объекты, они должны быть визуально четкими и отличаться от фона. Используйте высокое качество съемки, хорошее освещение и контрастный фон. Это облегчает сегментацию и распознавание.
    • Фокус на основном объекте (концепции): Убедитесь, что основная тема видео или изображения представлена явно и занимает значительную часть кадра. Если видео о «ремонте двигателя», система должна идентифицировать сегменты с двигателем как уникальные, а не как фон.
    • Релевантность визуального ряда и метаданных: Обеспечивайте строгое соответствие между визуальным содержанием и сопровождающими тегами/описаниями. Хотя система рассчитана на слабые метки, точные метаданные помогают корректно интерпретировать контент.
    • Оптимизация ключевых моментов в видео: Понимание того, что система сегментирует видео (Spatiotemporal segmentation), подтверждает важность наличия ключевых моментов (Key Moments). Структурируйте видео так, чтобы в нем были четкие сегменты, соответствующие интенту пользователя.

    Worst practices (это делать не надо)

    • Вводящие в заблуждение метаданные и кликбейт (включая Thumbnails): Использование тегов, заголовков или превью, не соответствующих содержанию. Системы, обученные с помощью CRANE, анализируют содержание и могут выявить несоответствие, классифицировав контент как нерелевантный заявленным концепциям.
    • Низкое качество и визуальный шум: Видео или изображения, где сложно различить объекты из-за плохого качества, освещения или перегруженности кадра. Это затрудняет сегментацию и извлечение признаков.
    • Чрезмерное использование общего стокового контента: Если видео состоит из общих стоковых кадров, которые система видит в тысячах других контекстов (включая негативные примеры для вашей темы), сегменты могут быть классифицированы как фон или шум, не несущий уникальной ценности.

    Стратегическое значение

    Патент подтверждает долгосрочную стратегию Google на переход от анализа метаданных к анализу непосредственно самого контента с помощью компьютерного зрения. Для SEO это означает, что оптимизация мультимедиа должна включать не только работу с текстом (alt-теги, описания), но и обеспечение высокого качества и ясности самого визуального ряда. Google все меньше полагается на косвенные сигналы для понимания того, что изображено.

    Практические примеры

    Сценарий 1: Оптимизация видеообзора продукта на YouTube

    Задача: Улучшить распознавание содержания видеообзора нового смартфона.

    Применение знаний из патента:

    1. Визуальная четкость (Избегание пенализации CRANE): При съемке внешнего вида смартфона используйте контрастный фон и хорошее освещение. Это гарантирует, что признаки сегмента будут уникальными и не будут похожи на негативные примеры (другие объекты). Если снимать смартфон на захламленном столе, система может классифицировать сегмент как фон.
    2. Структурирование видео: Разделите видео на четкие сцены (распаковка, внешний вид, интерфейс). Это поможет системе лучше провести Spatiotemporal segmentation.
    3. Демонстрация концепции: Убедитесь, что ключевые функции (концепции), о которых говорится, действительно показаны. Это создает истинные позитивные сегменты, которые классификатор распознает.

    Сценарий 2: Оптимизация изображений товара для E-commerce

    • Задача: Улучшить ранжирование фотографий кресла в Google Images.
    • Действие: Создать серию высококачественных фотографий кресла на нейтральном (например, белом) фоне, с разных ракурсов.
    • Обоснование: Нейтральный фон облегчает сегментацию. Системам типа CRANE проще отделить концепт «кресло» от фона, что повышает визуальную релевантность изображения.

    Вопросы и ответы

    Что такое «слабо размеченные данные» (weakly labeled data) в контексте этого патента?

    Это медиафайлы (например, видео на YouTube), к которым пользователи добавили теги, но эти теги относятся ко всему видео целиком, а не к конкретным моментам. Например, часовое видео может иметь тег «футбольный гол», но сам гол длится всего 5 секунд. Патент решает задачу, как автоматически найти именно эти 5 секунд среди остального часа контента (фона).

    Как именно CRANE определяет, что является объектом, а что фоном?

    CRANE использует метод исключения. Он предполагает, что фон похож на контент из других видео (негативных примеров). Если сегмент из видео про собаку очень похож (близок в feature space) на сегменты из видео без собаки, то этот сегмент штрафуется и считается фоном (например, трава, диван). Сегменты, которые не похожи на негативные примеры, считаются искомым объектом (собакой).

    Влияет ли этот патент на ранжирование обычных текстовых веб-страниц?

    Нет, напрямую не влияет. Этот патент относится исключительно к системам машинного обучения для распознавания мультимедийного контента (видео, изображений). Он влияет на ранжирование в Google Images, Google Video, YouTube и на появление мультимедийных элементов в универсальной выдаче.

    Что это значит для Video SEO? Должен ли я менять подход к созданию видео?

    Стратегически это подтверждает, что Google анализирует фактическое содержание видеоряда. Для SEO это означает, что качество продакшена, ясность визуального ряда и четкость демонстрации основного предмета видео становятся важнее. Чем легче системе распознать объекты и действия в вашем видео, тем лучше она поймет его релевантность запросам.

    Что важнее для SEO изображений: Alt-текст или само изображение?

    Оба элемента важны, но этот патент подчеркивает растущее значение самого изображения. Раньше Google в основном полагался на Alt-текст. Теперь, благодаря системам компьютерного зрения, обученным методами типа CRANE, Google может напрямую анализировать пиксели и понимать, что изображено, даже если Alt-текст отсутствует или неверен. Качественное изображение становится самодостаточным фактором.

    Как этот патент связан с Key Moments (Ключевыми моментами) в видео?

    Этот патент предоставляет технологическую базу для автоматического определения ключевых моментов. Алгоритм CRANE помогает обучить классификаторы, которые могут локализовать определенные концепции во времени. Если система научилась распознавать «рецепт теста» или «установку драйвера», она может использовать эти данные для выделения соответствующих временных меток в качестве Key Moments.

    Может ли система неправильно определить концепцию из-за неточных тегов?

    Да, шум в данных (неточные теги) — это проблема. Однако алгоритм CRANE разработан так, чтобы быть устойчивым к такому шуму. Он сравнивает результаты с огромным количеством негативных примеров. Даже если один негативный пример ошибочно содержит концепцию, это окажет минимальное влияние на общий результат, так как система учитывает совокупность всех сравнений.

    Если я использую стоковое видео, как это повлияет на распознавание контента?

    Если стоковое видео слишком общее и используется повсеместно в разных контекстах (включая негативные примеры для вашей темы), система может классифицировать эти сегменты как фон или шум. Желательно использовать уникальный контент или добавлять ценность стоковому контенту, чтобы система видела уникальные признаки.

    Что такое «пространственно-временная сегментация» (spatiotemporal segmentation)?

    Это процесс автоматического разделения видео на связные области (объемы) в трех измерениях: высота, ширина и время. Цель состоит в том, чтобы выделить движущиеся объекты или сцены от фона. Например, движущийся автомобиль будет выделен как отдельный пространственно-временной сегмент на протяжении нескольких кадров.

    Работает ли этот алгоритм в реальном времени при загрузке видео или поиске?

    Нет. Алгоритм CRANE — это метод обучения классификаторов, который выполняется офлайн на больших наборах данных. Однако классификатор, который был обучен с помощью CRANE, затем используется для анализа видео во время индексации, чтобы понять его содержание.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.