Как Google автоматически распознает объекты в видео и изображениях без ручной разметки данных

Google использует систему unsupervised learning для распознавания объектов внутри видео и изображений в масштабе. Система использует существующие метаданные (теги, описания) как исходные обучающие данные, а затем итеративно уточняет визуальные модели с помощью Dimensionality Reduction и Consistency Learning. Это позволяет Google понимать визуальное содержание контента, автоматически генерировать теги и проверять точность пользовательских метаданных для улучшения ранжирования в поиске по видео и картинкам.

Описание

Какую задачу решает

Патент решает проблему автоматического распознавания реальных объектов (люди, животные, продукты, здания и т.д.) внутри цифрового визуального контента (видео и изображений) в очень больших масштабах (сотни тысяч объектов, миллионы единиц контента). Традиционные системы требуют supervised learning, то есть больших наборов данных, вручную размеченных людьми, что дорого, медленно и плохо масштабируется (особенно для платформ вроде YouTube). Изобретение направлено на создание системы unsupervised learning, способной обучаться распознаванию объектов без прямого вмешательства человека в процесс обучения.

Что запатентовано

Запатентована система автоматического обучения распознаванию объектов в визуальном контенте. Система использует существующие текстовые описания и метаданные контента как исходные (хотя и зашумленные) обучающие данные. Для уточнения моделей используются итеративные процессы Dimensionality Reduction (снижение размерности) и Consistency Learning (обучение согласованности). Это позволяет создать Classification Models для большого количества объектов, которые затем используются для определения вероятности присутствия этих объектов в любом визуальном контенте.

Как это работает

Система работает следующим образом:

Сбор названий объектов: Формируется большой список потенциальных объектов (например, из WordNet или поискового индекса).
Сбор обучающих данных (Unsupervised): Для каждого названия объекта (например, «пингвин») система находит визуальный контент, метаданные которого содержат это слово. Это формирует исходный обучающий набор.
Извлечение признаков: Контент сегментируется, и из выделенных визуальных объектов извлекаются feature vectors (например, цвет, текстура, SIFT).
Итеративное уточнение: Модели многократно обрабатываются:

Dimensionality Reduction: Упрощает данные, уменьшая количество векторов.
Consistency Learning: Сравнивает векторы внутри класса и между классами. Векторы, которые не похожи на другие векторы своего класса или слишком похожи на векторы чужого класса, удаляются.

Стабилизация: Процесс повторяется до тех пор, пока модель не стабилизируется (векторы станут достаточно схожими, например, по результатам кластеризации). Результат сохраняется как Classification Model.
Применение: Новые видео анализируются путем сравнения их признаков с изученными моделями для расчета вероятности содержания конкретных объектов.

Актуальность для SEO

Высокая. Автоматическое понимание визуального контента является критически важной задачей для Google, особенно с ростом значимости YouTube, Google Images и визуальных элементов в основном поиске (например, с использованием мультимодальных моделей). Описанные методы unsupervised learning и масштабируемого распознавания объектов лежат в основе современных систем компьютерного зрения, используемых для ранжирования, модерации и таргетинга контента.

Важность для SEO

Патент имеет критическое значение для Video SEO и Image SEO (оценка 8.5/10). Он описывает механизм, позволяющий Google понимать содержание видео и изображений независимо от окружающего текста и метаданных. Это напрямую влияет на ранжирование в поиске по картинкам и видео, позволяет системе бороться со спамом в метаданных (проверяя их визуальным контентом) и улучшает общую релевантность выдачи за счет автоматической генерации тегов для контента без описаний.

Детальный разбор

Термины и определения

Classification Model (Классификационная модель): Итоговый набор feature vectors для определенного Object Name, полученный после достаточного количества раундов Dimensionality Reduction и Consistency Learning. Используется как эталон для распознавания объекта в новом контенте.
Consistency Learning (CL) (Обучение согласованности): Процесс уточнения набора feature vectors. Включает сравнение вектора с другими векторами того же класса (in-class) и векторами других классов (out-of-class). Векторы с низкой согласованностью (низким сходством внутри класса или высоким сходством с другими классами) удаляются.
Dimensionality Reduction (DR) (Снижение размерности): Процесс уменьшения количества feature vectors, представляющих объект, с сохранением наиболее значимой информации. Используются алгоритмы вроде PCA, LDA, MDS.
Feature Vector (Вектор признаков): Набор числовых значений, описывающих визуальные характеристики объекта или его части (цвет, текстура, края, оптический поток, SIFT и т.д.).
Object Name (Название объекта): Слово или фраза, представляющая реальный объект (например, «пингвин», «Эйфелева башня»). Источником могут быть лексические базы данных (WordNet) или поисковые индексы.
Recognition Repository (Репозиторий распознавания): Хранилище данных, содержащее для каждого проанализированного Visual Content Item вероятности того, что он содержит те или иные объекты из Object Name Repository.
Supervised Learning (Обучение с учителем): Метод машинного обучения, требующий предварительно размеченных вручную обучающих данных.
Unsupervised Learning (Обучение без учителя): Метод машинного обучения, не требующий размеченных вручную данных. В контексте патента достигается за счет использования метаданных контента как исходного сигнала (также называемое Weak Supervision).
Visual Content Item (Единица визуального контента): Видеофайл (MP4, QuickTime) или изображение (JPEG, PNG и т.д.).
Visual Object (Визуальный объект): Связная область пикселей в изображении или кадре видео, выделенная алгоритмом сегментации как целостная визуальная сущность.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс обучения системы распознавания.

Для каждого Object Name (из множества):

Выбирается множество Visual Content Items из репозитория.
С Object Name ассоциируется набор Feature Vectors, извлеченных из этих Visual Content Items.

Для каждого Object Name:

Выполняется Consistency Learning для набора Feature Vectors до тех пор, пока не будет достигнута минимальная мера сходства внутри набора.
Полученный набор Feature Vectors сохраняется как Classification Model для данного Object Name.

Ядро изобретения — это использование Consistency Learning для итеративного уточнения набора признаков, изначально связанных с объектом, до достижения стабильной и согласованной модели.

Claim 2 (Зависимый от 1): Уточняет, что перед Consistency Learning также выполняется несколько раундов Dimensionality Reduction, где выход одного раунда служит входом для следующего.

Claim 4 (Зависимый от 1): Критически важное уточнение. Visual Content Items автоматически выбираются из репозитория на основе связи между Object Name и текстовыми описаниями (textual descriptions) этих Visual Content Items. Это подтверждает механизм «псевдо-unsupervised» обучения: система использует существующие метаданные для формирования исходного обучающего набора.

Claim 5 (Зависимый от 1): Описывает процесс применения обученной модели (классификации нового контента).

Получение нового Visual Content Item.
Выполнение нескольких раундов Consistency Learning для него, получая набор Feature Vectors.
Идентификация Object Names, чьи Classification Models похожи на Feature Vectors нового контента.
Расчет вероятностей того, что контент содержит эти объекты.
Сохранение вероятностей в Recognition Repository.

Claim 7 (Зависимый от 5): Описывает применение системы для уточнения метаданных и борьбы со спамом.

Система идентифицирует объекты с наивысшей вероятностью присутствия в контенте.
Система пересматривает (revising) список меток (labels) в метаданных, связанных с этим контентом, основываясь на идентифицированных объектах.

Claim 12 (Зависимый от 1): Детализирует механизм Consistency Learning. Мера сходства для вектора рассчитывается на основе сравнений с другими векторами. Совпадения с векторами того же объекта увеличивают оценку (score), а совпадения с векторами других объектов уменьшают ее.

Claim 20 (Независимый пункт): Описывает процесс использования системы для поиска (Retrieval).

Доступ к Recognition Repository, который хранит ассоциации между Object Name, Visual Content Item и вероятностью присутствия объекта в контенте.
Получение запроса, содержащего Object Name.
Идентификация множества Visual Content Items с наивысшими вероятностями содержания визуального представления этого объекта, основываясь на данных Recognition Repository.

Это напрямую связывает механизм распознавания объектов с ранжированием результатов в поиске по видео или изображениям.

Где и как применяется

Изобретение затрагивает несколько этапов поиска и реализуется в двух основных процессах: Обучение (Learning) и Применение (Recognition/Retrieval).

INDEXING – Индексирование и извлечение признаков

Процесс Обучения (Learning):

Сбор данных: Система собирает Object Names и использует их для запроса к Visual Content Repository, выбирая контент на основе метаданных.
Извлечение признаков: Визуальный контент сегментируется, извлекаются Feature Vectors.
Анализ и Моделирование (Офлайн): Происходит основная работа алгоритма — итеративное применение Dimensionality Reduction и Consistency Learning для построения Classification Models. Результаты сохраняются в Object Features Repository.

Процесс Применения (Recognition):

При индексировании нового визуального контента система извлекает из него признаки и сравнивает их с существующими Classification Models.
Рассчитываются вероятности присутствия объектов.
Эти вероятности сохраняются в Recognition Repository, по сути, аннотируя контент автоматически сгенерированными тегами и оценками уверенности.
Валидация метаданных: Проверка соответствия существующих метаданных распознанным объектам и их корректировка (Claim 7).

RANKING / METASEARCH – Ранжирование и Метапоиск

Процесс Поиска (Retrieval):

Когда пользователь вводит запрос (например, «видео с пингвинами»), система (Object Request Module) обращается к Recognition Repository.
Она идентифицирует Visual Content Items с наивысшими вероятностями для Object Name «пингвин».
Эти данные используются для ранжирования результатов поиска по видео или картинкам.

Входные данные (Обучение):

Список Object Names.
Visual Content Repository (видео, изображения) с сопутствующими метаданными (textual descriptions).

Выходные данные (Обучение):

Object Features Repository, содержащий Classification Models (наборы уточненных Feature Vectors) для каждого объекта.

Входные данные (Применение/Поиск):

Новый Visual Content Item (для индексации).
Запрос пользователя (для поиска).
Classification Models.

Выходные данные (Применение/Поиск):

Recognition Repository с вероятностями (для индексации).
Ранжированный список визуального контента (для поиска).

На что влияет

Типы контента: В первую очередь влияет на видео и изображения (Visual Content Items).
Специфические запросы: Наибольшее влияние на запросы, связанные с поиском конкретных физических объектов (информационные, коммерческие запросы в Google Images, YouTube).
Масштаб: Система разработана для работы в очень больших масштабах (упоминается 50,000 и более Object Names).
Борьба со спамом: Система используется для верификации пользовательских метаданных и борьбы с нерелевантными тегами (Claim 7). Если визуальный контент не соответствует тегам, они могут быть отброшены или понижены в весе.

Когда применяется

Триггеры активации (Обучение): Процесс обучения запускается периодически или при добавлении новых Object Names, или при накоплении достаточного количества нового визуального контента с метаданными для существующих объектов.
Условия (Обучение): Требуется наличие достаточного количества визуального контента, ассоциированного с Object Name через метаданные, для начала обучения.
Триггеры активации (Применение): Активируется при индексации любого нового визуального контента и при выполнении поисковых запросов в системах поиска по видео/изображениям.
Пороговые значения: Consistency Learning продолжается до достижения пороговой меры сходства (minimum measure of similarity). При распознавании сохраняются только вероятности выше определенного порога или Топ-N вероятностей.

Пошаговый алгоритм

Процесс А: Обучение моделей объектов (Unsupervised Learning)

Получение названий объектов: Извлечение большого набора Object Names из внешних источников (лексические базы, поисковые индексы).
Ассоциация контента (Bootstrap): Для каждого Object Name выполняется запрос к Visual Content Repository для поиска контента, чьи метаданные (textual descriptions) связаны с этим названием.
Сегментация объектов: Выбранный контент обрабатывается алгоритмами сегментации (например, Mean Shift) для выделения отдельных Visual Objects (потенциальных объектов переднего плана).
Извлечение характеристик: Для каждого Visual Object извлекаются Feature Vectors (цвет, текстура, SIFT и т.д.). Они ассоциируются с исходным Object Name.
Итеративное уточнение модели:

Dimensionality Reduction (DR): Применение алгоритмов (например, PCA) для уменьшения размера набора Feature Vectors.
Consistency Learning (CL): Для каждого вектора рассчитывается оценка согласованности: оценка повышается при сходстве с другими векторами этого же объекта (in-class) и понижается при сходстве с векторами других объектов (out-of-class). Векторы с оценкой ниже порога удаляются.
Оценка сходимости: Проверка степени сходства оставшихся векторов (например, с помощью кластеризации). Если сходство достигло порога (модель стабилизировалась, например, менее 7 кластеров) — переход к шагу 6. Иначе — возврат к шагу 5a (следующий раунд DR/CL).

Сохранение модели: Стабилизированный набор Feature Vectors сохраняется как Classification Model для данного Object Name. Также сохраняется количество раундов, потребовавшихся для стабилизации.

Процесс Б: Классификация нового контента и Поиск

Получение и обработка контента: Новое видео/изображение сегментируется, извлекаются Feature Vectors (может также включать раунды DR/CL).
Сравнение с моделями: Feature Vectors нового контента сравниваются с Classification Models всех (или релевантного подмножества) объектов.
Расчет вероятностей: На основе степени совпадения рассчитывается вероятность присутствия каждого объекта в контенте.
Сохранение результатов: Вероятности сохраняются в Recognition Repository в привязке к контенту.
Валидация метаданных: Система сравнивает распознанные объекты с существующими метками и может скорректировать их (Claim 7).
Обработка запроса (Поиск): При получении запроса система ищет в Recognition Repository контент с наивысшими вероятностями для запрошенного объекта и ранжирует его.

Какие данные и как использует

Данные на входе

Система использует два основных типа данных для обучения и распознавания:

Текстовые факторы (Метаданные): Textual descriptions, связанные с визуальным контентом (например, заголовки, теги, описания, предоставленные пользователями). Они критически важны для формирования исходного обучающего набора в процессе unsupervised learning (Bootstrap).
Мультимедиа факторы (Визуальные признаки): Данные, извлекаемые непосредственно из пикселей контента. Они представлены в виде Feature Vectors. В патенте упоминаются:

Цвет (Color intensity, luminosity; упоминаются цветовые пространства RGB, HSV, LAB).
Текстура (Texture; упоминаются вейвлеты Gabor и/или Haar).
Края (Edge direction).
Движение (Motion, optical flow) – для видео.
SIFT (Scale-invariant feature transform).

Какие метрики используются и как они считаются

Мера сходства (Measure of Similarity) / Оценка согласованности (Consistency Score): Рассчитывается в процессе Consistency Learning. Это функция, которая учитывает:

In-class comparisons: Сходство вектора с другими векторами того же объекта (повышает оценку).
Out-of-class comparisons: Сходство вектора с векторами других объектов (понижает оценку).

Порог согласованности: Фиксированное значение оценки согласованности. Векторы ниже этого порога отбрасываются.
Сходимость модели (Model Convergence): Определяется, когда Feature Vectors объекта достигают минимальной меры сходства. В патенте предлагается использовать алгоритмы кластеризации (например, k-means) для оценки этого. Модель считается сошедшейся, если количество кластеров не превышает определенного порога (например, семь или меньше).
Вероятность (Probability): Рассчитывается при классификации нового контента. Это числовая оценка, quantifying the strength of the match между Feature Vectors контента и Classification Model объекта. Используется для ранжирования в поиске.
Алгоритмы Машинного Обучения:

Для сегментации: Mean shift, adaptive background subtraction, clustering algorithms.
Для снижения размерности (DR): Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), MDS, Isomap, LLE.
Для кластеризации: k-means clustering, agglomerative clustering.

Выводы

Google понимает визуальный контент на уровне объектов: Патент описывает масштабируемую систему, позволяющую Google идентифицировать конкретные объекты внутри видео и изображений. Это означает, что для ранжирования визуального контента система не полагается исключительно на окружающий текст, метаданные или alt-атрибуты.
Механизм Unsupervised Learning зависит от исходных метаданных: Хотя система является unsupervised (не требует ручной разметки), она использует существующие пользовательские метаданные (теги, описания) для формирования исходного обучающего набора (Bootstrap). Это подчеркивает важность наличия хотя бы минимально релевантных текстовых сигналов для инициации процесса распознавания.
Визуальная согласованность как фактор качества: Ключевой механизм Consistency Learning показывает, что Google ценит визуальную согласованность. Объекты должны выглядеть так, как система ожидает (на основе сравнения с тысячами других примеров).
Автоматическая генерация и верификация тегов: Система позволяет автоматически генерировать теги для контента без описаний. Что более важно, она может верифицировать пользовательские теги (Claim 7). Если теги не соответствуют визуальному содержанию, они могут быть проигнорированы (борьба со спамом в метаданных).
Прямое влияние на ранжирование визуального поиска: Recognition Repository хранит вероятности присутствия объектов, и эти вероятности напрямую используются для ранжирования ответов на запросы пользователей (Claim 20). Визуальная релевантность является прямым фактором ранжирования в Google Images и YouTube.

Практика

Best practices (это мы делаем)

Обеспечение визуальной четкости и релевантности: Контент (видео и изображения) должен быть качественным, а ключевые объекты должны быть четко видны и занимать значительную часть кадра (foreground objects). Это облегчает сегментацию и корректное извлечение Feature Vectors.
Точные и релевантные исходные метаданные: Поскольку система использует метаданные (заголовки, описания, теги YouTube, alt-тексты) для инициации обучения (Bootstrap), важно предоставлять точную информацию. Это поможет системе быстрее и точнее сформировать Classification Model для новых или нишевых объектов, связанных с вашим контентом.
Использование структурированных данных для визуального контента: Разметка VideoObject и ImageObject помогает связать визуальный контент с сущностями Knowledge Graph, что может коррелировать с Object Names, используемыми системой распознавания.
Оптимизация под конкретные объекты: При создании контента фокусируйтесь на конкретных объектах (продукты, локации, люди). Если система имеет надежную модель для этого объекта, ваш контент получит высокий Probability score в Recognition Repository и будет лучше ранжироваться по соответствующим запросам.

Worst practices (это делать не надо)

Спам ключевыми словами в метаданных (Tag Stuffing): Добавление популярных, но нерелевантных тегов или описаний к видео/изображениям неэффективно. Система визуального распознавания верифицирует метаданные (Claim 7). При обнаружении несоответствия теги могут быть отброшены, а контент или сайт пессимизирован за спам.
Использование вводящих в заблуждение изображений (Clickbait Thumbnails): Использование изображений, не соответствующих содержанию (например, в превью видео), контрпродуктивно. Система анализирует весь контент, и несоответствие может снизить общую оценку качества и релевантности.
Низкое качество визуального контента: Использование размытых, темных или стоковых изображений, где объекты плохо различимы или визуально не уникальны, затрудняет работу системы распознавания и снижает вероятность получения высокого Probability score.

Стратегическое значение

Патент подтверждает стратегический приоритет Google в понимании мультимедийного контента наравне с текстом. Для SEO это означает, что оптимизация визуального контента переходит от чисто технической (размер файла, alt-теги) к семантической и визуальной. Стратегия должна включать создание уникального, качественного визуального контента, который четко представляет релевантные объекты. В долгосрочной перспективе визуальная релевантность будет играть все большую роль в ранжировании, особенно в контексте развития мультимодальных моделей.

Практические примеры

Сценарий: Оптимизация карточки товара в E-commerce для Google Images

Задача: Улучшить ранжирование изображений нового продукта (например, модель кроссовок) в поиске по картинкам.
Действия (основанные на патенте):

Визуальное качество: Загрузить высококачественные фотографии продукта с разных ракурсов на нейтральном фоне. Убедиться, что продукт является основным объектом (foreground object) для облегчения сегментации.
Исходные метаданные: Указать точное название модели в alt-тексте, заголовке страницы и описании. Это дает системе сигнал для ассоциации Visual Object с правильным Object Name (Bootstrap).
Визуальная согласованность: Использовать согласованный стиль фотографий для всех продуктов линейки. Это помогает системе построить более чистую Classification Model для ваших товаров, используя Consistency Learning.

Ожидаемый результат: Система распознавания объектов корректно идентифицирует продукт на изображениях. В Recognition Repository для этих изображений будет записана высокая вероятность (Probability) для Object Name (модель кроссовок). Это напрямую улучшит ранжирование изображений по запросам, связанным с этим продуктом.

Вопросы и ответы

Как Google учится распознавать новые объекты, о которых еще мало информации?

Система использует механизм unsupervised learning (или Weak Supervision). Она начинает с поиска визуального контента, чьи метаданные (теги, описания) упоминают новый объект. Даже если эти данные зашумлены, система использует итеративный процесс Consistency Learning для фильтрации нерелевантных визуальных признаков и выделения общих характеристик, присущих новому объекту. Точные метаданные на вашем сайте могут помочь ускорить этот процесс.

Насколько важны alt-теги и окружающий текст, если Google может распознавать объекты визуально?

Они остаются очень важными по двум причинам. Во-первых, согласно патенту, текстовые описания используются как исходные данные для обучения (Claim 4). Во-вторых, они предоставляют контекст, помогают разрешать неоднозначности и обеспечивают доступность контента. Мультимодальные системы Google используют все доступные сигналы (текст и изображение) для наиболее точного понимания контента.

Может ли эта система распознать логотип моего бренда на видео?

Да, если логотип вашего бренда рассматривается системой как Object Name и существует достаточное количество визуальных примеров для обучения. Система не делает различий между типами объектов; она может распознавать людей, животных, продукты, здания и логотипы, если они визуально различимы и последовательны.

Как эта система борется со спамом в тегах на YouTube?

Патент описывает механизм верификации (Claim 7). Система анализирует видео и рассчитывает вероятности присутствия различных объектов. Если пользовательские теги сильно расходятся с результатами визуального анализа (например, видео помечено как «Обзор iPhone», но система видит только кошек), эти теги могут быть отброшены или их вес значительно снижен, что уменьшает эффективность спама.

Что такое Consistency Learning и как это влияет на SEO?

Consistency Learning — это процесс очистки данных, при котором система сравнивает визуальные признаки объекта с признаками других объектов. Если объект выглядит нетипично для своего класса или слишком похож на объекты другого класса, он отбрасывается. Для SEO это означает, что важно использовать четкие, качественные и типичные изображения объектов (например, продуктов), чтобы они соответствовали ожиданиям системы и были корректно классифицированы.

Влияет ли качество видео (разрешение, освещение) на распознавание объектов?

Хотя патент не детализирует это, базовые принципы компьютерного зрения предполагают, что да. Высокое качество, хорошее освещение и четкость объектов улучшают процесс сегментации и извлечения Feature Vectors (таких как SIFT или текстуры). Чем точнее извлечены признаки, тем выше вероятность корректного распознавания и получения высокого Probability score.

Применяется ли это только к YouTube и Google Images или также к основному веб-поиску?

Патент в первую очередь фокусируется на репозиториях визуального контента (Video/Image Search). Однако понимание визуальных элементов на веб-странице является частью общего процесса индексирования и оценки качества страницы. Распознавание объектов помогает Google лучше понять тематику страницы и релевантность изображений контенту, что косвенно влияет и на основной веб-поиск.

Что такое Dimensionality Reduction в контексте этого патента?

Dimensionality Reduction (например, PCA) — это процесс упрощения данных. Изначально из контента извлекается огромное количество Feature Vectors. DR уменьшает их количество, оставляя только самые важные и репрезентативные признаки. Это снижает вычислительную нагрузку и помогает сосредоточиться на ключевых визуальных характеристиках объекта.

Как система определяет, какие объекты в кадре главные, а какие фоновые?

Это определяется на этапе сегментации (Image Segmentation). Система использует алгоритмы (например, Mean Shift или adaptive background subtraction), чтобы выделить Visual Objects, которые считаются объектами переднего плана (foreground visual objects), отделяя их от фона. Для SEO важно, чтобы ключевые объекты находились в фокусе и были четко отделены от фона.

Если я использую стоковые изображения, как это повлияет на распознавание?

Если стоковые изображения широко распространены, система может легко распознать объекты на них. Однако использование неуникального контента не дает конкурентного преимущества. Система может ассоциировать эти изображения с множеством источников, что не способствует повышению авторитетности вашего сайта. Уникальные изображения предпочтительнее для демонстрации экспертизы (E-E-A-T).