Google использует систему автоматического распознавания лиц для идентификации людей в видео. Система самостоятельно создает базу данных моделей лиц, анализируя изображения и тексты из интернета. Затем она отслеживает лица в видеопотоке, сравнивает их с базой данных и аннотирует видео именами распознанных людей, улучшая поиск по видеоконтенту.
Описание
Какую задачу решает
Патент решает проблему масштабируемости и точности аннотирования больших объемов видеоконтента. Ручное тегирование имен людей в видео требует значительных усилий, непоследовательно и непрактично в масштабах интернета. Существующие методы распознавания также сталкивались с трудностями из-за вариативности внешнего вида людей (поза, освещение, возраст) и низкого качества видео. Изобретение автоматизирует процесс идентификации людей для улучшения организации и поиска видео.
Что запатентовано
Запатентована система автоматического аннотирования видео, состоящая из двух ключевых компонентов. Первый — генератор моделей лиц (Face Model Generator), который автономно создает базу данных моделей лиц (Database of Face Models), используя общедоступные корпусы текстов и изображений. Второй — модуль распознавания лиц в видео (Video Face Recognition Module), который использует сложные методы отслеживания (tracking) и кластеризации (clustering) для надежной идентификации людей в видеопотоке и их аннотирования.
Как это работает
Система работает в два этапа:
- Генерация моделей (Офлайн): Система анализирует текстовые и графические корпусы (например, новостные архивы) для выявления популярных имен. Она находит связанные изображения, извлекает лица и генерирует начальные модели. Для фильтрации шума и повышения надежности используется техника Consistency Learning.
- Распознавание в видео (Индексирование): При обработке видео система обнаруживает и отслеживает лица, создавая Face Tracks. Она использует многоуровневую кластеризацию (Intra-track и Inter-track) для выбора ключевых изображений (Key Face Images) и группировки появлений одного человека. Затем эти данные сравниваются с базой моделей лиц, и видео аннотируется именами распознанных людей.
Актуальность для SEO
Высокая. Понимание мультимедийного контента и идентификация сущностей (людей) критически важны для Google (особенно для YouTube и Видеопоиска). Хотя конкретные алгоритмы компьютерного зрения, упомянутые в патенте 2008 года (например, признаки Габора в описании), могли быть заменены современными методами глубокого обучения, общая архитектура системы — автоматическое построение базы знаний и сложная обработка видеопотока — остается крайне актуальной.
Важность для SEO
Влияние на SEO значительно (7.5/10), особенно для Video SEO. Патент описывает механизм, позволяющий Google понять, кто именно находится в видео, не полагаясь только на метаданные, предоставленные пользователем. Это напрямую влияет на то, как видео индексируется и ранжируется по запросам, включающим имена людей, и способствует интеграции видеоконтента с Графом Знаний (Knowledge Graph).
Детальный разбор
Термины и определения
- Consistency Learning (Согласованное обучение)
- Техника машинного обучения (упоминается как bagging technique), используемая для фильтрации зашумленных данных при построении Database of Face Models. Позволяет выбрать надежные модели из большого количества слабо связанных изображений, найденных в интернете.
- Database of Face Models (База данных моделей лиц)
- Хранилище, содержащее одну или несколько Face Models для каждого идентифицированного человека, а также связанные с ними текстовые метки (например, имена).
- Face Model (Модель лица)
- Математическое представление лица человека, основанное на Feature Vectors. Используется для сравнения и распознавания.
- Face Track (Трек лица)
- Последовательность обнаружений одного и того же лица в последовательных кадрах видео, полученная в результате отслеживания.
- Feature Vector (Вектор признаков)
- Набор числовых значений, описывающих специфические свойства обнаруженного лица. Используется для создания Face Model.
- Inter-track Clustering (Межтрековая кластеризация)
- Процесс группировки разных Face Tracks, которые принадлежат одному и тому же человеку в рамках одного видео (например, если человек покинул кадр и вернулся).
- Intra-track Clustering (Внутритрековая кластеризация)
- Процесс группировки изображений внутри одного Face Track для учета вариаций (поза, мимика) и выбора репрезентативных Key Face Images.
- Key Face Images (Ключевые изображения лиц)
- Репрезентативный набор изображений, выбранных из Face Track путем кластеризации. Используются для надежного распознавания и снижения влияния шума.
- Shot Boundary (Граница сцены)
- Точка в видео, где происходит смена сцены или ракурса камеры. Используется для повышения эффективности отслеживания лиц.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод идентификации лиц в видео.
- Генерация одного или нескольких Face Tracks из входного видеопотока.
- Выбор одного или нескольких Key Face Images для каждого трека.
- Кластеризация треков для генерации Face Clusters (каждый кластер ассоциирован с ключевыми изображениями).
- Создание Face Models из кластеров. Важное уточнение: модели выводятся непосредственно из признаков (features) ключевых изображений, связанных с кластером.
- Корреляция (сопоставление) этих моделей с Face Model Database.
Claim 8 (Независимый пункт): Описывает архитектуру системы для идентификации лиц.
- Face Model Database, содержащая записи с моделями лиц и именами.
- Video Face Identifier Module, включающий:
- Модули обнаружения и отслеживания лиц (генерируют Face Tracks).
- Модули Intra-track и Inter-track Clustering.
- Модуль генерации моделей лиц (использует кластеры; модели выводятся из признаков выбранных изображений).
- Модуль сравнения моделей (сравнивает с базой данных).
Claim 9 (Зависимый от 8): Дополняет систему модулем Face Model Generator (описывает офлайн-процесс построения базы).
- Генерация списка имен.
- Поиск изображений, связанных с этими именами.
- Обнаружение лиц на изображениях.
- Генерация начальных моделей лиц.
- Сбор пар модель/имя.
- Применение Consistency Learning для выбора репрезентативных моделей и их сохранения в базе данных.
Где и как применяется
Изобретение охватывает процессы, происходящие как офлайн (построение базы знаний), так и во время индексирования мультимедийного контента.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.
- Офлайн-процесс (Построение базы знаний): Система анализирует внешние Text Corpus и Image Corpus (например, интернет-новости, архивы). Происходит извлечение признаков (идентификация имен, обнаружение связанных лиц) и построение Database of Face Models. Это механизм обогащения базы знаний Google визуальными данными о сущностях (людях).
- Индексирование видео: При индексировании контента из Video Corpus (например, на YouTube) активируется Video Face Recognition Module. Система анализирует видеопоток, извлекает и идентифицирует лица. Результатом является аннотирование видео (создание Database of Annotated Video).
RANKING – Ранжирование
Результаты работы системы (аннотированное видео) используются поисковой системой. При обработке запроса, связанного с персоной, система использует эти аннотации для поиска и ранжирования релевантных видео в вертикали Видео или в блоках универсального поиска.
Входные данные:
- Текстовые и графические корпусы (для генерации моделей).
- Видеопоток (для распознавания).
- Database of Face Models (для идентификации).
Выходные данные:
- Обновленная Database of Face Models.
- Database of Annotated Video (метаданные о присутствующих людях и времени их появления).
На что влияет
- Конкретные типы контента: В первую очередь влияет на видеоконтент (интервью, новостные сюжеты, конференции, видеоблоги).
- Специфические запросы: Запросы, связанные с персоналиями (имена знаменитостей, политиков, экспертов).
- Конкретные ниши или тематики: Новости, развлечения, спорт, образование — любые тематики, где ключевую роль играют известные личности, для которых в интернете достаточно данных для построения модели.
Когда применяется
- Генерация моделей: Происходит офлайн и периодически обновляется для анализа новых данных в текстовых и графических корпусах интернета.
- Распознавание в видео: Применяется во время индексации нового видеоконтента или при переиндексации существующего.
- Условия работы: Требуется наличие достаточно четкого изображения лица в видео для обнаружения и отслеживания. Для распознавания необходимо наличие предварительно созданной модели лица в базе данных.
Пошаговый алгоритм
Процесс А: Генерация базы моделей лиц (Офлайн)
- Определение имен: Анализ Text Corpus (например, новостных архивов) для выявления часто встречающихся имен (популярных персон).
- Поиск изображений: Поиск в Image Corpus изображений, ассоциированных с этими именами (например, по подписям или окружающему тексту).
- Обнаружение лиц: Анализ найденных изображений для обнаружения лиц.
- Генерация векторов признаков: Создание Feature Vectors для каждого обнаруженного лица.
- Хранение пар: Сохранение векторов и ассоциированных имен (начальный набор данных с шумом).
- Обучение согласованности: Применение Consistency Learning к собранным данным для фильтрации шума, отбрасывания неверных ассоциаций и выбора надежных, репрезентативных Face Models.
- Сохранение: Запись надежных моделей в Database of Face Models.
Процесс Б: Распознавание лиц в видео (Индексирование)
- Получение видео.
- Обнаружение и отслеживание лиц: Система чередует ресурсоемкое обнаружение лиц и более быстрое отслеживание (tracking) для создания Face Tracks. Определяются границы сцен (Shot Boundary) для сброса трекинга.
- Выбор ключевых лиц (Intra-track Clustering): Внутри каждого трека изображения группируются для выбора Key Face Images. Кластеры с малым количеством изображений или не фронтальными лицами могут отбрасываться для уменьшения шума.
- Кластеризация треков (Inter-track Clustering): Разные треки, принадлежащие одному и тому же человеку в видео, группируются вместе на основе схожести их Key Face Images.
- Распознавание лиц: Сравнение моделей из кластеров с Database of Face Models. Для определения личности используется комбинация алгоритма большинства голосов (Majority Voting) и вероятностного голосования (Probabilistic Voting), учитывающего оценку уверенности (Confidence Score).
- Аннотирование: Если личность установлена (порог уверенности превышен), видео аннотируется и сохраняется в Database of Annotated Video.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст, окружающий изображения (подписи, текст статьи). Используется на этапе генерации моделей для установления первоначальной (слабой) связи между именем и изображением лица.
- Мультимедиа факторы: Изображения (Image Corpus) и Видео (Video Corpus). Анализируются пиксельные данные для обнаружения лиц и извлечения визуальных признаков.
- Пользовательские факторы: Патент упоминает возможность добавления пользователем вручную пар изображение-имя в базу данных (Claim 14).
Какие метрики используются и как они считаются
- Feature Vectors (Векторы признаков): Извлекаются из изображений лиц. В описании патента упоминается возможность использования local Gabor features, извлеченных из точек лицевых признаков.
- Distance/Similarity (Расстояние/Схожесть): Метрика для сравнения двух изображений лиц на основе их Feature Vectors. Используется для всех этапов кластеризации.
- Confidence Score (Оценка уверенности): Метрика, указывающая на надежность сопоставления лица в видео с моделью в базе данных. Используется в Probabilistic Voting.
- Методы анализа и алгоритмы:
- Детекция и Трекинг: Упоминаются Cascade of boosted classifiers (для обнаружения) и Facial feature based tracking (для отслеживания).
- Кластеризация: Упоминаются Hierarchical clustering и/или k-means clustering.
- Распознавание: Majority voting и Probabilistic voting. Упоминается возможность использования k-nearest neighbor algorithm.
- Очистка данных: Consistency Learning (техника бэггинга).
Выводы
- Автоматизация понимания видеоконтента: Патент демонстрирует, как Google автоматически идентифицирует сущности (людей) внутри видео без опоры на предоставленные пользователем метаданные. Это ключевой шаг для глубокого понимания содержания видео.
- Построение визуального профиля сущности из Веб-данных: Система способна самостоятельно формировать базу знаний (Face Models), используя неструктурированные и шумные данные интернета (текст + картинки). Consistency Learning критически важен для этого процесса.
- Устойчивость к шуму и вариативности: Система разработана с учетом низкого качества видео и изменений во внешности. Для этого используются сложные механизмы отслеживания и многоуровневой кластеризации (Intra/Inter-track) для выбора лучших кадров (Key Face Images).
- Улучшение поиска мультимедиа: Конечная цель — автоматическое аннотирование видео для того, чтобы сделать его доступным для поиска по именам людей, которые в нем появляются, что напрямую влияет на Video SEO.
Практика
Best practices (это мы делаем)
- Оптимизация качества видеопродукции: Создавайте высококачественный видеоконтент с хорошим освещением. Убедитесь, что лица ключевых спикеров или участников показаны четко. Это облегчает работу модулей обнаружения и отслеживания лиц.
- Использование фронтальных ракурсов: Патент отмечает, что не фронтальные изображения могут отбрасываться как менее надежные. Старайтесь включать в монтаж кадры, где ключевые персоны смотрят в камеру.
- Построение четких ассоциаций Сущности (Entity Building): Работайте над онлайн-присутствием ваших экспертов. Публикуйте качественные, четко атрибутированные изображения этих людей в интернете (на официальном сайте, в новостях, пресс-релизах). Это предоставляет Google надежные данные для построения точной Face Model.
- Выравнивание метаданных с содержанием: Четко указывайте имена людей, появляющихся в видео, в метаданных (заголовок, описание, субтитры). Это помогает поисковой системе валидировать автоматические аннотации.
Worst practices (это делать не надо)
- Игнорирование содержания видео: Полагаться только на оптимизацию метаданных. Системы, подобные описанной, позволяют Google визуально верифицировать содержание ролика.
- Низкое качество съемки: Публикация видео с плохим освещением, размытыми лицами или лицами, снятыми с невыгодных ракурсов, затрудняет работу системы и снижает потенциал находимости видео по персональным запросам.
- Манипуляции с ассоциациями (Имя-Лицо): Попытки связать изображения случайных людей с именами знаменитостей. Механизм Consistency Learning предназначен для фильтрации такого рода шума.
Стратегическое значение
Патент подтверждает стратегическую важность распознавания сущностей (Entities) в мультимедийном контенте. Понимание того, кто присутствует в видео, позволяет Google напрямую связывать контент с узлами в Графе Знаний (Knowledge Graph). Для SEO это подчеркивает необходимость интеграции Video SEO и стратегий построения сущностей. Оптимизация переходит на уровень продакшена: важно не только то, о чем видео, но и то, насколько легко оно анализируется автоматическими системами.
Практические примеры
Сценарий: Улучшение видимости видео с участием эксперта компании
Цель: Обеспечить ранжирование видео по запросам, связанным с именем эксперта (Иван Иванов).
- Этап 1: Entity Building (Подготовка данных для Face Model):
- На официальном сайте и в авторитетных СМИ публикуются качественные фото Ивана Иванова с корректными подписями.
- Результат: Google (Процесс А) собирает эти данные и строит точную Face Model для Ивана Иванова.
- Этап 2: Video Production и SEO:
- Записывается видео интервью с Иваном в высоком качестве, с хорошим освещением и фронтальными планами.
- Видео публикуется с оптимизированными метаданными.
- Этап 3: Индексация и Распознавание:
- При индексации Google (Процесс Б) успешно отслеживает лицо Ивана (Face Tracking) и выбирает качественные кадры (Key Face Images).
- Система уверенно идентифицирует Ивана, сравнивая данные с его Face Model, и аннотирует видео.
- Финальный результат: Видео высоко ранжируется в поиске по запросу «Иван Иванов интервью» благодаря автоматической аннотации и может отображаться в виде ключевого момента (Key Moment).
Вопросы и ответы
Как Google строит базу данных моделей лиц (Database of Face Models)?
Система использует офлайн-процесс, анализируя огромные массивы текста и изображений в интернете (например, новостные архивы). Она ищет часто упоминаемые имена и связанные с ними изображения. Поскольку эти связи часто зашумлены, используется техника Consistency Learning для фильтрации ошибок и создания надежной модели лица для каждого имени.
Влияет ли распознавание лиц на ранжирование видео в поиске?
Да, напрямую. Цель патента — улучшение поиска через автоматическое аннотирование. Если Google точно идентифицирует человека в видео, это видео с большей вероятностью будет ранжироваться по запросам, связанным с этим человеком, как в Google Видео, так и в универсальном поиске.
Может ли система распознать человека, который не является знаменитостью?
Теоретически да, но эффективность зависит от данных. Патент фокусируется на популярных личностях, так как по ним много данных в сети. Однако, если о человеке (например, эксперте) достаточно много упоминаний с качественными фотографиями, система потенциально может построить его Face Model и распознавать в видео.
Что такое «Consistency Learning» и почему это важно?
Consistency Learning (Обучение согласованности) — это техника фильтрации данных. Она необходима, потому что первоначальные связи между именами и изображениями в интернете часто неточны (например, фото нескольких людей в статье об одном). Эта техника помогает системе выбрать только те изображения, которые с высокой вероятностью принадлежат именно этой персоне, обеспечивая надежность Face Model.
Как я могу помочь Google правильно ассоциировать имя с лицом (Entity Building)?
Необходимо обеспечить наличие качественных, непротиворечивых данных в интернете. Публикуйте четкие фотографии персоны на официальном сайте, в авторитетных СМИ и пресс-релизах, следя за тем, чтобы имя всегда корректно указывалось рядом с изображением. Это создает надежный источник данных для построения Face Model.
Влияет ли качество видео на распознавание лиц?
Да, очень сильно. Патент упоминает, что низкое качество является проблемой. Система использует механизмы выбора Key Face Images и отбрасывает некачественные или не фронтальные кадры. Видео высокого разрешения с хорошим освещением значительно повышает шансы на успешное обнаружение, отслеживание и распознавание.
Чем отличаются Intra-track и Inter-track clustering?
Intra-track clustering работает внутри одного непрерывного появления человека в кадре (один трек). Его цель — выбрать лучшие кадры (Key Face Images) и учесть изменения в мимике или освещении. Inter-track clustering группирует разные треки (например, человек вышел из кадра и вернулся позже) одного и того же человека в рамках всего видео.
Как эта технология связана с Knowledge Graph?
Эта технология напрямую обогащает Knowledge Graph. Она позволяет связать сущность (человека, у которого есть узел в графе) с ее визуальным представлением (Face Model) и конкретными появлениями в видеоконтенте. Это делает граф знаний более полным и мультимодальным.
Используется ли в этом патенте анализ аудиодорожки для идентификации?
Нет, данный патент сфокусирован исключительно на визуальном анализе видеопотока для распознавания лиц. Анализ аудио (например, распознавание речи или голоса) является отдельным процессом, не описанным в этом документе.
Важно ли, чтобы человек смотрел прямо в камеру?
Да, это помогает. В патенте указано, что изображения, содержащие не фронтальные лица (non-frontal facial images), могут быть отброшены, поскольку распознавание на их основе менее надежно. Для оптимального Video SEO рекомендуется включать фронтальные планы ключевых людей.