Google использует технологию для анализа видеоконтента, автоматического обнаружения и распознавания лиц. Система создает «закладки» (временные метки), указывающие, когда конкретный человек появляется и исчезает из кадра. Для идентификации используются данные социального графа, и распознанные лица могут быть связаны с их профилями в социальных сетях, обогащая метаданные видео.
Описание
Какую задачу решает
Патент решает проблему трудоемкости ручной разметки видеоконтента. Он автоматизирует процесс идентификации людей в видео и определения точного времени их присутствия в кадре. Это устраняет необходимость вручную просматривать длинные видео для тегирования участников и создания навигационных меток.
Что запатентовано
Запатентована система автоматического обнаружения и распознавания лиц в видео для генерации аннотированных метаданных. Система создает временные закладки (bookmarks), указывающие на моменты появления и исчезновения человека из кадра. Ключевой особенностью является использование данных социальных сетей (Social Graph) для идентификации людей и связывание распознанных лиц с их профилями.
Как это работает
Система работает в несколько этапов:
- Обнаружение: Видео обрабатывается покадрово с использованием техник Facial Detection.
- Отслеживание: Система отслеживает перемещение лица и определяет временные метки входа и выхода из кадра. Она также может отслеживать человека по вторичным признакам (одежда, прическа), если лицо временно скрыто.
- Моделирование: Создается Facial Model (модель лица), состоящая из набора шаблонов (Facial Templates) из разных кадров.
- Распознавание: Facial Model сравнивается с базой известных моделей (Known Facial Models), которые могут включать данные контактов автора в социальных сетях. Система может обходить социальный граф для расширения поиска.
- Аннотирование: Генерируются метаданные (идентификаторы и временные метки), которые добавляются к видеофайлу (Annotated video data).
- Интерфейс: При воспроизведении отображаются интерактивные индикаторы или закладки, позволяющие перейти к нужному моменту или посмотреть профиль распознанного человека.
Актуальность для SEO
Высокая. Автоматическое понимание мультимедийного контента и извлечение сущностей (в данном случае, людей) является критически важным направлением для современных поисковых систем и видеоплатформ (таких как YouTube). Технологии распознавания лиц и связывания контента с известными сущностями активно используются для улучшения поиска, персонализации и пользовательского опыта.
Важность для SEO
Патент имеет значительное влияние на Video SEO (7.5/10). Он описывает механизм, с помощью которого Google автоматически извлекает структурированные данные (сущности людей и временные метки) из неструктурированного видеоконтента. Это напрямую влияет на то, как видео индексируется, понимается и ранжируется, особенно по запросам, связанным с конкретными людьми. Обогащение метаданных видео улучшает его видимость и может способствовать появлению в расширенных сниппетах.
Детальный разбор
Термины и определения
- Annotated video data (Аннотированные видеоданные)
- Исходный видеофайл, дополненный метаданными, включающими идентификаторы распознанных лиц и временные метки их присутствия.
- Bookmark (Закладка)
- Набор данных (идентификатор и временные метки), указывающий, когда конкретный человек появляется в видео. Используется для навигации.
- Confidence score (Оценка уверенности)
- Метрика, определяющая вероятность того, что обнаруженная модель лица (Facial Model) соответствует известной модели (Known Facial Model).
- Facial detection (Обнаружение лиц)
- Процесс обработки кадра видео для обнаружения признаков, указывающих на присутствие человеческого лица.
- Facial Model (Модель лица)
- Коллекция шаблонов лица (Facial Templates), представляющая конкретного человека, обнаруженного в нескольких кадрах видео.
- Facial Template (Шаблон лица)
- Данные, извлеченные из одного кадра, содержащего лицо (например, векторы признаков).
- Known Facial Models (Известные модели лиц)
- Хранимые или временно сгенерированные модели лиц, связанные с известной личностью (например, из тегированных фотографий или профилей социальных сетей).
- Social Graph (Социальный граф)
- Структура данных, представляющая связи между пользователями в социальной сети. Используется как источник данных для распознавания.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основную систему взаимодействия видео и социальных сетей.
- Система получает цифровое видео.
- Обрабатывает видео для обнаружения первого человеческого лица.
- Определяет первый кадр и соответствующую временную метку появления лица.
- Генерирует первый идентификатор для этого лица.
- Создает набор данных (идентификатор + метка).
- Определяет, что идентификатор соответствует первому участнику социальной сети.
- Связывает идентификатор с профилем этого участника.
- Добавляет набор данных к видео (Annotated video data).
- Предоставляет интерактивный индикатор (аннотацию) присутствия лица во время воспроизведения видео. Индикатор включает идентификатор, и его выбор вызывает отображение информации о профиле участника социальной сети.
Ядро изобретения — не просто распознавание лиц, а автоматическое связывание их с профилями социальной сети и предоставление интерактивных аннотаций, ведущих на эти профили, во время воспроизведения.
Claim 2 (Зависимый от 1): Описывает механизм обхода социального графа для распознавания.
- После того как первое лицо (из Claim 1) распознано как участник соцсети, система анализирует второе человеческое лицо в видео.
- Система сравнивает второе лицо с изображениями профилей других участников соцсети, которые являются контактами первого распознанного участника.
- Определяется второй идентификатор для второго лица на основе этих сравнений.
Это ключевой момент: система использует уже распознанных людей в видео как отправную точку для распознавания их окружения, обходя социальный граф.
Claim 4 (Зависимый): Детализирует продолжительность аннотации.
- Система определяет второй кадр (последнее появление лица) и его временную метку.
- Аннотация, указывающая на присутствие лица, активна во время воспроизведения от первого до последнего кадра, включая все промежуточные кадры.
Claim 6 (Зависимый от 4): Описывает механизм отслеживания при потере лица из виду.
В одном или нескольких промежуточных кадрах лицо может быть не обнаружено (например, показан затылок). Однако система идентифицирует присутствие человека в этих кадрах на основе обнаружения других признаков: анатомических особенностей, стиля/цвета одежды, тона кожи, стиля/цвета волос.
Где и как применяется
Изобретение применяется преимущественно на этапе индексирования и влияет на отображение результатов.
INDEXING – Индексирование и извлечение признаков
Основной этап работы системы. При загрузке или повторном индексировании видео система запускает процессы Facial Detection и Facial Recognition. Происходит взаимодействие с базами данных Known Facial Models и API социальных графов. Система извлекает сущности (людей), определяет временные метки и генерирует Annotated video data. Здесь же происходит анализ вторичных признаков (одежда, волосы) для непрерывного отслеживания.
RANKING – Ранжирование
Извлеченные метаданные (идентификаторы распознанных людей, их связь с профилями) могут использоваться как сигналы ранжирования. Видео, содержащее авторитетных или релевантных запросу людей, может получить преимущество.
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (UX)
На этом этапе Annotated video data используется интерфейсом видеоплеера (например, на YouTube или в Google Video Search) для отображения интерактивных закладок (Bookmarks) и аннотаций во время воспроизведения.
Входные данные:
- Цифровой видеофайл.
- Доступ к Known Facial Models (базы данных или генерация на лету).
- Данные Social Graph (связи пользователей, изображения профилей).
- Настройки приватности пользователей.
Выходные данные:
- Annotated video data: видеофайл с метаданными (идентификаторы, временные метки, ссылки на профили).
На что влияет
- Типы контента: В первую очередь влияет на видеоконтент, особенно пользовательский (UGC), интервью, образовательные материалы, развлекательные видео, где присутствуют люди.
- Специфические запросы: Улучшает ранжирование по запросам, связанным с именами людей (информационные, навигационные), и по тематическим запросам, если в видео присутствуют известные эксперты в этой теме.
- Конкретные ниши: Значительное влияние в нишах, зависящих от личностей и экспертности (E-E-A-T).
Когда применяется
- Условия применения: Алгоритм применяется при обработке видео на платформе, использующей эту технологию (например, Google, YouTube).
- Триггеры активации: Успешное обнаружение хотя бы одного человеческого лица в видео.
- Ограничения: Распознавание и связывание с профилем активируется только при наличии достаточного Confidence Score и при условии, что настройки приватности пользователя (как автора видео, так и распознаваемого лица) разрешают такую обработку (упоминается в патенте).
Пошаговый алгоритм
Процесс А: Обработка видео и распознавание
- Получение видео: Система получает видеофайл.
- Обнаружение лиц (Detection): Покадровая обработка видео для обнаружения человеческих лиц.
- Отслеживание и Временные метки (Tracking):
- Определение первого кадра (вход) и последнего кадра (выход) для каждого обнаруженного лица.
- Анализ промежуточных кадров. Если лицо не обнаружено, система ищет вторичные признаки (одежда, волосы, тон кожи) для подтверждения присутствия человека.
- Генерация Модели (Modeling): Создание Facial Model путем агрегации Facial Templates из разных кадров для каждого человека.
- Распознавание и Обход Социального Графа (Recognition & Graph Traversal):
- Сравнение Facial Model с Known Facial Models (например, контактами автора). Расчет Confidence Score.
- Если первое лицо (Person A) распознано и связано с профилем в социальной сети:
- Система анализирует другие лица в видео (Person B).
- Система получает доступ к контактам Person A в социальном графе.
- Система сравнивает Facial Model Person B с моделями контактов Person A.
- Идентификация и Связывание (Identification & Linking):
- Если Confidence Score выше порога и настройки приватности позволяют, генерируется специфический идентификатор (Имя).
- Идентификатор связывается с профилем пользователя в социальной сети.
- Если условия не выполнены, генерируется анонимный идентификатор (например, «Person 1»).
- Аннотирование (Annotation): Создание набора данных (идентификатор, временные метки, ссылка на профиль) и добавление его к видеофайлу для создания Annotated video data.
Процесс Б: Отображение (Presentation)
- Воспроизведение: Пользователь запускает Annotated video data в плеере.
- Отображение индикаторов: Плеер отображает интерактивные аннотации или закладки, соответствующие присутствию людей в кадре.
- Взаимодействие: При выборе индикатора пользователем, система либо перематывает видео на момент появления человека, либо отображает информацию из связанного профиля социальной сети.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Видеоданные (кадры как изображения). Из них извлекаются визуальные характеристики: черты лица, цвет и текстура кожи. Для отслеживания также используются: анатомические особенности, стиль и цвет одежды, стиль и цвет волос, тон кожи.
- Пользовательские факторы (Социальные данные):
- Данные Social Graph: связи автора видео и распознанных участников.
- Known Facial Models: Изображения профилей и тегированные фотографии пользователей социальных сетей, используемые для сравнения.
- Настройки приватности (Privacy settings): Разрешения пользователей на распознавание лиц и публикацию ссылок на их профили.
- Ввод пользователя (Опционально): Данные ручной идентификации (тегирования) лиц автором или зрителями.
Какие метрики используются и как они считаются
- Facial Template: Вектор признаков (feature vector), описывающий лицо в одном кадре.
- Facial Model: Агрегация нескольких Facial Templates.
- Similarity Score (Оценка схожести): Рассчитывается при сравнении двух Facial Templates.
- Confidence Score (Оценка уверенности): Рассчитывается при сравнении двух Facial Models. Может быть функцией от агрегированных Similarity Scores (например, среднее, взвешенное или максимальное значение).
- Threshold Confidence Score: Пороговое значение, необходимое для подтверждения совпадения личностей.
- Timestamp data: Временные метки начала и конца присутствия человека в кадре.
- Методы анализа: Используются техники распознавания образов и лиц (Facial detection techniques) и сравнение векторов признаков.
Выводы
- Автоматическое извлечение сущностей из видео: Google активно работает над тем, чтобы превратить видео из «черного ящика» в структурированный контент. Система автоматически определяет, КТО и КОГДА присутствует в видео.
- Использование Социального Графа для распознавания: Патент явно описывает использование социальных связей для идентификации. Система не просто сравнивает лица с глобальной базой, но и целенаправленно обходит Social Graph: сначала проверяет контакты автора, а затем контакты уже распознанных людей в видео.
- Генерация богатых метаданных: Результатом работы системы являются Annotated video data — метаданные, которые связывают видеоконтент с конкретными сущностями (профилями людей). Это критически важно для улучшения индексации и поиска видео.
- Продвинутое отслеживание (Tracking): Система устойчива к временной потере лица из виду (например, если человек отвернулся). Она продолжает отслеживание по вторичным признакам (одежда, волосы, тон кожи), что обеспечивает точность временных меток.
- Влияние на UX и Вовлеченность: Создание автоматических интерактивных закладок и аннотаций напрямую влияет на пользовательский опыт, упрощая навигацию по видео и связывая контент с более широким контекстом (профилями людей).
Практика
Best practices (это мы делаем)
- Оптимизация визуального ряда для распознавания (Video SEO): При создании видео с участием экспертов или ключевых лиц компании следует обеспечить хорошее освещение и четкие ракурсы лиц. Это облегчит системе создание качественной Facial Model и повысит вероятность успешного распознавания.
- Построение Сущностей и Публичных Профилей (Entity Building): Необходимо активно работать над созданием и оптимизацией публичных профилей экспертов компании (включая социальные сети, Knowledge Panels). Важно использовать качественные, консистентные фотографии, которые Google сможет использовать для генерации Known Facial Models для сравнения.
- Стратегия контента, основанная на экспертности (E-E-A-T): Создавайте видео, где присутствие конкретных экспертов добавляет ценность. Поскольку Google может автоматически идентифицировать этих людей и связать их с профилями, это служит сильным сигналом авторитетности контента.
- Стимулирование социального взаимодействия: Учитывая, что система использует Social Graph, наличие связей между авторами контента и экспертами в публичных социальных сетях может способствовать более точному распознаванию.
Worst practices (это делать не надо)
- Игнорирование качества видеоряда: Публикация видео с плохим освещением, низким разрешением или постоянным движением камеры, что затрудняет Facial Detection и Tracking.
- Анонимность экспертов: Использование экспертов без публично доступных профилей и фотографий. Если у Google нет источника для Known Facial Models, система не сможет связать лицо в видео с сущностью, снижая потенциальный SEO-эффект от E-E-A-T.
- Манипуляции с идентификацией: Попытки обмануть систему распознавания (хотя патент не фокусируется на борьбе с ними, системы Google в целом направлены на точность идентификации реальных сущностей).
Стратегическое значение
Этот патент подтверждает стратегический приоритет Google на понимание контента на уровне сущностей, а не ключевых слов. Видеоконтент автоматически анализируется и структурируется. Для SEO это означает, что связь контента с авторитетными личностями становится автоматизированным и масштабируемым сигналом. Долгосрочная стратегия должна включать не только оптимизацию текста и метатегов видео, но и оптимизацию визуального присутствия экспертов и построение их публичного имиджа для облегчения их идентификации системами Google.
Практические примеры
Сценарий: Улучшение видимости серии образовательных видео курса.
- Анализ: Компания запускает видеокурс с участием трех известных в отрасли преподавателей. Цель — ранжироваться по тематическим запросам и по запросам, связанным с именами преподавателей.
- Действия (Entity Optimization): SEO-специалист проверяет, что у всех трех преподавателей есть оптимизированные публичные профили (например, LinkedIn, сайт университета) с качественными фотографиями, и что они связаны с профилем компании.
- Действия (Video Production): Видео снимаются в студии с профессиональным светом. Вводные сегменты четко показывают лицо каждого преподавателя.
- Ожидаемый результат (по патенту): Google обрабатывает видео. Система создает Facial Models преподавателей. Она сравнивает их с Known Facial Models, полученными из публичных профилей, и успешно распознает их. Создаются Annotated video data с временными метками и ссылками на их сущности.
- SEO-эффект: Видео получают дополнительное преимущество в ранжировании благодаря связи с авторитетными сущностями (E-E-A-T). Улучшается видимость видео в поиске по именам преподавателей.
Вопросы и ответы
Как этот патент влияет на E-E-A-T для видеоконтента?
Он напрямую усиливает сигналы Авторства (Authorship) и Авторитетности (Authoritativeness). Если система автоматически распознает лицо известного эксперта в видео и связывает его с авторитетным профилем (сущностью), это служит мощным подтверждением качества и экспертности контента. Это позволяет масштабировать оценку E-E-A-T для видео.
Что такое ‘Facial Model’ и как она создается?
Facial Model — это математическое представление лица конкретного человека. Она создается путем агрегации нескольких Facial Templates (шаблонов), которые извлекаются из разных кадров видео, где этот человек присутствует. Это позволяет учесть разные ракурсы, освещение и выражения лица для более точного распознавания.
Как система использует социальный граф (Social Graph)?
Social Graph используется как источник данных для целенаправленного распознавания. Сначала система пытается распознать контакты автора видео. Если кто-то распознан (Person A), система затем пытается распознать других людей в видео, сравнивая их с контактами Person A. Это позволяет идентифицировать людей, которые не связаны напрямую с автором.
Что произойдет, если человек в видео отвернется от камеры?
Патент предусматривает такую ситуацию. Если лицо временно не обнаруживается (например, виден затылок), система переключается на отслеживание по вторичным признакам: стилю и цвету одежды, прическе, цвету волос, тону кожи. Это позволяет поддерживать непрерывное отслеживание (Tracking) и точно определять временные метки.
Как SEO-специалист может помочь Google создать ‘Known Facial Models’ для экспертов компании?
Необходимо обеспечить наличие у экспертов публичных, оптимизированных профилей на авторитетных ресурсах (сайт компании, социальные сети, отраслевые порталы) с качественными и консистентными фотографиями. Чем больше качественных изображений связано с сущностью эксперта, тем точнее будет Known Facial Model, используемая Google для сравнения.
Влияет ли этот патент на конфиденциальность пользователей?
Да, патент явно упоминает учет настроек приватности (Privacy settings). Система должна проверять разрешения как автора видео, так и распознаваемого человека, прежде чем создавать публичную связь между лицом в видео и профилем в социальной сети. Пользователи могут иметь возможность отказаться (opt-out) от распознавания.
Как интерактивные аннотации, описанные в патенте, влияют на SEO?
Они напрямую улучшают пользовательский опыт (UX) и поведенческие факторы. Упрощение навигации по видео (возможность перейти к моменту появления человека) и предоставление дополнительного контекста (ссылка на профиль) может увеличить время просмотра, вовлеченность и удовлетворенность пользователя, что является положительными сигналами для ранжирования.
Применяется ли эта технология только к пользовательскому контенту (UGC)?
Хотя патент часто ссылается на социальные сети и пользовательские видео, технология применима к любому видеоконтенту, обрабатываемому Google. Это может включать профессиональные медиа, интервью, образовательные курсы и корпоративные видео. Везде, где есть люди, система попытается их идентифицировать.
Что важнее для успешного распознавания: качество видео или известность человека?
Важны оба фактора. Качество видео необходимо для успешного обнаружения лица и создания точной Facial Model. Известность человека (или, точнее, наличие у него публичных фотографий, связанных с его сущностью) необходима для того, чтобы у Google была база Known Facial Models для сравнения. Одно без другого не сработает.
Связана ли эта технология с YouTube Chapters или Key Moments?
Она тесно связана по своей сути. И то, и другое направлено на создание временных меток для навигации по видео. Описанная в патенте система автоматизирует этот процесс конкретно для моментов присутствия людей в кадре. Эти автоматические закладки могут дополнять или интегрироваться с другими функциями Key Moments.