
Google использует систему для автоматического обнаружения, отслеживания и распознавания лиц в видеоконтенте. Это позволяет индексировать видео не только по метаданным, но и по конкретным людям, присутствующим в кадре. Система может определять сегменты с участием конкретного человека, даже если он временно покидал кадр, а также строить графы взаимодействий, показывая, кто с кем появлялся в видео. Это критически важно для понимания содержания видео и Video SEO.
Патент решает проблему сложности и трудоемкости поиска и индексации больших объемов видеоданных (например, архивов YouTube, видео в интернете, записей с камер наблюдения). Традиционные методы полагаются на метаданные (названия, теги) или транскрипцию речи, что часто бывает недостаточно для точного понимания содержания. Изобретение позволяет автоматически индексировать видеоконтент на основе того, кто именно в нем присутствует, обеспечивая возможность быстрого поиска и извлечения всех сегментов с участием конкретного человека.
Запатентована система поиска и индексации видео, которая использует человеческие лица как первичный ключ для организации данных. Система автоматически обнаруживает лица, ассоциирует их с конкретными людьми (даже если они появляются в кадре не непрерывно) и распознает их, сверяя с базой данных. Ключевой особенностью является способность объединять разрозненные по времени появления одного и того же человека (face tracks) в единый индекс с помощью классификатора на основе Байесовских сетей (Bayesian Network based classifier).
Система работает в несколько этапов:
face tracks (непрерывные последовательности кадров с одним и тем же человеком) на основе пространственной и временной близости.Bayesian Network based classifier) для объединения разрозненных face tracks, принадлежащих одному человеку (например, если человек вышел из кадра и вернулся позже).Link Graph).Высокая. Технология является фундаментальной для сервисов Google, обрабатывающих мультимедийный контент. Она напрямую применяется в Google Photos для группировки фотографий и видео по людям и имеет критическое значение для YouTube и Google Search для глубокого понимания содержания видео, идентификации сущностей (людей) и автоматического создания ключевых моментов (Key Moments) или глав.
Патент имеет значительное влияние на стратегию Video SEO (VSEO). Он демонстрирует, что Google обладает технической возможностью понимать видеоконтент на визуальном уровне, идентифицируя конкретных людей (сущности) без опоры на текстовые описания. Это влияет на то, как видео индексируются и ранжируются по запросам, связанным с персоналиями. Если система может точно сегментировать видео по присутствующим лицам, она может более релевантно представлять результаты в поиске (например, через rich snippets).
face detection records), содержащих местоположение, размер, ориентацию и оценку уверенности.Face Tracks.Face Tracks, принадлежащих одному человеку. Он оценивает вероятность того, что два трека принадлежат одному лицу.Face Tracks, основанный на сравнении среднего значения цвета и ковариации пикселей, связанных с человеком. Для сравнения используется расстояние Махаланобиса.Claim 1 (Независимый пункт): Описывает основной метод обработки видеоданных для индексации по лицам.
face-specific set), независимо от того, присутствует ли лицо в них непрерывно.face tracks (непрерывные сегменты).face tracks, которые разрознены во времени, используя метод распознавания лиц, основанный на Bayesian Network based classifier.Ядро изобретения — это способность связать разрозненные появления одного и того же человека в видео с помощью сложного классификатора (Байесовской сети), что позволяет создать полный индекс присутствия человека в видео.
Claim 18 (Независимый пункт): Описывает метод отслеживания неидентифицированных лиц.
Bayesian Network based classifier, независимо от временной непрерывности.Это демонстрирует, что система способна отслеживать и индексировать людей, даже если она не знает, кто они, основываясь исключительно на визуальных характеристиках лица.
Claim 16 (Зависимый): Описывает создание графа связей.
Система отображает совместное появление двух человеческих лиц в виде link graph, где каждый узел представляет отдельное обнаруженное лицо, независимо от статуса его идентификации.
Изобретение применяется на этапе обработки и анализа мультимедийного контента.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. При индексации видеоконтента (например, загруженного на YouTube или найденного в вебе) система анализирует визуальный ряд для извлечения признаков.
Face-Specific Video Segments.Link Graph, определяя, какие сущности взаимодействуют друг с другом в контексте видео.Эти данные сохраняются в индексе и аннотациях к видео.
RANKING / METASEARCH / RERANKING
Данные, извлеченные на этапе индексирования, могут использоваться на финальных этапах ранжирования и формирования выдачи:
Входные данные:
Выходные данные:
Face-Specific Video Segments (временные метки начала и конца для каждого человека).Link Graph (данные о взаимодействиях).Алгоритм применяется в процессе индексации или переиндексации видеоконтента. Это не процесс реального времени, происходящий при запросе пользователя, а предварительная обработка контента для извлечения и сохранения метаданных о присутствующих в нем людях.
Процесс анализа видео для индексации по лицам:
Face Tracks. Этот шаг обрабатывает непрерывное присутствие человека в кадре.Face Track извлекаются визуальные признаки (например, с помощью вейвлет-преобразований или анализа цветовых сигнатур).Face Tracks между собой для идентификации треков, принадлежащих одному человеку, но разделенных во времени. Bayesian Network based classifier для оценки сходства между треками.Color Signature с помощью расстояния Махаланобиса.Link Graph. Вес связи рассчитывается на основе длительности пересечения.Face-Specific Video Segments) и данные Link Graph в поисковом индексе.Патент фокусируется исключительно на анализе визуальной информации.
Bayesian Network based classifier.Face Tracks одному человеку.Color Signatures для объединения треков. Формула, указанная в патенте:
Face-Specific Video Segments), даже если человек временно исчезает из кадра. Это достигается за счет сложных методов машинного обучения (Bayesian Network based classifier).E-E-A-T.Link Graph, что потенциально усиливает сигналы E-E-A-T вашего контента.Этот патент подчеркивает стратегическую важность мультимедийного контента и необходимость его оптимизации на уровне сущностей (Entity-based SEO). Google стремится понимать содержание любого типа контента так же глубоко, как и текст. Для Video SEO это означает, что присутствие авторитетных сущностей и их взаимодействие являются важными факторами, которые система может распознать и учесть. Долгосрочная стратегия должна включать создание качественного видеоконтента, который четко демонстрирует экспертизу и связи в нише.
Сценарий: Оптимизация видео-интервью на YouTube
Face-Specific Segments), а также зафиксирует их взаимодействие (Link Graph).Как этот патент влияет на оптимизацию видео для YouTube?
Он имеет прямое влияние. Патент описывает механизм, который, вероятно, используется YouTube (принадлежащим Google) для анализа того, кто присутствует в видео. Это означает, что система может идентифицировать авторов, гостей и знаменитостей визуально. Для оптимизации важно убедиться, чтобы ключевые участники были четко видны, что помогает системе правильно индексировать контент и потенциально использовать его для Key Moments.
Означает ли это, что метаданные (заголовки, теги) больше не важны для VSEO?
Нет, метаданные по-прежнему критически важны. Они предоставляют контекст и помогают поисковой системе понять тематику видео и связать распознанные лица с конкретными сущностями (именами людей). Однако этот патент показывает, что Google также использует визуальный анализ для верификации и дополнения метаданных. Лучшая стратегия — это согласованность между метаданными и визуальным контентом.
Что такое "Граф связей" (Link Graph) в контексте видео и как он влияет на SEO?
Link Graph в этом патенте — это карта взаимодействий между людьми внутри видео. Если два человека появляются в кадре одновременно, система фиксирует связь между ними. Для SEO это важно, так как демонстрирует контекстуальные отношения между сущностями (например, авторитетный эксперт дает интервью вашему сотруднику). Это может способствовать построению Knowledge Graph и усилению сигналов E-E-A-T вашего контента.
Может ли эта система распознать любого человека в видео?
Система может обнаружить и отслеживать (Face Association) практически любого человека, если его лицо достаточно четко видно. Однако распознать (Face Recognition) и идентифицировать его (присвоить имя) система сможет, только если этот человек уже присутствует в ее базе данных (например, является известной личностью или уже был ранее идентифицирован в других контекстах, например, в Google Photos).
Что такое объединение разрозненных треков (Merging disjoint face tracks)?
Это ключевая функция системы. Если человек появляется в начале видео, затем выходит из кадра и возвращается в конце, система создает два отдельных трека (Face Tracks). Функция объединения использует сложные алгоритмы (Bayesian Network based classifier), чтобы понять, что это один и тот же человек, и объединить эти сегменты в единый индекс для этого человека.
Как SEO-специалист может повлиять на работу этого алгоритма?
Напрямую повлиять на алгоритм распознавания лиц нельзя. Однако можно адаптировать стратегию создания контента: улучшать качество съемки, обеспечивать хорошую видимость лиц спикеров, логично структурировать видео и следить за согласованностью метаданных и визуального ряда. Это облегчит работу системы и улучшит индексацию видео.
Влияет ли этот патент на ранжирование обычных веб-страниц?
Прямого влияния на ранжирование текстового контента нет. Однако, если веб-страница содержит встроенное видео как основной контент, то качество анализа этого видео с помощью описанной системы может повлиять на общую оценку релевантности и качества страницы. Также, если видео появляется в выдаче с Rich Snippets (например, Key Moments), это увеличивает привлекательность результата.
Что важнее для системы: цветовая сигнатура или Байесовский классификатор?
Судя по формулировкам патента (Claims), основным и защищенным методом для объединения разрозненных треков является Bayesian Network based classifier. Color Signature упоминается в описании как один из возможных или дополнительных методов, но именно Байесовский подход выделен как ключевой для надежного распознавания лиц и трекинга.
Как эта технология связана с Key Moments в поиске Google?
Эта технология является фундаментом для Key Moments. Чтобы показать пользователю определенный сегмент видео в ответ на его запрос, поисковая система должна знать, что происходит в этом сегменте. Описанная система позволяет Google точно определить, когда конкретный человек появляется или говорит, что может быть использовано для автоматической генерации временных меток для Key Moments.
Применяется ли эта технология только к человеческим лицам?
Хотя патент сфокусирован на лицах, в тексте (в частности, Claim 22, который не был разобран выше, но важен) упоминается, что видео с нечеловеческими объектами (non-human objects) может быть обработано аналогичным образом. Это предполагает, что базовые принципы обнаружения, отслеживания и использования классификаторов для индексации могут применяться и к другим объектам (например, автомобилям, животным, продуктам), что расширяет возможности визуального поиска Google.

Персонализация
Мультимедиа
Поведенческие сигналы

Мультимедиа
SERP
Семантика и интент

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент
Персонализация

Knowledge Graph
Семантика и интент
Мультимедиа

Local SEO
Поведенческие сигналы
Свежесть контента

Семантика и интент
Поведенческие сигналы

Семантика и интент
Индексация
Структура сайта

Семантика и интент
Персонализация
SERP

Поведенческие сигналы
Семантика и интент
Структура сайта

Ссылки
EEAT и качество
Свежесть контента

Семантика и интент
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы
SERP

SERP
Персонализация
Поведенческие сигналы
