Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует распознавание лиц для маркировки неразмеченных изображений известных сущностей

    IDENTIFYING IMAGES USING FACE RECOGNITION (Идентификация изображений с использованием распознавания лиц)
    • US9552511B2
    • Google LLC
    • 2017-01-24
    • 2006-12-01
    2006 Knowledge Graph Индексация Мультимедиа Патенты Google

    Google идентифицирует известные сущности (например, знаменитостей) из поисковых логов и веб-документов. Система извлекает изображения, уже связанные с ними (например, через метаданные), и использует распознавание лиц для поиска наиболее репрезентативного лица. На основе этих подтвержденных лиц строится модель, которая затем используется для поиска и маркировки других неразмеченных изображений того же человека в интернете.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности традиционных поисковых систем, которые не могут идентифицировать изображения, если они явно не связаны с именем изображенного человека через метаданные, теги или подписи. Это ограничивает полноту результатов поиска изображений по запросам, связанным с людьми. Изобретение направлено на автоматическое обнаружение и маркировку изображений.

    Что запатентовано

    Запатентована система и метод автоматической идентификации и маркировки изображений, связанных с именованной сущностью (человеком), с использованием распознавания лиц. Система позволяет находить изображения сущности, даже если они не содержат явных метаданных, связывающих их с именем этой сущности.

    Как это работает

    Механизм работает в несколько этапов:

    • Идентификация сущностей: Система определяет именованные сущности (например, из поисковых логов или веб-документов).
    • Сбор исходных данных (Seed Images): Извлекаются изображения, которые уже ассоциированы с данной сущностью.
    • Анализ лиц: На исходных изображениях выполняется обнаружение лиц.
    • Определение репрезентативного лица: С помощью сопоставления лиц (Face Matching) или кластеризации определяется наиболее часто встречающееся или консистентное лицо.
    • Построение модели: На основе репрезентативного лица и совпадающих с ним лиц создается обучающий набор (Training Set) и строится модель лица (Face Model).
    • Расширенная идентификация: Модель лица используется для поиска и идентификации дополнительных, немаркированных изображений той же сущности в большой коллекции (например, в интернете).
    • Маркировка: Найденные изображения маркируются именем сущности.

    Актуальность для SEO

    Высокая. Распознавание сущностей и понимание контента изображений, особенно в контексте E-E-A-T и идентификации авторов, имеют решающее значение. Хотя конкретные методы распознавания лиц, упомянутые в патенте (например, PCA, ICA, LDA), могут быть устаревшими, общий конвейер использования известных ассоциаций для обучения моделей распознаванию неизвестных экземпляров остается фундаментальным для стратегии ИИ Google.

    Важность для SEO

    Патент имеет значительное влияние на Image SEO и оптимизацию сущностей (Entity Optimization). Он объясняет механизм, с помощью которого Google связывает визуальное представление (изображения) с именованными сущностями (людьми, авторами, знаменитостями). Это напрямую влияет на то, как изображения ранжируются по именам сущностей и насколько полным является визуальный профиль сущности в индексе Google (включая Панели Знаний).

    Детальный разбор

    Термины и определения

    Named Entity (Именованная сущность)
    Человек (например, знаменитость), идентифицируемый по имени, часто определяемый на основе поисковых логов (Query Logs) или веб-документов.
    Representative Face Image (Репрезентативное изображение лица)
    Обнаруженное изображение лица, которое с наибольшей вероятностью представляет именованную сущность. Обычно определяется как лицо, которое совпадает с наибольшим количеством других обнаруженных лиц в наборе исходных изображений.
    Face Detection Algorithm (Алгоритм обнаружения лиц)
    Процесс, используемый для определения наличия и местоположения лиц на полученных изображениях.
    Face Matching (Сопоставление лиц)
    Процесс сравнения обнаруженных лиц друг с другом для выявления сходств. В патенте упоминаются такие методы, как PCA (Principal Component Analysis), ICA (Independent Component Analysis), LDA (Linear Discriminant Analysis) или Elastic Bunch Graph Matching.
    Training Set (Обучающий набор)
    Коллекция обнаруженных лиц, которые совпадают с репрезентативным изображением лица. Используется для построения модели лица.
    Face Model (Модель лица)
    Представление (например, композитная модель или сложная модель с использованием OPCA — Oriented PCA), построенное на основе обучающего набора, маркированное именованной сущностью и используемое для идентификации дополнительных изображений этой сущности.
    Image Collection System (Система сбора изображений)
    Компонент, который идентифицирует именованные сущности и извлекает связанные с ними изображения.
    Face Detection System (Система распознавания лиц)
    Компонент, выполняющий обнаружение лиц, их сопоставление и построение моделей.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс построения модели лица на основе подтвержденных совпадений.

    1. Идентификация Representative Face Image из набора 3+ изображений, связанных с Named Entity (причем хотя бы одно изображение имеет текстовое описание с именем). Идентификация выполняется путем сравнения каждого обнаруженного лица с каждым другим.
    2. Определение количества лиц, совпадающих с репрезентативным изображением.
    3. Проверка, удовлетворяет ли это количество пороговому значению (threshold value).
    4. Если порог достигнут: Построение Face Model. Это включает определение Training Set, содержащего репрезентативное лицо и все его совпадения.
    5. Использование Face Model для идентификации дополнительных изображений сущности вне исходного набора.

    Основное изобретение — это метод автоматического обучения модели распознавания лиц для конкретной сущности без ручной маркировки. Для обеспечения надежности модели требуется минимальное количество подтвержденных совпадений (порог) в исходном наборе изображений (уже связанных с именем), прежде чем использовать ее для поиска новых изображений.

    Claim 2 (Зависимый от 1): Уточняет, как выбирается репрезентативное лицо.

    • Репрезентативное лицо — это то, которое совпадает с наибольшим количеством других обнаруженных лиц.

    Система выбирает наиболее часто встречающееся/консистентное лицо в исходных изображениях в качестве анкоря для модели.

    Claim 15 (Зависимый от 1): Описывает начальные этапы идентификации и сбора.

    • Идентификация Named Entity как подходящей для генерации модели лица (используемой для идентификации неразмеченных изображений).
    • Сбор набора изображений из Интернета, где текстовое описание включает имя сущности.

    Процесс является выборочным (выполняется не для всех) и опирается на существующие веб-ассоциации (текст/метаданные, связывающие имя с изображением) в качестве отправной точки.

    Claim 17 (Зависимый от 15): Определяет критерии отбора сущностей.

    • Пригодность измеряется с использованием таких критериев, как популярность, рейтинг, частота поиска или минимальное количество появлений в веб-документах.

    Google отдает приоритет построению этих моделей для популярных или часто запрашиваемых сущностей.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно в процессах индексирования и анализа данных.

    CRAWLING & INDEXING (Сбор данных / Извлечение признаков)
    Система полагается на просканированные веб-документы и изображения. Во время индексирования обрабатываются существующие ассоциации между изображениями и текстом/метаданными (идентифицирующими именованные сущности). Здесь работает Image Collection System, извлекая исходные изображения (seed images).

    INDEXING (Извлечение признаков / Построение моделей)
    Здесь находится основная логика патента. Face Detection System анализирует исходные изображения, выполняет обнаружение и сопоставление лиц, идентифицирует репрезентативное лицо, строит Face Model и маркирует ее. Вероятно, это офлайн или пакетный процесс.

    INDEXING (Расширение индекса)
    Сгенерированная Face Model затем используется для сканирования более широкой коллекции изображений (индекса) с целью выявления дополнительных, неразмеченных изображений сущности. Эти вновь идентифицированные изображения аннотируются/маркируются именем сущности в индексе.

    QUNDERSTANDING (Понимание запросов)
    Система анализирует Search Query Logs для выявления популярных Named Entities (согласно Claim 17), чтобы определить приоритеты для построения моделей.

    RANKING / METASEARCH (Ранжирование / Метапоиск)
    Когда пользователь отправляет запрос в Query System по именованной сущности, система теперь может извлекать как изначально размеченные изображения, так и вновь идентифицированные (ранее неразмеченные), обеспечивая более полный набор результатов (например, в Поиске по картинкам или Панели Знаний).

    Входные данные:

    • Логи поисковых запросов (Search Query Logs).
    • Веб-документы (HTML, метаданные, теги, окружающий текст).
    • Изображения (фотографии, кадры из видео — jpegs, gifs, bmps).
    • Существующие ассоциации между именами и изображениями.

    Выходные данные:

    • Модели лиц (Face Models) для конкретных именованных сущностей.
    • Новые ассоциации (метки), связывающие ранее неразмеченные изображения с именованными сущностями.
    • Расширенный набор изображений, доступных для поиска по запросу именованной сущности.

    На что влияет

    • Типы контента: В первую очередь влияет на изображения (фотографии) и стоп-кадры/видеозахваты.
    • Специфические запросы: Запросы, включающие имена людей, особенно «популярных» или «знаменитых личностей» (как упоминается в описании патента и подразумевается критериями отбора в Claim 17).
    • Ниши и тематики: Любая ниша, где prominentны конкретные личности (знаменитости, политики, авторы, эксперты в YMYL областях).

    Когда применяется

    • Триггеры активации: Процесс запускается, когда Named Entity признается подходящей для анализа (например, достаточно популярна в поисковых запросах или веб-документах).
    • Пороговые значения:
      • Порог отбора (Eligibility Threshold): Порог популярности/частотности для сущности (Claim 17).
      • Порог совпадения (Matching Threshold): Минимальное количество обнаруженных лиц должно совпадать с репрезентативным лицом для валидации обучающего набора и построения модели (Claim 1).
    • Частота применения: Патент предполагает, что это может быть автоматизированный и регулярный процесс, который может периодически обновляться (в качестве примера упоминается 30 дней) для поддержания актуальности моделей и баз данных.

    Пошаговый алгоритм

    Фаза А: Идентификация сущности и сбор исходных данных

    1. Идентификация сущности: Поиск в Query Logs и/или веб-документах для выявления Named Entities.
    2. Фильтрация по критериям: Определение, соответствует ли именованная сущность критериям отбора (например, популярность, частота).
    3. Поиск исходных изображений: Выполнение поиска изображений для отобранной именованной сущности.
    4. Получение исходных изображений: Извлечение изображений, уже связанных с именованной сущностью (например, через метаданные, теги или связанный текст).

    Фаза Б: Анализ лиц и построение модели

    1. Обнаружение лиц: Выполнение обнаружения лиц на полученных исходных изображениях.
    2. Сопоставление лиц: Сравнение каждого обнаруженного лица с каждым другим лицом в наборе, связанном с сущностью.
    3. Идентификация репрезентативного лица: Определение лица, которое совпадает с наибольшим количеством других лиц (наибольшее количество «голосов»).
    4. Валидация порога: Проверка, превышает ли количество совпадений для репрезентативного лица заданный порог.
      • Если НЕТ: Остановить процесс или попытаться найти другое репрезентативное лицо/кластер.
      • Если ДА: Перейти к построению модели.
    5. Генерация обучающего набора: Создание Training Set, состоящего из репрезентативного лица и всех лиц, которые с ним совпадают.
    6. Построение модели лица: Построение Face Model (например, с использованием кластерного анализа, PCA, OPCA) на основе обучающего набора и маркировка ее именованной сущностью.

    Фаза В: Идентификация и маркировка изображений

    1. Сканирование изображений: Сравнение сгенерированной Face Model с большой коллекцией изображений (включая неразмеченные).
    2. Идентификация: Выявление дополнительных изображений, соответствующих модели лица.
    3. Маркировка: Ассоциирование вновь идентифицированных изображений с именованной сущностью в базе данных.

    Какие данные и как использует

    Данные на входе

    • Контентные/Текстовые факторы: Текст, метаданные или теги, связанные с изображениями, которые явно идентифицируют именованную сущность. Это критически важно для сбора начальных исходных изображений (seed images).
    • Мультимедиа факторы: Пиксельные данные изображений (фотографии и видеозахваты), используемые для обнаружения и распознавания лиц.
    • Пользовательские/Поведенческие факторы: Search Query Logs используются для определения популярности и идентификации именованных сущностей.

    Какие метрики используются и как они считаются

    • Частота/Популярность именованной сущности: Рассчитывается на основе логов запросов или появлений в веб-документах для определения пригодности к анализу (Claim 17).
    • Обнаружение лиц: Стандартные алгоритмы для локализации лиц на изображениях.
    • Оценка сопоставления/сходства лиц (Similarity Score): Рассчитывается с использованием методов на основе внешнего вида (например, PCA, ICA, LDA) или методов на основе локальных признаков (например, Elastic Bunch Graph Matching). Пороги сходства определяют, насколько похожими должны быть лица для совпадения.
    • Счетчик голосов / Количество совпадений (Match Count): Количество лиц, совпадающих с конкретным обнаруженным лицом. Используется для идентификации Representative Face.
    • Порог совпадения (Matching Threshold): Заранее определенное число, которое должно быть превышено количеством совпадений для продолжения построения модели (Claim 1).
    • Методы построения модели: В патенте упоминаются методы кластерного анализа, критерии расстояния (min/median/max), k-ближайших соседей, Oriented PCA (OPCA) или Kernel OPCA для генерации Face Model из Training Set.

    Выводы

    1. Конвейер автоматической маркировки: Патент описывает надежный конвейер для автоматического расширения знаний Google о том, какие изображения соответствуют каким сущностям, преодолевая ограничение зависимости только от явных метаданных.
    2. Зависимость от исходных данных (Seed Data): Система сильно зависит от качества начальных «исходных» изображений, которые уже правильно ассоциированы с сущностью. Точность существующих метаданных/тегов является фундаментом процесса.
    3. Верификация на основе консенсуса: Google использует механизм консенсуса (сопоставление лиц и пороги) для верификации идентичности внутри исходных данных. «Репрезентативное лицо» — это то, которое появляется наиболее консистентно.
    4. Приоритезация популярных сущностей: Система явно отдает приоритет популярным/часто запрашиваемым сущностям. Это означает, что модели с большей вероятностью существуют и являются точными для знаменитых людей, чем для нишевых экспертов.
    5. Визуальная идентичность — ключевой фактор: Этот механизм подчеркивает важность консистентной визуальной идентичности для сущностей (людей) в интернете для их распознавания системами Google.

    Практика

    Best practices (это мы делаем)

    • Обеспечение точных исходных данных (Seed Data): Самое важное действие — убедиться, что у Google есть точные исходные данные. Явно ассоциируйте изображения ключевых лиц (авторов, руководителей, экспертов) с их именами, используя четкие сигналы: метаданные (например, IPTC), структурированные данные (schema.org/ImageObject, связанный с schema.org/Person), описательные имена файлов, alt-текст и подписи.
    • Поддержание визуальной консистентности: Поощряйте ключевых лиц, связанных с брендом, использовать консистентные, высококачественные, фронтальные портреты на разных платформах (веб-сайт, профессиональные социальные сети, гостевые посты). Это увеличивает вероятность того, что Face Detection System правильно сопоставит лица и построит точную Face Model.
    • Оптимизация под популярность сущности: Для начинающих экспертов сосредоточьтесь на повышении их видимости и частоты поиска (наращивание их «популярности» с точки зрения Google), чтобы увеличить шансы того, что Google приоритезирует построение Face Model для них (согласно Claim 17).
    • Использование видеоконтента: В патенте явно упоминается использование видеозахватов. Убедитесь, что видео с участием ключевых лиц оптимизированы, так как стоп-кадры из этих видео могут использоваться как в качестве исходных данных, так и в качестве целей для идентификации.

    Worst practices (это делать не надо)

    • Неконсистентная или неоднозначная разметка: Неправильная маркировка изображений или использование неоднозначных подписей может загрязнить исходные данные, что потенциально приведет к созданию некорректных Face Models или неспособности достичь порога совпадения.
    • Использование только абстрактных или нечетких изображений: Использование исключительно логотипов, аватаров или фотографий, где лицо человека скрыто, снято под плохим углом или сильно стилизовано, помешает эффективной работе алгоритмов Face Detection и Face Matching.
    • Игнорирование основ оптимизации изображений: Отсутствие каких-либо явных сигналов (alt-текст, схема, подписи) делает невозможным для Google сбор начальных исходных изображений, необходимых для запуска процесса.

    Стратегическое значение

    Этот патент является фундаментальной частью того, как Google преодолевает разрыв между текстовой информацией (сущностями) и визуальным контентом. Он подчеркивает стратегическую важность управления цифровым присутствием ключевых лиц (E-E-A-T). Обеспечивая возможность визуального распознавания авторов и экспертов со стороны Google, SEO-специалисты могут повысить видимость их контента в Поиске по картинкам и способствовать созданию более сильного и полного профиля сущности в Графе Знаний, что влияет на общий авторитет и доверие.

    Практические примеры

    Сценарий: Установление визуальной идентичности нового автора-эксперта (Стратегия E-E-A-T)

    1. Действие: Создать высококачественный профессиональный портрет (headshot) автора.
    2. Реализация (Создание Seed Data):
      • Опубликовать изображение на странице биографии автора на основном сайте.
      • Имя файла: dr-jane-doe-expert-cardiologist.jpg.
      • Alt-текст: «Доктор Джейн Доу, ведущий кардиолог в XYZ Health.»
      • Подпись: Явно указать имя автора под изображением.
      • Схема: Внедрить схему Person для автора и связать портрет с помощью свойства image.
    3. Распространение: Использовать тот же портрет и четкую маркировку в профессиональных социальных сетях (например, LinkedIn) и в подписях к гостевым статьям на авторитетных сторонних сайтах.
    4. Ожидаемый результат: Image Collection System Google использует эти явные сигналы как исходные данные. Консистентность портрета позволяет Face Detection System идентифицировать четкое Representative Face и построить Face Model. Затем Google сможет идентифицировать и маркировать другие изображения или стоп-кадры из видео с доктором Джейн Доу, найденные в других местах, усиливая ее профиль сущности.

    Вопросы и ответы

    Означает ли этот патент, что Google использует распознавание лиц на всех изображениях?

    Не обязательно на всех, но система разработана для сканирования больших коллекций изображений. Однако процесс построения Face Model инициируется только для сущностей (людей), которые соответствуют определенным критериям, таким как популярность (Claim 17). После того как модель построена, она используется для поиска совпадений в широком индексе изображений.

    Как Google решает, для каких людей (сущностей) строить Face Models?

    Патент (Claim 17) указывает, что система определяет пригодность сущности на основе таких критериев, как популярность, рейтинг, частота поиска или минимальное количество появлений в веб-документах. Google анализирует Search Query Logs, чтобы определить, какие сущности достаточно популярны, чтобы оправдать построение модели.

    Что такое «исходные данные» (seed data) и почему они важны для этого процесса?

    Исходные данные (seed data) — это набор изображений, которые уже ассоциированы с именованной сущностью через текст, метаданные или теги. Они критически важны, поскольку служат основой для обучения системы. Точность этих начальных ассоциаций определяет точность итоговой Face Model.

    Насколько консистентными должны быть фотографии, чтобы Google распознал их как одного и того же человека?

    Патент упоминает, что пороги сходства (similarity thresholds) можно варьировать, чтобы определить, насколько похожими должны быть лица для совпадения. Также упоминаются методы (например, OPCA) для учета вариативности (позы, освещение, возраст). Однако использование консистентных, четких портретов значительно повышает вероятность успешного сопоставления и построения точной модели.

    Может ли эта система использоваться для идентификации авторов в целях E-E-A-T?

    Да, это одно из ключевых применений для SEO. Если Google может визуально идентифицировать автора и связать его с его контентом и профилями по всему интернету, это способствует созданию более полного профиля сущности. Визуальное подтверждение идентичности может служить сигналом доверия и авторитетности.

    Что произойдет, если исходные изображения, найденные Google, неправильно размечены?

    Если большинство исходных изображений неправильно размечены, система может построить неверную модель. Однако механизм консенсуса (Representative Face) направлен на минимизацию этого риска: система ищет лицо, которое появляется наиболее часто. Если нет четкого консенсуса (порог не достигнут), модель может быть не построена.

    Применяется ли это только к фотографиям или также к видео?

    Патент явно указывает, что он применяется как к фотографиям, так и к стоп-кадрам или кадрам, взятым из видео (Video Captures). Это означает, что появление человека в видео также может быть идентифицировано и использовано системой.

    Каковы наилучшие способы явно связать изображение с человеком?

    Для создания надежных исходных данных используйте комбинацию сигналов: описательные имена файлов, точный alt-текст, видимые подписи под изображением, метаданные (например, IPTC) и, что особенно важно, структурированные данные schema.org/Person со свойством image.

    Как «пороговое значение» (threshold value) влияет на процесс?

    Пороговое значение (Claim 1) — это мера уверенности. Google требует, чтобы определенное количество лиц в исходном наборе совпадало, прежде чем он доверится этим данным для построения Face Model. Если совпадений слишком мало, система считает данные недостаточно надежными и не будет строить модель.

    Являются ли упомянутые методы распознавания лиц (PCA, ICA) устаревшими?

    PCA (Principal Component Analysis) и ICA (Independent Component Analysis) являются классическими методами распознавания лиц. Хотя современные системы, вероятно, используют более продвинутые нейросетевые подходы (Deep Learning), запатентованная здесь логика конвейера (сбор данных, консенсус, построение модели, расширенная идентификация) остается актуальной независимо от конкретного алгоритма распознавания.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.