Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google распознает объекты и лица на изображениях, преодолевая искажения, ракурсы и частичное перекрытие

    TECHNIQUES FOR ENABLING OR ESTABLISHING THE USE OF FACE RECOGNITION ALGORITHMS (Методы для обеспечения или налаживания использования алгоритмов распознавания лиц)
    • US8630493B2
    • Google LLC
    • 2014-01-14
    • 2007-03-12
    2007 Мультимедиа Патенты Google

    Патент Google описывает фундаментальные технологии компьютерного зрения для точного распознавания объектов. Система использует вероятностные модели для Регистрации — точного определения ключевых точек объекта, даже если он повернут или частично скрыт. Также описаны методы синтеза фронтального вида с помощью 3D-моделей и оптимизации обучения алгоритмов. Это основа для работы Google Images и Google Lens.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему низкой точности распознавания объектов и лиц при работе с реальными (например, потребительскими) цифровыми изображениями. Основная сложность заключается в большой вариативности внешнего вида объектов из-за изменений ракурса (pose/viewpoint), освещения, частичного перекрытия (occlusion) и деформаций (например, мимики лица). Также патент адресует сложность создания качественных обучающих наборов (training sets).

    Что запатентовано

    Запатентован набор методов для повышения надежности распознавания изображений. Изобретение охватывает три ключевые области, описанные в патенте: (1) Регистрация (Registration) – точное определение местоположения ключевых признаков объекта с использованием вероятностных моделей (основной фокус Claims этого патента); (2) Синтез (Synthesis) – компенсация ракурса и перекрытия путем создания нормализованного (фронтального) вида объекта с использованием 3D-моделей; (3) Оптимизация обучения – интеллектуальный отбор обучающих данных и адаптивное управление порогами уверенности.

    Как это работает

    Система работает комплексно. Сначала объект обнаруживается на изображении. Затем модуль Registration использует вероятностную модель (например, Markov Network), объединяющую информацию о локальном внешнем виде признаков и их геометрических ограничениях, для точного определения ключевых точек. Если объект находится под углом, модуль Synthesis может использовать общую 3D-модель, совместить ее с перспективой объекта на фото и сгенерировать фронтальное изображение. Это стандартизированное представление затем используется для распознавания. Процесс обучения оптимизирован за счет автоматического выбора наиболее информативных изображений.

    Актуальность для SEO

    Высокая. Технологии компьютерного зрения являются фундаментом для работы Google Images, Google Lens, поиска по товарам и распознавания сущностей (людей, продуктов) в контенте. Способность точно идентифицировать объекты на неидеальных изображениях критически важна для современных поисковых систем и мультимодальных моделей ИИ.

    Важность для SEO

    Влияние на традиционное веб-SEO минимальное, но влияние на Image SEO, продуктовый поиск и распознавание сущностей значительно (7/10). Патент раскрывает инфраструктурные механизмы, позволяющие Google глубоко понимать содержимое изображений, даже если они не оптимизированы (плохой ракурс, частичное перекрытие). Это напрямую влияет на то, как изображения индексируются и ранжируются в визуальных продуктах Google и как система понимает визуальный контекст веб-страницы.

    Детальный разбор

    Термины и определения

    Registration (Регистрация)
    Процесс нахождения точного соответствия между точками на разных изображениях одного объекта или между изображением и моделью. Включает определение точного местоположения Marker Features.
    Marker Features (Ключевые/Маркерные признаки)
    Специфические точки объекта, используемые для регистрации. Например, для лица это могут быть уголки глаз, кончик носа; для продукта – логотип, углы.
    Synthesized Image (Синтезированное изображение)
    Изображение объекта, сгенерированное программно из исходного изображения для представления объекта в стандартизированном виде (например, фронтальный вид), компенсируя исходный ракурс (Pose) или перекрытие (Occlusion).
    3D Model (Трехмерная модель)
    Геометрическая модель общего (generic) объекта. Используется как эталон для анализа ракурса и выполнения Синтеза.
    Markov Network (Сеть Маркова)
    Вероятностная модель, используемая в модуле Registration для моделирования взаимосвязей между локальным внешним видом признаков и их геометрическим расположением.
    Feature Appearance Potential (Потенциал внешнего вида признака, φ(Xi))
    Оценка вероятности того, что признак расположен в определенном пикселе, основанная на анализе внешнего вида изображения вокруг этого пикселя (local appearance).
    Pairwise Potentials (Парные потенциалы, Φ(Xi, Xj))
    Оценка вероятности комбинации местоположений двух признаков. Используется для обеспечения геометрических ограничений (Geometric Constraints).
    Dynamic Thresholding (Динамическое определение порога)
    Процесс адаптивного изменения порога уверенности (Acceptance Threshold) для результатов распознавания на основе исторической частоты ошибок во время обучения.

    Ключевые утверждения (Анализ Claims)

    Примечание: Патент US8630493B2 является дивизиональным (продолжающим). Хотя в описании (Description) подробно рассматриваются Синтез изображений и Оптимизация обучения, Формула изобретения (Claims) данного конкретного патента сфокусирована исключительно на процессе Registration.

    Claim 1 (Независимый пункт): Описывает метод распознавания путем точного определения местоположения признаков объекта (Регистрация).

    1. Определение области изображения, где вероятно находится объект, состоящий из множества признаков.
    2. Идентификация нескольких наборов гипотез местоположения (hypotheses locations) для каждого признака с использованием множества вероятностных моделей (probabilistic models).
    3. Выбор наиболее вероятной гипотезы местоположения для каждого набора. Этот выбор основан на той вероятностной модели, которая обеспечивает наивысшее правдоподобие (highest likelihood) для всего множества признаков объекта.
    4. Вычисление значений пикселей в этих наиболее вероятных местоположениях.
    5. Локализация пикселей изображения, соответствующих каждому признаку объекта, используя вычисленные значения.

    Система не ищет каждый признак независимо. Она использует вероятностные модели (в описании упоминаются Markov Networks), чтобы оценить множество возможных конфигураций признаков. Выбирается та конфигурация, которая лучше всего соответствует как внешнему виду каждого признака, так и их ожидаемому взаимному геометрическому расположению.

    Claim 8 (Независимый пункт): Описывает применение метода регистрации для анализа множества изображений с разными ракурсами или искажениями с целью сравнения объектов.

    1. Анализ каждого изображения в наборе, где изображения показывают разные объекты одного класса с разных точек зрения (viewpoints) или с разными искажениями (distortions) (например, разная мимика).
    2. Для каждого изображения выполняется процесс Регистрации (аналогично Claim 1).
    3. Обеспечение возможности сравнения объектов на разных изображениях на основе пикселей, которые были локализованы как соответствующие признакам этих объектов.

    Это применение Регистрации для задачи распознавания или верификации. Ключевая возможность – система способна точно находить соответствующие точки на двух разных фотографиях одного и того же объекта, даже если условия съемки, поза или деформации отличаются.

    Где и как применяется

    Изобретение применяется в инфраструктуре обработки визуальных данных Google.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения. При индексации изображений (для Google Images, Google Lens, Google Photos) система применяет эти методы для глубокого анализа визуального контента:

    1. Обнаружение (Detection): Определение наличия и локализации объектов (лица, продукты, логотипы).
    2. Регистрация (Registration): Точное определение ключевых точек (Marker Features) объекта с помощью вероятностных моделей (как защищено в Claims). Это позволяет понять структуру объекта.
    3. Нормализация (Synthesis): При необходимости, генерация нормализованного представления объекта (например, фронтального вида с помощью 3D-моделирования, как описано в патенте) для устранения влияния ракурса.
    4. Извлечение признаков (Feature Extraction): Вычисление уникального идентификатора (feature vector) объекта на основе зарегистрированных и нормализованных данных, который сохраняется в индексе.

    QUNDERSTANDING / RANKING (В контексте Визуального Поиска)
    Когда пользователь выполняет визуальный поиск (например, через Google Lens), эти же алгоритмы применяются для анализа изображения запроса и сравнения его нормализованных признаков с данными в индексе.

    Входные данные:

    • Пиксельные данные исходного изображения (Image Data).
    • Предопределенные 2D/3D модели классов объектов (например, generic face model).
    • Обучающие данные (Ground Truth Data) для построения вероятностных моделей.

    Выходные данные:

    • Точные координаты ключевых признаков (результат Registration).
    • Нормализованные (синтезированные) виды объекта.
    • Идентификация объекта (класс, конкретная сущность).

    На что влияет

    • Конкретные типы контента: Изображения и видео контент. Влияет на любой контент, где важна визуальная идентификация: товары, лица, логотипы, достопримечательности.
    • Специфические запросы: В первую очередь влияет на визуальный поиск (поиск по картинке) и запросы, где требуется идентификация визуальных сущностей.
    • Конкретные ниши: Наибольшее влияние в E-commerce (распознавание товаров), Мода (одежда, аксессуары), а также в нишах, где важна идентификация авторов по фото (потенциально для E-E-A-T).

    Когда применяется

    • Условия работы: Алгоритмы Регистрации применяются при индексации, когда система обнаруживает объект интереса.
    • Триггеры активации: Модуль Синтеза (Synthesis) активируется, если система определяет, что ракурс (pose) или перекрытие (occlusion) затрудняют надежное распознавание стандартными методами. Адаптивное обучение применяется в процессе построения и уточнения моделей распознавания.

    Пошаговый алгоритм

    Ниже описан обобщенный алгоритм распознавания, включающий ключевые компоненты, описанные в патенте (Registration и Synthesis).

    1. Обнаружение объекта (Object Detection): Определение области изображения, содержащей объект интереса.
    2. Регистрация (Registration) (Фокус Claims):
      1. Генерация гипотез: Для каждого ключевого признака определяются гипотезы его местоположения на основе моделей локального внешнего вида (local appearance models).
      2. Построение вероятностной модели: Формируется Markov Network, учитывающая Feature Appearance Potential (насколько место похоже на признак) и Geometric Constraints (взаимное расположение признаков).
      3. Определение местоположения: Определяется наиболее вероятное совместное расположение всех признаков, максимизирующее общее правдоподобие модели (например, с помощью алгоритма Loopy Belief Propagation).
    3. Синтез фронтального вида (Synthesis) (При необходимости, описано в патенте):
      1. Совмещение 3D-модели: Общая 3D-модель класса объекта ориентируется так, чтобы ее проекция соответствовала объекту на фото (используя результаты Регистрации).
      2. Аугментация модели: Значения интенсивности пикселей с фотографии переносятся на 3D-модель. Для перекрытых областей может использоваться симметрия.
      3. Рендеринг: 3D-модель виртуально поворачивается во фронтальное положение для создания синтезированного изображения.
    4. Распознавание (Recognition): Зарегистрированное и/или синтезированное изображение подается на вход модуля распознавания.
    5. Применение порога уверенности: Система применяет адаптивный порог уверенности (Dynamic Thresholding), основываясь на ожидаемом уровне ошибок, для принятия финального решения.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Визуальные данные): Интенсивность пикселей (pixel intensities). Анализируются локальные участки изображения (image patches) вокруг потенциальных местоположений признаков.
    • Данные обучения (Ground Truth Data): Наборы изображений с размеченными вручную местоположениями признаков. Используются для обучения моделей внешнего вида и геометрических ограничений.
    • Структурные/Геометрические данные: Предопределенные 2D и 3D геометрические модели обобщенных объектов.

    Какие метрики используются и как они считаются

    • Вероятностные оценки (Likelihoods): Используются в Markov Network (Feature Appearance Potentials и Pairwise Potentials). Цель алгоритма Регистрации — максимизировать общую (joint) вероятность конфигурации признаков.
    • Метрики модели внешнего вида: Могут включать разницу между участком изображения и его реконструкцией в пространстве PCA (Principal Component Analysis), расстояние Махаланобиса (Mahalanobis distance) или оценки уверенности классификаторов (Adaboost, SVM).
    • Confidence Score (Оценка уверенности): Числовое значение, определяющее уверенность системы в результате распознавания.
    • Dynamic Thresholding (Динамическое определение порога): Адаптивная настройка порога принятия (Acceptance Threshold, T) на основе частоты ошибок (#E) и количества распознанных объектов (#R) во время обучения. В патенте упомянута формула: T = T0 + f(#R, #E, #U).

    Выводы

    1. Глубокое геометрическое понимание изображений: Google анализирует изображения на глубоком структурном и геометрическом уровне (Регистрация). Система идентифицирует конкретные части объекта и их взаимное расположение, а не просто общие формы или цвета.
    2. Устойчивость к вариациям (Pose Invariance): Ключевая особенность системы — способность справляться с изменениями ракурса, освещения и деформациями. Использование вероятностных моделей (Markov Networks) и геометрических ограничений позволяет находить соответствующие точки, даже если объект выглядит по-разному на разных фотографиях.
    3. Нормализация визуальных данных: Google активно нормализует визуальные данные для распознавания. Это достигается через Регистрацию (приведение к стандартной модели) и Синтез (виртуальный поворот объекта во фронтальное положение с помощью 3D-моделирования).
    4. Основа для Визуального Поиска и Идентификации Сущностей: Описанные технологии являются фундаментом для работы Google Images и Google Lens, обеспечивая возможность идентификации конкретных сущностей (продуктов, людей) исключительно по визуальным признакам.
    5. Автоматизация и Адаптация ML: Google использует автоматизированные и адаптивные механизмы (интеллектуальный выбор обучающих данных, Dynamic Thresholding) для оптимизации обучения и контроля качества распознавания на больших объемах данных.

    Практика

    Best practices (это мы делаем)

    Рекомендации относятся к Image SEO и оптимизации под Визуальный Поиск (Visual Search).

    • Обеспечение четкости ключевых признаков: Убедитесь, что ключевые визуальные признаки продукта или логотипа (Marker Features) хорошо различимы, имеют достаточный контраст и не сливаются с фоном. Это упрощает процесс Регистрации (Registration) и повышает точность распознавания.
    • Предоставление разных ракурсов (E-commerce): Для карточек товаров полезно предоставлять изображения с разных сторон. Патент показывает, что Google обладает механизмами (Регистрация и Синтез) для сопоставления этих ракурсов с единой моделью объекта. Это улучшает покрытие в визуальном поиске и помогает распознаванию через Google Lens.
    • Использование высококачественных изображений: Хотя система устойчива к искажениям, высокое разрешение и отсутствие артефактов сжатия улучшают оценку локального внешнего вида (Feature Appearance Potential), что критично для точной Регистрации.
    • Подтверждение сущностей (E-E-A-T): Публикуйте качественные и консистентные фотографии авторов. Описанные технологии позволяют Google надежно идентифицировать людей даже на разных фотографиях с разной мимикой и ракурсом, что способствует укреплению связи автора с его сущностью в Knowledge Graph.

    Worst practices (это делать не надо)

    • Использование чрезмерно абстрактных или искаженных изображений: Если ключевой объект представлен слишком абстрактно или сильно искажен (например, экстремальный угол или сильное перекрытие), система может не найти необходимые Marker Features для его Регистрации и распознавания.
    • Игнорирование визуального контента: Полагаться исключительно на текстовые метаданные (title, alt-атрибуты). Патент демонстрирует, что Google проводит глубокий анализ пикселей для понимания содержания изображения.
    • Попытки визуального клоакинга или обмана: Попытки скрыть содержимое изображения или обмануть систему распознавания путем незначительных визуальных модификаций, скорее всего, будут неэффективны, так как механизмы Регистрации разработаны для преодоления таких вариаций.

    Стратегическое значение

    Патент подтверждает стратегический приоритет Google в области компьютерного зрения. Изображения являются полноценными источниками данных. Способность системы точно регистрировать и сравнивать объекты означает, что уникальные визуальные активы становятся все более важными для видимости в поиске, особенно в E-commerce. Долгосрочная SEO-стратегия должна включать оптимизацию визуального контента, предполагая, что Google «видит» и понимает его структуру на глубоком уровне.

    Практические примеры

    Сценарий 1: Идентификация товара в E-commerce (Google Lens)

    1. Ситуация: Пользователь фотографирует товар (например, кроссовок) под углом 45 градусов с помощью Google Lens, чтобы найти его в интернете.
    2. Применение алгоритма: Google Lens применяет алгоритм Регистрации к фотографии. Markov Network используется для нахождения правильной конфигурации признаков (логотип, шнуровка, форма подошвы), несмотря на ракурс.
    3. Нормализация и Сравнение: Система нормализует вид кроссовка (используя Регистрацию и, возможно, Синтез) и сравнивает его с нормализованными видами товаров в своем индексе.
    4. Результат: Google точно идентифицирует модель кроссовка и показывает пользователю ссылки на интернет-магазины, даже если ракурс съемки пользователя отличается от студийных фотографий на сайтах.

    Сценарий 2: Укрепление авторства (E-E-A-T)

    1. Ситуация: Эксперт публикует статью с фотографией профиля, где он смотрит немного в сторону (Pose). В другом источнике есть его фотография с конференции с другим выражением лица (Distortion).
    2. Действие Google: При анализе обеих фотографий модуль Registration точно определяет расположение ключевых признаков лица (глаза, нос, рот), компенсируя разницу в мимике и ракурсе.
    3. Результат: Система успешно распознает, что это один и тот же человек, и укрепляет связь между контентом, автором и его сущностью в Knowledge Graph.

    Вопросы и ответы

    Что такое «Регистрация» (Registration) и почему она важна для SEO?

    Регистрация — это процесс точного определения местоположения ключевых точек (Marker Features) объекта на изображении (например, углов логотипа или глаз на лице). Это критически важно для SEO, так как позволяет Google точно идентифицировать объект и сравнивать его с другими изображениями, даже если они сняты с разных ракурсов. Это основа для надежного распознавания товаров и сущностей в Image Search и Google Lens.

    Может ли Google распознать мой продукт, если он снят под сильным углом или частично перекрыт?

    Да, патент описывает механизмы для этого. Технология Регистрации использует геометрические ограничения для точного определения структуры, даже если объект повернут. Кроме того, в описании патента упоминается процесс Синтеза (Synthesis), который позволяет виртуально «повернуть» объект во фронтальное положение и заполнить перекрытые (Occlusion) области с помощью 3D-модели для улучшения распознавания.

    В чем разница между тем, что описано в патенте (Description) и тем, что защищено (Claims)?

    Описание патента охватывает широкий спектр технологий: Регистрацию, Синтез (3D-моделирование) и Оптимизацию обучения. Однако юридически защищенные формулы (Claims) в этом конкретном патенте (US8630493B2) сфокусированы исключительно на методе Регистрации с использованием вероятностных моделей. Другие аспекты могли быть защищены в родительских или связанных патентах.

    Что такое Markov Network и как она используется?

    Markov Network — это вероятностная модель, которая помогает найти оптимальное расположение признаков. Она учитывает два фактора: насколько локальная область похожа на искомый признак (Appearance Potential) и насколько это расположение соответствует ожидаемой геометрии объекта относительно других признаков (Pairwise Potential). Это позволяет избежать ошибок в сложных условиях.

    Помогает ли этот патент Google распознавать авторов контента по фотографиям (для E-E-A-T)?

    Да, косвенно. Технологии регистрации лиц, описанные в патенте, позволяют Google надежно идентифицировать людей на изображениях в интернете, несмотря на разные позы или выражения лица. Если система может точно распознать лицо автора на разных сайтах, это может использоваться как сигнал для связывания контента с конкретной сущностью автора, что важно для оценки E-E-A-T.

    Стоит ли предоставлять изображения товара с разных ракурсов?

    Да, это отличная практика. Предоставление разных ракурсов дает системе больше данных для построения точной модели объекта. Технологии Регистрации и Синтеза позволяют Google сопоставить все эти виды и улучшить итоговое распознавание товара в поиске.

    Заменяет ли эта технология необходимость в заполнении alt-атрибутов?

    Нет, не заменяет. Alt-атрибуты критически важны для доступности (accessibility) и дают прямой текстовый контекст. Хотя Google и анализирует пиксели, текстовые данные остаются важными сигналами для подтверждения результатов визуального распознавания и улучшения релевантности.

    Влияет ли эта технология на определение дубликатов изображений?

    Да. Способность точно регистрировать объекты и приводить их к стандартному виду (нормализовать) значительно облегчает сравнение двух изображений и определение того, являются ли они идентичными или разными изображениями одного и того же объекта, снятыми с разных ракурсов.

    Что патент говорит об обучении системы распознавания?

    Патент подчеркивает важность эффективности обучения. Описаны методы интеллектуального программного отбора изображений для обучающей выборки – система сама выбирает наиболее информативные примеры для разметки. Также используется адаптивный порог уверенности (Dynamic Thresholding) для минимизации ошибок в процессе обучения.

    Что самое важное должен вынести SEO-специалист из этого патента?

    Самое важное — Google обладает сложными механизмами для понимания структуры и геометрии объектов на изображениях. Стратегия SEO должна включать обеспечение высокого качества и четкости визуальных данных, чтобы алгоритмы могли корректно зарегистрировать и распознать ключевые сущности (товары, логотипы, лица).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.