Система Google для сравнения конкретных черт лица (глаза, нос и т.д.) на разных изображениях. Система нормализует фотографии и использует модель машинного обучения, натренированную на человеческих оценках (Mechanical Turk), чтобы определить степень визуальной схожести отдельных признаков.
Описание
Какую задачу решает
Патент решает задачу точной идентификации схожести отдельных черт лица (facial features), а не лиц в целом, между разными изображениями. Это позволяет реализовать сценарии, требующие детального сравнения, например, определение родственного сходства по конкретной черте («у него мамины глаза») или поиск двойников. Система стремится улучшить точность сравнения, имитируя человеческое восприятие схожести.
Что запатентовано
Запатентована система и метод для поиска изображений со схожими чертами лица. Она включает предобработку для нормализации изображений и выделения областей лица (facial areas). Ядром изобретения является создание модели схожести (Similarity Model) с использованием онлайн машинного обучения (Online Machine Learning), обученной на основе относительных сравнений, сделанных людьми-оценщиками.
Как это работает
Система работает в два основных этапа: обучение и применение.
- Обучение (Офлайн): Система формирует «тройки» (Triplets) изображений одной черты лица и передает их людям (Mechanical Turk) для оценки, какая пара более похожа. На основе этих оценок (Inequality Constraints) с помощью алгоритмов машинного обучения (например, Margin Learning) создается Similarity Model.
- Применение (Онлайн): Входящие изображения нормализуются к стандартному виду (Canonical face). Выделяются ключевые точки (Key-points) и извлекаются наборы признаков (Feature Sets). Обученная модель применяется для сравнения черты лица из запроса с другими изображениями и ранжирует результаты по степени схожести.
Актуальность для SEO
Средняя. Фундаментальные принципы, такие как нормализация изображений, извлечение признаков и обучение моделей схожести на основе ранжирования (Learning to Rank/Similarity Learning), остаются актуальными. Однако конкретные технические реализации, описанные в патенте (подача 2012 г.), такие как использование алгоритмов типа OASIS и методов извлечения признаков SIFT/LBP, могут быть устаревшими по сравнению с современными подходами на основе глубокого обучения (Deep Learning).
Важность для SEO
Минимальное (1/10). Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Он полностью посвящен узкоспециализированной задаче компьютерного зрения — сравнению черт лица. Он не содержит информации о ранжировании веб-документов, анализе текста, ссылочном профиле или сигналах E-E-A-T. Влияние на стандартные SEO-стратегии отсутствует.
Детальный разбор
Термины и определения
- Canonical Face (Каноническое лицо)
- Стандартизированное представление лица (например, фронтальный вид с глазами на определенном уровне), к которому приводятся изображения для обеспечения корректного сравнения.
- Facial Area (Область лица)
- Выделенный и часто масштабированный участок изображения, содержащий одну или несколько черт лица (например, область глаз или носа).
- Feature Set (Набор признаков)
- Векторное представление черты лица. Может включать координаты Key-points, гистограммы цвета, текстуры. Упоминаются методы извлечения, такие как LBP (Linear Binary Patterns) и SIFT (Scale-Invariant Feature Transform).
- Inequality Constraints (Ограничения неравенства)
- Результат человеческой оценки троек изображений. Это правило, указывающее, какая пара из тройки более похожа (например, Сходство(A,B) > Сходство(A,C)). Основа для обучения модели.
- Key-points (Ключевые точки)
- Характерные точки на лице (например, уголки глаз, кончик носа), определяемые алгоритмически. Используются для нормализации изображения и выделения Facial Areas.
- Margin Learning / Large Margin Criterion (Обучение с максимальным зазором)
- Класс алгоритмов машинного обучения, которые стремятся оптимизировать модель так, чтобы максимизировать разницу (зазор) между различными рангами схожести.
- Mechanical Turk
- Платформа краудсорсинга (в патенте используется как синоним использования людей-оценщиков) для получения субъективных оценок схожести.
- OASIS (Online Algorithm for Scalable Image Similarity)
- Алгоритм машинного обучения для изучения сходства изображений, упомянутый в описании патента.
- Online Machine Learning (Онлайн машинное обучение)
- Итеративный процесс обучения, при котором модель обновляется последовательно по мере поступления новых данных, а не обучается на всем наборе данных сразу.
- Similarity Model (Модель схожести, M)
- Математическая модель (матрица M), обученная для определения степени схожести между двумя Feature Sets. В патенте упоминается билинейная форма: Sim(v1,v2) = v1^T * M * v2.
- Triplets (Тройки)
- Набор из трех изображений одной и той же черты лица, используемый в процессе обучения для получения сравнительных оценок.
- Warping Transformation (Трансформация деформации)
- Процесс геометрического преобразования изображения (перемещение, вращение, масштабирование) для приведения его к виду Canonical face.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод поиска и идентификации схожих черт лица.
- Система получает изображение лица (запрос).
- Применяется трансформация на основе ключевых точек (Key-points), чтобы привести изображение к первому каноническому представлению (first canonical depiction).
- Идентифицируется область лица (Facial Area), содержащая целевую черту.
- Генерируется модель схожести (Similarity Model) для этой черты с использованием Online Machine Learning. Модель обучается путем сравнения с обучающими изображениями, которые могут иметь второе каноническое представление, независимое от первого.
- Модель применяется к изображению запроса и множеству других изображений.
- Определяется схожая черта лица на другом изображении, которая удовлетворяет пороговому значению меры схожести (similarity measure threshold).
- Результат (другое изображение со схожей чертой) предоставляется пользователю.
Claim 2 и 3 (Зависимые): Детализируют процесс обучения.
Модель создается путем сравнения множества Triplets (тройки изображений одной черты лица) или мини-пакетов (mini-batches) триплетов. Это подтверждает использование метода относительного сравнения для обучения.
Claim 6 (Зависимый): Уточняет тип алгоритма обучения.
Модель создается с использованием алгоритма обучения с критерием большого зазора (large margin criterion). Это указывает на использование алгоритмов, оптимизирующих ранжирование по схожести (например, OASIS).
Где и как применяется
Патент описывает инфраструктурные процессы, которые применяются в системах анализа и поиска изображений (например, Google Images, Google Photos), а не в основном веб-поиске.
INDEXING – Индексирование и извлечение признаков (Конвейер обработки изображений)
На этом этапе система выполняет основную работу по анализу изображений:
- Предобработка: Обнаружение лиц, определение Key-points, выполнение Warping Transformation для нормализации и выделение Facial Areas.
- Feature Extraction: Вычисление Feature Sets (с использованием методов типа LBP, SIFT) для каждой выделенной области лица. Эти данные сохраняются в индексе изображений.
QUNDERSTANDING – Понимание Запросов (Офлайн / Обучение модели)
Это офлайн-процесс создания Similarity Model. Он включает сбор Training Images, формирование Triplets, получение человеческих оценок (Mechanical Turk) и обучение модели с использованием Online Machine Learning (например, OASIS).
RANKING – Ранжирование (Поиск по изображениям / Специализированные функции)
Применение модели в ответ на запрос. Когда инициируется поиск похожей черты лица, система сравнивает Feature Set запроса с предварительно вычисленными Feature Sets из индекса. Сравнение происходит с помощью Similarity Model, и результаты ранжируются по вычисленной Similarity Measure.
Входные данные:
- Изображения лиц (Query, Training, Other images).
- Человеческие оценки (Mechanical Turk) в виде Inequality Constraints (для обучения).
Выходные данные:
- Обученная Similarity Model (Матрица M).
- Отранжированный список изображений, содержащих наиболее схожие черты лица.
На что влияет
- Конкретные типы контента: Влияет исключительно на мультимедийный контент — изображения, содержащие лица. Не влияет на текст или структуру сайта.
- Специфические запросы: Применяется в специализированных поисковых задачах, таких как поиск двойников или анализ визуального сходства между родственниками.
Когда применяется
- Триггеры активации: Наличие лица на изображении во время индексации или получение специфического запроса от пользователя на поиск схожих черт лица.
- Условия работы: Система применяется, если удалось успешно определить Key-points и привести изображение к Canonical face. В описании патента упоминается, что изображение может быть отклонено (rejected), если оно не соответствует каноническому виду (например, если это не фронтальный ракурс и система не может его нормализовать).
Пошаговый алгоритм
Процесс разделен на две основные стадии: обучение модели и ее применение.
Стадия А: Обучение Модели Схожести (Офлайн/Итеративно)
- Получение данных: Система получает набор обучающих изображений.
- Предобработка и Извлечение признаков: Каждое изображение нормализуется (Key-points detection, Warping Transformation), выделяются области лица (Facial Areas) и извлекаются наборы признаков (Feature Sets).
- Создание триплетов: Формирование наборов из трех Feature Sets (Triplets) для одной и той же черты лица.
- Получение человеческих оценок: Применение Mechanical Turk. Людям предлагается выбрать наиболее похожую пару в триплете.
- Формирование ограничений: Результаты оценок преобразуются в Inequality Constraints.
- Обучение модели: Применение Margin Learning (например, алгоритм OASIS) к ограничениям для вычисления Similarity Model (Матрицы M). Используется Online Machine Learning для итеративного уточнения модели.
Стадия Б: Применение Модели (Онлайн)
- Получение запроса: Система получает изображение-запрос (Query Image) и набор целевых изображений (Other Images).
- Предобработка и Извлечение признаков: Изображения обрабатываются аналогично Стадии А для извлечения Feature Sets.
- Сравнение: Применение Similarity Model (M) для сравнения Feature Set запроса с Feature Sets целевых изображений. Расчет меры схожести (Similarity Measure), например, по формуле Sim(v1,v2) = v1^T * M * v2.
- Идентификация: Определение наиболее схожих черт на основе Similarity Measure (превышение порога или выбор Топ-N).
- Ранжирование: Сортировка идентифицированных результатов по степени схожести.
- Отображение: Предоставление результатов пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на визуальных данных и данных, необходимых для обучения модели схожести.
- Мультимедиа факторы: Изображения лиц (Facial images). Система анализирует пиксельные данные в пределах выделенных Facial Areas для определения цвета, текстуры и геометрии.
- Поведенческие/Пользовательские факторы (в контексте обучения): Человеческие субъективные оценки схожести (Human evaluations / Mechanical Turk), предоставляемые в виде Inequality Constraints.
Контентные, технические, ссылочные или временные факторы, используемые в веб-поиске, в данном патенте не упоминаются.
Какие метрики используются и как они считаются
- Key-points (Ключевые точки): Координаты характерных точек лица. Для их обнаружения упоминается возможность использования Байесовской модели (Bayesian model).
- Feature Sets (Наборы признаков): Векторные представления (v1, v2) черт лица. В описании упоминаются методы извлечения признаков, такие как LBP (Linear Binary Patterns), цвет, текстура и SIFT (Scale-Invariant Feature Transform).
- Similarity Measure (Мера схожести): Числовое значение, определяющее степень схожести. Рассчитывается с использованием обученной модели M. В патенте приводится формула билинейной меры схожести: Sim(v1,v2) = v1^T * M * v2.
- Алгоритмы машинного обучения: Используется Online Machine Learning и Margin Learning. В описании упоминается использование пассивно-агрессивных алгоритмов (Passive-Aggressive family) с критерием большого зазора (large margin criterion), таких как OASIS.
Выводы
Патент носит инфраструктурный характер и описывает внутренние процессы Google по анализу изображений лиц. Он не имеет прямого отношения к ранжированию веб-сайтов и не содержит практических выводов для стандартного SEO.
Основные выводы о технологиях Google:
- Детализированный анализ изображений: Система способна анализировать визуальную схожесть не только лиц в целом, но и отдельных анатомических черт (глаза, нос, рот), что требует точного выделения Key-points и Facial Areas.
- Обучение на основе человеческого восприятия: Патент подчеркивает важность человеческой оценки для задач, которые трудно формализовать. Использование Mechanical Turk и Triplets позволяет обучить Similarity Model, которая отражает субъективное человеческое восприятие схожести.
- Критическая роль предобработки: Для обеспечения точного сравнения система полагается на сложную предобработку и нормализацию изображений (Warping Transformation) для приведения их к каноническому виду (Canonical face).
- Использование Online Machine Learning: Google применяет итеративные алгоритмы (онлайн-обучение) для создания и постоянного уточнения модели схожести, что обеспечивает масштабируемость и адаптивность системы.
Практика
ВАЖНО: Патент является инфраструктурным и описывает внутренние процессы обработки изображений лиц. Он не дает практических выводов для стандартного SEO веб-сайтов.
Best practices (это мы делаем)
- Практических рекомендаций для SEO, основанных на механизмах этого патента, нет.
Worst practices (это делать не надо)
- Худших практик для SEO, которые этот патент делает неэффективными или опасными, нет.
Стратегическое значение
Стратегическое значение патента заключается в демонстрации подхода Google к решению сложных задач визуального анализа. Он показывает, как Google интегрирует человеческие оценки (Human Evaluation) непосредственно в процесс обучения сложных ML-моделей для задач, связанных с субъективным восприятием. Это подтверждает общую тенденцию Google полагаться на данные от асессоров и пользователей для настройки алгоритмов, хотя в данном случае это применяется к узкой задаче компьютерного зрения, а не к ранжированию веб-поиска.
Практические примеры
Практических примеров для SEO нет. Примеры применения касаются исключительно функционала продукта.
Пример сценария использования продукта (не SEO):
- Сценарий: Пользователь хочет узнать, на кого из знаменитостей он больше похож глазами.
- Действие: Пользователь загружает свою фотографию (Query Image) в сервис, использующий эту технологию, и выбирает для сравнения базу знаменитостей (Other Images).
- Обработка: Система нормализует фото пользователя, выделяет область глаз и извлекает Feature Set.
- Сравнение: Similarity Model (обученная на человеческих оценках о схожести глаз) сравнивает Feature Set пользователя с предварительно вычисленными Feature Sets знаменитостей.
- Результат: Система ранжирует знаменитостей по мере схожести глаз и показывает Топ-3 результата.
Вопросы и ответы
Влияет ли этот патент на ранжирование сайтов в веб-поиске или Image SEO?
Нет, прямого влияния на ранжирование веб-документов этот патент не оказывает. Он описывает технологию сравнения черт лица и не связан с факторами ранжирования в основном поиске. Влияние на Image SEO также минимально, так как патент не описывает, как Google выбирает изображения по текстовому запросу.
Что такое «Каноническое лицо» (Canonical Face) и зачем оно нужно?
Это стандартизированное представление лица, например, фронтальный вид, где глаза находятся на одной горизонтальной линии в определенных координатах. Система приводит анализируемые лица к этому виду с помощью трансформации (Warping Transformation). Это необходимо для устранения различий в позе и масштабе, что позволяет корректно сравнивать сами черты лица.
Как Google учит модель понимать, что черты лица похожи?
Google использует человеческие оценки. Людям (с помощью краудсорсинга, например, Mechanical Turk) показывают три примера одной черты лица (Triplets) и спрашивают, какая пара более похожа. На основе этих ответов (Inequality Constraints) система обучается (Online Machine Learning), чтобы ее оценки совпадали с человеческими.
Что такое «Тройки» (Triplets) и почему они используются?
Это метод обучения, при котором системе показывают три образца. Задача — определить, какой из двух образцов более похож на первый (относительное сравнение). Этот подход очень эффективен для обучения моделей, которые должны измерять степень схожести, особенно когда схожесть субъективна.
Описывает ли патент технологию распознавания лиц (Facial Recognition)?
Патент описывает технологию сравнения схожести черт лица (Facial Similarity), а не идентификацию конкретной личности (Facial Recognition). Система отвечает на вопрос «Насколько похожи эти два носа?», а не на вопрос «Кто этот человек?». Однако, измерение схожести часто является компонентом систем распознавания.
Что означает «Online Machine Learning» в этом контексте?
Это метод обучения, при котором модель не обучается на всем массиве данных сразу, а обновляется итеративно по мере поступления новых данных (например, новых оценок от Mechanical Turk). Это позволяет системе постоянно совершенствоваться без необходимости полного переобучения.
Система сравнивает лица целиком или по частям?
Ключевая особенность этого патента – сравнение именно по частям (Facial Areas). Система отдельно выделяет глаза, нос, рот и т.д., и сравнивает их независимо. Это позволяет ответить на вопросы типа «Чей нос больше похож?».
Какие признаки (Feature Sets) система извлекает из фотографий?
Feature Sets — это векторные представления черт лица. Они могут включать координаты ключевых точек (Key-points), а также дескрипторы цвета и текстуры. В патенте упоминаются такие методы, как LBP (Linear Binary Patterns) и SIFT (Scale-Invariant Feature Transform).
Что такое «Large Margin Learning» и алгоритм OASIS?
Large Margin Learning — это класс алгоритмов машинного обучения, которые стремятся максимизировать разницу (зазор или margin) между похожими и непохожими парами, что повышает надежность модели. OASIS — это конкретный алгоритм, реализующий этот подход для обучения сходству изображений.
Какова практическая польза этого патента для SEO-специалиста?
Практическая польза минимальна, так как патент не дает прямых рекомендаций для продвижения сайтов. Он полезен для расширения кругозора в области технологий компьютерного зрения Google и понимания того, как компания использует машинное обучение и человеческие оценки для решения сложных визуальных задач.