Как Google использует распознавание лиц и кластеризацию для очистки и переранжирования выдачи в Поиске по Картинкам

Google применяет технологию компьютерного зрения для улучшения поиска изображений по именам людей. Система анализирует топ выдачи, распознает лица и группирует похожие изображения. Определив доминирующий кластер (искомого человека), система переранжирует результаты: визуально похожие изображения повышаются, а «выбросы» (фото других людей) понижаются, игнорируя противоречивые текстовые сигналы.

Описание

Какую задачу решает

Патент решает проблему появления «выбросов» (outlier images) в результатах поиска изображений по запросам, содержащим имена людей. Эта проблема возникает, когда стандартные алгоритмы ранжирования слишком полагаются на внешние сигналы, такие как текстовые подписи, теги изображений или поведенческие метрики (selection rates/CTR). В результате в топе могут оказаться изображения, которые текстуально релевантны, но визуально изображают другого человека. Изобретение направлено на обеспечение визуальной консистентности выдачи.

Что запатентовано

Запатентована система корректировки ранжирования в Image Search, основанная на компьютерном зрении. Система анализирует визуальное содержание уже отобранных результатов, генерирует временные шаблоны лиц (facial templates) и кластеризует их. Определив визуальный консенсус (inlier cluster), система переранжирует выдачу, отдавая приоритет изображениям, которые соответствуют этому консенсусу, и понижая визуальные выбросы.

Как это работает

Механизм активируется на этапе пост-обработки результатов поиска:

Распознавание: Система детектирует лица на изображениях в топе выдачи и создает временные facial templates.
Кластеризация: Изображения группируются на основе схожести этих шаблонов.
Определение эталона: Самый большой кластер определяется как inlier cluster (предполагаемое лицо искомого человека).
Обработка дубликатов: Система идентифицирует и группирует дубликаты изображений, чтобы они не искажали результаты анализа.
Оценка (Inlier Score): Для каждого изображения рассчитывается inlier score — степень его схожести с эталонным кластером (с учетом дедупликации).
Переранжирование: Исходные оценки корректируются. Изображения с высоким inlier score повышаются, а с низким — понижаются.

Актуальность для SEO

Высокая. Использование компьютерного зрения для валидации и уточнения результатов поиска является стандартом в современных поисковых системах. Хотя конкретные методы распознавания лиц могли эволюционировать с момента подачи патента (например, к нейросетевым эмбеддингам), базовая концепция использования визуальной кластеризации для обеспечения релевантности в поиске по сущностям (людям) крайне актуальна.

Важность для SEO

Влияние значительно (7/10) в контексте Image Search. Патент демонстрирует механизм, при котором визуальный анализ может переопределить традиционные сигналы ранжирования (ALT-теги, подписи, CTR). Если изображение визуально не соответствует консенсусу выдачи по имени человека, оно будет понижено как outlier, независимо от качества текстовой оптимизации. Это критически важно для ORM и продвижения контента, связанного с персоналиями.

Детальный разбор

Термины и определения

Duplicate Images (Дубликаты изображений): Изображения, чьи Facial Templates имеют оценку схожести, превышающую порог дублирования (duplicate threshold). Это могут быть идентичные или слегка измененные (например, кадрированные) версии одного фото.
Facial Template / Face Template (Шаблон лица): Машинно-читаемое представление характеристик лица (например, вектор признаков, основанный на структурах лица). В патенте подчеркивается, что эти шаблоны временные (temporary) и не сохраняются в памяти (not persisted to memory).
Inlier Cluster (Внутренний / Эталонный кластер): Кластер с наибольшим количеством изображений в наборе результатов. Он представляет визуальный консенсус — предполагаемое лицо искомого человека.
Inlier Score (Оценка соответствия эталону): Метрика, измеряющая схожесть Facial Template конкретного изображения с шаблонами изображений из Inlier Cluster.
Name Query (Именной запрос): Запрос, который указывает имя человека. Часто применяется к знаменитостям (Celebrity Query).
Outlier Images (Выбросы): Изображения, попавшие в выдачу на основе внешних сигналов, но визуально не соответствующие Inlier Cluster.
Popularity Threshold (Порог популярности): Критерий (например, частота запросов), который может использоваться для активации этого механизма только для популярных запросов.
Search Score (Оценка поиска): Исходная оценка релевантности изображения, присвоенная поисковой системой до применения корректировок.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод корректировки результатов.

Система получает ранжированные изображения, релевантные запросу, с их Search Scores.
Для первого набора изображений: детектируется лицо и генерируется временный Facial Template (не сохраняемый в памяти).
Изображения кластеризуются на основе схожести шаблонов.
Определяется количество изображений в кластерах.
Кластер с наибольшим количеством выбирается как Inlier Cluster.
Для каждого изображения определяется Inlier Score (схожесть с Inlier Cluster).
Изображения переранжируются на основе Inlier Scores.

Ключевое уточнение в Claim 1: При определении Inlier Score, если изображения, принадлежащие к Inlier Cluster, определены как дубликаты друг друга, то для расчета используется только одно изображение из этой группы дубликатов.

Claim 5 и 6 (Зависимые): Детализируют обработку дубликатов.

Система вычисляет попарные оценки схожести (pairwise similarity scores). Пары, превышающие duplicate threshold, группируются как дубликаты; остальные считаются уникальными (Claim 5). Inlier scores рассчитываются на основе уникальных изображений и только одного представителя из каждой группы дубликатов (Claim 6).

Claim 9 (Зависимый): Уточняет расчет Inlier Score.

Inlier Score определяется как мера схожести центральной тенденции (central tendency similarity measure) — например, среднее или медианное значение схожести с изображениями из Inlier Cluster.

Claim 10 (Зависимый): Определяет область применения.

Метод применяется к изображениям, релевантным Name Query, который указывает имя человека и соответствует Popularity Threshold.

Где и как применяется

Изобретение применяется в системе поиска по изображениям (Image Search) и затрагивает финальные этапы обработки запроса.

RANKING – Ранжирование
На этом этапе генерируется исходный набор изображений с их Search Scores, основанными на стандартных сигналах (текст, теги, поведенческие факторы). Эти данные служат входом для системы корректировки.

RERANKING – Переранжирование
Основная область применения патента. Модуль Image Adjuster активируется после основного ранжирования:

Query Filter проверяет, является ли запрос подходящим (например, популярный Name Query).
Feature Extractor анализирует визуальный контент и генерирует временные Facial Templates.
Image Clusterer группирует результаты и определяет Inlier Cluster.
Score Adjuster рассчитывает Inlier Scores и выполняет финальное переранжирование.

Офлайн-процессы (Preprocessing / INDEXING)
Патент упоминает, что для популярных запросов корректировки могут быть рассчитаны заранее (pre-processed) и кэшированы для ускорения ответа. Обновление может происходить периодически (например, раз в день).

Входные данные:

Исходный ранжированный список изображений и их Search Scores.
Пиксельные данные изображений (для визуального анализа).

Выходные данные:

Переранжированный список изображений со скорректированными оценками.

На что влияет

Специфические запросы: Влияет исключительно на Name Queries (запросы с именами людей).
Конкретные типы контента: Изображения в Image Search, на которых система может детектировать лица.
Конкретные ниши или тематики: Новости, СМИ, развлечения, спорт, биографии и любые ниши, связанные с публичными персонами.

Когда применяется

Триггеры активации: Запрос идентифицирован как Name Query и, в некоторых реализациях, превышает Popularity Threshold (Claim 10).
Временные рамки: Может применяться в реальном времени (at query time), возможно, с ограничением на Топ-N результатов для скорости, или в режиме предварительной обработки (pre-processed).

Пошаговый алгоритм

Этап 1: Инициализация и Извлечение признаков

Система получает исходный набор ранжированных изображений.
Feature Extractor обрабатывает изображения. Для каждого обнаруживается лицо и генерируется временный Facial Template. Изображения без лиц исключаются из процесса.

Этап 2: Кластеризация и Обработка дубликатов

Вычисляются попарные оценки схожести (pairwise similarity scores) между всеми шаблонами.
Изображения, чья схожесть превышает duplicate threshold, группируются как дубликаты. Остальные помечаются как уникальные.
Image Clusterer группирует изображения на основе схожести шаблонов.

Этап 3: Идентификация эталона

Подсчитывается количество изображений в каждом кластере (при подсчете дубликаты могут учитываться как один элемент).
Кластер с максимальным количеством выбирается как Inlier Cluster.

Этап 4: Расчет Inlier Score

Для каждого изображения рассчитывается Inlier Score.
Расчет производится как мера центральной тенденции (например, среднее сходство) шаблона изображения с шаблонами из Inlier Cluster.
Критически важно: При сравнении используются только уникальные изображения и по одному представителю от каждой группы дубликатов из Inlier Cluster.
Изображениям из очень маленьких кластеров может быть присвоен минимальный балл.

Этап 5: Переранжирование и Выдача

Score Adjuster корректирует исходные Search Scores, применяя функции повышения (Boost) или понижения (Demote) на основе Inlier Scores.
Изображения пересортировываются.
Временные Facial Templates удаляются из памяти.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Визуальные данные): Пиксельные данные изображений. Это основной источник данных для генерации Facial Templates. Анализируются машиночитаемые свойства структур лица.
Поведенческие факторы: Query Logs используются для определения популярности запроса (Popularity Threshold). Также упоминаются Selection rates (CTR) как фактор исходного ранжирования, который данный патент стремится скорректировать.
Контентные факторы: Image tags и подписи (captions) также упоминаются как факторы исходного ранжирования, которые могут приводить к появлению выбросов.

Какие метрики используются и как они считаются

Facial Template Similarity: Метрика схожести между двумя шаблонами лиц.
Inlier Score: Агрегированная оценка схожести изображения с Inlier Cluster, рассчитываемая как central tendency similarity measure.
Cluster Quantity (Cardinality): Количество изображений в кластере (часто с учетом дедупликации).
Duplicate Threshold: Порог схожести для признания изображений дубликатами.
Формулы расчета: Патент приводит пример линейных функций для корректировки оценок:
Если $IS > IST_1$ (Порог бустинга):
$Adj\_Score_j = SS_j * (B * (IS_j — IST_1) + 1)$
Если $IS < IST_2$ (Порог демоутинга):
$Adj\_Score_j = SS_j * max((D * (IS_j — IST_2) + 1), SD)$
Где: B – фактор бустинга; D – фактор демоутинга; SD – фактор сильного демоутинга.

Выводы

Визуальная консистентность как ключевой сигнал переранжирования: Для именных запросов в Image Search визуальное соответствие является приоритетным фактором, который может переопределить стандартные сигналы ранжирования (текст, теги, CTR). Система активно верифицирует, кто изображен на фото.
Релевантность на основе консенсуса (Inlier Cluster): Система не полагается на заранее заданную базу лиц. Она динамически определяет эталон искомого человека, предполагая, что самый большой кластер похожих лиц в текущей выдаче является правильным.
Сложная обработка дубликатов: Патент уделяет значительное внимание дедупликации. Дубликаты не должны искажать размер кластера или расчет Inlier Score. Это повышает точность определения эталона и оценки схожести.
Борьба с манипуляциями и ошибками маркировки: Механизм напрямую направлен на исправление ошибок ранжирования, вызванных вводящими в заблуждение подписями или кликбейтом.
Конфиденциальность и временные данные: Явно указано (Claim 1), что генерируемые Facial Templates являются временными и не сохраняются в памяти, что важно для обеспечения конфиденциальности при обработке биометрических данных.

Практика

Best practices (это мы делаем)

Обеспечение визуальной релевантности: Критически важно для Image SEO по персоналиям. Изображение должно четко и однозначно изображать человека, под запрос которого оно оптимизируется. Визуальное соответствие интенту является обязательным.
Использование высококачественных изображений лиц: Используйте четкие, качественные фотографии, на которых лицо хорошо различимо. Это облегчает генерацию точного Facial Template и увеличивает вероятность получения высокого Inlier Score.
Публикация разнообразных изображений: Поскольку система эффективно обрабатывает дубликаты (считая их за один элемент при анализе), для достижения максимальной видимости в топе Image Search стратегически выгоднее иметь несколько разных качественных фотографий персоны, а не множество копий одной.

Worst practices (это делать не надо)

Вводящие в заблуждение подписи и кликбейт (Misleading Captions): Использование фотографии Человека А для привлечения трафика по запросу «Человек Б» путем манипуляции подписями или тегами. Описанный механизм активно понижает такие изображения как outliers.
Игнорирование визуального содержания: Полагаться исключительно на оптимизацию ALT-текстов и окружающего текста. Этой оптимизации недостаточно, если само изображение визуально нерелевантно запросу о человеке.
Использование стоковых или нечетких изображений: Использование изображений низкого качества или аватаров вместо реальных фото может привести к ошибкам распознавания или невозможности сгенерировать Facial Template, исключая изображение из процесса бустинга.

Стратегическое значение

Патент подтверждает стратегическую важность компьютерного зрения в поиске. Google интерпретирует визуальное содержание и использует эту интерпретацию для верификации релевантности, особенно при поиске сущностей (людей). Для SEO это означает, что в Image Search фактическое визуальное содержание изображения становится важнее его метаданных. Это критично для управления репутацией (ORM) и видимости брендов/персон.

Практические примеры

Сценарий: Очистка выдачи по имени знаменитости от фото партнера.

Запрос: Пользователь ищет «John Famous».
Исходная выдача: В топе 7 фото John Famous и 3 фото его жены Jane Star. Фото Jane Star ранжируются высоко, так как взяты из популярных статей о John Famous.
Активация механизма: Система идентифицирует запрос как Name Query.
Кластеризация: Система анализирует лица. 7 фото формируют Кластер А (John), 3 фото — Кластер Б (Jane).
Выбор эталона: Кластер А выбирается как Inlier Cluster.
Переранжирование: Фотографии Jane Star (Кластер Б) получают низкий Inlier Score, так как не похожи на Кластер А, и понижаются в выдаче. Фотографии John Famous повышаются.
Результат: В финальной выдаче Image Search доминируют изображения искомого человека (John Famous).

Вопросы и ответы

Применяется ли этот механизм ко всем запросам в поиске по картинкам?

Нет. Патент указывает, что механизм предназначен для именных запросов (Name Queries), особенно тех, которые касаются популярных личностей и превышают определенный порог популярности (Popularity Threshold). Для общих или неодушевленных запросов этот механизм не используется.

Что такое Inlier Cluster и как он определяется?

Inlier Cluster — это самая большая группа изображений среди результатов поиска, лица на которых визуально похожи друг на друга. Система предполагает, что этот кластер представляет искомого человека, и использует его как визуальный эталон для оценки всех остальных изображений в выдаче.

Как система обрабатывает дубликаты изображений?

Дубликаты обрабатываются очень тщательно (Claims 1, 5, 6). Система идентифицирует их через попарное сравнение Facial Templates. При расчете Inlier Score используется только один представитель из группы дубликатов. Это предотвращает искажение эталонного кластера из-за множества копий одной и той же фотографии.

Что произойдет, если я оптимизирую ALT-теги и заголовки, но использую фото другого человека?

Ваше изображение может попасть в первоначальную выдачу благодаря текстовой оптимизации. Однако затем механизм переранжирования сравнит его с Inlier Cluster. Поскольку визуально оно не соответствует искомому человеку, оно получит низкий Inlier Score и будет понижено в ранжировании.

Влияет ли качество изображения на работу этого алгоритма?

Да, косвенно. Для работы алгоритма необходимо успешное детектирование лица и генерация Facial Template. Если изображение низкого качества или лицо плохо видно, система может не справиться с этой задачей. В этом случае изображение исключается из процесса корректировки и его ранг не изменяется этим алгоритмом.

Сохраняет ли Google данные о лицах (Facial Templates)?

Согласно патенту (Claim 1), система генерирует временные шаблоны лиц (temporary face templates), которые «не сохраняются в памяти» (not persisted to memory). Они используются на лету для кластеризации и расчета оценок, а затем удаляются.

Что произойдет, если в выдаче нет явного доминирующего кластера (например, 50/50)?

Патент рассматривает ситуацию равенства размеров кластеров. Предлагаются варианты решения: случайный выбор одного из кластеров; анализ базовых оценок качества (quality scores) изображений в кластерах и выбор лучшего; оценка «плотности» (tightness) кластеров; или объединение этих кластеров.

Может ли этот механизм понизить релевантное изображение искомого человека?

Да, если оно сильно отличается от большинства других его фотографий в выдаче (например, очень старое фото или необычный грим). Если оно не попадет в Inlier Cluster и сформирует отдельный маленький кластер, оно может быть классифицировано как outlier и понижено.

Работает ли система в реальном времени?

Патент описывает оба варианта. Система может работать в реальном времени (at query time), анализируя Топ-N результатов для скорости. Также для очень популярных запросов анализ может выполняться заранее (pre-processed), а результаты кэшироваться и периодически обновляться.

Каково стратегическое значение этого патента для SEO?

Стратегическое значение заключается в подтверждении того, что для Image Search визуальное содержание имеет приоритет над метаданными при поиске сущностей (людей). Это требует от SEO-специалистов фокусироваться на качестве и фактической релевантности мультимедийного контента, а не только на оптимизации тегов.