Как Google использует распознавание лиц, одежды и текста внутри изображений для индексации и визуального поиска

Патент описывает комплексную систему для анализа содержимого изображений. Google может распознавать лица, текст на объектах (OCR) и характеристики одежды/аксессуаров. Эта информация индексируется, позволяя пользователям искать изображения не только по тексту, но и используя другое изображение в качестве запроса (визуальный поиск). Система критически важна для понимания контекста изображений и улучшения результатов в Google Images и вертикалях, связанных с продуктами.

Описание

Какую задачу решает

Патент решает проблему организации, поиска и извлечения изображений на основе их фактического содержания, а не только на основе окружающего текста или метаданных файла. Он направлен на создание индекса, основанного на распознанной информации непосредственно из пиксельных данных, что позволяет реализовать функции визуального поиска и автоматической категоризации изображений.

Что запатентовано

Запатентована система и метод для анализа цифровых изображений с целью распознавания различных типов объектов, включая людей (используя лица и одежду) и текст, переносимый на объектах. Суть изобретения заключается в генерации Recognition Information (включая Recognition Signatures) для этих объектов и создании индекса на основе этой информации. Это позволяет осуществлять поиск изображений, используя в качестве критерия как текст, так и входное изображение (визуальный поиск), в частности, поиск по признакам одежды и аксессуаров.

Как это работает

Система работает в несколько этапов:

Обнаружение объектов (Object Detection): Изображения сканируются для выявления потенциальных объектов, таких как лица (используя обученные классификаторы и проверку цвета кожи) или текст (используя маркеры, такие как блочные паттерны и края).
Нормализация: Обнаруженные объекты нормализуются по масштабу, ориентации и освещению.
Распознавание объектов (Object Recognition): Применяются специфические для типа объекта алгоритмы. Для лиц генерируется Recognition Signature (например, с помощью PCA/LDA). Для одежды вычисляется Clothing Vector (например, цветовые гистограммы из области под лицом). Для текста применяется OCR.
Индексация и Корреляция: Распознанная информация индексируется. Система может использовать Double Binding, объединяя несколько источников (лицо, одежда, время, местоположение) для повышения точности идентификации.
Поиск и Извлечение: Пользователи могут искать, вводя текст или предоставляя входное изображение. Система распознает объекты во входном изображении (включая одежду) и сопоставляет их Recognition Signatures с индексом для извлечения похожих изображений.

Актуальность для SEO

Высокая. Визуальный поиск (например, Google Lens) и автоматическое распознавание объектов в Google Images и Google Photos являются центральными элементами современной поисковой экосистемы. Технологии, описанные в патенте, такие как распознавание лиц, OCR в изображениях и, особенно, распознавание одежды/аксессуаров, лежат в основе поиска продуктов и понимания контента изображений, что критически важно в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO, особенно для e-commerce и контент-стратегий, опирающихся на изображения. Он описывает фундаментальные механизмы того, как Google индексирует визуальный контент. Понимание этих механизмов критически важно для оптимизации под Image Search и Visual Search (Lens). Если система может распознать продукт (одежду/аксессуар) или контекст (текст на объекте) на изображении, это напрямую влияет на его видимость по соответствующим запросам.

Детальный разбор

Термины и определения

Clothing Vector (Вектор одежды): Количественное представление одежды или аксессуаров, обнаруженных на человеке. Может быть получено из области изображения, расположенной относительно лица, часто с использованием цветовых гистограмм или алгоритмов K-Means для определения доминирующих цветов.
Correlation (Корреляция): Процесс связывания распознанной информации (Recognition Information) с конкретными данными, такими как личность человека (имя), значение текста или другие изображения с тем же объектом.
Double Binding (Двойное связывание): Техника повышения точности распознавания путем объединения нескольких источников информации, таких как Face Vector, Clothing Vector, метаданные времени (Time Vector) и местоположения (Location Vector).
Face Vector (Вектор лица): Визуальная сигнатура или количественное представление лица, используемое для распознавания. Часто генерируется с помощью таких методов, как PCA или LDA.
Marker Feature (Маркерный признак): Характеристика или особенность в изображении, которая сигнализирует о присутствии определенного типа объекта (например, глаза для обнаружения лица; блочные паттерны для обнаружения текста).
Objectified Image Rendering (Объектифицированное представление изображения): Отображение изображения, в котором ранее распознанные объекты сделаны интерактивными или выбираемыми пользователем, часто с отображением связанной с ними метаинформации.
Recognition Information (Информация распознавания): Данные, полученные в результате анализа объекта в изображении. Могут включать количественные сигнатуры (векторы) или классификации (пол, этническая принадлежность).
Recognition Signature (Сигнатура распознавания): Количественное выражение (часто многомерный вектор), которое служит относительно уникальным идентификатором распознанного объекта, например, лица или предмета одежды.
Tag Spanning (Распространение тегов): Техника применения тега (например, распознанного текста, указывающего местоположение), обнаруженного на одном изображении, к другим связанным изображениям (например, сделанным примерно в то же время), даже если этот текст не появляется на других изображениях.

Ключевые утверждения (Анализ Claims)

Патент содержит два идентичных независимых пункта (Claim 1 описывает метод, Claim 5 описывает носитель с инструкциями для метода). Анализ сосредоточен на Claim 1.

Claim 1 (Независимый пункт): Описывает метод для обеспечения извлечения коллекции изображений.

Программный анализ изображений: Система анализирует каждое изображение в коллекции путем:
1. Обнаружения присутствия одного или нескольких объектов.
2. Определения типа каждого обнаруженного объекта.
3. Выполнения процесса распознавания изображений для каждого объекта на основе его типа. Процесс распознавания для одного типа отличается от процесса для другого типа.
Спецификация объектов: Указано, что обнаруженные объекты в некоторых изображениях соответствуют предмету одежды или аксессуару (item of clothing or apparel).
Хранение информации распознавания: Сохранение image recognition information, включая recognition signature для обнаруженных предметов одежды/аксессуаров.
Определение критериев из ввода пользователя: Получение входного изображения от пользователя и определение критериев поиска.
1. Это включает определение recognition signature для части входного изображения.
2. Конкретно, это включает определение recognition signature для предмета одежды или аксессуара, который появляется во входном изображении.
Сравнение критериев: Сравнение критериев с сохраненной информацией распознавания для идентификации изображений, удовлетворяющих критериям.
1. Это включает использование информации распознавания для отдельных предметов одежды/аксессуаров в качестве, по крайней мере, частичной основы для сравнения.
2. Конкретно, это включает вычисление сходства (computing a similarity) между признаками (features) предмета одежды/аксессуара во входном изображении и признаками объектов в коллекции.
Представление результатов: Отображение идентифицированных изображений пользователю.

Ядро изобретения — это система визуального поиска, которая способна индексировать и извлекать изображения на основе распознавания различных типов объектов, с явным акцентом на возможность поиска по визуальным характеристикам одежды и аксессуаров, используя входное изображение в качестве запроса.

Где и как применяется

Изобретение охватывает несколько ключевых этапов поисковой архитектуры, в первую очередь фокусируясь на обработке и индексации визуальных данных.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система анализирует Image Data для извлечения признаков:

Person Analysis: Обнаружение лиц, распознавание лиц (генерация Face Vector), распознавание одежды (генерация Clothing Vector), анализ волос, пола и отношений.
Text Analysis: Обнаружение текста на объектах, OCR, интерпретация контекста и определение Spannable текста.
Object Analysis: Распознавание других объектов (например, достопримечательностей, животных).
Feature Extraction: Генерация Recognition Signatures для индексации. Система использует метаданные (время, местоположение) для кластеризации изображений по событиям (Event Clustering) и применения таких техник, как Double Binding и Tag Spanning.

RANKING – Ранжирование (в вертикали Image/Visual Search)
На этом этапе используются индексы, созданные во время INDEXING. Когда пользователь предоставляет запрос (текст или изображение), система сопоставляет его с ID Information Index или Signature Index. Для визуального поиска система вычисляет Recognition Signature входного изображения и сравнивает его с индексом для поиска совпадений или похожих результатов (Similarity Matching).

METASEARCH – Метапоиск и Смешивание
Результаты из вертикали Image Search, полученные с помощью этих механизмов распознавания, смешиваются с результатами основного веб-поиска.

Входные данные:

Необработанные файлы изображений (Image Data).
Метаданные изображения (EXIF), включая время и, возможно, местоположение.
Обучающие наборы данных (для лиц, текста, объектов).
Внешние источники знаний (словари, адресные книги для корреляции).
Пользовательский ввод для поиска (текст или изображение).

Выходные данные:

Recognition Signatures (например, Face Vector, Clothing Vector).
Индексы (ID Information Index, Signature Index).
Objectified Image Renderings (изображения с интерактивными метаданными).
Результаты поиска изображений, соответствующие текстовым или визуальным запросам.

На что влияет

Конкретные типы контента: В первую очередь влияет на файлы изображений (фотографии).
Специфические запросы: Влияет на запросы в Google Images, визуальный поиск (Google Lens) и потенциально на продуктовые запросы, где визуальные характеристики имеют значение.
Конкретные ниши или тематики: Наибольшее влияние на E-commerce (из-за распознавания одежды и аксессуаров), путешествия (распознавание текста с названиями мест, достопримечательностей) и социальные сети/фотохостинги (распознавание лиц, кластеризация по событиям).

Когда применяется

Триггеры активации: Алгоритмы распознавания активируются при индексации нового изображения или при выполнении пользователем визуального поиска.
Условия применения: Применяется, когда в изображении обнаруживаются Marker Features (например, структура лица или текст). Точность зависит от качества изображения, освещения и ориентации объекта.

Пошаговый алгоритм

Процесс А: Индексация изображений и извлечение признаков

Получение изображения и метаданных: Система получает изображение и извлекает метаданные (время, местоположение).
Кластеризация по событиям (Предварительная обработка): Изображение группируется с другими изображениями, сделанными в близкое время/место, для определения «события».
Обнаружение объектов (Параллельно):
1. Обнаружение лиц: Применение обученных классификаторов (например, Adaboost) к различным окнам изображения. Валидация с использованием цвета кожи и маркерных признаков (глаза).
2. Обнаружение текста: Применение обученных классификаторов (использующих блочные паттерны, края) для идентификации областей с текстом.
Нормализация объектов: Обнаруженные лица нормализуются по масштабу, позе и освещению. Обнаруженный текст обрабатывается (бинаризация, коррекция перекоса/наклона).
Распознавание и извлечение признаков:
1. Лица: Генерация Face Vector (например, используя PCA/LDA).
2. Одежда: Определение области одежды относительно лица. Генерация Clothing Vector (например, цветовые гистограммы).
3. Текст: Применение OCR для получения текстовых данных.
Контекстный анализ и вывод данных (CADI): Применение Double Binding и Relationship Inference. Объединение информации о лице, одежде, времени и сопутствующих лицах для уточнения идентификации, часто итеративно в рамках кластера событий.
Интерпретация текста: Анализ распознанного текста для определения контекста и релевантности. Определение, является ли текст Spannable.
Распространение тегов (Tag Spanning): Если текст релевантен и Spannable (например, название места), он применяется ко всем изображениям в том же кластере событий.
Индексация: Сохранение Recognition Signatures (Face/Clothing Vectors) в Signature Index и коррелированной информации (имена, распознанный текст) в ID Information Index.

Процесс Б: Обработка визуального поискового запроса

Получение входного изображения: Пользователь предоставляет изображение в качестве запроса.
Анализ запроса: Выполнение шагов 3-6 из Процесса А для входного изображения (Обнаружение, Нормализация, Распознавание объектов, например, одежды).
Генерация критериев поиска: Использование Recognition Signature (например, Clothing Vector) в качестве критерия.
Поиск по индексу: Сравнение сигнатуры запроса с Signature Index. Может использоваться древовидная структура для эффективного поиска в многомерном пространстве.
Вычисление сходства: Определение ближайших совпадений или похожих результатов на основе метрик расстояния (например, L1 или L2 норма).
Извлечение и ранжирование: Извлечение соответствующих изображений и их ранжирование на основе степени сходства и других факторов (например, PicRank, уверенность распознавания).

Какие данные и как использует

Данные на входе

Система использует преимущественно данные, извлеченные непосредственно из пикселей изображения, а также метаданные файла.

Контентные факторы (Визуальные): Пиксельные данные изображения. Сюда входят данные о цвете (RGB, YUV, Hue), интенсивности, градиентах, текстуре и форме.
Технические факторы (Метаданные файла): Данные EXIF, включая время создания изображения (Time Metadata) и, если доступно, информацию о местоположении (GPS или данные базовой станции сотовой связи) (Location Metadata). Имя файла, путь к директории.
Пользовательские факторы (Для корреляции и обучения): Ввод пользователя для корреляции (имена, адресные книги), данные для обучения классификаторов.

Какие метрики используются и как они считаются

Recognition Signature / Vector (Face Vector, Clothing Vector): Многомерные числовые значения. Face Vector генерируется с помощью анализа главных компонент (PCA) или линейного дискриминантного анализа (LDA) на нормализованном лице. Clothing Vector генерируется с помощью цветовых гистограмм или K-Means кластеризации цветов в области одежды.
Метрики расстояния (Distance Metrics): Используются для сравнения векторов (например, при кластеризации или поиске). Упоминаются L1 (Манхэттенское расстояние) и L2 (Евклидово расстояние) нормы, а также Earth-Mover’s distance для сравнения цветов одежды.
Confidence Score (Оценка уверенности): Вероятностное значение, указывающее на точность обнаружения или распознавания объекта (лица, текста). Генерируется классификаторами (например, Adaboost, SVM) и OCR-движками.
Clustering Metrics (Метрики кластеризации): Используются для группировки похожих лиц или изображений. Включают Distance Matrix (матрица расстояний между всеми парами объектов) и within-cluster-distance (внутрикластерное расстояние).
Весовые коэффициенты (Weights): Используются в Double Binding для определения относительной важности различных векторов (например, вес для лица и вес для одежды) при расчете общего расстояния. Веса могут варьироваться в зависимости от разницы во времени между фотографиями.
Алгоритмы машинного обучения: Упоминаются Support Vector Machines (SVM), Neural Networks, Hidden Markov Models (HMM), Adaboost (для обучения классификаторов обнаружения), K-Means (для кластеризации цветов и лиц).

Выводы

Индексация на основе визуального содержания: Патент подтверждает, что Google систематически извлекает и индексирует информацию непосредственно из пикселей изображений, а не полагается только на окружающий текст. Это включает распознавание лиц, текста (OCR) и объектов (одежды).
Визуальный поиск как ключевая функция: Ядро изобретения (Claim 1) сосредоточено на возможности использовать изображение в качестве запроса для поиска похожих изображений, с явным акцентом на распознавание одежды и аксессуаров. Это подчеркивает стратегическую важность оптимизации под визуальный поиск, особенно для e-commerce.
Многофакторное распознавание (Double Binding): Для идентификации людей Google не полагается исключительно на распознавание лиц. Система активно использует контекстуальные сигналы: одежду (Clothing Vector), время и место съемки (Time/Location Vectors). Это повышает точность идентификации в рамках одного «события».
Контекст через OCR и Tag Spanning: Распознавание текста внутри изображений (например, вывесок) используется для понимания контекста и местоположения. Технология Tag Spanning позволяет применить этот контекст ко всем связанным изображениям, даже если текст виден только на одном из них.
Сигнатуры и Индексы: Система разделяет количественные данные (Recognition Signatures/Vectors) и семантические данные (ID/Text). Это позволяет выполнять различные типы поиска: поиск по имени (ID Index) и поиск по сходству/визуальный поиск (Signature Index).
Объектификация изображений: Патент описывает Objectified Image Renderings, где распознанные объекты становятся интерактивными элементами интерфейса. Это указывает на стремление сделать контент внутри изображений доступным для взаимодействия и поиска.

Практика

Best practices (это мы делаем)

Оптимизация изображений для распознавания объектов (E-commerce): Для сайтов, продающих одежду, аксессуары или другие товары, критически важно предоставлять четкие, хорошо освещенные изображения продуктов. Поскольку система использует Clothing Vectors (основанные на цвете и паттернах) для визуального поиска (Claim 1), изображения должны точно передавать визуальные характеристики товара, чтобы соответствовать визуальным запросам пользователей.
Использование контекстуальных изображений (In-situ): Размещение изображений, содержащих распознаваемый текст (например, названия брендов, вывески магазинов, названия мест), может улучшить понимание контекста страницы поисковой системой. Благодаря Tag Spanning, этот контекст может быть применен к другим изображениям на странице или в галерее.
Обеспечение сохранности метаданных (EXIF): Поскольку система использует метаданные времени и местоположения для кластеризации событий и Double Binding, следует избегать удаления EXIF-данных из изображений, особенно для локального SEO и контента, связанного с событиями.
Фокус на визуальном поиске товаров (E-commerce): Поскольку Claims явно защищают поиск одежды/аксессуаров по входному изображению, критически важно иметь высококачественные изображения товаров с разных ракурсов. Это напрямую поддерживает функциональность типа Visual Search (аналог Google Lens), позволяя пользователям находить ваши товары по фотографии.
Создание визуальной консистентности: Для брендов и публичных лиц поддержание определенной визуальной консистентности (например, в прическе или стиле одежды на мероприятиях) может усилить Recognition Signature и улучшить кластеризацию связанных изображений.

Worst practices (это делать не надо)

Использование изображений низкого качества: Изображения с плохим освещением, низким разрешением или сильным сжатием затрудняют обнаружение и нормализацию объектов (лиц, текста, одежды), что снижает вероятность их корректной индексации по визуальным признакам.
Манипуляции с цветом товаров (E-commerce): Сильное изменение цветов продуктов на фотографиях может привести к генерации неточного Clothing Vector. Это ухудшит соответствие при визуальном поиске, когда пользователь ищет товар определенного цвета.
Блокировка или маскировка ключевых объектов: Размещение водяных знаков, логотипов или графических оверлеев непосредственно на ключевых объектах (например, на лице человека или на основном продукте) может помешать генерации точной Recognition Signature.
Использование текста в виде графики без необходимости: Хотя система оснащена OCR, полагаться исключительно на текст внутри изображений для передачи важной информации рискованно. OCR может давать сбои, поэтому критически важный текст всегда должен дублироваться в HTML.

Стратегическое значение

Этот патент подчеркивает переход от анализа окружения изображения к анализу его содержания. Для SEO-стратегии это означает, что оптимизация самих файлов изображений (качество, четкость объектов, метаданные) становится столь же важной, как и оптимизация alt-текстов и заголовков страниц. Патент явно указывает на важность визуального поиска для продуктов (одежда/аксессуары), делая оптимизацию под Google Lens и Image Search обязательным элементом стратегии для e-commerce. Понимание того, как Google видит и интерпретирует объекты на изображениях, позволяет создавать контент, который лучше соответствует намерениям пользователей в визуальном поиске.

Практические примеры

Сценарий: Оптимизация карточки товара для визуального поиска (E-commerce)

Задача: Увеличить трафик на страницу красного платья через визуальный поиск (Google Lens).
Действия на основе патента:
1. Четкое изображение: Загрузить высококачественное изображение платья на модели. Убедиться, что лицо модели четко видно (для обнаружения человека) и что область платья хорошо освещена и не перекрыта.
2. Точная цветопередача: Убедиться, что цвет платья на фото точно соответствует реальному. Это гарантирует, что Clothing Vector (цветовая гистограмма) будет точно отражать красный цвет.
3. Контекстные фото: Добавить фото с мероприятия, где на фоне видна вывеска с названием бренда или места (если применимо). Система может использовать OCR и Tag Spanning для добавления контекста ко всем фото в галерее.
Ожидаемый результат: Система Google генерирует точный Clothing Vector для платья. Когда пользователь использует Google Lens для поиска похожего красного платья, система сравнивает Recognition Signatures (Claim 1) и с большей вероятностью покажет этот товар в результатах благодаря точному совпадению вектора.

Вопросы и ответы

Насколько важен этот патент для E-commerce SEO?

Он критически важен. Claim 1 прямо описывает механизм визуального поиска, основанный на распознавании одежды и аксессуаров (item of clothing or apparel). Система генерирует Recognition Signature (например, Clothing Vector на основе цвета) для товаров на ваших изображениях и использует их для сопоставления с визуальными запросами пользователей (например, через Google Lens). Оптимизация изображений для точного распознавания напрямую влияет на видимость ваших товаров в визуальном поиске.

Что такое «Double Binding» и как это влияет на понимание изображений?

Double Binding — это техника, при которой система объединяет несколько источников информации для повышения точности распознавания. Например, она комбинирует данные распознавания лица (Face Vector), одежды (Clothing Vector), а также время и место съемки. Для SEO это означает, что контекст изображения (когда и где оно было сделано, что еще на нем изображено) активно используется для понимания его содержания, а не только изолированные визуальные признаки.

Как работает распознавание одежды, описанное в патенте?

Система сначала обнаруживает лицо человека. Затем она анализирует область изображения в определенном месте относительно лица (например, область торса). Из этой области извлекаются данные о цвете, часто в виде цветовой гистограммы, формируя Clothing Vector. Этот вектор становится сигнатурой для данного предмета одежды и используется для поиска похожих товаров.

Что такое «Tag Spanning» и как его использовать в SEO?

Tag Spanning — это когда релевантный тег (например, название города, распознанное на вывеске на фото) применяется не только к этому изображению, но и к другим изображениям, сделанным поблизости во времени или месте. Это означает, что одно высококачественное контекстное изображение может помочь в определении релевантности целой группы связанных изображений.

Влияет ли этот патент на обычный веб-поиск или только на поиск по картинкам?

Патент в первую очередь описывает механизмы для поиска и извлечения файлов изображений (Image Search и Visual Search). Однако данные, извлеченные из изображений (например, распознанный текст или идентифицированные объекты), улучшают общее понимание контента страницы, на которой размещено изображение. Это косвенно влияет и на ранжирование в основном веб-поиске, особенно если изображение является основным содержанием страницы.

Стоит ли сохранять EXIF-данные (время, место) в изображениях?

Да, согласно патенту, это рекомендуется. Система активно использует время (Time Vector) и местоположение (Location Vector) для кластеризации изображений по «событиям». Эта информация помогает в распознавании объектов и людей (через Double Binding) и обеспечивает контекст для Tag Spanning. Удаление этих данных может снизить понимание контекста изображения системой.

Что такое «Objectified Image Rendering»?

Это рендеринг изображения, где распознанные объекты (лица, текст, товары) становятся интерактивными элементами. Пользователь может навести курсор на объект, чтобы увидеть информацию о нем, или кликнуть, чтобы инициировать новый поиск по этому объекту. Это показывает, как Google стремится сделать контент внутри изображений доступным для взаимодействия.

Как система обнаруживает текст на изображениях?

Патент описывает использование обученных классификаторов (например, Adaboost), которые ищут в изображении специфические маркеры. Эти маркеры включают признаки краев (edge features) и block patterns (блочные паттерны контраста), которые характерны для букв и цифр. После обнаружения область нормализуется и передается в OCR.

Как система определяет, какой текст на изображении важен?

Система использует компонент «Context and Interpretation Build». Он анализирует семантику текста (используя словари, базы данных мест), а также визуальные характеристики: размер текста, его расположение, контраст и резкость. Например, большая вывеска «Добро пожаловать в Сан-Франциско» будет считаться релевантной для определения местоположения, а мелкий текст на футболке может быть проигнорирован.

Как работает поиск по сходству (Similarity Matching)?

Для входного изображения система вычисляет Recognition Signature (многомерный вектор, включающий данные о лице, цвете кожи/волос, одежде). Затем эта сигнатура сравнивается с базой данных индексированных сигнатур с использованием метрик расстояния (L1/L2 нормы). Система возвращает изображения, чьи сигнатуры наиболее близки к сигнатуре запроса, что позволяет находить похожие объекты или людей (look-alikes).