Анализ патента, описывающего комплексный подход к пониманию изображений. Система обнаруживает и распознает лица, одежду, текст на объектах (OCR) и другие объекты. Для повышения точности используются комбинации признаков (лицо + одежда) и метаданные (время, местоположение). Распознанная информация индексируется для поиска по тексту или по изображению-примеру.
Описание
Какую задачу решает
Патент решает задачу programmatic (программного) понимания содержания цифровых изображений. Он устраняет зависимость индексации изображений исключительно от внешних текстовых данных (например, окружающего текста или ALT-тегов), позволяя системе организовывать, индексировать и искать большие коллекции изображений на основе их фактического визуального содержания: людей, объектов и текста, присутствующего на самих изображениях.
Что запатентовано
Запатентована система анализа изображений для обнаружения и распознавания объектов, в частности людей и текста (OCR в естественной среде). Система использует различные методы компьютерного зрения (распознавание лиц, анализ одежды, OCR) и комбинирует их с контекстной информацией (время, местоположение, совместное появление объектов) для генерации Recognition Signatures (сигнатур распознавания). Эти данные затем используются для индексации и обеспечения функциональности поиска.
Как это работает
Система работает в несколько этапов:
- Обнаружение объектов: Изображение сканируется для поиска лиц и областей с текстом.
- Нормализация: Обнаруженные области нормализуются (коррекция освещения, масштаба, ориентации для лиц; бинаризация и коррекция искажений/наклона для текста).
- Извлечение признаков: Генерируются Recognition Signatures. Для лиц используются методы вроде PCA/LDA, для текста — OCR.
- Double Binding (Двойное связывание): Для повышения точности распознавания людей комбинируются различные источники информации: Face Vector (вектор лица), Clothing Vector (вектор одежды), Time Vector и Location Vector.
- Контекстный анализ (CADI): Используются статистические данные о появлении и совместном появлении людей (Relationship Inference) для уточнения идентификации.
- Интерпретация текста и Spanning (Распространение): Распознанный текст интерпретируется для определения его значимости. Релевантный текст (например, название местоположения) может быть распространен (Spannable Text) на другие связанные изображения (например, сделанные в то же время).
- Индексация: Создаются индексы (Signature Index и ID Information Index) для обеспечения поиска.
Актуальность для SEO
Высокая. Хотя патент подан в 2005 году (компанией Like.com, приобретенной Google в 2010), описанные в нем методы являются фундаментальными для современных систем компьютерного зрения. Технологии группировки лиц и кластеризации событий лежат в основе Google Photos, а распознавание объектов и OCR в естественной среде — ключевые компоненты Google Lens и Визуального Поиска. Изобретатели (например, Vincent Vanhoucke) являются ведущими специалистами Google в области машинного обучения и компьютерного зрения.
Важность для SEO
Патент имеет значительное влияние на Image SEO и стратегию визуального поиска (Visual Search). Он детально описывает, как Google извлекает индексируемые сигналы (текст, сущности, людей) непосредственно из пиксельных данных, минуя традиционные текстовые атрибуты. Понимание этих механизмов критически важно для оптимизации визуальных активов, особенно в части обеспечения читаемости текста внутри изображений (OCR) и четкой идентификации продуктов или сущностей.
Детальный разбор
Термины и определения
- CADI (Context Analysis & Data Inference / Контекстный анализ и вывод данных)
- Модуль, который использует распознанную информацию от различных маркеров (лицо, одежда, волосы) и комбинирует ее с контекстом (время, местоположение, отношения между людьми) для повышения точности идентификации.
- Double Binding (Двойное связывание)
- Техника комбинирования нескольких источников информации (например, Face Vector и Clothing Vector) для улучшения распознавания личности.
- Marker Feature (Маркерный признак)
- Визуальный признак, который сигнализирует о присутствии определенного объекта. Для людей это могут быть черты лица (глаза, нос), цвет кожи или одежда.
- Objectified Image Rendering (Объектифицированное представление изображения)
- Отображение изображения, где распознанные объекты (лица, текст) сделаны интерактивными (например, кликабельными или активируемыми при наведении курсора) с помощью метаданных.
- Recognition Signature (Сигнатура распознавания)
- Количественное выражение (часто многомерный вектор), которое служит относительно уникальным идентификатором распознанного объекта или человека (например, результат PCA/LDA анализа лица).
- Relationship Inference (Вывод об отношениях)
- Техника, использующая статистику совместного появления людей на фотографиях (например, друзья часто фотографируются вместе) для улучшения распознавания лиц.
- Spannable Text (Распространяемый текст)
- Текст, распознанный на одном изображении, который признан релевантным для набора связанных изображений (например, название местоположения) и может быть применен (распространен) как тег ко всему набору.
- Text Stretching (Растягивание текста)
- Пост-обработка при распознавании текста, когда после обнаружения части слова система ищет остальную часть слова вдоль линии, определенной уже обнаруженным текстом.
Ключевые утверждения (Анализ Claims)
Патент очень широкий и охватывает распознавание людей, текста и создание интерактивных изображений. Однако ключевые независимые пункты (Claims 1, 11, 21) фокусируются на аспекте распознавания текста, особенно на обработке искаженного текста.
Claim 1 (Независимый пункт): Описывает метод анализа коллекции изображений.
- Анализ изображений и поддержание структуры данных (индекса), связывающей изображения с аналитической информацией.
- Идентификация объекта, несущего текст.
- Определение того, что идентифицированный текст является (i) искаженным (in skew) на объекте или (ii) частичным (omit one or more letters).
- Обеспечение возможности поиска по структуре данных с использованием слова из идентифицированного текста в качестве критерия поиска.
Ядром изобретения здесь является способность системы распознавать текст, даже если он визуально искажен (наклонен, повернут) или неполон, и использовать этот распознанный текст для индексации и поиска изображений.
Claim 11 (Независимый пункт): Описывает систему для распознавания изображений.
- Наличие структуры данных (индекса).
- Модуль анализа изображений (Image analysis module), сконфигурированный для генерации аналитической информации и обнаружения текста, который появляется искаженным (in skew) на объекте.
- Модуль определяет слово, соответствующее искаженному тексту, и обеспечивает поиск по этому слову.
Это системная реализация метода из Claim 1, защищающая архитектуру, способную корректировать ориентацию текста перед распознаванием (OCR) для улучшения индексации.
Claim 21 (Независимый пункт): Метод организации коллекции изображений.
- Анализ изображений, включая идентификацию объекта, несущего искаженный текст (in skew).
- Поддержание структуры данных.
- Определение слова, соответствующего искаженному тексту.
- Определение того, что слово релевантно для структуры данных.
- Обеспечение поиска по этому слову.
Этот пункт добавляет важный шаг: система должна не просто распознать искаженный текст, но и определить его релевантность (relevant to the data structure) перед тем, как использовать его для поиска. Это фильтр качества распознавания.
Где и как применяется
Изобретение применяется преимущественно на этапе индексирования для глубокого анализа визуального контента.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Image Analysis Module обрабатывает входящие изображения.
- Person Analysis Component: Обнаруживает лица, извлекает признаки (лицо, одежда, волосы, пол) и использует CADI модуль для контекстного анализа (время, местоположение, отношения) для генерации финальных Recognition Signatures.
- Text Analysis Component: Обнаруживает текст на изображениях, нормализует его (коррекция искажений, Text Stretching), выполняет OCR и определяет контекст/релевантность текста. Также определяет Spannable Text.
- Object Analysis Component: Распознает другие объекты (например, достопримечательности).
Результаты передаются в ID Information Indexer (текстовые идентификаторы, имена, распознанный текст) и Signature Indexer (количественные векторы/сигнатуры).
RANKING – Ранжирование
Данные из индексов (ID Information Index и Signature Index) используются на этапе ранжирования для сопоставления запросов (текстовых или визуальных) с контентом изображений.
Входные данные:
- Пиксельные данные изображения (Image Input).
- Метаданные изображения (EXIF: время, местоположение/GPS).
- Данные для корреляции (например, адресная книга пользователя для идентификации людей).
Выходные данные:
- Recognition Signatures (векторы для лиц, объектов).
- Распознанный текст (строки).
- Корреляционная информация (теги, имена людей).
- Данные для индексов.
- Метаданные для создания Objectified Image Renderings.
На что влияет
- Типы контента: Влияет на все типы изображений. Особенно сильно влияет на пользовательский контент (Google Photos), e-commerce (изображения продуктов, текст на упаковке), локальный поиск (текст на вывесках, достопримечательности) и информационный контент (инфографика).
- Специфические запросы: Улучшает ранжирование по запросам, где ответ содержится внутри изображения (например, текст в инфографике), запросы о людях, и запросы типа «поиск по картинке» (Visual Search).
Когда применяется
- Временные рамки: Алгоритмы распознавания применяются на этапе индексирования при поступлении нового изображения или при обновлении индекса.
- Кластеризация и CADI: Процессы контекстного анализа и вывода (CADI) могут активироваться при поступлении группы связанных изображений (например, загрузка фотографий с одного события), так как они полагаются на анализ времени, местоположения и совместного появления объектов.
- Text Spanning: Применяется, когда система обнаруживает релевантный Spannable Text на одном изображении и идентифицирует набор связанных изображений (по времени/местоположению).
Пошаговый алгоритм
Процесс А: Общий анализ изображения
- Получение изображения и метаданных: Система получает изображение и извлекает метаданные (время, местоположение).
- Кластеризация событий: Изображение группируется с другими связанными изображениями на основе близости времени и местоположения.
- Обнаружение объектов: Параллельное сканирование изображения для поиска потенциальных лиц (используя маркеры, цвет кожи) и текстовых областей (используя блочные паттерны/фильтры признаков).
- Нормализация:
- Для лиц: Коррекция масштаба, позы и освещения.
- Для текста: Бинаризация, коррекция наклона/искажений (skew correction), Text Stretching.
- Извлечение признаков и Распознавание:
- Для людей: Генерация Face Vector (PCA/LDA), Clothing Vector (цветовые гистограммы), информации о волосах и поле.
- Для текста: Выполнение OCR для получения текстовых строк и оценок уверенности.
- Контекстный анализ и Вывод (CADI):
- Применение Double Binding: Уточнение идентификации личности путем взвешенного комбинирования векторов лица и одежды (особенно внутри одного события).
- Применение Relationship Inference: Использование статистики совместного появления людей для корректировки вероятностей идентификации.
- Корреляция и Интерпретация:
- Для людей: Сопоставление сигнатур с известными личностями (например, из адресной книги).
- Для текста: Интерпретация OCR-результата (с помощью словарей, n-грамм), определение релевантности и возможности распространения (Spannable Text). Если текст распространяемый, он применяется к связанным изображениям (Шаг 2).
- Индексация и Хранение: Сохранение Recognition Signatures в Signature Index и текстовых идентификаторов/OCR-текста в ID Information Index. Сохранение метаданных для Objectified Image Renderings.
Какие данные и как использует
Данные на входе
- Контентные (Визуальные) факторы:
- Пиксельные данные изображения.
- Цветовые гистограммы (используются для определения цвета кожи, волос, одежды).
- Градиенты, края и текстуры (используются для обнаружения текста и объектов).
- Пространственные отношения между признаками (например, положение глаз относительно носа).
- Технические факторы (Метаданные):
- EXIF данные: Время создания изображения (Time Vector).
- EXIF данные: Информация о местоположении (GPS или данные базовой станции сотовой связи) (Location Vector).
- Внешние данные:
- Обучающие наборы данных (для тренировки классификаторов лиц, текста, объектов).
- Словари и языковые модели (для интерпретации OCR).
- Адресные книги или базы данных контактов (для корреляции лиц с именами).
Какие метрики используются и как они считаются
- Recognition Signature / Face Vector: Многомерный вектор, полученный с помощью анализа главных компонент (PCA) или линейного дискриминантного анализа (LDA) нормализованного изображения лица.
- Clothing Vector (ci): Вектор, представляющий одежду. Рассчитывается как цветовая гистограмма области под лицом или с помощью K-Means для определения основных цветов.
- Confidence Scores (Оценки уверенности): Вероятностные значения, возвращаемые классификаторами (например, Adaboost, SVM) и OCR-движком, указывающие на точность обнаружения или распознавания.
- Distance Metrics (Метрики расстояния): Используются для сравнения сигнатур/векторов (например, при поиске похожих лиц или сравнении одежды). Упоминаются нормы L1 (сумма абсолютных разностей) и L2 (евклидово расстояние).
- Вероятностные потенциалы (Potentials): Используются в Марковских случайных полях (MRF) для моделирования вероятности появления человека (singleton potentials) и вероятности совместного появления двух людей (pair-wised potentials).
Выводы
- Изображения как источник данных: Патент подтверждает, что Google рассматривает изображения не как монолитный блок, а как набор отдельных объектов (люди, текст, предметы), каждый из которых может быть независимо распознан и проиндексирован.
- Критичность OCR в естественной среде (OCR in the wild): Система активно ищет текст на изображениях. Она способна нормализовать искаженный (skewed), наклонный или частичный текст (Text Stretching) для распознавания и индексации. Это критически важно для SEO инфографик и изображений продуктов.
- Контекст улучшает распознавание (Double Binding и CADI): Google не полагается только на один признак. Для идентификации людей используется комбинация лица, одежды, времени, местоположения и даже того, кто еще находится на фото (Relationship Inference). Качество распознавания зависит от контекста.
- Text Spanning (Распространение тегов): Ключевой механизм, позволяющий информации, извлеченной из одного изображения (например, название локации на вывеске), быть примененной к другим связанным изображениям, сделанным в то же время/месте. Это расширяет охват тегов за пределы того, что видно на конкретном фото.
- Раздельная индексация для разных типов поиска: Система поддерживает Signature Index (для поиска по визуальному сходству) и ID Information Index (для поиска по тексту/именам).
- Интерактивность изображений (Objectified Images): Распознавание позволяет делать объекты на изображениях интерактивными, что является основой для технологий типа Google Lens и интерактивной визуальной рекламы.
Практика
Best practices (это мы делаем)
- Оптимизация текста внутри изображений для OCR: Убедитесь, что важный текст на изображениях (инфографика, слайды, этикетки продуктов, логотипы) легко читается системами OCR. Используйте стандартные шрифты, высокий контраст и преимущественно горизонтальное расположение. Это позволяет Google индексировать этот текст.
- Четкая визуальная идентификация сущностей: Изображения должны четко представлять ключевые сущности (продукты, людей, локации). Поскольку система использует различные маркеры (включая одежду и волосы), важно обеспечивать высокое качество и четкость изображений для корректного извлечения Recognition Signatures.
- Использование EXIF данных: Если это релевантно (например, для локального бизнеса, мероприятий, путешествий), сохраняйте точные метаданные времени и местоположения (GPS) в EXIF. Это помогает системе кластеризовать изображения по событиям и применять механизмы CADI и Text Spanning.
- Комплексное визуальное освещение событий/локаций: Создавайте наборы изображений, которые полностью покрывают событие или место. Включите изображения, содержащие явные текстовые указатели (вывески, баннеры). Благодаря Text Spanning, эти указатели могут быть ассоциированы со всеми изображениями набора.
Worst practices (это делать не надо)
- Использование чрезмерно стилизованных или неясных шрифтов: Размещение критически важной информации на изображении с использованием шрифтов, которые трудно прочитать OCR, или размещение текста под сильным углом/с искажениями, снижает вероятность его индексации (хотя система и пытается корректировать искажения).
- Удаление метаданных (Stripping EXIF): Автоматическое удаление всех EXIF данных при оптимизации изображений может навредить, так как удаляет контекстные сигналы (время, местоположение), которые система использует для кластеризации и улучшения распознавания.
- Игнорирование визуального контента при наличии ALT-тегов: Нельзя полагаться только на ALT-теги, если само изображение низкого качества или не соответствует тегу. Система анализирует пиксели напрямую.
Стратегическое значение
Патент подтверждает стратегический сдвиг в сторону визуального поиска (Visual Search) и глубокого понимания контента на основе машинного зрения. SEO-стратегия должна включать оптимизацию под алгоритмы компьютерного зрения. Сущности, распознаваемые на изображениях, становятся полноценными сигналами для индексации и ранжирования, что подчеркивает важность E-E-A-T и entity-based SEO во всех форматах контента, включая визуальный. Этот патент закладывает основу для систем типа Google Lens.
Практические примеры
Сценарий 1: Оптимизация инфографики (OCR и коррекция искажений)
- Действие: SEO-специалист разрабатывает инфографику о «Тенденциях SEO 2025». Он следит за тем, чтобы ключевые термины и заголовки были выполнены контрастным цветом и стандартным шрифтом, даже если общий дизайн имеет небольшой наклон.
- Работа системы: Система обнаруживает текст. Даже если текст немного наклонен (in skew), она применяет нормализацию (коррекцию наклона) и выполняет OCR.
- Результат: Текст «Тенденции SEO 2025» успешно индексируется. Инфографика получает возможность ранжироваться в Google Images по этому запросу на основе ее содержания.
Сценарий 2: Освещение локального мероприятия (Text Spanning)
- Действие: Фотограф освещает открытие нового ресторана «Bella Roma» и загружает 50 фотографий, сделанных в течение вечера. Только на 5 фотографиях четко видна вывеска ресторана. EXIF данные сохранены.
- Работа системы: Система кластеризует все 50 фото как одно событие на основе времени и местоположения. Она распознает текст «Bella Roma» на 5 фотографиях и определяет его как релевантный и распространяемый (Spannable Text).
- Результат: Система применяет тег «Bella Roma» ко всем 50 фотографиям в наборе, а не только к тем 5, где видна вывеска. Все фотографии получают релевантность к запросам о ресторане.
Вопросы и ответы
Насколько хорошо система распознает текст на изображениях, согласно патенту?
Система описывает сложный процесс, выходящий за рамки базового OCR. Она включает специализированные методы обнаружения текста с использованием машинного обучения (Adaboost) и постобработку для коррекции наклона (skew correction) и восстановления неполных слов (text stretching). Это указывает на высокую способность обрабатывать текст в «естественной среде» (например, вывески, этикетки), а не только сканированные документы.
Что такое «Tag Spanning» и как это влияет на SEO изображений?
Tag Spanning (Распространение текста) — это механизм, при котором релевантный текст (например, название локации), распознанный на одном изображении, применяется как тег к другим связанным изображениям (сделанным в то же время/месте), даже если этот текст на них не виден. Для SEO это означает, что одно ключевое изображение (например, фото вывески) может обеспечить релевантность целой серии фотографий (например, интерьера), даже если на них самих нет текста.
Использует ли Google метаданные EXIF и как именно?
Да, метаданные времени (Time Metadata) и местоположения (Location Metadata) критически важны. Они используются для кластеризации изображений по событиям, что является необходимым условием для работы механизмов Tag Spanning и контекстного анализа (CADI). Сохранение корректных EXIF-данных важно для правильной интерпретации контента.
Что такое «Objectified Image Rendering» и какова его цель?
Это представление изображения, где распознанные объекты (лица, текст, предметы) становятся интерактивными элементами интерфейса. Пользователь может кликнуть на объект, чтобы увидеть информацию о нем или инициировать новый поиск на его основе. Это прямой предшественник функциональности, наблюдаемой сегодня в Google Lens и интерактивных товарных объявлениях.
Насколько важна одежда или контекст для распознавания людей?
Патент подчеркивает важность этих факторов через техники Double Binding и CADI. Система использует Clothing Vectors (цвет, текстура) в сочетании с Face Vectors, особенно для различения людей в рамках одного события, предполагая, что люди не меняют одежду. Контекст (кто еще на фото) также используется для уточнения идентификации.
Как система определяет, является ли текст на изображении важным?
Система использует модуль Context and Interpretation Build для определения релевантности. Учитываются семантика текста (сверка с базами данных локаций, словарями), а также визуальные характеристики: размер текста, его расположение, контраст и резкость. Нерелевантный текст (например, мелкий знак «парковка запрещена» на фоне) может быть проигнорирован или иметь низкий вес.
Что такое Recognition Signature и как он используется в поиске?
Recognition Signature – это количественное, часто многомерное векторное представление распознанного объекта или лица, созданное с помощью методов типа PCA. Он хранится в Signature Index и используется для поиска по образцу (Image-to-Image search) и поиска похожих объектов (Similarity Matching) путем сравнения векторов.
Может ли система распознавать объекты, кроме лиц и текста?
Да, патент упоминает Object Analysis Component, предназначенный для распознавания других объектов, таких как достопримечательности, животные или транспортные средства. Для этого используется подход, основанный на моделировании объектов как совокупности локализованных признаков (constellations of localized features), полученных из обучающих наборов.
Как система обеспечивает скорость поиска по большим базам изображений?
Для быстрого сравнения Recognition Signatures в высокоразмерном пространстве система использует древовидные структуры индексации (например, с использованием алгоритма K-Means на каждом узле). Это значительно сокращает количество необходимых операций сравнения для поиска совпадений или похожих изображений.
Какое значение этот патент имеет для E-commerce SEO?
Значение велико. Система может распознавать продукты по их внешнему виду (Object Analysis), читать текст на упаковках (Text Analysis) и индексировать их соответствующим образом. Это позволяет пользователям находить товары через визуальный поиск или кликая по распознанным объектам на Objectified Images, что критично для товарной выдачи.