Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google индексирует контент изображений, распознавая лица, одежду и текст для улучшения поиска по картинкам

    SYSTEM AND METHOD FOR ENABLING THE USE OF CAPTURED IMAGES THROUGH RECOGNITION (Система и метод обеспечения использования захваченных изображений посредством распознавания)
    • US8897505B2
    • Google LLC
    • 2014-11-25
    • 2005-10-07
    2005 Индексация Мультимедиа Патенты Google Семантика и интент

    Анализ патента Google, описывающего фундаментальные технологии распознавания контента внутри изображений. Система обнаруживает и идентифицирует людей (используя комбинацию лиц, одежды, времени и местоположения), текст (OCR) и другие объекты. Эта информация индексируется, позволяя пользователям искать изображения по их визуальному содержанию, используя текст или другое изображение в качестве запроса.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему организации, индексирования и поиска в больших коллекциях цифровых изображений. Традиционные методы полагаются преимущественно на метаданные файла или окружающий текст, что ограничивает возможности поиска. Изобретение направлено на то, чтобы система могла понимать фактическое визуальное содержание (image data) изображений — кто или что находится на снимке, — для обеспечения поиска и категоризации на основе самого контента.

    Что запатентовано

    Запатентована система для автоматического анализа захваченных изображений с целью распознавания информации, содержащейся в визуальных данных. Это включает распознавание людей (используя комбинацию черт лица, одежды, времени и местоположения), текста на объектах (OCR) и других объектов. Система генерирует индекс на основе этой распознанной информации (включая количественные Recognition Signatures и текстовые идентификаторы), что позволяет осуществлять поиск и извлечение изображений, используя в качестве входных данных как текст, так и изображения.

    Как это работает

    Система работает через многоступенчатый процесс анализа изображений:

    • Обнаружение объектов (Object Detection): Изображения сканируются для поиска маркеров, указывающих на присутствие людей (например, лиц), текста или других объектов.
    • Нормализация (Normalization): Обнаруженные объекты нормализуются по размеру, ориентации и освещению.
    • Распознавание объектов (Object Recognition): Для людей система может использовать Double Binding — комбинацию распознавания лиц (Face Vector), одежды (Clothing Vector), а также метаданных времени и местоположения. Для текста применяется OCR.
    • Контекстный анализ и вывод данных (CADI): Система использует контекст (например, кластеризацию изображений по событиям на основе времени/места) и статистику совместного появления (Relationship Inference) для повышения точности распознавания.
    • Индексирование (Indexing): Генерируются индексы: Signature Index (для визуального поиска и сопоставления сходства) и ID Information Index (для текстового поиска по именам/идентифицированным объектам).

    Актуальность для SEO

    Критически высокая. Описанные в патенте технологии лежат в основе современных систем визуального поиска, таких как Google Images и Google Lens. Распознавание объектов, лиц и текста в изображениях является центральным элементом того, как Google интерпретирует мультимедийный контент в 2025 году. Хотя конкретные алгоритмы (например, PCA) могли эволюционировать в более сложные нейросетевые подходы, концептуальный фундамент остается актуальным.

    Важность для SEO

    Патент имеет критическое значение для Image SEO, E-commerce SEO и общей стратегии контента. Он демонстрирует способность Google индексировать визуальное содержание изображений, выходя далеко за рамки анализа ALT-тегов. Понимание этих механизмов необходимо для оптимизации видимости в Google Images, Google Shopping и для обеспечения того, чтобы визуальный контент на веб-странице корректно интерпретировался и способствовал общему пониманию тематики страницы поисковой системой.

    Детальный разбор

    Термины и определения

    CADI (Context Analysis & Data Inference) Module
    Модуль контекстного анализа и вывода данных. Использует распознанную информацию от различных маркеров (лицо, одежда) и контекстуальные данные (время, местоположение, отношения) для выполнения вероятностного вывода и повышения точности идентификации.
    Clothing Vector (Вектор одежды)
    Количественное представление одежды, извлеченное из области изображения, расположенной относительно обнаруженного лица. Может основываться на цветовой гистограмме (color histogram) или алгоритмах K-Means.
    Double Binding (Двойное связывание)
    Техника распознавания, которая комбинирует несколько источников информации (например, лицо + одежда + время + местоположение) для определения идентичности человека.
    Face Vector (Вектор лица)
    Количественное представление черт лица, часто генерируемое с помощью методов анализа главных компонент (PCA) или линейного дискриминантного анализа (LDA) после нормализации изображения.
    Marker Feature (Маркерный признак)
    Признак в изображении, который сигнализирует о присутствии определенного объекта. Например, глаза или нос для обнаружения лица; блочные паттерны (block patterns) для обнаружения текста.
    Objectified Image Rendering (Объектифицированное отображение изображения)
    Отображение изображения, в котором распознанные объекты сделаны интерактивными (например, кликабельными) с помощью метаданных, определяющих их положение и идентичность.
    Recognition Signature (Сигнатура распознавания)
    Количественное выражение (часто многомерный вектор), которое служит относительно уникальным идентификатором распознанного объекта или человека.
    Relationship Inference (Вывод отношений)
    Техника, использующая статистику совместного появления людей на фотографиях для улучшения распознавания лиц. Может использовать Марковские случайные поля (Markov Random Fields — MRF).
    Spannable Text (Распространяемый текст)
    Текст, распознанный в одном изображении (например, название местоположения), который считается релевантным для других изображений в том же кластере событий, и поэтому может быть распространен (spanned) как тег на эти изображения.

    Ключевые утверждения (Анализ Claims)

    Анализ основан на Claims, представленных в патенте US8897505B2.

    Claim 1 (Независимый пункт): Описывает метод анализа двух захваченных изображений для определения идентичности, используя кластеризацию и комбинацию признаков (Double Binding).

    1. Система анализирует первое и второе изображения.
    2. В каждом изображении обнаруживается лицо и связанный с ним предмет одежды.
    3. Определяется, что оба изображения принадлежат к общему кластеру (common cluster) (например, одному событию).
    4. Ключевой шаг: В ответ на определение принадлежности к общему кластеру, система определяет назначение идентичности (identity assignment) для лиц, основываясь как на лицах, так и на предметах одежды.

    Это ядро изобретения защищает использование одежды как фактора идентификации, но только при условии, что изображения принадлежат к одному событию/кластеру, предполагая, что одежда не менялась.

    Claim 8 (Зависимый от 7, который зависит от 1): Уточняет определение события для кластеризации.

    Определение того, что изображения были сняты во время одного и того же события, использует информацию о времени (time information) и местоположении (location information).

    Claim 9 (Зависимый от 1): Детализирует расчеты для определения идентичности.

    1. Вычисляется разница векторов одежды (clothing vector difference).
    2. Вычисляется разница векторов лиц (face vector difference).

    Claim 10 (Зависимый от 9): Определяет, как комбинируются эти разницы.

    Назначение идентичности определяется путем вычисления итогового вектора разницы (final difference vector), который является взвешенной комбинацией (weighted combination) разницы векторов одежды и разницы векторов лиц. Это математическая основа Double Binding.

    Где и как применяется

    Изобретение охватывает ключевые этапы конвейера обработки изображений Google.

    CRAWLING – Сканирование и Сбор данных
    Система использует краулер (CRAWLER 1292) для сбора изображений из сети (Programmatic Source 1294), а также получает их из локальных или сетевых библиотек пользователей.

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента. Image Analysis Module 1220 выполняет глубокий анализ изображений.

    1. Извлечение метаданных: Извлекаются EXIF-данные (время, местоположение).
    2. Анализ и Распознавание:
      • Person Analysis Component 1222: Обнаруживает лица, извлекает признаки (лицо, одежда, волосы) и генерирует Person Signature.
      • Text Analysis Component 1224: Выполняет OCR и определяет релевантность текста (Spannable Text).
      • Object Analysis Component 1226: Распознает другие объекты.
    3. Контекстный анализ (CADI): Модуль CADI использует распознанную информацию и метаданные для кластеризации изображений по событиям и выполнения вероятностного вывода (используя MRF) для уточнения идентификации, применяя техники Double Binding.
    4. Индексирование: ID Information Indexer 1240 создает текстовый индекс (для имен, текста). Signature Indexer 1250 создает количественный индекс (для векторов лиц, одежды).

    RANKING / METASEARCH (Применительно к поиску изображений)
    На этапе поиска (Search Module 1730) система использует сгенерированные индексы.

    • Текстовые запросы: Сопоставляются с Text Index (ID Information Index).
    • Визуальные запросы (Image as Input): Входное изображение анализируется для генерации сигнатуры, которая затем сопоставляется с Signature Index для поиска идентичных или похожих изображений (Similarity Matching).

    Входные данные:

    • Сырые данные изображения (Image Input).
    • Метаданные изображения (время, местоположение).
    • Текстовый ввод для корреляции (имена из адресной книги, пользовательские теги).

    Выходные данные:

    • Индексные данные сигнатур (Signature Index Data).
    • Индексные данные идентификаторов (ID Index Data).
    • Метаданные для объектифицированного отображения (Objectified Image Renderings).

    На что влияет

    • Типы контента: Влияет на все типы изображений, содержащие распознаваемые объекты, лица или текст. Особенно критично для фотографий продуктов (E-commerce), инфографики (OCR), фотографий событий и новостного контента.
    • Специфические запросы: Напрямую влияет на запросы в Google Images и Google Lens. Позволяет отвечать на запросы, основанные на визуальном содержании (поиск по картинке) или сущностях, изображенных на картинке.
    • Конкретные ниши: Сильное влияние в E-commerce (распознавание одежды/товаров), Путешествия (распознавание достопримечательностей и текста на вывесках), Новости и Медиа (идентификация публичных личностей).

    Когда применяется

    • Триггеры активации: Алгоритмы активируются при индексации любого нового изображения или при получении визуального поискового запроса.
    • Условия работы: Специфические модули активируются при обнаружении соответствующих маркеров (например, признаков лица или текста).
    • Double Binding (Лицо + Одежда): Применяется, когда система определяет, что несколько изображений принадлежат к одному и тому же событию или кластеру (основываясь на близости времени и/или местоположения съемки).

    Пошаговый алгоритм

    Процесс А: Общий анализ и индексирование изображения

    1. Сбор и проверка: Получение изображения и проверка его новизны.
    2. Извлечение метаданных: Извлечение времени и местоположения из EXIF.
    3. Обнаружение объектов: Параллельный анализ изображения для поиска лиц и текста с использованием обученных классификаторов (например, Adaboost).
    4. Обработка лиц (если обнаружены):
      • Нормализация лица (масштаб, поза, освещение).
      • Генерация вектора лица (Face Vector) с использованием PCA/LDA.
      • Извлечение вектора одежды (Clothing Vector).
    5. Обработка текста (если обнаружен):
      • Постобработка (бинаризация, выравнивание).
      • Выполнение OCR.
      • Интерпретация текста и определение релевантности/возможности распространения (Spannable).
    6. Контекстный анализ (CADI):
      • Кластеризация по событиям на основе времени/местоположения.
      • Применение Double Binding: комбинирование векторов лица и одежды для идентификации в рамках события.
      • Применение вероятностных моделей (MRF) для вывода отношений.
    7. Корреляция и Индексирование: Сопоставление сигнатур с идентификаторами и обновление Signature Index и ID Information Index.

    Процесс Б: Поиск по изображению (Similarity Matching)

    1. Получение входного изображения: От пользователя.
    2. Анализ и генерация сигнатуры: Распознавание объекта и генерация Recognition Signature.
    3. Поиск в индексе: Сравнение сгенерированной сигнатуры с данными в Signature Index. Используется древовидная структура индекса для быстрого поиска ближайших соседей в многомерном пространстве.
    4. Извлечение и ранжирование результатов: Получение изображений с наиболее похожими сигнатурами и их ранжирование.

    Какие данные и как использует

    Данные на входе

    Система использует широкий спектр визуальных данных и метаданных.

    • Контентные (Визуальные) факторы:
      • Пиксельные данные для анализа цвета (цветовые гистограммы для кожи, волос, одежды).
      • Градиенты и края для обнаружения форм, текста и текстур.
      • Черты лица (глаза, нос, рот) для генерации Face Vector.
      • Локализованные признаки для распознавания объектов.
    • Временные факторы: Метаданные времени создания изображения (Time Metadata). Критично для кластеризации событий и Double Binding.
    • Географические факторы: Метаданные местоположения (Location Metadata). Используется для кластеризации событий.
    • Пользовательские данные (для корреляции и обучения):
      • Адресные книги (для сопоставления имен с лицами).
      • Пользовательские теги и исправления кластеров.
      • Данные из сторонних сайтов (например, социальных сетей) для импорта обучающих изображений.

    Какие метрики используются и как они считаются

    • Recognition Signature / Vectors (Face Vector, Clothing Vector): Многомерные количественные значения. Face Vector рассчитывается с помощью PCA/LDA. Clothing Vector рассчитывается с помощью цветовых гистограмм или K-Means.
    • Similarity Matrix (Матрица сходства): Используется для кластеризации. Записи матрицы представляют расстояние между двумя идентичностями.
    • Distance Metric (Метрика расстояния): Рассчитывается как взвешенная комбинация разницы визуальных сигнатур (лиц и/или одежды) и разницы во времени/местоположении. Для сравнения векторов используются метрики L1 или L2, а также Earth-Mover’s distance для одежды.
    • Взвешивание при Double Binding: Вес Clothing Vector увеличивается, если изображения принадлежат одному событию. Вес может рассчитываться по Гауссу на основе разницы во времени.
    • Confidence Score (Оценка уверенности): Генерируется классификаторами (Adaboost, SVM) и OCR, указывая на вероятность правильности распознавания.
    • MRF Potentials (Потенциалы Марковского случайного поля): Вероятности появления человека и совместного появления людей. Используются в Relationship Inference.

    Выводы

    1. Глубокое понимание содержания изображений: Патент демонстрирует, что Google систематически анализирует пиксельные данные для распознавания и индексации содержимого изображений (людей, текста, объектов). Это выходит далеко за рамки анализа только метаданных изображения.
    2. Многофакторное распознавание (Double Binding): Идентификация не полагается только на один признак. Система активно комбинирует различные сигналы (лицо, одежда, волосы, пол) с контекстными данными (время, местоположение, совместное появление с другими людьми) для повышения точности.
    3. Текст в изображениях индексируется (OCR): Текст, присутствующий на объектах, извлекается, интерпретируется и индексируется. Он также оценивается на релевантность и может быть распространен (Spannable Text) на связанные изображения в рамках одного события.
    4. Визуальный поиск и сопоставление сходства: Система разработана для поддержки как текстового поиска по содержанию изображений (ID Information Index), так и визуального поиска по образцу (Signature Index). Генерация Recognition Signatures позволяет находить идентичные или похожие объекты/лица.
    5. Контекст и отношения имеют значение (CADI): Использование Relationship Inference и кластеризации по событиям подчеркивает важность контекста. Google не просто анализирует изображения изолированно, но и понимает, как они связаны друг с другом.
    6. Инфраструктура для интерактивных изображений: Механизм Objectified Image Renderings позволяет делать распознанные объекты кликабельными, что имеет прямое применение в коммерческом поиске и таких технологиях, как Google Lens.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под визуальный поиск (Visual Search Optimization): Создавайте четкие, высококачественные изображения продуктов, где ключевые объекты хорошо видны и легко распознаваемы. Это критично для генерации точной Recognition Signature и видимости в Google Lens и Google Images.
    • Использование текста в изображениях стратегически: Поскольку система применяет OCR, текст в инфографике или на изображениях товаров должен быть четким, читаемым и содержать релевантные ключевые слова. Убедитесь, что текст контрастен и достаточно крупный.
    • Сохранение метаданных EXIF: Не удаляйте метаданные времени и местоположения (если это уместно) при оптимизации изображений. Эта информация используется модулем CADI для кластеризации изображений по событиям и улучшения контекстного понимания.
    • Создание контекста для изображений: Помогайте Google понять контекст, группируя связанные изображения (например, в обзоре продукта или отчете о мероприятии). Если на одном фото есть четкий текст (например, название мероприятия), Spannable Text может помочь тегировать всю группу.
    • Оптимизация изображений авторов и экспертов: Учитывая возможности распознавания лиц, использование консистентных и четких фотографий авторов или ключевых сотрудников может помочь связать их с контентом и потенциально усилить сигналы E-E-A-T, если Google идентифицирует их как сущности.

    Worst practices (это делать не надо)

    • Игнорирование качества изображений: Размытые, плохо освещенные или зашумленные изображения снижают эффективность распознавания объектов и лиц, что ухудшает видимость в поиске по картинкам.
    • Скрытие ключевой информации в изображениях: Не полагайтесь на то, что текст, встроенный в изображение, будет гарантированно прочитан. Если информация критична для понимания страницы, она должна присутствовать и в HTML-тексте.
    • Манипуляции с визуальным контентом: Попытки «нафаршировать» изображение нерелевантными объектами или спамным текстом, скорее всего, будут неэффективны, так как система оценивает релевантность и контекст.
    • Использование стоковых фото без добавленной ценности: Система генерирует визуальные сигнатуры для идентификации изображений. Использование неуникальных изображений, которые уже имеют известные сигнатуры в индексе, не дает конкурентного преимущества.

    Стратегическое значение

    Этот патент подтверждает стратегическую важность визуального контента в экосистеме поиска. Для SEO это означает, что оптимизация изображений — это не просто техническая задача, а полноценное направление контент-стратегии. Google инвестирует значительные ресурсы в понимание мира через визуальные данные. Долгосрочная стратегия должна включать создание уникального, высококачественного визуального контента, который помогает Google точно идентифицировать объекты, сущности и контекст, связанный с вашим бизнесом. Это особенно критично в связи с ростом популярности визуального поиска.

    Практические примеры

    Сценарий 1: Оптимизация карточки товара E-commerce (Одежда)

    1. Действие: Создать уникальные фотографии товара на модели в реальном контексте использования, убедившись, что и продукт, и его детали хорошо видны.
    2. Обоснование (по патенту): Система использует Clothing/Apparel component для распознавания одежды. Четкие изображения позволяют системе точно извлечь Clothing Vector и Recognition Signature товара.
    3. Ожидаемый результат: Повышение видимости товара в Google Images и Google Shopping, а также улучшение шансов на показ при визуальном поиске (Google Lens), когда пользователи ищут похожие товары.

    Сценарий 2: Использование инфографики для SEO

    1. Действие: Создать инфографику, обобщающую ключевые данные исследования. Убедиться, что текст четкий, контрастный и не перекрывает важные визуальные элементы.
    2. Обоснование (по патенту): Text Analysis Component использует OCR для извлечения текста. Система выполняет Text Processing (коррекция перекоса, бинаризация) для улучшения читаемости и индексирует распознанный текст.
    3. Ожидаемый результат: Текст из инфографики индексируется, что способствует ранжированию как самой инфографики в поиске по картинкам, так и страницы, на которой она размещена, по релевантным запросам.

    Вопросы и ответы

    Означает ли этот патент, что ALT-теги больше не важны для Image SEO?

    Нет, ALT-теги остаются важным сигналом доступности и базовым методом для сообщения поисковой системе о содержании изображения. Однако этот патент показывает, что Google обладает гораздо более сложными инструментами (распознавание объектов, лиц, OCR) для верификации и понимания визуального контента. Полагаться только на ALT-теги недостаточно; визуальное содержание изображения должно соответствовать текстовым описаниям.

    Как Google читает текст внутри изображений согласно патенту?

    Система использует многоступенчатый процесс. Сначала Text Detector находит области с текстом, используя обученные классификаторы (например, Adaboost). Затем область нормализуется (коррекция перекоса, бинаризация) и передается в модуль OCR. Наконец, Context and Interpretation Build использует словари и языковые модели (n-grams) для интерпретации и оценки релевантности распознанного текста.

    Что такое «Double Binding» и как это влияет на распознавание?

    Double Binding — это техника, которая комбинирует несколько источников информации для повышения точности распознавания. В патенте это чаще всего комбинация Face Vector и Clothing Vector. Система использует оба фактора, особенно когда определяет, что изображения были сделаны в рамках одного события (близкое время/местоположение), исходя из предположения, что человек не менял одежду.

    Как SEO-специалист может использовать концепцию «Spannable Text»?

    Spannable Text — это релевантный текст (например, вывеска «Эйфелева башня»), распознанный в одном изображении, который система распространяет как тег на другие изображения в том же кластере событий. Для SEO это означает, что при создании контента о путешествии или событии полезно включить хотя бы одно изображение с четким текстовым указателем местоположения или названия события, чтобы помочь Google контекстуализировать весь набор фотографий.

    Что такое «Objectified Image Rendering» и какова его ценность для E-commerce?

    Это отображение изображения, где распознанные объекты становятся интерактивными (кликабельными). Для E-commerce это имеет огромную ценность: пользователь может кликнуть на распознанный товар (например, сумку или кроссовки) прямо на фотографии в блоге или в результатах поиска. Этот клик может инициировать новый поиск этого товара или перенаправить пользователя на страницу покупки.

    Влияет ли распознавание объектов в изображениях на ранжирование веб-страницы в основном поиске?

    Прямого влияния патент не описывает, но оно подразумевается. Если Google может распознать объекты, текст и людей в изображениях на странице, это значительно улучшает его понимание общего контекста и релевантности страницы. Например, если статья посвящена ремонту конкретной модели камеры, распознавание этой модели на фотографиях подтверждает релевантность контента.

    Что такое «Recognition Signature» и как она используется?

    Recognition Signature — это количественное, часто векторное представление распознанного объекта или лица. Она используется для сравнения объектов между собой. Система индексирует эти сигнатуры (Signature Index), что позволяет выполнять визуальный поиск: пользователь загружает изображение, система генерирует его сигнатуру и ищет совпадения или похожие сигнатуры в индексе.

    Как система определяет, что несколько изображений относятся к одному событию?

    Система использует кластеризацию (Event Clustering). Основными факторами являются близость времени съемки (Time Metadata) и близость местоположения съемки (Location Metadata), если оно доступно. Изображения, сделанные близко друг к другу во времени и пространстве, объединяются в одно событие.

    Использует ли Google распознавание лиц для определения авторов контента (E-E-A-T)?

    Патент описывает техническую возможность распознавания лиц и сопоставления их с идентичностями. Хотя в патенте прямо не упоминается E-E-A-T, логично предположить, что способность идентифицировать публичные личности, экспертов или авторов в изображениях, связанных с контентом, может использоваться как часть оценки авторитетности и экспертизы.

    Насколько важна уникальность изображений в контексте этого патента?

    Уникальность очень важна. Система генерирует визуальные сигнатуры для идентификации изображений и включает компонент для проверки новизны. Использование стоковых фотографий, которые уже имеют известные сигнатуры в индексе, не дает конкурентного преимущества. Уникальные изображения с четко распознаваемыми релевантными объектами имеют больший потенциал для ранжирования.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.