Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует распознавание объектов, метаданные и семантическое расширение для глубокого понимания и организации изображений

    ORGANIZING IMAGES ASSOCIATED WITH A USER (Организация изображений, связанных с пользователем)
    • US11138476B2
    • Google LLC
    • 2021-10-05
    • 2015-12-28
    2015 Мультимедиа Патенты Google

    Google применяет многоуровневую систему аннотирования изображений. Она объединяет метаданные (EXIF), первичное распознавание объектов и контекста (Primary Annotation), а также семантическое расширение меток (Label Expansion). Это позволяет системе понимать сложные запросы на естественном языке, идентифицировать сущности и создавать структурированный индекс для точного поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему эффективного поиска и организации больших личных коллекций фотографий, которые часто не имеют текстовых описаний. Он устраняет разрыв между тем, как пользователи ищут контент (используя естественный язык и сложные концепции, например, относительное местоположение), и тем, как система его индексирует. Цель — повысить точность поиска медиаконтента, несмотря на высокую вариативность запросов, и снизить вычислительные затраты.

    Что запатентовано

    Запатентована система глубокого анализа, аннотирования и индексации изображений. Ключевой особенностью является многоуровневый подход к маркировке: использование метаданных, генерация Primary Annotations (на основе распознавания объектов ИЛИ выводов из метаданных) и создание Secondary Annotations (через Label Expansion). Система строит индекс с оценками уверенности (Confidence Scores) и активно переводит естественные запросы в структурированные категории (Categorized Search Terms).

    Как это работает

    Система работает в несколько этапов:

    • Извлечение данных: Извлекаются метаданные (EXIF, время, GPS, высота).
    • Primary Annotations: Image Processing Module распознает объекты, текст (OCR) и характеристики. Также делаются выводы (Inference) из метаданных (например, координаты конвертируются в название места; большая высота — в метку «в самолете»).
    • Secondary Annotations (Label Expansion): Метки расширяются на основе иерархий («бульдог» -> «собака»), семантической близости («кофейня» -> «кафе») и визуального сходства.
    • Индексация: Создается индекс (mapping), связывающий метки с изображениями через Confidence Scores.
    • Поиск: Search Module переводит сложный запрос пользователя (например, «фото из кафе напротив Эйфелевой башни») в Categorized Search Terms (точные координаты и время), используя внешние данные (например, Knowledge Graph), и ранжирует результаты по Confidence Scores.

    Актуальность для SEO

    Высокая. Описанные технологии — Computer Vision, Entity Recognition, NLP, Knowledge Graph — являются фундаментом современных продуктов Google (Photos, Lens, Image Search). Механизмы семантического расширения и интерпретации контекста критически важны для развития мультимодального поиска.

    Важность для SEO

    Влияние на SEO среднее (6/10). Патент напрямую фокусируется на организации личных фотоколлекций (как в Google Photos), а не на ранжировании в публичном веб-поиске. Однако он предоставляет глубокое понимание того, как именно Google анализирует изображения, распознает сущности, интерпретирует контекст и метаданные. Эти базовые технологии лежат в основе Google Image Search и подтверждают стратегическую важность Entity-based SEO и оптимизации визуального контента.

    Детальный разбор

    Термины и определения

    Categorized Search Terms (Категоризированные поисковые термины)
    Структурированные данные, в которые система переводит запрос пользователя на естественном языке. Категории включают: дата, время, координаты широты и долготы, высота (altitude) и направление.
    Confidence Scores (Оценки уверенности)
    Числовые значения, указывающие на степень уверенности системы в том, что метка применима к изображению. Используются для ранжирования.
    Entity Boundary (Граница сущности)
    Определяемая системой граница объекта на изображении (также упоминается как Boundary). Позволяет взаимодействовать с объектом для получения информации (функциональность типа Google Lens).
    Inference (Логический вывод)
    Процесс генерации семантических меток (Primary Annotations) на основе интерпретации метаданных (например, вывод «в самолете» из данных о высоте; вывод названия места из координат).
    Label Expansion (Расширение меток)
    Процесс генерации Secondary Annotations. Включает иерархическое, семантическое и визуальное расширение меток.
    Primary Annotation (Первичная аннотация)
    Метка, сгенерированная путем (1) прямого распознавания изображения (объекты, текст, характеристики) ИЛИ (2) путем преобразования метаданных на основе Inference.
    Secondary Annotation (Вторичная аннотация)
    Дополнительная метка, сгенерированная с помощью Label Expansion.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс обработки сложного поискового запроса.

    1. Система индексирует изображения с метками и Confidence Scores.
    2. Получается сложный запрос от пользователя, включающий название места интереса И его близость к ориентиру (proximity… to a landmark).
    3. Ключевой шаг: Перевод (Translating) запроса в Categorized Search Terms. Это структурированные данные: точные координаты (вычисленные на основе близости к ориентиру), дата, время, высота или направление.
    4. Поиск соответствий и ранжирование по Confidence Scores.

    Ядро этого пункта — способность переводить сложные запросы на естественном языке, описывающие относительное местоположение, в точные структурированные данные для поиска.

    Claim 2 (Зависимый от 1): Детализирует генерацию Primary Annotation. Подчеркивает два метода:

    1. Распознавание изображений (Image Recognition) для определения сущности или характеристики.
    2. Преобразование метаданных на основе логического вывода (Inference).

    Claim 3 и 4 (Зависимые от 1): Детализируют Label Expansion для Secondary Annotation, основанный на иерархической таксономии, семантическом или визуальном сходстве.

    Claim 16 (Независимый пункт): Описывает взаимодействие с объектами на изображении.

    1. Определение меток и Boundary (границы сущности).
    2. Извлечение дополнительной информации о сущности в ответ на выбор пользователем области внутри границы.
    3. (Далее следует процесс поиска, аналогичный Claim 1).

    Этот пункт описывает функциональность, схожую с Google Lens.

    Где и как применяется

    Изобретение затрагивает ключевые этапы обработки и поиска медиаконтента.

    INDEXING – Индексирование и извлечение признаков
    Основной этап. Происходит анализ контента: извлечение метаданных, распознавание изображений (CV, OCR), генерация Primary Annotations (через распознавание и Inference), определение Entity Boundaries, генерация Secondary Annotations (через Label Expansion). Завершается расчетом Confidence Scores и построением индекса (mapping). В описании патента упоминается использование алгоритма Label Propagation для построения графа индекса.

    QUNDERSTANDING – Понимание Запросов
    Система интерпретирует запросы на естественном языке. Происходит перевод в Categorized Search Terms, часто с использованием внешних знаний (Knowledge Graph, карты) для определения точных координат, дат событий и т.д.

    RANKING – Ранжирование
    Система сопоставляет Categorized Search Terms с метками в индексе. Ранжирование основывается на Confidence Scores.

    Входные данные:

    • Изображение (пиксели).
    • Метаданные (EXIF: GPS, время, высота, направление).
    • Запрос пользователя (NLP).
    • Внешние источники (Knowledge Graph, карты, базы данных сущностей).

    Выходные данные:

    • Индекс изображений с аннотациями и Confidence Scores.
    • Результаты поиска.
    • Дополнительная информация о сущностях (при взаимодействии с Entity Boundary).

    На что влияет

    • Типы контента: Изображения и видео. Позволяет системе глубоко понимать медиаконтент даже без сопровождающего текста.
    • Специфические запросы: Улучшает обработку сложных, многофакторных и контекстуальных запросов (например, по времени, относительному местоположению, активности).

    Когда применяется

    • При индексации: При добавлении нового изображения или обновлении индекса запускаются алгоритмы аннотирования и расчета оценок.
    • При поиске: При каждом запросе пользователя по медиаконтенту активируются механизмы перевода запроса и ранжирования.
    • При взаимодействии: Функции, связанные с Entity Boundary, активируются при просмотре изображений.

    Пошаговый алгоритм

    Процесс А: Индексация и Аннотирование

    1. Извлечение метаданных: Парсинг EXIF (время, GPS, высота, направление).
    2. Генерация Primary Annotations:
      1. Распознавание: Применение CV и OCR для идентификации сущностей, характеристик и текста.
      2. Inference: Преобразование метаданных в семантические метки (например, координаты -> Место; высота -> Контекст активности).
    3. Определение Entity Boundaries: Сегментация изображения и определение границ распознанных сущностей.
    4. Генерация Secondary Annotations (Label Expansion): Расширение меток (иерархия, семантика, визуальное сходство).
    5. Индексация и Расчет Confidence Scores: Создание связей метка-изображение и присвоение оценок уверенности.

    Процесс Б: Обработка Поискового Запроса

    1. Получение запроса (NLP).
    2. Перевод в Categorized Search Terms: Преобразование запроса в структурированные категории (дата, координаты и т.д.). Это может потребовать использования внешних источников данных для уточнения (например, для определения координат места на основе его близости к ориентиру, как в Claim 1).
    3. Разрешение неоднозначностей (Опционально): Взаимодействие с пользователем (через Image Assistant, упомянутый в описании), если запрос неоднозначен.
    4. Поиск (Matching): Сопоставление Categorized Search Terms с метками в индексе.
    5. Ранжирование: Сортировка на основе Confidence Scores.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Пиксельные данные (для Computer Vision и определения Entity Boundary).
    • Технические факторы (Метаданные): Критически важные данные из EXIF: GPS координаты, высота (Altitude), направление (Direction), дата и время съемки. Эти данные активно используются для логического вывода (Inference).
    • Контентные факторы: Текст на изображении (распознанный с помощью OCR, упомянуто в описании).
    • Пользовательские факторы: Метки пользователя, история поиска. При согласии пользователя: данные профиля, календаря или социальных связей для идентификации людей и контекста.
    • Внешние данные: Knowledge Graph, карты, базы данных сущностей (используются для перевода метаданных в сущности и для понимания запросов).

    Какие метрики используются и как они считаются

    • Confidence Scores: Основная метрика для ранжирования. Указывает степень уверенности в применимости метки. Рассчитывается алгоритмами машинного обучения.
    • Visual Similarity (Визуальное сходство): Используется для Label Expansion и расчета Confidence Scores.
    • Semantic Similarity (Семантическое сходство): Используется для Label Expansion и перевода запросов.
    • Методы анализа: Computer Vision, Deep Neural Networks (упомянуты в описании), OCR, NLP. В патенте также упоминается Label Propagation (алгоритм распространения меток) для графового полу지도рительного обучения (graph-based semi-supervised learning).

    Выводы

    1. Многослойное понимание изображений: Google использует трехуровневую модель (Metadata -> Primary -> Secondary Annotations) для построения глубокого понимания контента, не полагаясь только на анализ пикселей или текст.
    2. Критическая роль метаданных и Inference: Primary Annotations генерируются не только распознаванием, но и путем логических выводов (Inference) из метаданных (EXIF). Метаданные активно интерпретируются для понимания контекста (место, высота, время).
    3. Label Expansion как основа семантики: Механизм Label Expansion демонстрирует, как Google строит семантические связи (иерархии, синонимы, визуальное сходство). Это позволяет отвечать на запросы, не содержащие точных терминов, но подразумевающие их.
    4. Перевод NLP в структурированные данные: Система активно переводит неструктурированные запросы в строго структурированные Categorized Search Terms (дата, место, высота) для точного поиска, используя внешние знания для разрешения сложных запросов (например, относительного местоположения, Claim 1).
    5. Сегментация изображений (Entity Boundary): Подтверждается способность Google сегментировать изображение на отдельные сущности и взаимодействовать с ними (технологическая основа для Google Lens и визуальной коммерции).

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает систему для личных коллекций (Google Photos), описанные технологии понимания изображений фундаментальны и применимы к публичному веб-поиску (Google Images, Google Lens).

    • Сохранение и оптимизация метаданных (EXIF): Убедитесь, что важные изображения (особенно для Local SEO, недвижимости, туризма) содержат корректные EXIF-данные, включая GPS-координаты. Система технически способна использовать эти данные для генерации Primary Annotations через Inference (логический вывод контекста).
    • Фокус на четкости и узнаваемости сущностей: Изображения должны быть высокого качества, с четко различимыми основными объектами. Это облегчает системе распознавание, генерацию точных Primary Annotations с высокими Confidence Scores и определение Entity Boundaries (важно для E-commerce и Google Lens).
    • Семантически богатое окружение изображений: Размещайте изображения в контексте релевантного текста (alt-текст, подписи, контент), используя синонимы и связанные термины. Это помогает системе строить корректные Secondary Annotations через Label Expansion. Например, описывая фото бульдога, используйте также термины «собака» и «питомец».
    • Оптимизация под Entity-based поиск: Создавайте контент вокруг сущностей. Если на фото изображен известный объект, убедитесь, что система может связать его с Knowledge Graph, что повысит точность распознавания и контекстуализации.

    Worst practices (это делать не надо)

    • Удаление EXIF-данных: Автоматическое удаление метаданных при сжатии изображений лишает систему потенциально важного контекста и блокирует возможность Inference из метаданных.
    • Использование перегруженных или нечетких изображений: Использование изображений низкого качества или коллажей, где сущности трудно распознать и выделить (Entity Boundary), снижает эффективность анализа и приводит к низким Confidence Scores.
    • Игнорирование семантической связи: Размещение изображений вне контекста или с нерелевантным текстовым окружением затрудняет процесс Label Expansion и может привести к некорректным ассоциациям.

    Стратегическое значение

    Патент подтверждает приоритет Google на понимание контента через сущности (Entity-based SEO). Система стремится структурировать любую информацию, включая изображения. Технологии анализа фото (распознавание, вывод контекста, семантическое расширение) применяются в основном веб-поиске. Для SEO это означает, что важно не просто наличие изображения, а то, какая сущность на нем изображена и как она связана с тематикой документа.

    Практические примеры

    Сценарий: Оптимизация изображения товара для E-commerce

    1. Действие (Четкость объекта): Размещение качественного фото товара (например, кроссовки Nike Air Max) на нейтральном фоне.
    2. Как это работает (Патент): Image Processing Module легко распознает объект (Primary Annotation: «Кроссовки Nike Air Max») и определяет его границы (Entity Boundary). Это позволяет Google Lens идентифицировать товар.
    3. Действие (Текстовое окружение): Добавление описания с терминами «обувь», «спортивная обувь», «кроссовки для бега».
    4. Как это работает (Патент): Система использует эти термины для Label Expansion, генерируя Secondary Annotations. Это повышает шансы показа товара по широкому спектру запросов.
    5. Ожидаемый результат: Улучшение видимости товара в Google Images и Google Lens по запросам разной степени специфичности.

    Вопросы и ответы

    Что такое Primary Annotation и почему это важно для SEO?

    Primary Annotation — это базовая метка, которую система присваивает изображению. Она генерируется двумя путями: прямым распознаванием объектов (что на картинке) или логическим выводом из метаданных (контекст съемки). Для SEO это важно, так как это первый уровень понимания изображения системой. Если ваш объект не распознан корректно на этом этапе, дальнейшая оптимизация будет менее эффективной.

    Как система делает выводы (Inference) из метаданных?

    Патент приводит несколько примеров. Если GPS-координаты соответствуют Эйфелевой башне, система может присвоить Primary Annotation «Эйфелева башня». Если высота (Altitude) составляет 35000 футов, система может сделать вывод, что фото сделано в самолете, и добавить соответствующую метку. Это подчеркивает важность сохранения корректных EXIF данных.

    Что такое Secondary Annotation и как она генерируется?

    Secondary Annotation — это дополнительная метка, созданная через процесс Label Expansion. Система берет первичную метку и расширяет ее. Например, если Primary Annotation — «Бульдог», то вторичными могут стать «Собака» (иерархия), «Питомец» (семантика). Это позволяет находить изображение по связанным запросам.

    Как SEO-специалист может повлиять на Label Expansion?

    Напрямую контролировать этот процесс нельзя, но можно помочь системе, предоставляя богатый семантический контекст вокруг изображения. Использование синонимов, гиперонимов (более общих терминов) и связанных терминов в alt-тексте и окружающем контенте помогает системе строить правильные ассоциации и генерировать релевантные Secondary Annotations.

    Что такое Categorized Search Terms и как это связано с пониманием запросов?

    Это перевод запроса пользователя на естественном языке в структурированный формат, понятный системе. Категории включают дату, время, координаты, высоту и направление. Это показывает, как Google разбирает сложные запросы: система не ищет строку текста, а ищет совпадения по конкретным структурированным параметрам.

    Патент описывает Google Photos или Google Image Search?

    Патент сфокусирован на организации личных коллекций изображений (как Google Photos). Однако базовые технологии, описанные в нем (распознавание объектов, Label Expansion, выводы из метаданных), являются универсальными для всех систем Google, работающих с изображениями, включая Google Image Search и Google Lens.

    Что такое Entity Boundary и какова его роль?

    Entity Boundary — это граница объекта, распознанного на изображении. Это доказывает, что Google может сегментировать изображение и понимать отдельные объекты независимо. В патенте это используется для предоставления информации при клике на объект (как в Google Lens). В SEO это важно для E-commerce, так как позволяет системе точно идентифицировать товар.

    Насколько важны EXIF данные согласно этому патенту?

    Они критически важны. EXIF данные (GPS, время, высота) являются основой для генерации Primary Annotations через логический вывод (Inference). Удаление этих данных значительно обедняет контекст, доступный поисковой системе для понимания изображения.

    Как используются Confidence Scores?

    Confidence Scores (Оценки уверенности) используются для ранжирования результатов поиска. Если система уверена, что метка «Эйфелева башня» применима к изображению на 95%, это изображение будет ранжироваться выше, чем то, где уверенность составляет 50%, при прочих равных условиях.

    Как система определяет координаты для запросов типа «кафе напротив Эйфелевой башни»?

    Система использует механизм перевода запроса в Categorized Search Terms (Claim 1). Она идентифицирует ориентир («Эйфелева башня») и условие близости («напротив»). Для этого она обращается к внешним источникам данных (например, картам или Knowledge Graph), чтобы определить географическую область, соответствующую этому условию, и переводит ее в конкретные координаты широты и долготы для поиска.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.