Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google уточняет тематику изображений, комбинируя визуальный анализ и семантические связи

    ASSIGNING LABELS TO IMAGES (Присвоение меток изображениям)
    • US8873867B1
    • Google LLC
    • 2014-10-28
    • 2012-07-10
    2012 Индексация Мультимедиа Патенты Google Семантика и интент

    Google использует многоступенчатый процесс для улучшения аннотаций изображений. Система сначала генерирует набор меток на основе визуальных характеристик (Content Feature Values). Затем она использует базу семантических связей (Semantic Database/Граф знаний), чтобы найти связанные концепции и агрегировать оценки уверенности. Это позволяет выбрать наиболее точные метки, отсеивая слишком общие или ошибочно специфичные варианты.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточности автоматического аннотирования изображений, основанного исключительно на визуальном анализе (Content Feature Values). Системы машинного зрения могут генерировать метки (labels), которые являются либо слишком общими (например, «животное» вместо «собака»), либо слишком специфичными и ошибочными из-за визуального сходства (например, «Немецкая овчарка» для изображения Ротвейлера). Проблема усугубляется при отсутствии надежного текстового контекста вокруг изображения.

    Что запатентовано

    Запатентована система для уточнения и выбора наилучших текстовых меток для изображения путем интеграции визуального анализа и семантических знаний. Суть изобретения заключается в использовании внешней семантической базы данных (Semantic Database или графа знаний) для валидации и расширения первоначального набора меток, сгенерированного визуальными моделями (Image Relevance Models). Система агрегирует оценки от разных визуально похожих концепций, чтобы определить наиболее подходящую семантическую тему изображения.

    Как это работает

    Механизм работает в несколько этапов:

    • Визуальный анализ: Система (Image Label Apparatus) анализирует изображение с помощью Image Relevance Models и генерирует первый набор меток с оценками релевантности (Relevance Scores).
    • Семантическое расширение: Каждая метка из первого набора используется как запрос к Semantic Database, которая хранит связи между концепциями и оценки уверенности (Confidence Scores) в этих связях. Генерируется второй набор семантически связанных меток.
    • Расчет оценок (Label Scores): Для меток второго набора рассчитываются новые оценки (Label Scores), обычно путем умножения Relevance Score исходной метки на Confidence Score семантической связи.
    • Агрегация: Если одна и та же метка (например, «собака») появляется во втором наборе несколько раз (будучи связанной с разными исходными метками, например, «Ротвейлер» и «Овчарка»), ее Label Scores агрегируются (например, суммируются).
    • Выбор: Метки с наивысшими итоговыми Label Scores выбираются для аннотирования изображения.

    Актуальность для SEO

    Высокая. Понимание контента изображений и их точное аннотирование критически важны для Image Search, Google Lens и интеграции визуального контента в основной поиск. Использование графов знаний (Semantic Database) для уточнения результатов работы моделей машинного обучения является стандартной практикой в современных системах Google. Этот патент описывает фундаментальный механизм связывания визуального и семантического понимания.

    Важность для SEO

    Патент имеет высокое значение для Image SEO и стратегий, связанных с визуальным контентом (8.5/10). Он раскрывает механизм, как Google определяет и уточняет тематику изображения, переходя от анализа пикселей к семантическим концепциям. Точное присвоение меток напрямую влияет на то, по каким запросам изображение будет ранжироваться. Понимание этого процесса подчеркивает важность семантического соответствия между визуальным контентом и сущностями в графе знаний.

    Детальный разбор

    Термины и определения

    Confidence Score (Оценка уверенности)
    Метрика в Semantic Database, указывающая на степень уверенности в семантической связи между двумя метками (например, между «Ротвейлер» и «Собака»). Эта оценка существует независимо от анализа конкретного изображения.
    Content Feature Values (Значения признаков контента)
    Квантитативные значения, представляющие визуальные характеристики изображения (цвета, формы, текстуры и т.д.). Могут быть представлены как «мешок признаков» (bag of features). Используются моделями машинного зрения для анализа изображения.
    Image Label Apparatus (Аппарат присвоения меток изображениям)
    Компонент системы, отвечающий за генерацию и уточнение меток для изображения.
    Image Relevance Model (Модель релевантности изображения)
    Модель машинного обучения, обученная для конкретного запроса (или концепции), которая оценивает релевантность изображения этому запросу на основе его Content Feature Values. Обучается с использованием данных обратной связи (например, Click Logs и Query Logs).
    Label (Метка)
    Текстовые данные (слово или фраза), указывающие на тематику или объект изображения. Синоним аннотации или тега.
    Label Score (Оценка метки)
    Итоговая оценка, присваиваемая метке в процессе уточнения. Рассчитывается на основе Relevance Score и Confidence Score. Указывает на уверенность в том, что метка соответствует семантической теме изображения.
    Popularity Score (Оценка популярности)
    Опциональная метрика, указывающая на частоту использования метки пользователями для тегирования изображений в базе данных или частоту использования в поисковых запросах.
    Relevance Score (Оценка релевантности)
    Метрика, генерируемая Image Relevance Model, указывающая на степень визуальной релевантности изображения конкретной метке (запросу).
    Semantic Database (Семантическая база данных)
    База данных (часто в виде графа), хранящая метки (концепции) и семантические отношения между ними (graph of semantic relationships), взвешенные с помощью Confidence Scores. Аналог графа знаний.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод присвоения меток изображению.

    1. Система определяет первый набор меток для изображения на основе его визуальных признаков (content feature values).
    2. Для каждой метки из первого набора система запрашивает ассоциацию меток (Semantic Database).
    3. Определяется второй набор меток, семантически связанных с метками первого набора. Каждая связь имеет Confidence Score.
    4. Ключевое уточнение: Confidence Score (семантическая связь) существует независимо от того факта, что обе метки могут относиться к одному и тому же изображению. (Т.е. связь «Ротвейлер»-«Собака» существует априори в базе знаний).
    5. Каждой метке во втором наборе присваивается оценка (Label Score) на основе соответствующего Confidence Score.
    6. На основе этих оценок одна или несколько меток из второго набора присваиваются изображению.

    Claim 3 (Зависимый от 1): Детализирует расчет оценки для второго набора.

    Оценка (Label Score) для метки из второго набора присваивается не только на основе Confidence Score, но также и на основе Relevance Score (степени, в которой исходная метка из первого набора семантически связана с изображением). Это подтверждает, что Label Score является функцией от визуальной релевантности исходной метки и силы семантической связи с новой меткой (например, их произведением).

    Claim 4 (Зависимый от 1): Вводит использование популярности.

    Присвоение оценки (Label Score) также может учитывать Popularity Score, который указывает на популярность соответствующей метки при использовании ее пользователями для тегирования изображений.

    Claim 5 (Зависимый от 1): Описывает, как генерируется первый набор меток.

    Первый набор меток определяется путем предоставления изображения Image Relevance Models. Каждая модель обучена для конкретного уникального запроса на основе content feature values тренировочных изображений и генерирует оценку релевантности (Relevance Measure). Первый набор формируется на основе этих оценок.

    Где и как применяется

    Изобретение применяется на стыке индексирования и понимания запросов, в основном в контексте обработки изображений.

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента. При индексации изображения:

    1. Система извлекает его визуальные признаки (Content Feature Values).
    2. Image Label Apparatus применяет описанный алгоритм (визуальный анализ -> семантическое уточнение) для генерации точных семантических меток (Labels).
    3. Эти метки сохраняются в индексе и связываются с изображением.

    Также на этом этапе (офлайн) происходит обучение Image Relevance Models с использованием Query Logs и Click Logs.

    QUNDERSTANDING – Понимание Запросов
    Если пользователь использует «Поиск по картинке» (Query by Image), этот механизм может применяться для понимания содержания загруженного изображения (query image) и преобразования его в набор текстовых меток для поиска.

    RANKING – Ранжирование (Image Search)
    Точные метки, сгенерированные этим методом на этапе индексирования, используются как ключевые сигналы релевантности при ранжировании изображений в ответ на текстовый запрос пользователя.

    Входные данные:

    • Изображение и его Content Feature Values.
    • Обученные Image Relevance Models.
    • Semantic Database с Confidence Scores.
    • Опционально: Popularity Scores меток.

    Выходные данные:

    • Набор уточненных меток (Labels) для изображения с высокими Label Scores.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на изображения, особенно те, для которых отсутствует или минимален окружающий текстовый контекст (например, изображения без alt-текста, пользовательские фото).
    • Специфические запросы: Влияет на точность ответов по запросам, где важна визуальная идентификация объектов и где существует иерархия понятий (например, породы собак, модели техники). Помогает выбрать правильный уровень специфичности.
    • Ниши: Критично для E-commerce (точное определение товара) и любых ниш, где визуальный контент требует точной классификации.

    Когда применяется

    • Условия применения: Алгоритм применяется при необходимости автоматического аннотирования изображения на основе визуальных данных.
    • Триггеры активации: Активируется в процессе индексации нового изображения или при обработке запроса «поиск по картинке». Процесс уточнения запускается после генерации первого набора меток.

    Пошаговый алгоритм

    Процесс А: Уточнение меток изображения (Индексирование или Query-time)

    1. Получение изображения и извлечение признаков: Система получает изображение и извлекает Content Feature Values.
    2. Генерация первого набора меток: Изображение предоставляется множеству Image Relevance Models. Модели генерируют Relevance Scores для соответствующих им меток.
    3. Фильтрация (Первый набор): Метки, чьи Relevance Scores превышают порог (threshold relevance score), формируют Первый набор меток (Кандидаты).
    4. Семантическое расширение: Для каждой метки из Первого набора система запрашивает Semantic Database.
    5. Генерация второго набора меток: Система получает Второй набор меток, семантически связанных с Первым набором, вместе с Confidence Scores для каждой связи.
    6. Расчет Label Scores: Для каждой метки во Втором наборе рассчитывается Label Score. Подразумеваемая формула: Label Score = Relevance Score (исходной метки) * Confidence Score (связи).
    7. Агрегация: Все метки из Первого и Второго наборов объединяются. Если метка встречается несколько раз, ее Label Scores агрегируются (например, суммируются).
    8. (Опционально) Корректировка популярностью: Label Scores могут быть скорректированы с учетом Popularity Scores меток.
    9. (Опционально) Верификация: Новые метки из Второго набора могут быть повторно проверены с помощью соответствующих Image Relevance Models, чтобы убедиться в их визуальной релевантности исходному изображению (проверка на соответствие image relevance score threshold).
    10. Финальный выбор и присвоение: Метки с наивысшими итоговыми Label Scores (или превышающие финальный порог, или Топ-K) присваиваются изображению.

    Процесс Б: Офлайн-обучение моделей (Упоминается в патенте)

    1. Сбор данных: Анализ Query Logs и Click Logs для идентификации изображений, которые пользователи считают релевантными определенным запросам (Relevance Feedback Score).
    2. Выбор обучающих изображений: Изображения с высоким Relevance Feedback Score выбираются как тренировочные данные (Training Images).
    3. Обучение: Для каждого уникального запроса обучается отдельная Image Relevance Model, которая учится предсказывать релевантность на основе Content Feature Values.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Визуальные): Content feature values. Это основа анализа. В патенте упоминаются цвета, яркость, формы, расположение краев и другие визуальные атрибуты. Они могут быть представлены как «мешок признаков» (bag of features).
    • Поведенческие факторы: Query Logs и Click Logs. Используются для офлайн-обучения Image Relevance Models, чтобы определить, какие визуальные признаки коррелируют с релевантностью для пользователей.
    • Данные Графа Знаний (Системные): Semantic Database. Содержит информацию о семантических связях между метками и Confidence Scores.
    • Пользовательские данные (Тегирование): Данные о том, как пользователи тегируют изображения, могут использоваться для расчета Popularity Score.

    Какие метрики используются и как они считаются

    • Relevance Score (IRS): Оценка визуальной релевантности изображения метке. Рассчитывается Image Relevance Model. В патенте приводится пример линейной модели: IRS = W*X (где X – вектор признаков изображения, W – вектор весов, изученных моделью).
    • Confidence Score: Оценка силы семантической связи между Меткой А и Меткой Б в Semantic Database. Задана априори в базе данных (например, 0.8).
    • Label Score (Промежуточный): Оценка уверенности в метке после семантического уточнения. Пример расчета для связи: Label Score = Relevance Score (Метка А) * Confidence Score (А->Б).
    • Aggregated Label Score (Итоговый): Итоговая оценка метки. Сумма всех промежуточных Label Scores, полученных для данной метки через разные семантические связи.
    • Popularity Score: Оценка популярности метки (например, частота использования в тегах или запросах).
    • Пороги (Thresholds): Используются для отбора меток на разных этапах (например, Relevance Score Threshold, Label Score Threshold).

    Выводы

    1. От визуального к семантическому: Патент описывает механизм перехода от чисто визуальной интерпретации изображения к семантической. Google не полагается только на то, как выглядит объект, но и использует граф знаний (Semantic Database), чтобы понять, чем он является на концептуальном уровне.
    2. Разрешение визуальной неоднозначности через агрегацию: Система эффективно разрешает ситуации, когда визуально похожие, но семантически разные объекты получают близкие оценки релевантности. Агрегация оценок через семантические связи помогает выявить общую тему (например, «собака»), даже если система не уверена в конкретной породе («Ротвейлер» или «Немецкая овчарка»).
    3. Выбор оптимальной специфичности: Механизм агрегации Label Scores способствует выбору меток оптимального уровня абстракции, которые часто оказываются более точными и полезными, чем слишком общие или слишком специфичные варианты, предложенные исходными моделями.
    4. Важность поведенческих данных для обучения: Image Relevance Models, которые запускают весь процесс, обучаются на основе пользовательских кликов (Click Logs). Это подчеркивает, что визуальная релевантность в поиске определяется тем, что пользователи считают релевантным.
    5. Интеграция разных источников данных: Итоговое решение о метке принимается на основе комбинации визуальных данных (Relevance Score), семантических знаний (Confidence Score) и, опционально, популярности (Popularity Score).

    Практика

    Best practices (это мы делаем)

    • Обеспечение визуальной четкости и типичности: Изображения должны быть четкими и репрезентативными для целевой сущности. Это повышает вероятность получения высоких Relevance Scores от Image Relevance Models на первом этапе анализа, что является основой для дальнейшего точного семантического уточнения.
    • Создание семантически связанного контекста: Хотя патент фокусируется на визуальном анализе при отсутствии контекста, он подчеркивает важность семантики. Размещение изображений в сильном текстовом контексте на веб-странице (Alt-текст, подписи, окружающий текст) помогает поисковой системе в целом. Согласованные визуальные и текстовые сигналы усиливают уверенность системы.
    • Использование популярных и точных терминов в Image SEO: Учитывая, что Popularity Score (популярность тегов/запросов) может влиять на итоговый Label Score, при оптимизации изображений следует использовать терминологию, которая одновременно точна и используется аудиторией.
    • Оптимизация под средний уровень специфичности: Не стоит фокусироваться только на гиперспецифичных терминах. Патент показывает, что метки среднего уровня (например, «черно-коричневая собака») часто получают более высокие итоговые оценки за счет агрегации. Убедитесь, что ваш контент и изображения релевантны этим концепциям.

    Worst practices (это делать не надо)

    • Использование нетипичных или вводящих в заблуждение изображений: Размещение изображений, которые визуально похожи на одну сущность, но описываются как другая (например, фото Ротвейлера с подписью «Немецкая овчарка»), создает конфликт сигналов. Система может автоматически сгенерировать метку, противоречащую контексту страницы.
    • Использование визуально «зашумленных» или неоднозначных изображений: Изображения с множеством объектов или абстрактные изображения там, где требуется конкретика, могут привести к генерации множества слабых начальных меток и затруднить системе определение основной темы через агрегацию.
    • Игнорирование Image SEO из-за автоматизации: Не следует полагать, что Google полностью поймет изображение без помощи. Хотя описанный механизм мощен, предоставление точного контекста остается критически важным, так как он дополняет автоматический анализ и помогает в обучении моделей.

    Стратегическое значение

    Стратегическое значение патента заключается в демонстрации того, как Google интегрирует машинное зрение и обработку естественного языка (через Semantic Database/Knowledge Graph). Для SEO это означает, что оптимизация изображений должна рассматриваться не просто как работа с визуальным рядом, а как работа с сущностями и концепциями (Entity-Based SEO). Успех в Image Search зависит от того, насколько хорошо визуальные элементы сайта соответствуют семантическим ожиданиям системы и пользователей.

    Практические примеры

    Сценарий: Уточнение меток для изображения собаки (Пример из патента)

    Сайт публикует фотографию, которая визуально похожа на Ротвейлера и Немецкую овчарку.

    1. Визуальный анализ: Google анализирует фото. Image Relevance Models возвращают начальные метки: «Ротвейлер» (Relevance Score 50) и «Немецкая овчарка» (Relevance Score 50).
    2. Семантическое расширение: Система обращается к Semantic Database.
      • «Ротвейлер» связан с «Черно-коричневая собака» (Confidence 0.9) и «Собака» (Confidence 0.8).
      • «Немецкая овчарка» связана с «Черно-коричневая собака» (Confidence 0.9) и «Собака» (Confidence 0.8).
    3. Расчет и Агрегация:
      • «Ротвейлер»: 50 (исходная оценка).
      • «Немецкая овчарка»: 50 (исходная оценка).
      • «Черно-коричневая собака»: (50*0.9 от Ротвейлера) + (50*0.9 от Овчарки) = 45 + 45 = 90.
      • «Собака»: (50*0.8 от Ротвейлера) + (50*0.8 от Овчарки) = 40 + 40 = 80.
    4. Результат: Несмотря на то, что исходные специфичные метки имели одинаковую оценку (и одна из них могла быть неверной), система определила, что наиболее надежной меткой является «Черно-коричневая собака» (Score 90). Это позволяет избежать ошибки классификации породы, выбрав точную метку среднего уровня специфичности.

    Вопросы и ответы

    Что такое Image Relevance Model и как она обучается?

    Это модель машинного обучения, созданная для конкретного запроса или концепции (например, модель для «Ротвейлер»). Она принимает на вход визуальные признаки изображения (Content Feature Values) и выдает оценку релевантности (Relevance Score). В патенте указано, что эти модели обучаются офлайн, используя поведенческие данные: анализируются Query Logs и Click Logs, чтобы понять, какие изображения пользователи выбирают (кликают) в ответ на определенные запросы.

    Что такое Semantic Database в контексте этого патента и как она связана с Knowledge Graph?

    Semantic Database — это граф, где узлы являются метками (концепциями), а ребра показывают семантические связи между ними, взвешенные оценкой уверенности (Confidence Score). Например, она знает, что «Ротвейлер» является подтипом «Собака». Это описание функционально соответствует Google Knowledge Graph и используется для уточнения результатов машинного зрения с помощью знаний о мире.

    Как система решает, какая метка лучше, если визуальный анализ дает неоднозначный результат?

    Это ключевой механизм патента. Если визуальный анализ предлагает несколько похожих меток с близкими Relevance Scores, система использует Semantic Database для поиска общих связанных концепций. Оценки от исходных меток агрегируются (суммируются) для этих связанных концепций. Метка, которая получает наибольшую суммарную поддержку (высокий агрегированный Label Score), выбирается как наиболее надежная.

    Влияет ли текст на странице или alt-атрибут на работу этого алгоритма?

    Патент фокусируется на генерации меток на основе визуальных признаков, особенно когда текстовый контекст отсутствует. Текст на странице и alt-атрибуты в этом конкретном алгоритме напрямую не используются как входные данные. Однако в общей архитектуре поиска эти автоматически сгенерированные метки комбинируются с текстовыми сигналами со страницы для финального ранжирования изображения.

    Что такое Popularity Score и как он влияет на выбор метки?

    Popularity Score — это опциональная метрика (Claim 4), которая отражает, насколько часто данная метка используется пользователями для тегирования изображений или в поисковых запросах. Если метка популярна, ее итоговый Label Score может быть повышен. Это помогает системе предпочитать более распространенные и понятные пользователям термины при аннотировании.

    Как этот патент влияет на оптимизацию изображений для E-commerce?

    Он подчеркивает важность использования четких, репрезентативных изображений товаров. Если товар визуально неоднозначен или похож на множество других товаров, системе будет сложнее присвоить ему точную специфичную метку (например, конкретную модель). Лучше использовать изображения, которые помогают системе уверенно идентифицировать объект на нужном уровне специфичности, обеспечивая лучшее ранжирование в Image Search.

    Может ли система проверить правильность найденной семантической метки?

    Да, в патенте упоминается опциональный шаг верификации. Если система нашла новую метку через Semantic Database (например, «собака»), она может взять эту метку и проверить ее с помощью соответствующей Image Relevance Model (модель для «собаки»), чтобы убедиться, что исходное изображение действительно визуально соответствует этой новой метке выше определенного порога.

    Почему система иногда выбирает более общую метку вместо специфичной?

    Это происходит из-за механизма агрегации. Если система не уверена в специфичной метке (например, колеблется между несколькими породами с низкими баллами), но все эти породы сильно указывают на общую концепцию («собака»), то общая концепция получит более высокий суммарный Label Score и будет выбрана как более надежная аннотация.

    Как SEO-специалист может повлиять на работу этого алгоритма?

    Напрямую повлиять на внутренние модели сложно. Однако можно косвенно влиять, предоставляя системе высококачественные, четкие и типичные изображения для индексации. Это максимизирует шансы на получение высоких исходных Relevance Scores и правильную классификацию. Также важно использовать общепринятую терминологию в контексте страницы.

    Является ли этот процесс частью индексирования или ранжирования?

    Этот процесс является частью этапа индексирования и извлечения признаков (Indexing & Feature Extraction). Система вычисляет и сохраняет эти уточненные семантические метки для изображения заранее. Затем, на этапе ранжирования, эти сохраненные метки используются как сигналы релевантности для ответа на запросы пользователей.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.