Как Google использует графы знаний для обеспечения логической согласованности при распознавании изображений

Google использует систему постобработки для результатов классификации изображений, полученных от нейронных сетей. Патент описывает, как исходные оценки (raw scores) корректируются с учетом иерархических (subsumption) и исключающих (exclusion) отношений между объектами (например, «Щенок» всегда «Собака»), гарантируя логическую точность финальных меток.

Описание

Какую задачу решает

Патент решает проблему логических противоречий в результатах работы систем классификации изображений, таких как Deep Neural Networks (DNN). Стандартные классификаторы могут генерировать оценки (raw image scores), которые противоречат известным фактам о взаимосвязях между категориями. Например, система может присвоить высокую вероятность категории «Щенок», но низкую категории «Собака» (нарушение иерархии), или одновременно классифицировать объект как «Кошка» и «Собака» (нарушение исключения). Цель изобретения — гарантировать, что финальные оценки классификации будут согласованы с предопределенной структурой знаний об объектах.

Что запатентовано

Запатентован метод и система для корректировки исходных оценок классификатора изображений с использованием данных об отношениях между категориями (Relationship Data). Система строит граф отношений (Relationship Graph), определяющий иерархию (subsumption) и взаимоисключение (exclusion) категорий. Исходные оценки (Raw Image Scores) модифицируются с использованием сложных методов оптимизации (Message Passing на Junction Tree), чтобы сгенерировать финальные оценки (Final Image Scores), которые не нарушают правила, заданные в графе.

Как это работает

Система функционирует как пост-процессор для классификатора изображений:

Генерация исходных оценок: Классификатор (например, DNN) обрабатывает изображение и выдает Raw Image Scores — начальные вероятности для разных категорий.
Использование графа отношений: Система использует заранее построенный Relationship Graph, где узлы — это категории, а ребра — отношения (направленные для иерархии, ненаправленные для исключения).
Определение допустимых состояний: Определяется State Space — набор всех логически допустимых комбинаций меток (Valid Assignments).
Корректировка оценок: Raw Image Scores используются для расчета вероятностей каждого Valid Assignment. Затем эти вероятности агрегируются (маржинализируются) для получения Final Image Scores для отдельных категорий.
Оптимизация: Для сложных графов используются методы оптимизации: построение Junction Tree на основе разреженного эквивалента графа (Minimally Sparse Equivalent) и расчет State Space для клик (Cliques) с использованием плотного эквивалента (Maximally Dense Equivalent).

Актуальность для SEO

Высокая. Точное и логически согласованное понимание визуального контента критически важно для Google (Google Images, Google Lens). Интеграция символических знаний (Knowledge Graph / Relationship Data) с нейронными сетями (Deep Neural Networks) является передовым направлением в машинном обучении и компьютерном зрении для повышения точности и надежности систем ИИ.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10), особенно в контексте оптимизации изображений (Image SEO) и E-commerce. Он не описывает алгоритмы ранжирования веб-страниц, но раскрывает сложный механизм, который Google использует для интерпретации визуального контента. Понимание того, что Google видит не просто набор пикселей, а иерархически связанные объекты, критически важно для создания и оптимизации изображений, которые будут правильно поняты и высоко оценены поисковой системой.

Детальный разбор

Термины и определения

Clique (Клика): Подмножество узлов в Junction Tree, где каждый узел связан ребром с каждым другим узлом в этом подмножестве.
Deep Neural Network (DNN) (Глубокая нейронная сеть): Многослойная нейронная сеть, используемая в патенте в качестве основного механизма для генерации Raw Image Scores.
Exclusion Relationship (Отношение исключения): Отношение между двумя категориями, указывающее, что объект не может принадлежать обеим категориям одновременно (например, «Кошка» и «Собака»). В графе представлено ненаправленным ребром.
Final Image Score (Финальная оценка изображения): Итоговая вероятность того, что изображение содержит объект определенной категории, полученная после корректировки Raw Image Score с учетом Relationship Data.
Junction Tree (Дерево соединений): Структура данных, генерируемая из Minimally Sparse Equivalent Graph, используемая для эффективного выполнения Message Passing.
Maximally Dense Equivalent Graph (Максимально плотный эквивалент графа): Эквивалент Relationship Graph, в который добавлены все возможные избыточные ребра (redundant edges). Используется для упрощения расчета State Space внутри клик.
Message Passing (Передача сообщений): Алгоритм (например, sum-product message passing), используемый для вычисления финальных оценок путем распространения информации (вероятностей) по Junction Tree.
Minimally Sparse Equivalent Graph (Минимально разреженный эквивалент графа): Эквивалент Relationship Graph, из которого удалены все избыточные ребра. Используется для построения Junction Tree.
Raw Image Score (Исходная оценка изображения): Начальная оценка вероятности присутствия объекта на изображении, сгенерированная классификатором (например, DNN) до учета логических отношений.
Relationship Data/Graph (Данные/Граф отношений): Информация, определяющая subsumption и exclusion отношения между категориями объектов, и соответствующее графическое представление.
State Space (Пространство состояний): Набор всех Valid Assignments для графа или клики. Определяет все логически допустимые комбинации меток.
Subsumption Relationship (Отношение поглощения/иерархии): Иерархическое отношение, указывающее, что если объект принадлежит к подкатегории, он также должен принадлежать к родительской категории (например, «Щенок» поглощается «Собакой»). В графе представлено направленным ребром от родителя к потомку.
Valid Assignment (Допустимое присваивание): Конкретная классификация объекта по всем категориям (принадлежит/не принадлежит), которая не нарушает ни одного из правил (subsumption и exclusion), определенных в Relationship Graph.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы классификации с использованием оптимизированной структуры.

Система поддерживает Junction Tree, построенное на основе Relationship Graph. Граф включает узлы (категории), направленные ребра (subsumption) и ненаправленные ребра (exclusion). Junction Tree состоит из клик (Cliques).
Для каждой клики поддерживается State Space — набор допустимых комбинаций категорий (assignments), не нарушающих отношения внутри клики.
Система получает входные данные изображения.
Данные обрабатываются с помощью Deep Neural Network для генерации Raw Image Scores (начальных оценок).
Генерируются Final Image Scores путем выполнения Message Passing на Junction Tree с использованием Raw Image Scores. Message Passing модифицирует исходные оценки в соответствии с State Spaces клик.
Определяется классификация изображения на основе Final Scores.

Claim 3 (Зависимый): Детализирует создание исходного графа из Relationship Data, где subsumption представлены направленными ребрами, а exclusion — ненаправленными.

Claim 4 (Зависимый от 3): Уточняет, что Relationship Graph, используемый в Claim 1, является Minimally Sparse Equivalent Graph исходного графа (т.е. из него удалены избыточные ребра для оптимизации построения Junction Tree).

Claim 6 (Зависимый от 4): Описывает метод определения State Space для клики.

Определяется подграф Maximally Dense Equivalent Graph (граф с добавлением всех возможных избыточных ребер), индуцированный кликой.
Определяется State Space этого подграфа (что проще сделать на плотном графе).
Этот State Space используется как State Space клики Junction Tree.

Claim 8 (Зависимый от 1): Уточняет механизм Message Passing: выполняются два прохода sum-product message passing на Junction Tree.

Где и как применяется

Изобретение применяется в инфраструктуре обработки и анализа визуальных данных.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Когда Google индексирует изображения (для Google Images, Google Lens или как часть веб-страницы), система классификации активируется.

Feature Extraction (Извлечение признаков): Raw Image Score Generator (например, DNN) анализирует пиксели изображения и генерирует Raw Image Scores.
Аннотирование и Понимание: Relationship Data Engine получает эти Raw Scores и корректирует их, используя Graph Data (включая Junction Tree и State Spaces). Это позволяет системе присвоить изображению логически согласованные метки (Labeled Images). Эти метки сохраняются в индексе.

RANKING – Ранжирование (Вертикальный поиск)
Результаты работы этого патента (точные и согласованные метки изображений) напрямую используются алгоритмами ранжирования в вертикали Google Images. Более точное понимание содержания изображения улучшает его релевантность запросу.

Входные данные:

Входное изображение (Input Image) или его фрагменты (patches).
Relationship Data (используется офлайн для построения графа).
Graph Data (оптимизированные структуры: Junction Tree, State Spaces).

Выходные данные:

Final Image Scores — скорректированные вероятности для каждой категории.
Метки (Labels), присвоенные изображению на основе Final Image Scores.

На что влияет

Конкретные типы контента: Влияет на любой контент, содержащий изображения: фотографии в статьях, изображения товаров в e-commerce, локальные фотографии и т.д.
Специфические запросы: Влияет на результаты поиска в Google Images, особенно по запросам, где требуется понимание иерархии или взаимоисключения объектов (например, запросы по конкретным породам собак, моделям автомобилей или типам одежды).
Конкретные ниши или тематики: Наибольшее влияние в нишах с четкой таксономией: E-commerce, биология, техника.

Когда применяется

Условия применения: Алгоритм применяется в процессе классификации изображений, когда для распознаваемых категорий объектов существует предопределенный Relationship Graph.
Триггеры активации: Активируется после того, как базовый классификатор (DNN) сгенерировал Raw Image Scores. Это этап постобработки.

Пошаговый алгоритм

Процесс разделен на офлайн-подготовку структур данных и онлайн-обработку изображений.

Процесс А: Офлайн-подготовка (Построение и Оптимизация Графа)

Сбор данных: Получение Relationship Data (иерархии и исключения).
Построение исходного графа: Генерация Relationship Graph.
Генерация разреженного эквивалента: Создание Minimally Sparse Equivalent Graph путем удаления избыточных ребер.
Построение Junction Tree: Генерация Junction Tree из разреженного графа и идентификация клик (Cliques).
Генерация плотного эквивалента: Создание Maximally Dense Equivalent Graph путем добавления всех возможных избыточных ребер.
Расчет пространства состояний: Определение State Space (набора Valid Assignments) для каждой клики Junction Tree, используя подграфы плотного эквивалента.
Сохранение: Сохранение Junction Tree и State Spaces для использования в онлайн-режиме.

Процесс Б: Онлайн-обработка (Классификация Изображения)

Получение входных данных: Получение изображения или его фрагментов.
Генерация исходных оценок: Обработка данных с помощью Raw Image Score Generator (например, DNN) для получения Raw Image Scores.
Корректировка оценок (Message Passing): Выполнение алгоритма Message Passing (например, sum-product) на подготовленном Junction Tree. В процессе вычислений используются только те состояния, которые включены в State Space клик.
Генерация финальных оценок: Получение Final Image Scores, которые согласованы с логическими отношениями.
Классификация: Присвоение меток изображению на основе пороговых значений Final Image Scores.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Пиксельные данные входного изображения (Input Image) или извлеченные из него признаки (patches). Это основной вход для Deep Neural Network.
Системные данные (Структурированные знания): Relationship Data, определяющие subsumption (иерархию) и exclusion (исключение) между категориями объектов. Эти данные используются для построения и оптимизации графовых структур и могут происходить из Knowledge Graph.

Какие метрики используются и как они считаются

Raw Image Score (IS): Метрика, генерируемая DNN. Представляет собой начальную оценку вероятности присутствия объекта.
Assignment Score (AS): Метрика, рассчитываемая для каждого Valid Assignment (допустимой комбинации меток). Вычисляется как произведение функций от Raw Image Scores для категорий, включенных в данное присваивание. Например, может использоваться функция exp(IS).
Final Image Score: Финальная метрика для категории. Вычисляется путем маржинализации Assignment Scores — суммирования оценок всех Valid Assignments, в которых данная категория присутствует.
Алгоритмы машинного обучения: В патенте явно упоминается использование Deep Neural Network для генерации исходных оценок.
Статистические методы и алгоритмы на графах: Используется Message Passing (Belief Propagation), в частности sum-product message passing, для эффективного расчета маржинальных вероятностей (Final Image Scores) на Junction Tree.

Выводы

Интеграция Knowledge Graph и Computer Vision: Патент демонстрирует, как Google объединяет нейросетевые подходы (Deep Neural Networks) с символическими знаниями (Relationship Data, аналог Knowledge Graph) для улучшения точности и логичности компьютерного зрения.
Приоритет логической согласованности: Система гарантирует, что результаты классификации не будут нарушать известные факты об иерархии и совместимости объектов. Исходные оценки нейросети (Raw Scores) активно корректируются для соответствия этим правилам.
Иерархическое понимание изображений: Google не просто распознает объекты, но понимает их взаимосвязи. Если система идентифицирует объект как «Немецкая овчарка», она гарантированно идентифицирует его и как «Собака», и оценка для «Собака» будет не ниже.
Сложная инфраструктура оптимизации: Для масштабирования этого подхода на большое количество категорий используется сложная математическая оптимизация (Junction Trees, Minimally Sparse/Maximally Dense Graphs), что указывает на серьезные инвестиции в эту технологию.
Обработка неизвестных подкатегорий и Zero-Shot Classification: Система может корректно классифицировать новые подвиды (например, новую породу собаки как «Собака»). Также патент упоминает возможность классификации «невидимых» (unseen) категорий, для которых не было обучающих примеров, если их отношения с «видимыми» (seen) категориями определены в Relationship Data.

Практика

Best practices (это мы делаем)

Использование четких и релевантных изображений: Используйте высококачественные изображения, на которых объекты легко идентифицируются. Это поможет базовому классификатору (DNN) сгенерировать точные Raw Image Scores, что повысит качество финальной классификации.
Соблюдение иерархии в контенте и метаданных: При оптимизации изображений (Alt-текст, подписи, Schema.org) учитывайте иерархию сущностей (subsumption). Если вы оптимизируете изображение под конкретную модель продукта (например, «iPhone 15 Pro Max»), убедитесь, что контекст страницы также поддерживает более общие категории («iPhone», «Смартфон»). Это создает согласованные сигналы.
Обеспечение контекста для устранения неоднозначности: Текстовый контекст вокруг изображения должен помогать системе правильно интерпретировать визуальные данные. Контекст должен соответствовать визуальному содержанию и не противоречить ему.
Структурирование данных о продуктах (E-commerce): Критически важно использовать подробную микроразметку (Schema.org/Product) и фиды данных, которые четко определяют иерархию продуктов. Это коррелирует с тем, как Google использует Relationship Data для понимания объектов.

Worst practices (это делать не надо)

Использование вводящих в заблуждение или двусмысленных изображений: Размещение изображений, которые не соответствуют контексту страницы или могут быть интерпретированы по-разному. Система классификации может присвоить нерелевантные метки или иметь низкую уверенность в результатах.
Игнорирование визуального качества: Использование размытых, низкокачественных или слишком абстрактных изображений затрудняет точную классификацию объектов.
Противоречивый контекст (Mismatch): Создание ситуаций, когда визуальное содержание противоречит текстовому описанию (например, изображение кошки с Alt-текстом «собака»). Это создает конфликт сигналов и может снизить релевантность страницы.

Стратегическое значение

Этот патент подтверждает стратегию Google на глубокое понимание контента во всех его формах, интегрируя машинное зрение с Графом Знаний. Для SEO это означает, что оптимизация изображений выходит за рамки ключевых слов в метаданных. Стратегическое значение заключается в понимании того, что Google интерпретирует визуальный контент через призму логических связей и иерархий. Долгосрочная стратегия должна включать создание высококачественного, семантически согласованного визуального контента, который усиливает тематический авторитет сайта.

Практические примеры

Сценарий: Оптимизация изображения товара в E-commerce

Задача: Оптимизировать изображение кроссовок «Nike Air Max 90».
Анализ иерархии (Relationship Data):
- Иерархия (Subsumption): Обувь -> Кроссовки -> Nike -> Nike Air Max -> Nike Air Max 90.
- Исключение (Exclusion): Nike исключает Adidas.
Действия:
- Изображение: Использовать четкое фото модели Air Max 90.
- Контекст (Alt-text, Подпись): Точно описать модель: «Кроссовки Nike Air Max 90, белый цвет».
- Окружающий текст: Страница должна содержать информацию о бренде Nike и линейке Air Max.
Ожидаемый результат (Как работает система):
- DNN генерирует Raw Scores. Например: P(Air Max 90)=0.9, P(Кроссовки)=0.7, P(Adidas)=0.1.
- Relationship Data Engine корректирует оценки. Поскольку Air Max 90 поглощается Кроссовками, P(Кроссовки) будет повышена до >= 0.9. Поскольку Nike и Adidas исключают друг друга, P(Adidas) будет снижена.
- Изображение будет высоко релевантно как по узким запросам («Nike Air Max 90»), так и по общим («кроссовки Nike»), благодаря гарантированной согласованности меток.

Вопросы и ответы

Как этот патент влияет на оптимизацию атрибута alt для изображений?

Он подчеркивает важность точности и иерархии в атрибутах alt. Описание должно быть не просто набором ключевых слов, а точным отражением содержания изображения с учетом его места в иерархии объектов. Если на фото немецкая овчарка, лучше писать «Немецкая овчарка в парке», а не просто «Собака». Это дает системе более точные сигналы, которые коррелируют с результатами визуального анализа, основанного на Relationship Data.

Означает ли это, что Google использует Knowledge Graph для распознавания изображений?

Да, патент прямо описывает использование Relationship Data, что является формой графа знаний, определяющего иерархические и исключающие отношения между категориями. Система использует этот граф для валидации и корректировки результатов работы нейронной сети (DNN), обеспечивая соответствие классификации известным фактам об объектах.

Что такое «Subsumption Relationship» и «Exclusion Relationship» в контексте SEO?

Subsumption (Поглощение/Иерархия) означает отношение родитель-потомок. Например, «Смартфон» поглощает «iPhone». Если объект является iPhone, он обязательно является смартфоном. Exclusion (Исключение) означает несовместимость. Например, «Кроссовки» и «Туфли». Объект не может быть одновременно и тем, и другим (в рамках заданной таксономии). В SEO это важно для понимания того, как Google классифицирует ваш контент и продукты по разным уровням специфичности.

Патент упоминает сложные термины вроде «Junction Tree» и «Message Passing». Что это значит на практике?

Junction Tree и Message Passing — это методы оптимизации, позволяющие Google применять логические правила к тысячам категорий одновременно, не замедляя работу системы. На практике это означает, что Google может масштабировать свой подход к логически согласованной классификации на весь веб. Для SEO-специалиста важно понимать результат (согласованные метки), а не сам механизм оптимизации.

Как этот патент влияет на E-commerce и оптимизацию товаров?

Влияние критическое. Он обеспечивает точное понимание иерархии товаров. Система гарантирует, что конкретная модель телевизора будет распознана и как телевизор, и как электроника. Это повышает шансы товара появиться в выдаче как по узкоспециализированным, так и по общим запросам в Google Images и Google Shopping, при условии правильной оптимизации изображений и контекста.

Что такое «Raw Image Score» и «Final Image Score»?

Raw Image Score — это начальная оценка, которую дает нейронная сеть, анализируя только пиксели. Она может быть неточной или логически противоречивой. Final Image Score — это результат работы описанной системы, скорректированная оценка после применения правил из графа знаний. В поиске используются именно Final Image Scores.

Может ли эта система помочь в ранжировании по запросам, для которых у меня нет прямых изображений (Zero-Shot Classification)?

Патент упоминает такую возможность. Если Google знает отношения между объектами, для которых у него есть обучающие данные (seen), и объектами, для которых данных нет (unseen), система может классифицировать unseen объекты. Для SEO это означает, что создание контента вокруг известных сущностей может помочь Google понять и классифицировать новые или редкие сущности в вашей нише, если они связаны.

Влияет ли этот патент на ранжирование обычных веб-страниц (не Google Images)?

Да, косвенно. Точное понимание содержания изображений на веб-странице вносит вклад в общую оценку релевантности и качества страницы. Если изображения точно классифицированы и соответствуют тематике страницы, это положительный сигнал для ранжирования.

Стоит ли использовать стоковые изображения в контексте этого патента?

Стоковые изображения часто бывают слишком общими или используются на множестве сайтов в разных контекстах. Это может затруднить их уникальную интерпретацию, связанную с вашим контентом. Предпочтительнее использовать уникальные, высококачественные изображения, которые четко иллюстрируют конкретные объекты или концепции, описанные на странице, что облегчит работу системы классификации.

Как обеспечить максимальную пользу от этого механизма для моего сайта?

Ключ — в согласованности сигналов. Убедитесь, что визуальное содержание ваших изображений, текстовый контекст вокруг них (alt-теги, подписи, текст) и структурированные данные (Schema.org) работают вместе, предоставляя четкую и иерархически верную информацию об объектах. Это поможет Google точно классифицировать ваш контент.