Как Google извлекает факты из изображений для наполнения Knowledge Graph

Google использует технологию распознавания объектов на изображениях для обогащения своей Базы Знаний (Knowledge Graph). Система анализирует наборы изображений, определяет, какие сущности часто появляются вместе (например, «Медведь Гризли» и «Рыба»), и выводит отношения между ними (например, «ест»). Эти извлеченные факты затем используются для ответов на поисковые запросы.

Описание

Какую задачу решает

Патент решает задачу расширения и обогащения Базы Знаний (Knowledge Base), такой как Google Knowledge Graph. Традиционные методы часто полагаются на анализ текста веб-страниц. Данное изобретение предлагает метод извлечения структурированных данных (сущностей и отношений между ними) непосредственно из анализа изображений, тем самым открывая новый источник информации для наполнения Базы Знаний.

Что запатентовано

Запатентована система и метод автоматического извлечения фактов из изображений для обогащения Knowledge Base. Система использует технологии распознавания объектов для аннотирования изображений, идентифицирует главную сущность (Object Entity) и связанные с ней сущности (Attribute Entity). Затем система выводит (Infer) отношения между этими сущностями на основе анализа их совместного появления, пространственных отношений или известных фактов и сохраняет эти новые отношения в Базе Знаний.

Как это работает

Ключевой механизм работы системы:

Аннотирование: Изображения (полученные из поиска или базы данных) обрабатываются с помощью технологий распознавания объектов для идентификации сущностей (например, «Медведь», «Рыба», «Вода»).
Идентификация Объекта: Система анализирует набор изображений и выбирает основную сущность (Object Entity), часто основываясь на частоте появления или оценках уверенности (Confidence Scores).
Идентификация Атрибута: Изображения группируются по Object Entity. В этой группе система определяет другие часто встречающиеся сущности (Attribute Entity).
Вывод Отношений: Система выводит отношения между Объектом и Атрибутом. Это может основываться на пространственной близости в изображении (например, рыба во рту у медведя), известных фактах из Knowledge Base или контексте исходного поискового запроса, использованного для поиска изображений.
Сохранение: Новый факт (Объект-Отношение-Атрибут) сохраняется в Knowledge Base и используется для ответов на запросы пользователей.

Актуальность для SEO

Высокая. Построение и обогащение Knowledge Graph является центральным элементом современной поисковой стратегии Google. Использование мультимодальных данных (текст и изображения) для понимания мира активно развивается (например, с помощью моделей типа MUM). Этот патент описывает фундаментальный механизм использования визуальной информации для извлечения структурированных фактов.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в контексте оптимизации под Knowledge Graph и Поиск по картинкам. Он демонстрирует, что визуальное представление сущностей и их взаимодействий на изображениях напрямую влияет на то, какие факты Google узнает о них. Это подчеркивает важность использования четких, релевантных и качественных изображений, которые помогают поисковой системе корректно интерпретировать контекст и взаимосвязи между сущностями на сайте.

Детальный разбор

Термины и определения

Annotation (Аннотация): Метка, присвоенная изображению или его части, которая идентифицирует сущность (Entity), содержащуюся в нем. Присваивается с помощью технологий распознавания объектов.
Attribute Entity (Сущность-Атрибут): Сущность, обнаруженная в аннотированных изображениях, которая часто встречается вместе с Object Entity. Используется для вывода отношений.
Confidence Score (Оценка уверенности): Метрика, отражающая вероятность того, что сущность, идентифицированная аннотацией, действительно присутствует на изображении. Может рассчитываться, например, с помощью алгоритма сопоставления шаблонов (template matching algorithm).
Entity (Сущность): Человек, место, вещь или концепция, идентифицируемая в изображении (например, «Медведь Гризли», «Рыба», «Майкл Джордан»).
Fact Engine (Механизм извлечения фактов): Компонент системы, отвечающий за изучение фактов из изображений. Включает Image Annotator, Inference Engine и Confidence Score Engine.
Inferring a relationship (Вывод отношения): Процесс определения связи между Object Entity и Attribute Entity на основе косвенных факторов, таких как контекст изображения, пространственные отношения, известные факты в Knowledge Base, а не путем извлечения из явного текстового утверждения.
Knowledge Base (База Знаний): Репозиторий структурированных и неструктурированных данных, хранящий сущности, факты о них и отношения между ними (например, Google Knowledge Graph).
Object Entity (Сущность-Объект): Основная сущность, выбранная среди всех сущностей в наборе аннотированных изображений. Используется как основа для группировки изображений и изучения фактов об этой сущности.
Overall Confidence Score (Общая оценка уверенности): Агрегированная оценка уверенности для конкретной сущности по набору изображений. Может рассчитываться как среднее значение Confidence Scores для этой сущности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему для обогащения Knowledge Base.

Система присваивает аннотации изображениям, идентифицируя сущности.
На основе аннотаций выбирается Object Entity.
Идентифицируется подмножество изображений, содержащих этот Object Entity.
Определяется Attribute Entity из этого подмножества. Ключевой момент: Attribute Entity определяется как сущность (отличная от Object Entity), которая встречается наиболее часто в этом подмножестве изображений.
Выводится отношение (inferred fact) между Object Entity и Attribute Entity.
Отношение сохраняется в Knowledge Base.

Claim 10 (Независимый пункт): Описывает метод, схожий с Claim 1, но добавляет использование извлеченных фактов.

Процесс аналогичен Claim 1 (аннотирование, выбор объекта, выбор атрибута на основе частоты, вывод отношения, сохранение).
После сохранения система получает поисковый запрос от пользователя, который ссылается на Object Entity и отношение.
В ответ на запрос система идентифицирует контент, связанный с Attribute Entity, основываясь на сохраненном отношении.
Система предоставляет этот контент пользователю.

Claim 21 (Независимый пункт): Описывает метод изучения фактов из изображений с фокусом на пространственный анализ.

Идентификация Object Entity в аннотированных изображениях.
Определение Attribute Entity (как наиболее часто встречающейся сущности).
Вывод отношения между Object Entity и Attribute Entity основывается по крайней мере на одном spatial relationship (пространственном отношении) между ними в изображениях.
Сохранение отношения в Knowledge Base.

Где и как применяется

Изобретение применяется на этапах сбора и обработки данных для построения и обогащения Knowledge Graph.

CRAWLING – Сканирование и Сбор данных
Система может использовать краулер для сбора изображений из Интернета или использовать существующую базу данных изображений (например, индекс Google Images).

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этом этапе (или в аналогичном процессе построения Knowledge Graph):

Распознавание объектов (Object Recognition): Изображения обрабатываются для извлечения признаков и присвоения аннотаций (Annotations) с помощью Image Annotator.
Вычисление метрик: Рассчитываются Confidence Scores для аннотаций.
Извлечение фактов (Fact Extraction): Inference Engine анализирует аннотации, группирует изображения, идентифицирует Object Entities и Attribute Entities и выводит отношения между ними.
Сохранение данных: Новые факты сохраняются в Knowledge Base (Knowledge Graph).

RANKING / QUNDERSTANDING
Хотя патент не фокусируется на ранжировании, извлеченные факты, сохраненные в Knowledge Base, затем используются системами понимания запросов и ранжирования для предоставления ответов пользователям (например, в Knowledge Panels или прямых ответах).

Входные данные:

Набор изображений (из базы данных или интернета).
Опционально: поисковый запрос, использованный для получения изображений (например, «медведь гризли ест»).
Существующая Knowledge Base (для верификации и использования известных фактов при выводе новых).

Выходные данные:

Новые отношения (факты) в формате (Object Entity, Отношение, Attribute Entity).
Аннотации и Confidence Scores, привязанные к изображениям.

На что влияет

Конкретные типы контента: В первую очередь влияет на изображения и данные в Knowledge Graph.
Специфические запросы: Влияет на информационные запросы, ответы на которые могут быть найдены в Knowledge Graph (например, «Что едят медведи гризли?», «За какую команду играл Майкл Джордан?»).
Конкретные ниши или тематики: Наибольшее влияние в тематиках, где факты могут быть визуально представлены и легко распознаны: животный мир, спорт, знаменитости, достопримечательности, продукты.

Когда применяется

Условия работы алгоритма: Применяется в процессе обработки больших массивов изображений для обогащения Knowledge Base. Это может быть непрерывный процесс или запускаться периодически.
Триггеры активации: Активация процесса вывода отношений происходит, когда система идентифицирует Object Entity и обнаруживает статистически значимое совместное появление Attribute Entity в наборе изображений.
Пороговые значения: Система использует пороги для Confidence Scores (чтобы убедиться в точности распознавания объектов) и пороги частоты совместного появления (чтобы определить значимость атрибута).

Пошаговый алгоритм

Процесс А: Обогащение Базы Знаний из набора изображений

Сбор данных: Получение набора изображений (например, путем краулинга или из базы данных).
Аннотирование: Присвоение аннотаций изображениям для идентификации содержащихся в них сущностей.
Расчет уверенности (Опционально): Вычисление Confidence Scores для каждой аннотации (например, с помощью template matching).
Выбор Object Entity: Анализ аннотаций по всему набору изображений. Выбор Object Entity, например, как сущности, которая встречается в наибольшем количестве изображений (и, опционально, имеет Overall Confidence Score выше порога).
Группировка: Фильтрация и группировка изображений, которые содержат выбранный Object Entity.
Определение Attribute Entity: Анализ сгруппированных изображений. Определение Attribute Entity как сущности (отличной от Object Entity), которая встречается наиболее часто в этой группе.
Вывод отношения (Inference): Определение отношения между Object Entity и Attribute Entity. Это может включать:
- Анализ пространственных отношений (spatial relationship) между сущностями на изображениях.
- Использование известных фактов из Knowledge Base (например, если известно, что Объект А связан с Б, и Б связан с В, можно вывести связь А с В).
Верификация (Опционально): Проверка валидности выведенного отношения с использованием известных фактов в Knowledge Base (например, проверка, что «рыба» является типом «еды», если выведено отношение «ест»).
Сохранение: Сохранение нового отношения (факта) в Knowledge Base.

Процесс Б: Целенаправленный поиск фактов (Альтернативный вариант)

Поиск изображений: Выполнение поиска изображений с использованием запроса, включающего Object Entity и предполагаемое отношение (например, «медведь гризли ест»).
Аннотирование результатов: Аннотирование полученных изображений.
Определение Attribute Entity: Идентификация часто встречающихся Attribute Entities в результатах.
Вывод отношения: Вывод отношения на основе текста поискового запроса и идентифицированных атрибутов (например, вывод, что медведь ест рыбу, если рыба часто встречается в результатах поиска по запросу «медведь ест»).
Сохранение: Сохранение отношения в Knowledge Base.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Изображения): Основной источник данных. Анализируются пиксельные данные изображений.
Контентные факторы (Текст запроса): В одном из вариантов реализации используется текст поискового запроса (например, «grizzly bear eats fish») для поиска изображений и помощи в выводе отношений.
Системные данные (Knowledge Base): Существующие данные в Knowledge Base (известные сущности и факты) используются для помощи в распознавании и, что более важно, для вывода и верификации новых отношений.

Какие метрики используются и как они считаются

Confidence Score: Вероятность корректности аннотации. Патент упоминает возможность использования template matching algorithm, который сравнивает аннотированное изображение с эталонным изображением (template image), например, на основе количества совпадающих пикселей.
Overall Confidence Score: Агрегированная метрика уверенности по набору изображений. Упоминается возможность усреднения Confidence Scores.
Частота появления (Frequency): Количество изображений, в которых появляется сущность. Используется для выбора Object Entity (наиболее частая сущность в общем наборе) и Attribute Entity (наиболее частая сопутствующая сущность в группе).
Пороговые значения (Thresholds): Используются для фильтрации. Например, порог для Confidence Score (чтобы использовать только надежные аннотации) или порог для частоты появления (чтобы атрибут считался значимым).
Spatial Relationship (Пространственное отношение): Метрика, оценивающая расположение сущностей относительно друг друга на изображении (например, близость, включение). Используется для вывода типа отношения (например, «держит в руке», «ест», «находится рядом»).

Выводы

Изображения как источник фактов: Google активно использует анализ изображений не только для поиска по картинкам, но и как самостоятельный источник для извлечения структурированных фактов и наполнения Knowledge Graph.
Статистический анализ совместного появления: Основной механизм идентификации связей — это анализ того, какие сущности часто появляются вместе на изображениях. Сущность, которая чаще всего появляется рядом с главным объектом, выбирается в качестве атрибута.
Важность контекста и пространственных отношений: Система не просто фиксирует наличие сущностей, но и анализирует, как они расположены относительно друг друга (spatial relationships). Это позволяет выводить конкретные типы отношений (например, разницу между «стоит рядом» и «ест»).
Итеративное обогащение и верификация: Система может использовать существующие факты в Knowledge Base для вывода и верификации новых фактов. Также новые факты могут использоваться для запуска нового поиска изображений и дальнейшего обогащения базы.
Роль Confidence Scores: Для обеспечения качества данных система использует Confidence Scores, чтобы отсеивать ошибки распознавания объектов и фокусироваться только на надежно идентифицированных сущностях.

Практика

Best practices (это мы делаем)

Визуализация связей между сущностями: При создании контента используйте изображения, которые четко демонстрируют взаимодействие между ключевыми сущностями вашей тематики. Если вы пишете о медведях гризли, используйте изображения, где они взаимодействуют с рыбой, водой, травой, как описано в патенте. Это помогает Google установить фактические связи.
Использование четких и качественных изображений: Поскольку система полагается на распознавание объектов и Confidence Scores, необходимо использовать высококачественные, недвусмысленные изображения, где ключевые сущности легко идентифицируются. Это повышает вероятность того, что Image Annotator корректно распознает объекты.
Оптимизация изображений для распознавания (Image SEO): Убедитесь, что основные сущности (продукты, люди, локации) являются центральными объектами на фотографиях. Это увеличивает вероятность их выбора в качестве Object Entity или значимого Attribute Entity.
Согласованность мультимедиа и текста: Убедитесь, что изображения на странице подтверждают и визуализируют факты, описанные в тексте. Это создает согласованный сигнал для поисковой системы как при анализе текста, так и при анализе изображений для наполнения Knowledge Base.

Worst practices (это делать не надо)

Использование стоковых или нерелевантных изображений: Использование общих изображений, которые не демонстрируют специфических связей между сущностями, не помогает Google извлекать факты. Система ищет статистически значимые паттерны, которые не возникают при использовании случайных иллюстраций.
Изображения с низким качеством или «зашумленным» фоном: Изображения, на которых сложно распознать объекты или отделить их от фона, могут привести к низким Confidence Scores и игнорированию изображения системой.
Манипуляция визуальными связями: Попытки искусственно создать несуществующие связи путем фотомонтажа (например, размещение продукта рядом со знаменитостью, которая его не использует) могут быть неэффективны, если это противоречит другим источникам или если манипуляция снижает Confidence Score распознавания.

Стратегическое значение

Патент подтверждает стратегическую важность Knowledge Graph и стремление Google использовать все доступные сигналы, включая визуальные, для его наполнения. Для SEO это означает, что оптимизация выходит за рамки текста. Стратегия должна включать управление визуальным представлением сущностей (бренда, продуктов, авторов) в интернете. То, как сущность изображена и с чем она взаимодействует на фотографиях, напрямую влияет на граф знаний о ней.

Практические примеры

Сценарий: Оптимизация карточки товара для нового устройства

Задача: Помочь Google понять, какие аксессуары совместимы с новым устройством.
Действие (на основе патента): Разместить на сайте и в материалах для прессы серию высококачественных фотографий, где устройство (Object Entity) четко показано вместе с совместимым аксессуаром (Attribute Entity). На нескольких фото показать процесс подключения или совместного использования (визуализация spatial relationship).
Механизм работы: Google сканирует изображения. Image Annotator распознает устройство и аксессуар. Из-за частого совместного появления на разных изображениях Inference Engine определяет связь. Анализ пространственных отношений помогает вывести тип связи (например, «совместим с» или «использует»).
Ожидаемый результат: В Knowledge Graph или в результатах поиска по товарам Google быстрее установит факт совместимости устройства и аксессуара.

Сценарий: Укрепление связи автора с тематикой (E-E-A-T)

Задача: Усилить ассоциацию эксперта с его профессиональной областью.
Действие (на основе патента): Регулярно публиковать фотографии эксперта (Object Entity) в контексте его работы: на конференциях (Attribute Entity — Логотип конференции), с его книгами (Attribute Entity — Книга), в лаборатории или офисе.
Механизм работы: Система анализирует изображения эксперта, найденные в сети. Частое появление эксперта с атрибутами его профессиональной деятельности позволяет системе вывести отношения (например, «работает в», «автор», «выступал на»).
Ожидаемый результат: Обогащение Knowledge Panel эксперта релевантными фактами, что укрепляет его авторитетность в глазах Google.

Вопросы и ответы

Как именно система определяет отношения между двумя сущностями на фото? Например, как она понимает, что медведь ест рыбу, а не просто плывет рядом?

Патент указывает на несколько методов вывода отношений (Inferring). Один из ключевых — анализ пространственных отношений (spatial relationships) (Claim 21). Система оценивает расположение объектов относительно друг друга. В примере с медведем (FIG. 3D), близость рыбы ко рту медведя на значительном количестве изображений позволяет вывести отношение «ест». Также система может использовать известные факты из Knowledge Base для верификации: если известно, что рыба — это еда, вероятность отношения «ест» повышается.

Насколько важна уникальность изображений? Поможет ли публикация одного и того же фото на 100 сайтах?

Патент не уточняет, обрабатываются ли дубликаты изображений. Однако механизм полагается на агрегацию данных по набору изображений для выявления статистически значимых паттернов (Attribute Entity выбирается по частоте появления). Логично предположить, что разнообразие визуальных подтверждений факта (разные фото, демонстрирующие одно и то же взаимодействие) усилит уверенность системы в этом факте, по сравнению с одним и тем же изображением.

Что такое Confidence Score и как он влияет на извлечение фактов?

Confidence Score — это оценка вероятности того, что система правильно распознала объект на изображении. Если у аннотации низкий Confidence Score (например, фото размыто), система может ее проигнорировать. Патент описывает использование пороговых значений для Confidence Scores при выборе Object Entity и Attribute Entity. Это значит, что для участия в извлечении фактов изображения должны быть достаточно четкими и качественными для надежного распознавания.

Может ли эта система извлекать факты из видео?

Патент US10534810B1 фокусируется исключительно на анализе статичных изображений (images). Хотя технически схожие принципы распознавания объектов и анализа сцен могут применяться к ключевым кадрам видео, в данном документе обработка видеоконтента не описывается.

Как система определяет, какая сущность является главной (Object), а какая — атрибутом (Attribute)?

Патент предлагает конкретный метод. Сначала анализируется большой набор изображений, и Object Entity часто выбирается как сущность, которая встречается в наибольшем количестве изображений в этом наборе. Затем изображения фильтруются, оставляя только те, где есть этот объект. В этом отфильтрованном наборе Attribute Entity определяется как любая другая сущность, которая также встречается наиболее часто.

Влияет ли текст вокруг изображения (например, alt-текст или подпись) на извлечение фактов по этому патенту?

В основном механизме, описанном в патенте (FIG. 2), анализ текста вокруг изображения не упоминается. Система полагается на визуальный анализ и распознавание объектов. Однако в альтернативном варианте (FIG. 4) упоминается использование текста поискового запроса, который привел к нахождению изображения, для помощи в выводе отношений. Традиционные SEO-атрибуты (alt, title) в этом патенте не описаны как входные данные для Inference Engine.

Как этот патент связан с оптимизацией под Knowledge Graph?

Связь прямая. Патент называется «Системы и методы для обогащения Базы Знаний». Цель описанной системы — находить новые факты (сущности и их отношения) и добавлять их в Knowledge Base (Knowledge Graph). Понимая, как Google использует изображения для изучения фактов, SEO-специалисты могут оптимизировать визуальный контент так, чтобы помочь Google корректно наполнять Knowledge Graph данными о своем бренде, продуктах или персонах.

Может ли система ошибочно связать сущности, которые случайно оказались рядом на многих фото?

Да, такая вероятность существует, так как механизм основан на частоте совместного появления. Однако патент предусматривает механизмы защиты: использование Confidence Scores для точности распознавания и возможность верификации выведенных отношений с использованием уже известных фактов из Knowledge Base. Если выведенное отношение противоречит здравому смыслу или известным фактам, оно может быть отклонено.

Что важнее для SEO в контексте этого патента: количество изображений или их качество?

Важны оба аспекта. Качество критично для того, чтобы объекты были распознаны с высоким Confidence Score и преодолели пороговые значения. Количество и разнообразие изображений необходимы для того, чтобы система могла выявить статистически значимые паттерны совместного появления сущностей и надежно вывести отношения между ними.

Применяется ли этот механизм для анализа изображений, сгенерированных ИИ?

Патент не делает различий между источниками изображений. Если изображение доступно системе (например, проиндексировано в интернете) и технология распознавания объектов может идентифицировать сущности на нем, оно будет обработано. Качество и реалистичность сгенерированного изображения будут влиять на Confidence Score распознавания.