Как Google связывает изображения с семантическими сущностями для устранения неоднозначности в поиске по картинкам

Google использует систему для понимания того, что именно изображено на картинке, связывая ее с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).

Описание

Какую задачу решает

Патент решает проблему неоднозначности (ambiguity) при поиске изображений. Традиционный поиск по картинкам часто опирается на текстовые метки (labels), связанные с изображением. Однако эти метки могут быть многозначными. Например, метка «Ягуар» может относиться к животному, автомобилю или спортивной команде. Если система просто выполнит текстовый поиск по этой метке, результаты будут смешанными и неточными. Изобретение устраняет эту неоднозначность, связывая изображения не просто с текстом, а с конкретными, disambiguated semantic entities (семантическими сущностями).

Что запатентовано

Запатентована система для ассоциации изображений с semantic entities и использования этих ассоциаций для улучшения результатов поиска по картинке. Система использует базу данных исходных изображений (source images), которые предварительно связываются с сущностями через анализ их текстовых меток (labels). Когда пользователь загружает целевое изображение (target image) для поиска, система находит похожие исходные изображения и использует связанные с ними сущности для определения наиболее вероятной сущности для целевого изображения.

Как это работает

Система работает в двух режимах: офлайн-обработка и онлайн-поиск.

Офлайн-обработка:

Исходным изображениям присваиваются метки (labels).
Метки агрегируются и распространяются между похожими изображениями (label propagation).
Для каждого изображения создается «документ» (image document), содержащий все его метки.
Этот документ анализируется для связи изображения с одной или несколькими semantic entities (например, статьями Wikipedia/Freebase) с расчетом значения уверенности (confidence value).

Онлайн-поиск:

Система получает целевое изображение (запрос).
Идентифицируются похожие исходные изображения.
Анализируются семантические сущности, связанные с этими похожими изображениями.
Сущностям присваивается оценка (score) на основе схожести изображений, значений уверенности и частоты встречаемости.
Наиболее вероятная сущность используется для предоставления результатов поиска (например, показ страницы сущности или генерация уточненного поискового запроса).

Актуальность для SEO

Высокая. Переход к семантическому поиску (entity-based search) является центральной стратегией Google. Описанный механизм лежит в основе функционирования Визуального Поиска (Visual Search), таких технологий как Google Lens и современного Google Images, позволяя точно идентифицировать объекты, достопримечательности, произведения искусства и продукты.

Важность для SEO

Значительное влияние (8/10). Патент критически важен для понимания того, как Google интерпретирует визуальный контент. Он подчеркивает важность контекста, в котором размещено изображение, поскольку этот контекст часто служит источником исходных labels. Понимание этого механизма необходимо для эффективной оптимизации изображений для распознавания сущностей, что напрямую влияет на видимость в Google Images, Google Lens и блоках смешанной выдачи (Universal Search).

Детальный разбор

Термины и определения

Confidence Value (Значение уверенности): Метрика, представляющая вероятность того, что изображение связано с конкретной семантической сущностью. Используется для ранжирования сущностей.
Image Document (Документ изображения): Структура данных (например, текстовый файл, XML), создаваемая для изображения. Содержит все текстовые метки (labels), связанные с этим изображением, в том числе полученные путем распространения меток.
Image Labels (Метки изображения): Текстовые строки, связанные с исходными изображениями. Могут быть получены из метаданных, окружающего текста, поисковых запросов, ручной разметки или OCR.
Label Propagation (Распространение меток): Процесс агрегации меток между похожими изображениями. Если два изображения визуально похожи, их метки объединяются.
Semantic Entity (Семантическая сущность): Концепция или тема, определенная в рамках конкретной онтологии (например, узел в Knowledge Graph, статья в Wikipedia или Freebase). Сущность имеет уникальный идентификатор и устраняет неоднозначность терминов (например, «Mona Lisa (Movie)» против «Mona Lisa (Painting)»).
Source Image / Reference Image (Исходное / Эталонное изображение): Изображение, хранящееся в базе данных, которое предварительно обработано и связано с метками и семантическими сущностями. Используется для сравнения с целевым изображением.
Target Image / Input Image (Целевое / Входное изображение): Изображение, предоставленное пользователем в качестве поискового запроса (например, загруженное в Google Images или снятое через Google Lens).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс онлайн-поиска по изображению.

Система получает входное изображение (input image) в качестве поискового запроса.
Определяются эталонные изображения (reference images, т.е. source images), которые соответствуют входному изображению. Каждое эталонное изображение уже связано с одной или несколькими сущностями.
Из множества сущностей, связанных с эталонными изображениями, выбираются конкретные сущности для ассоциации с входным изображением.
Идентифицируется итоговая сущность (particular entity) на основе *количества* эталонных изображений, которые связаны с ней (консенсус).
Текстовая информация этой итоговой сущности сконфигурирована так, чтобы устранять неоднозначность (disambiguate) по сравнению с другими сущностями, имеющими общий текст.
Сохраняются данные, связывающие входное изображение с идентифицированной итоговой сущностью.

Claim 3 (Зависимый от 1): Уточняет природу сущностей.

Выбранные сущности описывают концепцию или тему, связанную с определенной онтологией (подтверждает определение Semantic Entity).

Claim 4 (Зависимый от 1): Уточняет механизм выбора сущностей (шаг 3 в Claim 1).

Выбор сущности основывается на оценке уверенности (confidence score), представляющей вероятность того, что данная сущность связана с конкретным эталонным изображением.

Claim 5 (Зависимый от 1): Уточняет механизм выбора сущностей (шаг 3 в Claim 1).

Выбор сущности основывается на оценке схожести (similarity score), представляющей степень сходства эталонного изображения, связанного с сущностью, и входного изображения.

Где и как применяется

Изобретение охватывает как офлайн-процессы индексирования, так и онлайн-процессы ранжирования при обработке визуальных поисковых запросов.

CRAWLING и INDEXING (Сканирование и Индексирование)
На этом этапе собираются source images. Извлекаются визуальные признаки для последующего сравнения схожести. Также извлекаются и присваиваются исходные labels (например, из окружающего текста на веб-страницах, метаданных изображений, ALT-текстов или поисковых запросов, по которым кликали на изображение).

INDEXING (Офлайн-обработка)
Основная часть офлайн-процесса патента происходит здесь:

Сравнение изображений: Система идентифицирует похожие source images.
Распространение меток (Label Propagation): Метки агрегируются между похожими изображениями.
Генерация документов: Создаются Image Documents.
Ассоциация с сущностями: Система взаимодействует с базой данных сущностей (Entity Database, например, Knowledge Graph), чтобы связать документы изображений с Semantic Entities и рассчитать Confidence Values.

RANKING (Ранжирование – Визуальный Поиск)
Это начало онлайн-процесса. Система получает Target Image и выполняет быстрый поиск для нахождения визуально похожих Source Images (Retrieval).

RERANKING / METASEARCH (Переранжирование / Метапоиск)
Финальный этап онлайн-процесса. Система агрегирует Semantic Entities, связанные с найденными похожими изображениями. Происходит оценка (scoring) этих сущностей на основе Similarity Scores, Confidence Values и частоты (консенсуса). Выбирается лучшая сущность, которая используется для формирования ответа пользователю (например, показ панели знаний в Google Lens или уточнение запроса в Google Images).

На что влияет

Типы контента: Влияет на любые изображения, где требуется устранение неоднозначности: продукты (конкретные модели), достопримечательности, произведения искусства, логотипы, известные личности.
Специфические запросы: Критически важен для визуальных поисковых запросов (поиск по загруженному изображению или через камеру).
Ниши: Особенно важно в e-commerce для точной идентификации товаров и в информационных нишах для идентификации объектов и мест.

Когда применяется

Офлайн-процесс: Применяется периодически или постоянно при обработке и индексировании изображений для пополнения базы данных source images и их связей с сущностями.
Онлайн-процесс: Активируется каждый раз, когда пользователь инициирует поиск, используя изображение в качестве запроса (Visual Search).

Пошаговый алгоритм

Процесс А: Офлайн-ассоциация изображений с сущностями

Присвоение меток: Исходным изображениям (source images) в базе данных присваиваются labels (из веб-контекста, запросов, OCR и т.д.).
Агрегация меток: Система идентифицирует похожие исходные изображения (используя визуальные признаки) и выполняет Label Propagation, объединяя метки между ними.
Генерация документов: Для каждого изображения создается Image Document, содержащий все ассоциированные с ним метки.
Идентификация сущностей: Документ анализируется для выявления одной или нескольких Semantic Entities. Это может включать генерацию поисковых запросов на основе меток и поиск в базе данных сущностей.
Извлечение дополнительных данных (Опционально): Из страниц, связанных с сущностями (например, Wikipedia), могут быть извлечены дополнительные метки.
Расчет уверенности: Для каждой пары (изображение, сущность) рассчитывается Confidence Value, указывающий на вероятность правильной ассоциации.
Сохранение: Ассоциации и значения уверенности сохраняются в базе данных.

Процесс Б: Онлайн-поиск по изображению

Получение запроса: Система получает Target Image от пользователя.
Идентификация похожих изображений: Система ищет в базе данных Source Images, которые визуально похожи на Target Image. Может рассчитываться Similarity Score.
Сбор сущностей: Идентифицируются Semantic Entities, связанные с найденными похожими изображениями, вместе с их Confidence Values.
Оценка сущностей (Scoring): Рассчитывается итоговая оценка для каждой сущности. Эта оценка учитывает:
- Частоту появления сущности среди похожих изображений (консенсус, как указано в Claim 1).
- Confidence Values ассоциаций (Claim 4).
- Similarity Scores исходных изображений (Claim 5).
Выбор лучшей сущности: Выбирается сущность (или сущности) с наивысшей итоговой оценкой.
Предоставление результатов: Лучшая сущность используется для ответа на запрос. Это может быть прямая ссылка на страницу сущности или использование сущности для генерации нового, уточненного поискового запроса.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Мультимедиа факторы (Визуальные признаки): Визуальное содержание изображений (пиксельные паттерны, формы, цвета, общие объекты). Это критически важно для определения схожести между Target Image и Source Images, а также для группировки Source Images при распространении меток.
Контентные факторы (Текстовые метки): Image Labels. Патент указывает, что они могут быть получены из:
- Поисковых запросов, в ответ на которые было показано изображение.
- Ручной разметки пользователями.
- Оптического распознавания символов (OCR).
- Веб-документов (HTML), в которые встроены изображения (окружающий текст, ALT-тексты).
Технические факторы (Метаданные): Метаданные изображений (например, местоположение, время, устройство) могут использоваться для идентификации похожих изображений.

Какие метрики используются и как они считаются

Similarity Score (Оценка схожести): Метрика, определяющая, насколько визуально похожи два изображения. Рассчитывается на основе сравнения визуальных признаков.
Confidence Value (Значение уверенности): Вероятностная оценка того, что Source Image правильно связан с конкретной Semantic Entity. Рассчитывается офлайн на основе анализа Image Document.
Entity Score (Итоговая оценка сущности): Рассчитывается онлайн для определения лучшей сущности для Target Image. Является функцией от Similarity Scores похожих изображений, их Confidence Values и частоты встречаемости сущности. В патенте указано, что веса для этой оценки могут определяться динамически.

Выводы

Переход от текста к сущностям в анализе изображений: Патент демонстрирует механизм, позволяющий Google понимать семантическое значение изображения, а не просто его визуальные характеристики или связанные с ним ключевые слова. Цель — связать картинку с узлом в Knowledge Graph.
Критическая роль контекста (Labels): Хотя система использует визуальное сравнение, процесс ассоциации с сущностями сильно зависит от качества и полноты исходных labels. Эти метки в значительной степени формируются из контекста, в котором изображение используется в вебе (окружающий текст, ALT-теги, заголовки).
Распространение меток как механизм обогащения данных: Label Propagation позволяет системе улучшать понимание изображения за счет объединения информации от всех его визуально похожих копий в индексе. Это повышает точность идентификации сущностей.
Устранение неоднозначности как главная цель: Основная задача системы — дисамбигуация. Система спроектирована так, чтобы отличать сущности с одинаковыми названиями (например, «Ягуар» машина от животного), анализируя весь набор меток.
Фундамент для Визуального Поиска: Описанная архитектура является базовой для работы сервисов визуального поиска, таких как Google Lens, где точность идентификации объекта критически важна для пользовательского опыта.

Практика

Best practices (это мы делаем)

Обеспечение четкого и однозначного контекста: Размещайте изображения в релевантном текстовом окружении. Окружающий текст (абзацы, заголовки, подписи) служит основным источником labels для Google. Контекст должен помогать устранить неоднозначность (например, если это фото ягуара, убедитесь, что рядом есть слова «животное», «природа», а не «автомобиль»).
Использование дескриптивных атрибутов: Продолжайте использовать описательные и точные ALT-тексты и имена файлов. Они также являются важными источниками labels.
Применение структурированных данных (Schema.org): Используйте микроразметку для явного указания сущности, которую представляет изображение. Для товаров (Product), рецептов (Recipe), статей (Article) и т.д. указывайте свойство image. Это напрямую помогает Google установить связь между изображением и сущностью, вероятно, повышая Confidence Value.
Качество и четкость изображений: Используйте высококачественные, четкие изображения, на которых главный объект хорошо виден. Это облегчает извлечение визуальных признаков и повышает точность сравнения (Similarity Score) с другими изображениями в индексе Google.

Worst practices (это делать не надо)

Размещение изображений без контекста: Создание страниц, состоящих только из галерей изображений без сопроводительного текста или с минимальным контекстом. Это не дает системе достаточно labels для точной ассоциации с сущностями.
Использование вводящих в заблуждение или неоднозначных меток: Применение неточных ALT-текстов или размещение изображения в нерелевантном контексте может привести к неправильной классификации сущности.
Использование стоковых или слишком общих изображений в качестве основных: Если изображение слишком общее, оно может быть связано с общей сущностью (например, «Кот»), а не с конкретной темой статьи (например, «Бенгальская кошка»), что снижает его ценность в поиске. Использование популярных стоковых фото может привести к «размытию» сигналов из-за множества разных контекстов в вебе.
Блокировка важных изображений от индексации: Это препятствует их использованию в качестве Source Images и не позволяет системе понять контент страницы.

Стратегическое значение

Патент подтверждает, что Image SEO является неотъемлемой частью стратегии семантического (entity-based) продвижения. Изображения — это не просто украшения, а носители данных, которые помогают Google идентифицировать основную сущность страницы и укреплять связи в Knowledge Graph. Стратегия должна быть направлена на то, чтобы помочь Google однозначно и с высокой степенью уверенности связать ваши изображения с правильными семантическими сущностями.

Практические примеры

Сценарий: Оптимизация изображения товара в E-commerce

Задача: Убедиться, что фотография кроссовка «Nike Air Max 90G NRG» будет связана с сущностью именно этой модели, а не с общим понятием «кроссовок» или другой моделью Nike.

Визуальная часть: Загрузить четкие фотографии кроссовка с разных ракурсов, включая фото логотипа и уникальных элементов дизайна. Это улучшит Similarity Score с другими фото этой модели в индексе Google.
Текстовый контекст (Labels): Убедиться, что на странице товара в заголовке H1, описании и ALT-тексте фотографии указано полное название модели «Nike Air Max 90G NRG».
Устранение неоднозначности: В тексте упомянуть характеристики, отличающие эту модель от других (например, «специальная версия для гольфа»).
Структурированные данные: Внедрить разметку Schema.org/Product, указав в ней URL этих фотографий в свойстве image, а также точное название в name, бренд в brand и идентификаторы (GTIN, SKU). Это явно свяжет изображение с сущностью продукта.
Ожидаемый результат: При поиске по этой картинке (например, через Google Lens) система с высокой вероятностью идентифицирует точную модель товара и покажет релевантные результаты (другие магазины, обзоры этой модели), а не общие результаты по кроссовкам.

Вопросы и ответы

Как этот патент связан с Google Lens?

Этот патент описывает фундаментальную технологию, лежащую в основе Google Lens и аналогичных систем визуального поиска. Google Lens получает изображение с камеры (Target Image), находит похожие изображения в базе данных Google (Source Images) и использует описанный в патенте механизм для определения того, какая именно сущность (Semantic Entity) изображена, чтобы предоставить пользователю релевантную информацию.

Что такое «labels» (метки) и откуда Google их берет?

Labels — это текстовые описания, связанные с изображением. Согласно патенту, Google может получать их из различных источников: окружающего текста на веб-странице, метаданных изображения (включая ALT-текст), поисковых запросов, по которым пользователи находят это изображение, ручной разметки, а также с помощью оптического распознавания текста (OCR) на самой картинке.

Как я могу помочь Google связать мое изображение с правильной сущностью?

Ключевым фактором является предоставление четкого и однозначного контекста. Убедитесь, что текст, окружающий изображение на странице, релевантен и помогает устранить возможную неоднозначность. Также критически важно использовать точные ALT-тексты и внедрять структурированные данные (Schema.org), чтобы явно указать системе, какую сущность представляет изображение.

Имеет ли значение качество изображения для этого алгоритма?

Да, имеет. Хотя ассоциация с сущностями зависит от labels, система должна уметь находить похожие изображения (как офлайн для распространения меток, так и онлайн при поиске). Высококачественные и четкие изображения облегчают извлечение визуальных признаков и повышают точность сравнения (Similarity Score), что в итоге улучшает идентификацию сущностей.

Что такое «Semantic Entity» в контексте этого патента?

Semantic Entity — это однозначная концепция или объект реального мира, определенный в базе знаний (например, Knowledge Graph, Wikipedia, Freebase). Это не просто ключевое слово, а конкретный объект с уникальным идентификатором, например, не просто «Mona Lisa», а «Mona Lisa (Painting)» или «Mona Lisa (Movie)».

Что такое «Label Propagation» и зачем это нужно?

Label Propagation (распространение меток) — это процесс, при котором Google находит все визуально похожие копии изображения в своем индексе и объединяет их метки. Это позволяет собрать максимально полное описание изображения, используя информацию со всех сайтов, где оно размещено, что повышает точность связи с семантической сущностью.

Влияет ли этот алгоритм на обычный веб-поиск или только на поиск по картинкам?

В первую очередь, алгоритм напрямую влияет на результаты поиска по картинкам (Google Images) и визуального поиска (Google Lens). Однако, корректная идентификация сущностей на изображениях также помогает Google лучше понять содержание всей веб-страницы, что может косвенно влиять и на ранжирование в обычном веб-поиске.

Как система выбирает лучшую сущность, если похожие изображения связаны с разными сущностями?

Система использует механизм оценки (Scoring). Она учитывает несколько факторов: насколько похоже исходное изображение на целевое (Similarity Score), насколько система уверена в связи исходного изображения с его сущностью (Confidence Value), и как часто эта сущность встречается среди всех похожих изображений (консенсус). Сущность с наивысшей агрегированной оценкой побеждает.

Означает ли этот патент, что ALT-текст стал менее важен?

Нет, наоборот. ALT-текст является одним из важнейших источников исходных labels для изображения. Поскольку весь процесс ассоциации с сущностями начинается с анализа этих меток, точный и описательный ALT-текст критически важен для правильной интерпретации изображения системой.

Как структурированные данные (Schema.org) взаимодействуют с этой системой?

Структурированные данные позволяют вебмастерам явно указать, какую сущность представляет изображение (например, через разметку Product или Article). Это предоставляет системе очень сильный сигнал для связи изображения с сущностью. Вероятно, это значительно повышает Confidence Value этой ассоциации.