
Google использует систему для понимания того, что именно изображено на картинке, связывая её с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).
Патент решает проблему неоднозначности (ambiguity) при поиске изображений. Традиционный поиск по картинкам часто опирается на текстовые метки (labels), связанные с изображением. Однако эти метки могут быть многозначными. Например, метка «Ягуар» может относиться к животному, автомобилю или спортивной команде. Если система просто выполнит текстовый поиск по этой метке, результаты будут смешанными и неточными. Изобретение устраняет эту неоднозначность, связывая изображения не просто с текстом, а с конкретными, disambiguated semantic entities (семантическими сущностями).
Запатентована система для ассоциации изображений с semantic entities и использования этих ассоциаций для улучшения результатов поиска по картинке. Система использует базу данных исходных изображений (source images), которые предварительно связываются с сущностями через анализ их текстовых меток (labels). Когда пользователь загружает целевое изображение (target image) для поиска, система находит похожие исходные изображения и использует связанные с ними сущности для определения наиболее вероятной сущности для целевого изображения.
Система работает в двух режимах: офлайн-обработка и онлайн-поиск.
Офлайн-обработка:
labels).label propagation).image document), содержащий все его метки.semantic entities (например, статьями Wikipedia/Freebase) с расчетом значения уверенности (confidence value).Онлайн-поиск:
score) на основе схожести изображений, значений уверенности и частоты встречаемости.Высокая. Переход к семантическому поиску (entity-based search) является центральной стратегией Google. Описанный механизм лежит в основе функционирования Визуального Поиска (Visual Search), таких технологий как Google Lens и современного Google Images, позволяя точно идентифицировать объекты, достопримечательности, произведения искусства и продукты.
Значительное влияние (8/10). Патент критически важен для понимания того, как Google интерпретирует визуальный контент. Он подчеркивает важность контекста, в котором размещено изображение, поскольку этот контекст часто служит источником исходных labels. Понимание этого механизма необходимо для эффективной оптимизации изображений для распознавания сущностей, что напрямую влияет на видимость в Google Images, Google Lens и блоках смешанной выдачи (Universal Search).
labels), связанные с этим изображением, в том числе полученные путем распространения меток.Claim 1 (Независимый пункт): Описывает основной процесс онлайн-поиска по изображению.
input image) в качестве поискового запроса.reference images, т.е. source images), которые соответствуют входному изображению. Каждое эталонное изображение уже связано с одной или несколькими сущностями.particular entity) на основе *количества* эталонных изображений, которые связаны с ней (консенсус).disambiguate) по сравнению с другими сущностями, имеющими общий текст.Claim 3 (Зависимый от 1): Уточняет природу сущностей.
Выбранные сущности описывают концепцию или тему, связанную с определенной онтологией (подтверждает определение Semantic Entity).
Claim 4 (Зависимый от 1): Уточняет механизм выбора сущностей (шаг 3 в Claim 1).
Выбор сущности основывается на оценке уверенности (confidence score), представляющей вероятность того, что данная сущность связана с конкретным эталонным изображением.
Claim 5 (Зависимый от 1): Уточняет механизм выбора сущностей (шаг 3 в Claim 1).
Выбор сущности основывается на оценке схожести (similarity score), представляющей степень сходства эталонного изображения, связанного с сущностью, и входного изображения.
Изобретение охватывает как офлайн-процессы индексирования, так и онлайн-процессы ранжирования при обработке визуальных поисковых запросов.
CRAWLING и INDEXING (Сканирование и Индексирование)
На этом этапе собираются source images. Извлекаются визуальные признаки для последующего сравнения схожести. Также извлекаются и присваиваются исходные labels (например, из окружающего текста на веб-страницах, метаданных изображений, ALT-текстов или поисковых запросов, по которым кликали на изображение).
INDEXING (Офлайн-обработка)
Основная часть офлайн-процесса патента происходит здесь:
source images.Image Documents.Entity Database, например, Knowledge Graph), чтобы связать документы изображений с Semantic Entities и рассчитать Confidence Values.RANKING (Ранжирование – Визуальный Поиск)
Это начало онлайн-процесса. Система получает Target Image и выполняет быстрый поиск для нахождения визуально похожих Source Images (Retrieval).
RERANKING / METASEARCH (Переранжирование / Метапоиск)
Финальный этап онлайн-процесса. Система агрегирует Semantic Entities, связанные с найденными похожими изображениями. Происходит оценка (scoring) этих сущностей на основе Similarity Scores, Confidence Values и частоты (консенсуса). Выбирается лучшая сущность, которая используется для формирования ответа пользователю (например, показ панели знаний в Google Lens или уточнение запроса в Google Images).
source images и их связей с сущностями.Процесс А: Офлайн-ассоциация изображений с сущностями
source images) в базе данных присваиваются labels (из веб-контекста, запросов, OCR и т.д.).Label Propagation, объединяя метки между ними.Image Document, содержащий все ассоциированные с ним метки.Semantic Entities. Это может включать генерацию поисковых запросов на основе меток и поиск в базе данных сущностей.Confidence Value, указывающий на вероятность правильной ассоциации.Процесс Б: Онлайн-поиск по изображению
Target Image от пользователя.Source Images, которые визуально похожи на Target Image. Может рассчитываться Similarity Score.Semantic Entities, связанные с найденными похожими изображениями, вместе с их Confidence Values.Confidence Values ассоциаций (Claim 4).Similarity Scores исходных изображений (Claim 5).Система использует следующие типы данных:
Target Image и Source Images, а также для группировки Source Images при распространении меток.Image Labels. Патент указывает, что они могут быть получены из: Source Image правильно связан с конкретной Semantic Entity. Рассчитывается офлайн на основе анализа Image Document.Target Image. Является функцией от Similarity Scores похожих изображений, их Confidence Values и частоты встречаемости сущности. В патенте указано, что веса для этой оценки могут определяться динамически.labels. Эти метки в значительной степени формируются из контекста, в котором изображение используется в вебе (окружающий текст, ALT-теги, заголовки).Label Propagation позволяет системе улучшать понимание изображения за счет объединения информации от всех его визуально похожих копий в индексе. Это повышает точность идентификации сущностей.labels для Google. Контекст должен помогать устранить неоднозначность (например, если это фото ягуара, убедитесь, что рядом есть слова «животное», «природа», а не «автомобиль»).labels.image. Это напрямую помогает Google установить связь между изображением и сущностью, вероятно, повышая Confidence Value.Similarity Score) с другими изображениями в индексе Google.labels для точной ассоциации с сущностями.Source Images и не позволяет системе понять контент страницы.Патент подтверждает, что Image SEO является неотъемлемой частью стратегии семантического (entity-based) продвижения. Изображения — это не просто украшения, а носители данных, которые помогают Google идентифицировать основную сущность страницы и укреплять связи в Knowledge Graph. Стратегия должна быть направлена на то, чтобы помочь Google однозначно и с высокой степенью уверенности связать ваши изображения с правильными семантическими сущностями.
Сценарий: Оптимизация изображения товара в E-commerce
Задача: Убедиться, что фотография кроссовка «Nike Air Max 90G NRG» будет связана с сущностью именно этой модели, а не с общим понятием «кроссовок» или другой моделью Nike.
Similarity Score с другими фото этой модели в индексе Google.image, а также точное название в name, бренд в brand и идентификаторы (GTIN, SKU). Это явно свяжет изображение с сущностью продукта.Как этот патент связан с Google Lens?
Этот патент описывает фундаментальную технологию, лежащую в основе Google Lens и аналогичных систем визуального поиска. Google Lens получает изображение с камеры (Target Image), находит похожие изображения в базе данных Google (Source Images) и использует описанный в патенте механизм для определения того, какая именно сущность (Semantic Entity) изображена, чтобы предоставить пользователю релевантную информацию.
Что такое «labels» (метки) и откуда Google их берет?
Labels — это текстовые описания, связанные с изображением. Согласно патенту, Google может получать их из различных источников: окружающего текста на веб-странице, метаданных изображения (включая ALT-текст), поисковых запросов, по которым пользователи находят это изображение, ручной разметки, а также с помощью оптического распознавания текста (OCR) на самой картинке.
Как я могу помочь Google связать мое изображение с правильной сущностью?
Ключевым фактором является предоставление четкого и однозначного контекста. Убедитесь, что текст, окружающий изображение на странице, релевантен и помогает устранить возможную неоднозначность. Также критически важно использовать точные ALT-тексты и внедрять структурированные данные (Schema.org), чтобы явно указать системе, какую сущность представляет изображение.
Имеет ли значение качество изображения для этого алгоритма?
Да, имеет. Хотя ассоциация с сущностями зависит от labels, система должна уметь находить похожие изображения (как офлайн для распространения меток, так и онлайн при поиске). Высококачественные и четкие изображения облегчают извлечение визуальных признаков и повышают точность сравнения (Similarity Score), что в итоге улучшает идентификацию сущностей.
Что такое «Semantic Entity» в контексте этого патента?
Semantic Entity — это однозначная концепция или объект реального мира, определенный в базе знаний (например, Knowledge Graph, Wikipedia, Freebase). Это не просто ключевое слово, а конкретный объект с уникальным идентификатором, например, не просто «Mona Lisa», а «Mona Lisa (Painting)» или «Mona Lisa (Movie)».
Что такое «Label Propagation» и зачем это нужно?
Label Propagation (распространение меток) — это процесс, при котором Google находит все визуально похожие копии изображения в своем индексе и объединяет их метки. Это позволяет собрать максимально полное описание изображения, используя информацию со всех сайтов, где оно размещено, что повышает точность связи с семантической сущностью.
Влияет ли этот алгоритм на обычный веб-поиск или только на поиск по картинкам?
В первую очередь, алгоритм напрямую влияет на результаты поиска по картинкам (Google Images) и визуального поиска (Google Lens). Однако, корректная идентификация сущностей на изображениях также помогает Google лучше понять содержание всей веб-страницы, что может косвенно влиять и на ранжирование в обычном веб-поиске.
Как система выбирает лучшую сущность, если похожие изображения связаны с разными сущностями?
Система использует механизм оценки (Scoring). Она учитывает несколько факторов: насколько похоже исходное изображение на целевое (Similarity Score), насколько система уверена в связи исходного изображения с его сущностью (Confidence Value), и как часто эта сущность встречается среди всех похожих изображений (консенсус). Сущность с наивысшей агрегированной оценкой побеждает.
Означает ли этот патент, что ALT-текст стал менее важен?
Нет, наоборот. ALT-текст является одним из важнейших источников исходных labels для изображения. Поскольку весь процесс ассоциации с сущностями начинается с анализа этих меток, точный и описательный ALT-текст критически важен для правильной интерпретации изображения системой.
Как структурированные данные (Schema.org) взаимодействуют с этой системой?
Структурированные данные позволяют вебмастерам явно указать, какую сущность представляет изображение (например, через разметку Product или Article). Это предоставляет системе очень сильный сигнал для связи изображения с сущностью. Вероятно, это значительно повышает Confidence Value этой ассоциации.

Семантика и интент
Мультимедиа
SERP

Семантика и интент
Ссылки
Knowledge Graph

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент

Семантика и интент
Мультимедиа
SERP

Персонализация
Поведенческие сигналы
Local SEO

Поведенческие сигналы
Персонализация
Local SEO

Knowledge Graph
Семантика и интент
EEAT и качество

Ссылки
Структура сайта
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

Свежесть контента
Поведенческие сигналы
SERP
