
Google использует архитектуру для обработки визуальных запросов (изображений), которая одновременно отправляет изображение в несколько параллельных поисковых систем (распознавание текста, лиц, объектов, штрихкодов). Система агрегирует результаты, часто создавая интерактивный документ, где разные части изображения связаны с соответствующими результатами поиска, и использует обратную связь для обучения.
Патент решает проблему обработки сложных визуальных запросов (изображений, используемых в качестве запроса), которые могут содержать разнородные элементы (например, текст, лицо, продукт и штрих-код на одной фотографии). Традиционный текстовый поиск не способен интерпретировать такой контент. Изобретение предлагает инфраструктуру для эффективной идентификации различных компонентов внутри одного изображения и предоставления релевантной информации по каждому из них.
Запатентована архитектура и метод для обработки визуальных запросов. Ключевым элементом является система, которая принимает изображение и одновременно (параллельно) отправляет его в несколько специализированных поисковых систем (Parallel Search Systems), таких как распознавание текста (OCR), лиц, продуктов, штрихкодов и объектов. Front End Server агрегирует результаты и использует обратную связь от пользователей (user annotations) для улучшения будущих поисков.
Система работает следующим образом:
Front End Visual Query Processing Server принимает визуальный запрос (например, через Google Lens).OCR Search System, Face Recognition Search System, Image to Terms Search System и т.д.).Interactive Results Document. Изображение сегментируется (partitioning), и для распознанных объектов создаются визуальные идентификаторы (например, рамки Bounding Box), связанные ссылками с результатами поиска.Высокая. Патент описывает фундаментальную архитектуру, лежащую в основе современных систем визуального поиска, таких как Google Lens. Архитектурный принцип параллельной обработки изображений различными специализированными движками и использование обратной связи для обучения остаются стандартом для мультимодального анализа контента.
Патент имеет высокое стратегическое значение для SEO (8/10), определяя основы Визуальной Поисковой Оптимизации (VSO). Он демонстрирует, что Google не воспринимает изображение как единое целое, а разбирает его на компоненты (текст, объекты, лица) и обрабатывает их независимо специализированными движками. Понимание этой архитектуры критически важно для создания и оптимизации изображений, которые будут корректно интерпретированы и высоко ранжированы в результатах визуального поиска.
Interactive Results Document, который выделяет распознанную подобласть запроса. Примеры: Bounding Box (рамка) или Label (метка).Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса, содержащего несколько объектов разного типа, и использование обратной связи для улучшения поиска.
partitioning) на регионы, где каждый регион содержит один из объектов.user annotations) к конкретному результату. Аннотация указывает на действие пользователя, определяющее релевантность (или ее отсутствие) результата запросу.Ядром изобретения является комбинация трех элементов: 1) сегментация сложного изображения на компоненты разных типов; 2) их одновременное распознавание параллельными системами; 3) использование обратной связи пользователя (аннотаций) для влияния на результаты будущих поисков (машинное обучение).
Зависимые пункты (например, 3, 6): Уточняют природу аннотаций. Это может быть пользовательское описание, отзыв (user review), исправление результата (user correction) или явное выделение пользователем области изображения с идентификацией объекта.
Эта архитектура является фреймворком для визуального поиска (например, Google Lens) и затрагивает несколько слоев поисковой архитектуры.
INDEXING – Индексирование и извлечение признаков
Архитектура предполагает наличие предварительно созданных специализированных баз данных для каждого типа поиска (Facial Image Database, Image Search Database). Процессы индексирования наполняют эти базы данных визуальными признаками.
QUNDERSTANDING – Понимание Запросов
Весь процесс направлен на интерпретацию визуального ввода. Система трансформирует пиксели в структурированные данные (текст, лицо, продукт). Это включает разделение (partitioning) изображения на регионы интереса.
RANKING – Ранжирование (Специализированное)
Каждая из параллельных систем (Parallel Search Systems) — например, OCR Search System или Product Recognition System — выполняет собственный поиск и ранжирование в своей специализированной базе данных.
METASEARCH – Метапоиск и Смешивание
Front End Visual Query Processing Server действует как оркестратор (Metasearch). Он агрегирует результаты из разных специализированных "вертикалей" (OCR, Лица, Объекты) и смешивает их в единый ответ. Это может включать создание Interactive Results Document.
RERANKING – Переранжирование
После сбора результатов Front End Server выполняет финальное ранжирование и фильтрацию. На этом этапе также применяются данные, полученные из предыдущих пользовательских аннотаций (как указано в Claim 1), для корректировки результатов.
Входные данные:
Выходные данные:
Interactive Results Document с визуальными идентификаторами (Bounding Boxes или Labels) и ссылками.Алгоритм применяется каждый раз, когда пользователь отправляет визуальный запрос в систему, поддерживающую данную архитектуру.
Процесс А: Обработка визуального запроса
Front End Server. Клиент может предварительно выполнить локальный анализ (например, обнаружение лиц или штрихкодов) и отправить эти данные вместе с запросом.Parallel Search Systems (OCR, Распознавание лиц, Объектов, Продуктов и т.д.).Bounding Boxes или Labels) и встраивает ссылки на соответствующие результаты.Процесс Б: Обработка обратной связи (Claim 1)
Query & Annotation Database.place recognition).user annotations) и выбор результатов (selection). Включает исправления результатов, отзывы, выделение областей пользователем. Это критически важный вход для обучения системы (Claim 1).Патент фокусируется на архитектуре, а не на конкретных метриках ранжирования, но упоминает следующие концепции:
partitioning) изображение на составляющие его сущности (текст, продукт, логотип) и найти информацию по каждой из них независимо.Interactive Results Document с кликабельными областями (Bounding Boxes) является ключевым механизмом, позволяющим пользователю уточнить свой интент, если изображение содержит несколько объектов интереса.Term Query Server System), например, распознавая текст через OCR и автоматически связывая его с результатами текстового поиска (Compound Search Result).Рекомендации направлены на оптимизацию под визуальный поиск (VSO), основанную на этой архитектуре параллельной обработки.
partitioning) и распознавания специализированными движками (Product Recognition).OCR Search System корректно его обработал и извлек сущности.Barcode Recognition является одной из параллельных систем. Логотипы должны быть четкими для распознавания.OCR вывески для точной идентификации места (place recognition).OCR, из-за чего система не сможет извлечь текстовую информацию из изображения.Этот патент подтверждает критическую важность Визуальной Поисковой Оптимизации (VSO) и является основой для Google Lens. По мере роста популярности поиска через камеру, оптимизация визуальных активов становится неотъемлемой частью SEO. Стратегия должна учитывать, как машины "видят" и категоризируют объекты, и фокусироваться на создании контента, который легко интерпретируется различными параллельными поисковыми системами Google.
Сценарий: Оптимизация карточки товара для визуального поиска (E-commerce)
Product Recognition System анализирует форму и цвета, идентифицируя модель.OCR Search System считывает название модели и бренд с упаковки.Barcode Recognition System считывает штрихкод.Front End Server агрегирует эти сильные сигналы от разных систем. Пользователю возвращается Interactive Results Document с рамками вокруг кроссовка и штрихкода. В результатах с высокой вероятностью будет ссылка на оптимизированную карточку товара, так как система точно идентифицировала продукт по нескольким параметрам.Является ли эта архитектура тем, что мы сейчас знаем как Google Lens?
Да, этот патент описывает фундаментальную архитектуру, которая лежит в основе работы Google Lens и подобных сервисов визуального поиска. Он объясняет, как Google принимает изображение и использует несколько специализированных движков одновременно (параллельно) для его анализа, а затем представляет результаты в интерактивном формате.
Что означает "параллельная обработка" для SEO оптимизации изображений?
Это означает, что одно изображение оценивается по разным критериям одновременно: как объект, как текст, как логотип и т.д. Для SEO важно оптимизировать изображение комплексно. Нужно думать о машиночитаемости для каждого из этих специализированных движков: обеспечивать четкость объекта для Object Recognition и читаемость текста для OCR.
Как система решает, какой результат показать первым, если распознаны и текст, и объект?
Патент указывает, что Front End Server выполняет ранжирование, используя оценки релевантности (relevance scores) от каждого параллельного движка. Если движок распознавания продуктов вернул результат с очень высокой уверенностью, а OCR с низкой, продукт будет показан выше. Также система часто использует Interactive Results Document, чтобы показать все результаты одновременно через кликабельные области.
Что такое Interactive Results Document и как он влияет на пользователя?
Это интерфейс, где на исходное изображение накладываются кликабельные области (рамки или метки) вокруг распознанных объектов. Это критически важно для сложных изображений. Это позволяет пользователю уточнить интент, выбрав конкретный объект, который его интересует (например, конкретный предмет мебели на фото комнаты), вместо прокрутки длинного списка разнородных результатов.
Что патент говорит об оптимизации текста на изображениях (OCR)?
OCR является обязательным компонентом архитектуры. Это подчеркивает важность читаемости текста на любых визуальных активах. Кроме того, упоминается Named Entity Recognition как пост-процесс OCR: система ищет в распознанном тексте важные сущности (бренды, имена) и может использовать их для дополнительного текстового поиска, обогащая выдачу.
Какую роль играет обратная связь от пользователей (Аннотации) в этой системе?
Огромную. Claim 1 патента явно фокусируется на этом. Система собирает данные о том, какие результаты выбирают пользователи, и как они их аннотируют (например, исправляют ошибки распознавания или добавляют описания). Эта обратная связь (user annotations) используется для машинного обучения и повышения точности будущих результатов поиска.
Упоминается ли использование геолокации?
Да, патент упоминает, что геолокационная информация (например, GPS данные с устройства пользователя) может использоваться для помощи в распознавании мест (place recognition). Это критически важно для оптимизации локального бизнеса под визуальный поиск — система может связать внешний вид вашего заведения с его местоположением.
Что такое предварительная обработка на стороне клиента и зачем она нужна?
Это когда само устройство пользователя (например, телефон) анализирует изображение до отправки на сервер. Оно может распознать базовые типы контента, например, определить наличие штрих-кода или лица. Это может ускорить обработку на сервере или позволить серверу сфокусировать ранжирование на результатах соответствующего типа.
Как этот патент влияет на стратегию E-commerce SEO?
Он делает Визуальную Поисковую Оптимизацию (VSO) обязательной частью стратегии. Необходимо обеспечить, чтобы изображения продуктов были максимально чистыми и четкими для распознавания движками Product Recognition, OCR и Barcode Recognition. Четкая идентификация продукта через визуальный поиск напрямую ведет к возможности его покупки.
Что такое система "Image-to-Terms"?
Это система, которая сопоставляет визуальные элементы с текстовыми терминами. Она может распознавать конкретные объекты или категории объектов. Она помогает системе понять семантическое значение того, что изображено на картинке, связывая визуальные паттерны со словами.

Мультимедиа
Ссылки

Мультимедиа
Индексация
Google Shopping

Мультимедиа

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Индексация
Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

EEAT и качество
Антиспам
SERP

Ссылки
Индексация
Техническое SEO

Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы
