Как Google обрабатывает визуальные запросы (Google Lens), используя параллельные системы распознавания объектов, лиц и текста

Патент Google, описывающий архитектуру системы визуального поиска. Изображение, используемое как запрос, одновременно отправляется в несколько специализированных систем (распознавание текста, лиц, объектов, штрихкодов). Результаты агрегируются и могут быть представлены в виде интерактивного документа, где элементы изображения связаны с конкретными результатами поиска.

Описание

Какую задачу решает

Патент решает проблему интерпретации и ответа на запросы, представленные в виде изображений (Visual Query), например, фотографии с мобильного устройства. Система направлена на обработку сложных изображений, содержащих разнородный контент (текст, лица, объекты, штрихкоды), путем одновременного применения нескольких специализированных технологий визуального распознавания, устраняя необходимость пользователя вербально описывать увиденное.

Что запатентовано

Запатентована архитектура системы (Visual Query Server System) для обработки визуальных запросов. Суть изобретения — в использовании Front End Visual Query Processing Server, который оркестрирует множество параллельных поисковых систем (Parallel Search Systems). Изображение одновременно направляется в специализированные подсистемы (OCR, распознавание лиц, объектов, продуктов), после чего результаты агрегируются и ранжируются.

Как это работает

Система работает следующим образом:

Получение запроса: Клиентское устройство отправляет изображение на фронтенд-сервер.
(Опционально) Предварительная обработка: Клиент может локально проанализировать изображение (Local Image Analysis) для определения типа контента (например, обнаружить штрих-код) и, возможно, предложить пользователю соответствующую поисковую вертикаль.
Параллельный поиск: Сервер направляет запрос одновременно в несколько систем (OCR, Facial Recognition, Product Recognition, Image-to-Terms и т.д.).
Агрегация и Ранжирование: Сервер собирает результаты и оценки релевантности (Search Scores) от каждой системы, фильтрует и ранжирует их.
Форматирование: Результаты часто форматируются как Interactive Results Document, где распознанные объекты на исходном изображении выделены (например, рамками Bounding Boxes) и снабжены ссылками на соответствующие результаты.

Актуальность для SEO

Крайне высокая. Описанная архитектура является фундаментом современных систем визуального поиска, таких как Google Lens. Технология активно используется и развивается, являясь ключевым элементом мобильного поиска и взаимодействия с пользователем через камеру.

Важность для SEO

Патент имеет высокое стратегическое значение (75/100). Влияние на традиционное веб-SEO (ранжирование сайтов) минимально. Однако патент критически важен для Визуального Поиска (Visual Search SEO) и Image SEO. Он описывает механизмы, с помощью которых Google интерпретирует сущности внутри изображений. Для обеспечения видимости в средах визуального поиска (например, Google Lens), особенно в E-commerce и локальном поиске, крайне важно наличие четких, распознаваемых визуальных элементов (продукты, логотипы, текст).

Детальный разбор

Термины и определения

Visual Query (Визуальный запрос): Изображение (фотография, скриншот, скан, кадр видео), которое подается как запрос в поисковую систему.
Front End Visual Query Processing Server (Фронтенд-сервер обработки визуальных запросов): Центральный компонент (оркестратор), который принимает запрос, распределяет его по параллельным системам, агрегирует и форматирует результаты.
Parallel Search Systems (Параллельные поисковые системы): Множество специализированных систем, работающих одновременно, каждая из которых реализует отдельный процесс визуального поиска (например, OCR, распознавание лиц).
OCR (Optical Character Recognition): Оптическое распознавание символов. Процесс извлечения текста из изображения.
Image-to-Terms Search System (Система поиска «Изображение в Термины»): Система, которая распознает объекты или категории объектов на изображении и возвращает соответствующие текстовые термины.
Image-Match Process (Процесс сопоставления изображений): Общий термин для систем визуального поиска, кроме OCR (например, распознавание лиц, объектов, продуктов).
Interactive Results Document (Интерактивный документ с результатами): Формат ответа, в котором исходное изображение аннотировано визуальными идентификаторами, связанными с результатами поиска.
Visual Identifier (Визуальный идентификатор): Элемент интерфейса в Interactive Results Document, выделяющий распознанную подобласть (sub-portion). Примеры: Bounding Box или Label.
Bounding Box (Ограничивающая рамка): Визуальный идентификатор, который очерчивает распознанную подобласть.
Local Image Analysis (Локальный анализ изображения): Опциональный процесс предварительной обработки изображения на клиентском устройстве для распознавания типа контента перед отправкой на сервер.
Query & Annotation Database (База данных запросов и аннотаций): Хранилище для логирования запросов и обратной связи пользователя (аннотаций, выбора результатов) для улучшения системы.

Ключевые утверждения (Анализ Claims)

Примечание: В публикации US20190012334A1 пункты формулы изобретения (Claims) 1-24 отмечены как «(canceled)». Анализ должен учитывать как общее описание архитектуры (Description), так и активные пункты 25-44.

Анализ ядра изобретения (на основе Description и Abstract):

Основная архитектура, описанная в патенте, детализирует автоматизированный параллельный процесс на сервере:

Система получает визуальный запрос.
Запрос обрабатывается путем одновременной отправки в несколько параллельных поисковых систем.
Набор систем включает как минимум: OCR, распознавание лиц (facial recognition) и еще один процесс query-by-image (например, распознавание продуктов или объектов).
Система агрегирует результаты от этих систем и отправляет ответ клиенту, часто в формате Interactive Results Document.

Анализ активных Claims (25-44):

Эти пункты защищают более специфический механизм, связанный с определением типа изображения и взаимодействием с пользователем (что часто происходит на клиенте):

Claim 25 (Независимый пункт):

Система получает цифровое изображение.
Система определяет, что получен particular type of image (определенный тип изображения), который ассоциирован с particular search engine (определенной поисковой вертикалью, например, Shopping). Это определение основано на pre-processing information (Claim 26).
Система предоставляет рекомендацию выбрать эту конкретную поисковую систему.
Система получает выбор пользователя.
В ответ на выбор система выполняет поиск с помощью выбранной системы и предоставляет результаты.

Защищенное изобретение в этих конкретных пунктах (Claims 25-44) — это механизм предварительного анализа (который может быть Local Image Analysis), который может использовать базовый OCR или поиск по картинкам для определения типа контента и предложения пользователю уточнить свой интент, выбрав соответствующую вертикаль поиска. Это отличается от основного описания, которое фокусируется на автоматической параллельной обработке на сервере.

Где и как применяется

Изобретение описывает архитектуру вертикали Визуального Поиска (например, Google Lens).

CRAWLING & INDEXING – Сканирование, Индексирование (Предварительный этап)
Компоненты архитектуры полагаются на предварительно созданные базы данных и индексы. Facial Image Database, OCR Database, Image Search Database (содержащая данные о продуктах, логотипах, объектах) должны быть заполнены и проиндексированы заранее.

QUNDERSTANDING – Понимание Запросов (Визуальное)
Процесс анализа входящего изображения для понимания его компонентов. Это может включать Local Image Analysis на клиенте (согласно Claims 25-44) для предварительной классификации типа контента.

METASEARCH – Метапоиск и Смешивание
Основной этап работы, описанный в Description. Front End Visual Query Processing Server действует как метапоисковая система. Он оркестрирует запрос к различным специализированным системам (Вертикалям визуального распознавания) и смешивает (blending) результаты из этих источников.

RERANKING – Переранжирование
Фронтенд-сервер выполняет агрегацию и переранжирование результатов от параллельных систем. Он использует Results Filtering и Results Ranking & Formatting для определения итоговой выдачи и создания Interactive Results Document.

Входные данные:

Визуальный запрос (изображение или кадр видео).
(Опционально) Данные предварительной обработки от клиента (тип контента, уверенность).
(Опционально) Геолокационные данные (GPS) для помощи в распознавании мест (place recognition).

Выходные данные:

Список агрегированных результатов поиска.
(Часто) Interactive Results Document с визуальными идентификаторами (Bounding Boxes или Labels) и ссылками.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, который можно сфотографировать и распознать: продукты, печатные материалы (OCR), лица, логотипы, штрих-коды, достопримечательности.
Конкретные ниши или тематики: Критически важно для E-commerce (распознавание продуктов), локального поиска (распознавание витрин, вывесок, мест), медиа (распознавание лиц, обложек).

Когда применяется

Условия работы: Алгоритм активируется каждый раз, когда пользователь подает визуальный запрос через соответствующий интерфейс (например, Google Lens).
Триггеры активации: Подача визуального запроса. Архитектура построена так, чтобы запускать все системы параллельно (shotgun approach) для анализа входящего изображения.

Пошаговый алгоритм

Этап 1: Получение и предварительная обработка

Клиентское приложение получает визуальный запрос.
(Опционально) Клиент выполняет локальный анализ (Local image analysis) для распознавания типов контента (например, штрих-код, лицо).
(Опционально, согласно Claims 25-44) Клиенту может быть предложено выбрать предпочтительную поисковую систему на основе распознанного типа.
Запрос отправляется на Front End Visual Query Processing Server.

Этап 2: Параллельная обработка (Сервер)

Сервер распределяет запрос одновременно в несколько Parallel Search Systems (OCR, Facial Recognition, Product Recognition, Image-to-Terms и т.д.).
Каждая система обрабатывает запрос независимо, используя свои базы данных.
Системы возвращают результаты с оценками релевантности (Search Scores) или нулевое значение (null value).

Этап 3: Агрегация и Формирование Выдачи (Сервер)

Фронтенд-сервер собирает результаты. Результаты фильтруются по пороговым значениям (pre-defined criteria) и ранжируются.
(Опционально) Создается составной результат (compound search result). Например, для текста, распознанного OCR, выполняется поиск именованных сущностей (Named Entity Recognition) в Term Query Server System.
(Опционально) Создается Interactive Results Document:
1. Идентифицируются подобласти запроса, соответствующие результатам.
2. Создаются визуальные идентификаторы (Bounding Boxes или Labels).
3. Идентификаторы связываются с результатами поиска.
Итоговый набор результатов отправляется клиенту.

Этап 4: Обратная связь (Клиент и Сервер)

Пользователь взаимодействует с результатами (выбор, аннотация).
Информация о взаимодействии логируется на сервере в Query & Annotation Database для улучшения будущих поисков.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Основной вход — это сам визуальный запрос (пиксельные данные). Используются цветовые характеристики (упоминается color recognition).
Географические факторы: В патенте упоминается использование геолокационной информации (GPS), предоставленной клиентом, для помощи в распознавании мест (place recognition).
Пользовательские факторы: Данные предварительной обработки на клиенте (если есть). Обратная связь пользователя (аннотации, выбор результатов). Данные социальных сетей (Social Network Database) могут использоваться при распознавании лиц для получения дополнительной информации о совпадениях.

Какие метрики используются и как они считаются

Search Score / Relevance Score (Оценка поиска / Оценка релевантности): Каждая параллельная система вычисляет собственную оценку уверенности или качества совпадения.
Pre-defined criteria (Предопределенные критерии): Пороги для фильтрации результатов. Упоминается исключение результатов с оценкой ниже минимального порогового значения (pre-defined minimum score).
Confidence Value (Значение уверенности): Может генерироваться на клиенте во время предварительной обработки для оценки вероятности наличия определенного типа контента.
Category Weight (Вес категории): Используется для сортировки категорий результатов (например, «Совпадение продукта» перед «Совпадение логотипа»). Может рассчитываться как комбинация весов лучших N результатов в этой категории.

Выводы

Визуальный поиск как мультимодальный метапоиск: Google не использует единый алгоритм для понимания изображений. Вместо этого применяется архитектура параллельных специализированных движков (OCR, объекты, лица, продукты), результаты которых агрегируются. Это подход метапоиска для визуального контента.
Декомпозиция сложных изображений: Система способна идентифицировать и независимо обрабатывать различные сущности в рамках одного изображения (например, текст, лицо и продукт на одной фотографии).
Интерактивность для устранения неоднозначности: Interactive Results Document (с рамками и метками) является ключевым механизмом для работы с изображениями, содержащими несколько объектов. Он позволяет пользователю уточнить свой интент (disambiguation of intent) после получения результатов.
Оптимизация через предварительную обработку на клиенте: Патент (особенно активные Claims 25-44) описывает механизм локального анализа изображения на устройстве пользователя (Local Image Analysis) для определения типа контента и предложения релевантной поисковой вертикали.
Интеграция визуального и текстового поиска: Система тесно связывает визуальное распознавание с текстовым поиском. Распознанные элементы (текст из OCR или объекты из Image-to-Terms) могут автоматически использоваться для запросов к стандартной поисковой системе (Term Query Server System).
Сбор обратной связи для обучения: Архитектура предусматривает сбор аннотаций и данных о выборе пользователя (Query & Annotation Database) для улучшения качества распознавания.

Практика

Практическое применение в SEO

Патент описывает инфраструктуру Визуального Поиска (например, Google Lens). Рекомендации направлены на улучшение распознавания контента внутри изображений для повышения видимости в этой среде.

Best practices (это мы делаем)

Обеспечение визуальной четкости (Visual Clarity): Используйте высококачественные, четкие изображения с хорошим освещением. Это критично для систем Product Recognition и Object Recognition. Объекты должны быть легко сегментируемы от фона (контрастный фон предпочтителен).
Оптимизация для E-commerce: Предоставляйте Google доступ к репрезентативным изображениям продуктов с разных ракурсов (канонические виды). Включение изображений упаковки с четко видимым штрих-кодом может активировать точную идентификацию через Bar Code Recognition.
Оптимизация текста и логотипов на изображениях: Убедитесь, что важный текст (название модели, бренд) и логотипы на изображениях легко читаемы и не перекрыты. Это повышает шансы на успешное срабатывание OCR и Logo Recognition систем.
Тестирование через Google Lens: Регулярно проверяйте, как инструменты визуального поиска интерпретируют ваши ключевые изображения. Если система не распознает объект или неправильно его классифицирует, это сигнал к улучшению визуального представления.

Worst practices (это делать не надо)

Использование перегруженных или абстрактных изображений: Использование сильно стилизованных или загроможденных изображений в качестве основных фотографий продуктов снижает эффективность визуального поиска, так как системам сложно выделить ключевой объект.
Перекрытие ключевых элементов: Размещение водяных знаков или графических элементов поверх логотипов, лиц или ключевых частей продукта может помешать специализированным движкам корректно их распознать.
Низкое качество изображений: Изображения низкого разрешения, сжатые или зашумленные, затрудняют работу как OCR, так и любых Image-Match Process.
Использование текста в ущерб читаемости: Применение сложных или низкоконтрастных шрифтов для важной информации на изображениях может привести к ошибкам OCR.

Стратегическое значение

Патент подтверждает стратегическую важность визуального поиска как альтернативной точки входа, особенно в мобильном контексте. Для SEO это означает, что оптимизация смещается от простого тегирования (ALT-текст) к обеспечению того, чтобы машины могли буквально «увидеть» и идентифицировать сущности внутри изображения. Это критично для e-commerce и локального поиска, где визуальная идентификация может напрямую вести к конверсии.

Практические примеры

Сценарий: Оптимизация карточки товара в E-commerce для Визуального Поиска

Задача: Улучшить видимость страницы с конкретной моделью кроссовок в Google Lens.
Применение патента: Понимание того, что Google будет использовать параллельно OCR, распознавание логотипов (Logo Recognition) и распознавание продуктов (Product Recognition).
Действия:
- Добавить высококачественные фотографии кроссовок на нейтральном фоне (для Product Recognition).
- Добавить отдельное изображение, где четко виден логотип бренда и название модели на язычке (для OCR и Logo Recognition).
- Добавить фотографию коробки с четким штрих-кодом (для Barcode Recognition).
Ожидаемый результат: Когда пользователь сканирует кроссовки (Visual Query), архитектура активирует соответствующие системы. Агрегация сильных сигналов от нескольких систем позволяет Google уверенно идентифицировать продукт и направить пользователя на оптимизированную страницу товара.

Вопросы и ответы

Как этот патент связан с Google Lens?

Эта архитектура описывает базовую технологию, лежащую в основе Google Lens. Процесс, когда вы направляете камеру на объект, а система одновременно распознает текст, идентифицирует продукт и ищет похожие изображения, является прямой реализацией описанной системы параллельных поисковых движков (Parallel Search Systems) и агрегации результатов.

Влияет ли этот патент на ранжирование моего сайта в обычном поиске Google?

Нет, напрямую не влияет. Патент описывает архитектуру вертикали Визуального Поиска, которая работает параллельно основному веб-поиску. Он не описывает факторы ранжирования для «10 синих ссылок». Однако оптимизация изображений согласно принципам этого патента может увеличить трафик из сервисов визуального поиска.

Что такое «Interactive Results Document» и как он выглядит?

Это формат выдачи, когда Google накладывает на исходное изображение визуальные идентификаторы (Visual Identifiers) — обычно это рамки (Bounding Boxes) или метки вокруг распознанных объектов. Каждый идентификатор является кликабельной ссылкой, ведущей к результатам поиска именно по этому объекту. Это позволяет обрабатывать сложные изображения с несколькими сущностями.

Какие типы объектов Google пытается распознать в изображениях согласно патенту?

Патент явно указывает на создание специализированных систем для: текста (OCR), лиц (Facial Recognition), продуктов (Product Recognition), штрих-кодов (Bar Code Recognition), общих объектов или категорий (Object-or-object-category recognition), достопримечательностей (Landmark Recognition) и цветов (Color Recognition).

Как SEO-специалисту оптимизировать изображения для этой системы?

Ключевой фактор — визуальная четкость. Изображения должны быть высокого качества, хорошо освещены, а главный объект должен быть в фокусе и легко отделим от фона. Для продуктов рекомендуется использовать чистый фон и показывать товар с разных ракурсов, обеспечивая читаемость логотипов и текста на упаковке.

Что означает «параллельная обработка» в этом контексте?

Это означает, что когда Google получает изображение, он не обрабатывает его последовательно (сначала ищет текст, потом лица, потом объекты), а отправляет его одновременно во все специализированные системы. Это значительно ускоряет получение финального результата, так как все анализы происходят в одно и то же время.

Что такое предварительная обработка на клиенте (Local Image Analysis)?

Это опциональный процесс, когда устройство пользователя (например, смартфон) анализирует изображение локально перед отправкой на сервер. Устройство может обнаружить наличие лица или штрих-кода и сообщить об этом серверу или предложить пользователю выбрать соответствующий тип поиска (как описано в Claims 25-44), что оптимизирует процесс.

Как система решает, какие результаты показать, если распознано несколько объектов?

Фронтенд-сервер агрегирует все результаты и ранжирует их на основе оценок уверенности (Search Scores). Результаты могут быть представлены в виде списка, сгруппированного по категориям (с использованием Category Weight), или через Interactive Results Document, где пользователь сам может выбрать интересующий его объект на изображении.

Почему в активных Claims (25-44) описан механизм рекомендации, а в Description — автоматическая параллельная обработка?

Это распространенная ситуация в патентной практике. Description раскрывает общую технологию (серверная параллельная обработка). Claims определяют конкретный юридически защищаемый аспект. В данной публикации активные пункты формулы были сужены до конкретного процесса рекомендации поисковой системы на основе типа изображения, распознанного (часто локально) клиентом.

Использует ли Google аннотации пользователей для улучшения поиска?

Да, патент описывает Query & Annotation Database. Если пользователи исправляют результаты поиска или добавляют свои аннотации (теги, описания), эта информация сохраняется и может использоваться для улучшения точности параллельных поисковых систем в будущем.