Как Google заложил основы Визуального Поиска (Google Lens), используя контекст (время, местоположение) и мультимодальное распознавание

Этот патент описывает фундаментальную архитектуру мобильного визуального поиска Google (например, Google Lens). Он детализирует, как изображение с телефона анализируется несколькими специализированными движками (объекты, текст, лица). Критически важно, что система использует контекст, такой как время суток и местоположение, для повышения точности распознавания и учитывает различные ракурсы и условия освещения перед возвратом релевантной информации.

Описание

Какую задачу решает

Патент решает задачу создания эффективной системы поиска информации на основе визуального ввода с камеры мобильного телефона в неконтролируемых условиях реального мира. Цель — обеспечить точное и быстрое распознавание объектов, несмотря на вариации в освещении, ракурсах и расстоянии, чтобы связать физический мир с цифровой информацией («hyperlinks the physical world»).

Что запатентовано

Запатентована архитектура системы визуального мобильного поиска (Visual Mobile Search — VMS). Она основана на клиент-серверной модели, где изображение отправляется на Visual Recognition Server. Сервер использует комбинацию специализированных движков распознавания (OCR, объекты, лица) и активно применяет контекстные данные (время суток, местоположение) для фильтрации результатов. Также запатентованы методы учета вариативности освещения (parameterized feature vectors) и ракурсов (View Fusion).

Как это работает

Система работает следующим образом:

Захват и Передача: Пользователь делает снимок. Изображение и контекст (время, местоположение) отправляются на сервер.
Контекстная фильтрация: Система сужает пространство поиска, используя местоположение пользователя и время суток (для учета освещения).
Мультимодальный анализ: Несколько движков (OCR, Faces, Objects) параллельно анализируют изображение, извлекая feature vectors.
Сопоставление: Векторы сравниваются с базой данных, учитывая разные ракурсы (View Fusion).
Интеграция: Integrator Module оценивает результаты (confidence values) от разных движков и выбирает лучший (Object ID).
Ответ: Object ID передается на Media Server, который возвращает связанный контент (например, URL) пользователю.

Актуальность для SEO

Критически высокая. Этот патент является фундаментальным для Google Lens и современных систем визуального поиска. Хотя конкретные алгоритмы компьютерного зрения, упомянутые в патенте (SIFT, Gabor wavelets), устарели и заменены глубоким обучением, общая архитектура, мультимодальный подход и использование контекста (время, местоположение) остаются центральными принципами работы Google в 2025 году.

Важность для SEO

Патент имеет критическое значение (8.5/10) для стратегий Визуального Поиска (VSO), Image SEO и Local SEO. Он не описывает ранжирование веб-страниц, но определяет, как Google идентифицирует объекты реального мира и связывает их с цифровым контентом. Понимание механизмов распознавания, важности контекста и необходимости разнообразных визуальных данных критически важно для оптимизации видимости в Google Lens и аналогичных сервисах.

Детальный разбор

Термины и определения

Visual Mobile Search (VMS): Название сервиса мобильного поиска на основе изображений, описанного в патенте.
Visual Recognition Server (Сервер визуального распознавания): Сервер, который принимает изображение, выполняет распознавание с помощью нескольких движков и взаимодействует с Медиа-сервером. Также называется oR (object recognition) server.
Media Server (Медиа-сервер): Сервер, который хранит контент (URL, текст, аудио), связанный с Object ID, и доставляет его клиенту после успешного распознавания.
Feature Vectors (Векторы признаков): Числовое описание локальной структуры изображения вокруг интересующей точки. В патенте упоминаются SIFT, Gabor wavelets и learned features.
Parameterized Feature Vectors (Параметризованные векторы признаков): Векторы признаков, которые хранятся с учетом параметров окружающей среды, таких как условия освещения (illumination condition) или ракурс.
View Fusion (Объединение видов): Механизм для поддержки распознавания объектов с разных точек обзора. Он связывает (feature linking) наборы признаков из нескольких обучающих изображений одного и того же объекта.
Linked Feature Vectors (Связанные векторы признаков): Наборы векторов признаков, объединенные механизмом View Fusion, представляющие объект с разных углов обзора.
Integrator Module (Модуль интеграции): Компонент сервера, который получает оценки уверенности (confidence values) от нескольких движков распознавания (OCR, лица, объекты) и определяет финальный результат (Object ID).
Confidence Values (Оценки уверенности): Метрики, возвращаемые каждым движком распознавания, указывающие на вероятность правильного совпадения.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Определяет основную систему поиска информации на основе изображений с акцентом на освещение.

База данных хранит изображения, связанные с представлениями объектов (object representations) и текстовыми идентификаторами.
Представления объектов состоят из векторов признаков (feature vectors).
Ключевое утверждение: Векторы признаков как минимум для одного изображения параметризованы в соответствии с соответствующими условиями освещения (parameterized according to a corresponding illumination condition).
Система сервера распознавания принимает изображение, сопоставляет его, используя эти векторы признаков, и передает соответствующий текстовый идентификатор на медиа-сервер.

Ядром изобретения является использование векторов признаков, которые учитывают условия освещения для более надежного сопоставления.

Claim 2 (Зависимый от 1): Детализирует мультимодальную архитектуру сервера распознавания.

Сервер включает специализированные движки: OCR, распознавание объектов и распознавание лиц.
Каждый движок генерирует свою оценку уверенности (confidence value).
Integrator module получает эти оценки и идентифицирует текстовый идентификатор.
Как минимум один из движков использует параметризованные векторы признаков.

Это подтверждает мультимодальный подход, при котором изображение анализируется разными специализированными системами, а результаты объединяются.

Claim 14 (Зависимый от 1): Добавляет использование контекста местоположения.

Изображения в базе данных хранятся также в связи с местоположением (locations), где они были созданы. Система сервера распознавания сопоставляет полученное изображение, частично используя эти данные о местоположении.

Claim 15 (Независимый пункт): Описывает метод распознавания объекта с учетом угла обзора и времени суток (контекст освещения).

Хранение для объектов набора связанных векторов признаков (linked feature vectors), представляющих изображения объекта с разных углов обзора (механизм View Fusion).
Хранение, в связи с этими векторами, времени суток (times of day), когда изображения были созданы.
Получение нового изображения объекта.
Распознавание объекта путем: (i) нахождения наиболее близкого набора связанных векторов признаков И (ii) сравнения времени суток, связанного с этими векторами, со временем суток полученного изображения.

Этот метод явно использует как инвариантность к углу обзора (через связанные векторы), так и адаптацию к условиям освещения (через сравнение времени суток) для распознавания.

Где и как применяется

Этот патент описывает систему Визуального Поиска (например, Google Lens), которая функционирует параллельно традиционному веб-поиску.

INDEXING – Индексирование и извлечение признаков (Изображений)
На этом этапе формируется база данных для визуального поиска (Database of Learned Objects). Происходит извлечение ключевых признаков:

Извлечение Feature Vectors (Gabor wavelets, SIFT).
Параметризация векторов с учетом условий освещения (Claim 1).
Процесс View Fusion: связывание векторов признаков одного объекта с разных ракурсов (Claim 15).
Сохранение контекстных метаданных: время суток (Claim 15) и местоположение (Claim 14).

QUNDERSTANDING – Понимание Запросов (Визуальных)
Система получает входные данные от мобильного клиента: само изображение и контекст (текущее время, текущее местоположение пользователя). Может происходить предварительное извлечение признаков на стороне клиента для оптимизации.

RANKING – Ранжирование (Визуальный Поиск / Retrieval)
Это основной этап применения патента.

Контекстная Фильтрация: Система использует местоположение и время суток, чтобы сузить базу данных до релевантного подмножества (например, искать только среди объектов поблизости или снятых в схожих условиях освещения).
Мультимодальное Распознавание: Специализированные движки (OCR, Face Recognition, Object Recognition) параллельно обрабатывают изображение (Claim 2).
Сопоставление: Сравнение извлеченных признаков с индексированными Parameterized Feature Vectors и Linked Feature Vectors.
Оценка: Генерация Confidence Values для кандидатов.

METASEARCH – Метапоиск / RERANKING – Переранжирование
Integrator Module объединяет результаты от разных движков для выбора финального Object ID. Затем система извлекает связанный контент с Media Server.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на контент, где визуальная идентификация является ключевой:
- E-commerce: Товары, продукты, упаковка.
- Local SEO: Достопримечательности, фасады зданий, рестораны, магазины.
- Медиа: Печатная продукция, постеры, реклама (OCR, логотипы).
- Образование: Произведения искусства, книги.
Специфические запросы: Запросы, инициированные через визуальный поиск (Google Lens), направленные на идентификацию объектов или извлечение информации из физического мира.

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь явно инициирует визуальный запрос, отправляя изображение в систему VMS (например, используя Google Lens).
Условия работы: Работает в реальном времени при обработке запроса пользователя. Процессы индексирования, параметризации и View Fusion происходят офлайн.

Пошаговый алгоритм

Процесс А: Индексирование и View Fusion (Офлайн)

Сбор изображений: Получение изображений объекта с разных ракурсов и при разном освещении.
Извлечение и параметризация: Извлечение Feature Vectors и их параметризация по условиям освещения (Claim 1). Запись времени суток (Claim 15) и местоположения (Claim 14).
Связывание признаков (View Fusion): Сопоставление признаков между разными изображениями одного объекта. Если найдено совпадение, наборы признаков связываются, формируя Linked Feature Vectors (Claim 15).
Сохранение в базе данных: Сохранение связанных и параметризованных представлений объекта.

Процесс Б: Обработка визуального запроса (Онлайн)

Получение данных: Система получает изображение-запрос и контекстные данные (текущее время, местоположение).
Извлечение признаков: Из изображения извлекаются Feature Vectors (может происходить на клиенте или сервере).
Контекстная фильтрация (Сокращение пространства поиска):
1. Фильтрация по местоположению: Приоритет отдается объектам поблизости (Claim 14).
2. Фильтрация по времени: Приоритет отдается изображениям в базе, снятым в схожее время суток для учета освещения (Claim 15).
Параллельное распознавание: Обработка запроса несколькими движками (OCR, Face, Object) (Claim 2).
Сопоставление признаков: Сравнение признаков запроса с индексированными данными, используя Linked Feature Vectors и Parameterized Feature Vectors.
Расчет оценок уверенности: Каждый движок вычисляет Confidence Values.
Интеграция и выбор: Integrator Module анализирует Confidence Values и выбирает финальный результат (Object ID).
Получение и возврат контента: Object ID отправляется на Media Server, который возвращает связанный контент пользователю.

Какие данные и как использует

Данные на входе

Система активно использует контекстные данные наряду с визуальными:

Мультимедиа факторы (Визуальные): Пиксельные данные изображения-запроса. Основной источник для извлечения Feature Vectors.
Географические факторы (Контекст): Местоположение мобильного устройства (GPS, триангуляция). Используется для сужения пространства поиска до объектов поблизости (Claim 14).
Временные факторы (Контекст): Время суток, когда был сделан запрос. Используется для сравнения с временем создания индексированных изображений, чтобы лучше соответствовать условиям освещения (Claim 15).
Пользовательские факторы (Контекст): Патент упоминает возможность использования профиля пользователя или недавних транзакций в качестве дополнительного контекста для сужения поиска.

Какие метрики используются и как они считаются

Feature Vectors (Векторы признаков): Основная метрика для описания локальной структуры изображения. Рассчитываются с использованием SIFT, Gabor Wavelets или других методов.
Parameterized Feature Vectors: Векторы признаков, дополненные данными об условиях освещения (Claim 1).
Linked Feature Vectors / View Fusion: Сети взаимосвязанных векторов признаков, представляющие объект с разных ракурсов (Claim 15).
Similarity Score (Оценка схожести): Метрика, рассчитываемая при сравнении векторов признаков запроса и индексированных векторов.
Confidence Values (Значения уверенности): Итоговая оценка от каждого движка распознавания, указывающая на надежность совпадения.
Вспомогательные дескрипторы: Цветовые гистограммы (color histograms) и дескрипторы текстур (texture descriptors) могут использоваться для быстрой предварительной фильтрации.

Выводы

Фундамент Визуального Поиска (Google Lens): Патент описывает архитектуру и ключевые технологии, которые лежат в основе современных систем визуального поиска Google. Это система идентификации объектов по изображению, а не алгоритм ранжирования веб-страниц.
Контекст критически важен (Время и Место): Патент явно демонстрирует (Claim 14 и 15), что местоположение и время суток используются для улучшения распознавания. Местоположение сужает поиск до ближайших объектов, а время суток помогает сопоставлять изображения с похожими условиями освещения.
Мультимодальный подход к распознаванию: Google использует набор специализированных движков (Объекты, Лица, Текст/OCR), результаты которых объединяются Integrator Module (Claim 2). Это позволяет эффективно обрабатывать разнообразные визуальные запросы.
Продвинутая обработка визуальных вариаций: Система разработана для учета изменений во внешнем виде объектов. View Fusion (Linked Feature Vectors) обеспечивает инвариантность к углу обзора (Claim 15), а Parameterized Feature Vectors учитывают различные условия освещения (Claim 1).
Связь физического мира с цифровым: Конечная цель системы — идентифицировать объект (получить Object ID) и вернуть связанный с ним цифровой контент (часто URL), эффективно создавая гиперссылки из физических объектов.

Практика

Best practices (это мы делаем)

Рекомендации направлены на улучшение видимости в системах визуального поиска, таких как Google Lens (Visual Search Optimization — VSO).

(E-commerce) Предоставление разнообразных ракурсов: Поскольку система использует View Fusion (Claim 15) для построения полной модели объекта, критически важно предоставлять изображения продукта с разных углов обзора (360 градусов). Это увеличивает вероятность успешного распознавания при запросе пользователя с нестандартного ракурса.
(Local SEO) Загрузка фотографий в разное время суток: Патент явно указывает на использование времени суток для сопоставления условий освещения (Claim 15). Для Local SEO необходимо загружать в Google Business Profile качественные фотографии фасада и интерьера, сделанные как днем, так и вечером. Это улучшит распознавание бизнеса независимо от того, когда пользователь делает запрос.
(Image SEO) Сохранение метаданных (EXIF): Патент подчеркивает важность местоположения и времени (Claim 14, 15). Необходимо следить, чтобы при оптимизации изображений не удалялись важные EXIF-данные, особенно GPS-координаты и временные метки, так как они помогают Google связать изображение с сущностью и контекстом.
Оптимизация качества и четкости изображений: Используйте высококачественные, четкие и хорошо освещенные изображения. Это облегчает извлечение надежных feature vectors, которые являются основой распознавания.

Worst practices (это делать не надо)

Использование только одного студийного фото: Это не дает системе достаточно данных для View Fusion и не учитывает вариативность освещения в реальном мире, что может привести к сбоям при распознавании.
Удаление всех метаданных: Стирание EXIF-данных лишает поисковую систему важных контекстных сигналов (время и местоположение), которые используются для фильтрации и повышения точности распознавания.
Полагаться только на ALT-теги для Image SEO: Системы визуального поиска, описанные в патенте, в первую очередь анализируют пиксельные данные (feature vectors), а не текстовые описания. ALT-теги важны, но не являются основным фактором для визуальной идентификации объекта в Google Lens.
Использование стоковых или низкокачественных изображений: Затрудняет извлечение признаков и уникальную идентификацию вашего продукта или бизнеса.

Стратегическое значение

Патент подтверждает долгосрочную стратегию Google по превращению камеры в основной инструмент поиска и глубокой интеграции цифрового и физического мира. Для SEO это означает, что оптимизация визуальных ассетов (VSO) является неотъемлемой частью стратегии, особенно для E-commerce и локального бизнеса. Понимание того, что контекст (время/место) и разнообразие визуальных данных напрямую влияют на распознавание, позволяет адаптироваться к современным поисковым паттернам.

Практические примеры

Сценарий 1: Оптимизация карточки товара E-commerce для Визуального Поиска

Задача: Улучшить распознавание товара через Google Lens.
Действия на основе патента: Вместо 1-2 фото, загрузить 5-8 фотографий с разных ракурсов (для поддержки View Fusion, Claim 15). Также добавить фото товара в реальной среде при разном освещении (для учета параметризации по illumination condition, Claim 1).
Ожидаемый результат: Google строит более полную визуальную модель товара, что повышает вероятность его корректного распознавания при запросах пользователей с разных углов и при разном свете.

Сценарий 2: Улучшение распознавания ресторана в Local SEO

Задача: Обеспечить точную идентификацию ресторана при фотографировании фасада.
Действия на основе патента: Загрузить в Google Business Profile актуальные фотографии фасада, сделанные днем и вечером (соответствует фильтрации по времени суток, Claim 15). Проверить, что в метаданных (EXIF) корректно указаны GPS-координаты (соответствует фильтрации по местоположению, Claim 14).
Ожидаемый результат: Когда пользователь фотографирует ресторан вечером, система с большей вероятностью сопоставит его запрос с вечерними фотографиями в базе данных (из-за схожего освещения) и использует геолокацию для подтверждения, что гарантирует точное распознавание.

Вопросы и ответы

Как именно контекст (время и местоположение) используется в этом патенте?

Контекст используется для повышения точности и скорости. Местоположение пользователя сужает поиск до объектов поблизости (Claim 14). Время суток используется для сравнения с временем съемки изображений в базе данных (Claim 15). Это позволяет системе сопоставлять изображения при схожих условиях освещения (например, дневной и ночной свет), что значительно повышает точность распознавания.

Что такое «View Fusion» и как это влияет на Image SEO?

View Fusion — это механизм, который связывает визуальные признаки (Feature Vectors) одного и того же объекта, снятого с разных ракурсов, для создания полной модели (Claim 15). Это позволяет распознать объект независимо от угла обзора пользователя. Для Image SEO это означает, что критически важно предоставлять несколько фотографий продукта или объекта с разных сторон, а не ограничиваться одним видом.

Влияет ли этот патент на работу Google Lens?

Да, безусловно. Патент описывает фундаментальную архитектуру системы Visual Mobile Search, которая является прямым предшественником Google Lens. Ключевые концепции, такие как использование камеры для поиска, применение контекста (время, место) и комбинация различных технологий распознавания (текст, объекты, лица), реализованы в Google Lens.

Какие типы движков распознавания использует Google согласно патенту?

Патент описывает мультимодальную архитектуру (Claim 2), использующую несколько специализированных движков, работающих параллельно: Optical Character Recognition (OCR) для текста, Face Recognition Engine для лиц и Object Recognition Engine для общих объектов. Результаты их работы объединяются модулем интеграции (Integrator Module).

Нужно ли сохранять EXIF-данные в изображениях на сайте?

Да, исходя из этого патента, сохранение EXIF-данных, особенно временных меток и GPS-координат, является хорошей практикой. Эти данные предоставляют Google важный контекст (Claim 14 и 15), который используется для связывания изображения с конкретной локацией и условиями съемки, что улучшает точность визуального распознавания.

Как этот патент связан с Local SEO?

Связь очень тесная. Система активно использует геолокацию для идентификации местных объектов. Для Local SEO это подчеркивает важность наличия качественных и разнообразных (разные ракурсы, разное время суток) фотографий бизнеса в Google Business Profile, чтобы обеспечить их корректное распознавание при визуальных запросах пользователей поблизости.

Что такое параметризация по условиям освещения (Claim 1)?

Это означает, что при сохранении визуальных признаков объекта система также учитывает условия освещения, при которых они были получены (parameterized according to a corresponding illumination condition). Это позволяет системе более эффективно сопоставлять объекты, выбирая эталон с наиболее похожим освещением или корректируя сравнение признаков.

Как оптимизировать изображения продуктов для E-commerce, исходя из этого патента?

Необходимо фокусироваться на качестве и разнообразии. Загружайте четкие изображения. Обязательно предоставляйте фотографии с разных ракурсов для поддержки View Fusion. Также полезно добавлять фотографии продукта при различном освещении, чтобы помочь системе учесть вариативность условий съемки.

В патенте упоминаются алгоритмы SIFT и Gabor wavelets. Актуальны ли они сегодня?

Конкретно эти алгоритмы считаются устаревшими и были заменены более мощными методами на основе глубокого обучения (нейронные сети) для генерации визуальных эмбеддингов. Однако принцип работы — извлечение признаков (Feature Vectors) и их сравнение — остается неизменным, как и общая архитектура системы.

Могут ли пользователи сами добавлять изображения в базу данных Google согласно патенту?

Да, патент упоминает возможность для пользователей или разработчиков приложений отправлять изображения для пополнения базы данных распознавания. Также описан механизм автоматического обновления представлений объектов за счет анализа изображений, которые пользователи отправляют в качестве запросов, если система уверена в результате распознавания.