Как Google заложил основу визуального поиска (Google Lens), превращая изображения с камеры в поисковые запросы

Google разработал систему, позволяющую использовать изображения с мобильных устройств в качестве поисковых запросов. Система распознает объекты на изображении (продукты, здания, текст, лица), преобразует их в символьное описание (текстовый запрос) и использует его для поиска релевантной информации в стандартной поисковой системе.

Описание

Какую задачу решает

Патент решает фундаментальную задачу поиска информации об объектах реального мира без необходимости формулировать текстовый запрос. Он устраняет разрыв между визуальным восприятием пользователя и традиционными поисковыми системами, которые принимают на вход только символьные данные (текст). Это позволяет мгновенно получать информацию о продуктах, зданиях, текстах или лицах, просто сфотографировав их.

Что запатентовано

Запатентована комплексная система и метод для реализации визуального поиска. Суть изобретения заключается в инфраструктуре, которая принимает изображение с удаленного устройства (например, мобильного телефона), обрабатывает его с помощью программы распознавания объектов (object recognition program) для идентификации содержимого и генерирует символьное описание (symbolic indexing или symbolic identifier). Это символьное описание затем используется в качестве запроса к стандартной поисковой системе.

Как это работает

Система работает по следующей цепочке:

Получение изображения: Пользователь делает снимок объекта с помощью камеры мобильного устройства.
Передача и обработка: Изображение передается на сервер, где запускается процесс распознавания (Image Processing).
Анализ атрибутов: Система использует предварительно обученные «Детекторы атрибутов» (Attribute Detectors) для анализа графических характеристик изображения.
Распознавание: Изображение сопоставляется с базой эталонных изображений (reference images). Каждый детектор выдает «Значение уверенности» (Confidence Value). Если сумма этих значений превышает порог, объект считается распознанным.
Генерация символьного описания: Распознанному объекту присваивается symbolic identifier (например, текст «Эйфелева башня»).
Поисковый запрос: Этот идентификатор передается в стандартную поисковую систему (Search Engine) как обычный запрос.
Возврат результатов: Результаты поиска (информация об объекте) возвращаются на устройство пользователя.

Актуальность для SEO

Критическая. Этот патент, поданный в 2004 году, описывает фундаментальную архитектуру систем визуального поиска, таких как Google Lens. Все описанные в нем концепции — распознавание продуктов, зданий, лиц, OCR и перевод текста на лету — являются ключевыми функциями современных поисковых систем и активно развиваются Google.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он описывает не алгоритм ранжирования, а новый тип входящего запроса — визуальный. Это критически важно для e-commerce, локального поиска и издателей контента. Понимание того, как Google преобразует пиксели в сущности (symbolic identifiers), является основой для оптимизации графического контента и обеспечения его корректного распознавания системами визуального поиска.

Детальный разбор

Термины и определения

Attribute Detectors (Детекторы атрибутов): Алгоритмы или модели, обученные на примерах изображений для распознавания специфических графических характеристик (атрибутов) объекта в анализируемом изображении.
Confidence Value (Значение уверенности): Числовая оценка, выдаваемая детектором атрибутов, которая показывает, насколько хорошо он распознает свой атрибут в изображении.
Object Recognition Program / Image Recognition System (Программа распознавания объектов / Система распознавания изображений): Программное обеспечение на сервере, которое анализирует входящие изображения, используя детекторы атрибутов, и сопоставляет их с эталонными данными.
Reference Images / Training Images (Эталонные / Обучающие изображения): База данных изображений, используемая для обучения детекторов атрибутов и для сопоставления во время распознавания. Каждое эталонное изображение связано с symbolic identifier.
Symbolic Description / Indexing / Identifier (Символьное описание / Индексирование / Идентификатор): Результат работы системы распознавания. Преобразование графической информации в символьный формат (например, текст или идентификатор сущности), который может быть использован в качестве запроса для поисковой системы.
Threshold Value (Пороговое значение): Заранее определенный порог. Если сумма Confidence Values от всех детекторов атрибутов превышает этот порог, система считает, что объект распознан.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовую архитектуру системы визуального поиска.

Терминал с камерой и сетевым подключением.
Серверный компьютер с программой распознавания объектов (object recognition program), которая анализирует входящие изображения и присваивает им символьное индексирование (symbolic indexing).
Поисковая система, которая использует это индексирование для поиска информации и отправляет ее обратно на терминал.

Claim 11 (Независимый пункт): Детализирует процесс распознавания и запроса.

Сервер получает входящее изображение (input image).
Система распознавания изображений:
1. Определяет графические атрибуты изображения.
2. Сопоставляет входящее изображение с эталонными изображениями (reference images) на основе этих атрибутов. (Каждое эталонное изображение имеет связанный symbolic identifier).
3. Присваивает symbolic identifier входящему изображению на основе совпавшего эталонного изображения.
Система обработки запросов:
1. Получает symbolic identifier.
2. Передает его поисковой системе в качестве запроса.
3. Получает результаты поиска и передает их на устройство пользователя.

Claim 18 (Независимый пункт): Описывает метод, аналогичный системе в Claim 11, фокусируясь на шагах обработки данных на сервере (получение изображения, определение атрибутов, сопоставление с эталонами, присвоение идентификатора, выполнение поиска, отправка результатов).

Claim 26 (Зависимый от 18): Конкретизирует механизм распознавания (сопоставления).

Определение графических атрибутов во входящем изображении с помощью обученных детекторов атрибутов (trained attribute detectors).
Агрегация значений уверенности (confidence values), полученных от детекторов.
Определение совпадения, если агрегированные значения уверенности превышают заданный порог (predetermined threshold value).

Claims 28, 29, 31 (Независимые пункты): Описывают применение метода для конкретных задач: распознавание промышленных товаров (Claim 28), зданий (Claim 29) и человеческих лиц (Claim 31). Процесс идентичен: получение изображения -> распознавание -> получение специфического symbolic identifier (например, название продукта, адрес здания, имя человека) -> поиск информации.

Claim 30 (Независимый пункт): Описывает метод для перевода текста на основе изображения (OCR и перевод).

Получение изображения.
Обработка системой распознавания символов (character recognition system) для получения текстовых данных на первом языке.
Передача текста и указания второго языка в систему перевода.
Получение перевода и отправка его пользователю.

Где и как применяется

Изобретение охватывает несколько этапов поиска, формируя отдельный конвейер обработки визуальных запросов.

CRAWLING & INDEXING – Сканирование и Индексирование
Система требует предварительной подготовки данных. На этом этапе происходит сбор обучающих изображений (Training Images), обучение детекторов атрибутов (Attribute Detectors) и формирование базы эталонных изображений (Reference Images), связанных с символьными идентификаторами (сущностями). Это формирование визуального индекса Google.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Входящее изображение интерпретируется как запрос. Система распознавания изображений выполняет роль модуля понимания запроса: она анализирует пиксели, распознает объект и преобразует визуальный запрос в symbolic identifier, понятный поисковой системе.

RANKING & METASEARCH – Ранжирование и Метапоиск
После того как визуальный запрос преобразован в символьный, он обрабатывается стандартной поисковой системой. Система ранжирования ищет и сортирует информацию, релевантную этому symbolic identifier.

Входные данные:

Цифровое изображение (Digital Image) с устройства пользователя.
Опционально: Позиционная информация (например, GPS-координаты) устройства пользователя.

Выходные данные:

Symbolic Identifier (передается внутри системы от модуля распознавания к поисковой системе).
Набор результатов поиска (Information About the Object Shown), отправляемый пользователю.

На что влияет

Конкретные типы контента и ниши:
- E-commerce: Критическое влияние. Распознавание продуктов (Claim 28) позволяет пользователям находить товары, просто фотографируя их.
- Локальный поиск и путешествия: Высокое влияние. Распознавание зданий, достопримечательностей и произведений искусства (City and Museum Guides, Claim 29).
- Перевод и OCR: Распознавание и перевод текста с вывесок, меню, документов (Claim 30).
- Социальные функции: Распознавание лиц (Claim 31).
Типы запросов: Влияет на информационные и коммерческие запросы, инициированные визуально (например, «что это за здание?» или «где купить это платье?»).

Когда применяется

Триггеры активации: Алгоритм активируется, когда система получает на вход изображение вместо текстового запроса (например, через интерфейс Google Lens).
Пороговые значения: Распознавание происходит только тогда, когда агрегированные Confidence Values превышают заранее определенный Threshold Value. Если уверенность низкая, система может не распознать объект или предложить несколько вариантов.
Особые случаи: При распознавании зданий система может использовать позиционную информацию (GPS) пользователя, чтобы ограничить поиск только близлежащими объектами, что повышает точность распознавания.

Пошаговый алгоритм

Процесс А: Обучение системы (Офлайн)

Сбор данных: Сбор набора обучающих изображений (Training Images) для различных объектов.
Обучение детекторов: Использование обучающих изображений для создания детекторов атрибутов (Attribute Detectors), адаптированных к каждому объекту или классу объектов.
Формирование базы: Создание базы эталонных изображений (Reference Images) и связывание их с соответствующими Symbolic Identifiers.

Процесс Б: Обработка визуального запроса (Реальное время)

Получение данных: Получение входящего изображения (Input Image) и, опционально, данных о местоположении от пользователя.
Предварительная обработка: Применение ограничений, если доступны данные о местоположении (например, ограничить базу эталонов только объектами поблизости).
Детектирование атрибутов: Применение обученных Attribute Detectors к входящему изображению.
Расчет уверенности: Каждый детектор генерирует Confidence Value, указывающий на наличие его атрибута в изображении.
Агрегация и сравнение с порогом: Суммирование Confidence Values и сравнение с Threshold Value.
Распознавание объекта: Если порог превышен, определяется совпадение с эталонным изображением.
1. Если НЕТ: Запросить у пользователя дополнительную информацию или вернуть ошибку распознавания.
2. Если ДА: Перейти к шагу 7.
Генерация идентификатора: Извлечение Symbolic Identifier, связанного с распознанным эталонным изображением. (В случае OCR — генерация текстовых данных).
Выполнение поискового запроса: Передача Symbolic Identifier в поисковую систему в качестве запроса. (В случае перевода — передача текста в систему перевода).
Возврат результатов: Получение результатов поиска (или перевода) и отправка их пользователю.

Какие данные и как использует

Данные на входе

Система использует ограниченный набор входных данных, фокусируясь на визуальной информации.

Мультимедиа факторы: Основные данные — это пиксельные данные входящего цифрового изображения (Digital Image). Качество, освещение и ракурс съемки влияют на процесс распознавания.
Географические факторы: Позиционная информация (например, GPS). Патент явно упоминает использование этих данных для поддержки распознавания изображений, ограничивая рассмотрение только близлежащими объектами.
Системные данные (внутренние):
- База эталонных изображений (Reference Images).
- Обученные детекторы атрибутов (Attribute Detectors).
- Связи между эталонными изображениями и Symbolic Identifiers.

Какие метрики используются и как они считаются

Confidence Value (Значение уверенности): Метрика, рассчитываемая каждым Attribute Detector. Патент не детализирует формулу расчета, но указывает, что она отражает, насколько хорошо детектор распознает свой атрибут в изображении.
Aggregated Confidence Values (Агрегированные значения уверенности): Сумма или взвешенная сумма Confidence Values от всех примененных детекторов.
Threshold Value (Пороговое значение): Фиксированное значение, используемое для принятия решения о распознавании. Объект распознан, если $Aggregated Confidence Values > Threshold Value$ .

Выводы

Визуальный поиск как преобразование запроса: Ключевой вывод заключается в том, что система визуального поиска функционирует как сложный механизм понимания запроса (Query Understanding). Она преобразует визуальные данные (пиксели) в символьные идентификаторы (текст или сущности), которые затем используются стандартной поисковой системой.
Зависимость от качества распознавания: Эффективность системы напрямую зависит от точности распознавания объектов. Механизм Attribute Detectors и Confidence Values является ядром этого процесса. Если объект не распознан (порог уверенности не достигнут), поиск не состоится.
Важность визуального индекса: Система полагается на обширную базу эталонных изображений (Reference Images), связанных с сущностями. Чтобы объект можно было найти через визуальный поиск, он должен присутствовать в этой базе и быть корректно аннотирован.
Контекст улучшает распознавание: Патент подчеркивает важность контекстуальных сигналов, в частности местоположения (GPS), для повышения точности распознавания, особенно в локальном поиске (здания, достопримечательности).
Специализированные вертикали: Патент четко разделяет различные типы визуального поиска: продукты, локации, текст (OCR и перевод) и лица. Это предполагает использование специализированных моделей распознавания для каждой вертикали.

Практика

Best practices (это мы делаем)

Оптимизация изображений для распознавания (E-commerce): Обеспечьте наличие высококачественных, четких изображений продуктов с разных ракурсов. Изображения должны быть легко интерпретируемыми Attribute Detectors. Это повышает вероятность того, что продукт будет корректно распознан и связан с правильным Symbolic Identifier при поиске через Google Lens.
Обеспечение индексации визуального контента: Убедитесь, что все важные изображения (продукты, логотипы, фасады зданий) доступны для сканирования и индексации Google. Используйте Image Sitemaps и фиды Merchant Center для предоставления Google эталонных изображений ваших товаров.
Связывание изображений с сущностями (Structured Data): Используйте микроразметку (Schema.org Product, LocalBusiness, ImageObject) для явного связывания изображений на вашем сайте с конкретными сущностями. Это помогает Google формировать корректные связи между Reference Image и Symbolic Identifier.
Локальное SEO и визуализация: Для локального бизнеса критически важно иметь актуальные и качественные фотографии фасада, интерьера и вывесок в Google Business Profile. Это облегчает распознавание здания (Claim 29) и использование GPS-данных для подтверждения локации.
Мониторинг распознавания текста (OCR): Если на изображениях присутствует важный текст (например, на упаковке продукта или инфографике), убедитесь, что он читаем и может быть корректно извлечен системами OCR (Claim 30).

Worst practices (это делать не надо)

Использование изображений низкого качества: Размытые, плохо освещенные или слишком маленькие изображения затрудняют работу Attribute Detectors, снижают Confidence Value и делают невозможным распознавание объекта.
Блокировка индексации ключевых изображений: Скрытие изображений продуктов или локаций от краулеров (например, через robots.txt или сложный JavaScript) не позволит им попасть в базу Reference Images.
Использование исключительно стилизованных или абстрактных изображений: Если основное изображение продукта слишком абстрактно или сильно отличается от того, как продукт выглядит в реальности, система может не сопоставить его с запросами пользователей, сделанными в реальных условиях.
Игнорирование визуального поиска как канала: Рассмотрение изображений только как элемента дизайна, а не как самостоятельной точки входа для поиска.

Стратегическое значение

Этот патент подтверждает, что визуальный поиск является стратегическим направлением развития Google. Для SEO это означает необходимость перехода от оптимизации текста к оптимизации сущностей и их визуальных представлений. Визуальный поиск стирает границы между онлайн и офлайн, особенно в ритейле и локальном поиске. Долгосрочная стратегия должна включать в себя управление визуальными активами бренда и обеспечение их максимальной «узнаваемости» алгоритмами машинного зрения Google.

Практические примеры

Сценарий 1: Оптимизация карточки товара для Google Lens (E-commerce)

Задача: Увеличить трафик на сайт интернет-магазина кроссовок через визуальный поиск.
Действия:
- Размещение 5-7 высококачественных фотографий кроссовок на белом фоне (для индексации как Reference Image) и в контексте использования (lifestyle фото).
- Внедрение микроразметки Schema.org/Product с указанием всех атрибутов (бренд, модель, цвет) и ссылок на изображения в поле image.
- Загрузка фида в Google Merchant Center с этими же изображениями.
Ожидаемый результат: Когда пользователь фотографирует эти кроссовки в реальной жизни, система Google Lens применяет Attribute Detectors, распознает модель (достигает Threshold Value), генерирует Symbolic Identifier (например, «Nike Air Max 270 Black») и показывает ссылку на карточку товара магазина в результатах поиска.

Сценарий 2: Оптимизация локального ресторана для визуального распознавания

Задача: Сделать так, чтобы ресторан распознавался при фотографировании фасада.
Действия:
- Загрузка в Google Business Profile четких фотографий фасада и вывески, сделанных в разное время суток и при разном освещении (как указано в патенте для распознавания зданий).
- Обеспечение читаемости названия на вывеске для систем OCR.
Ожидаемый результат: Пользователь фотографирует ресторан. Система использует изображение и GPS-координаты пользователя. Комбинация визуального распознавания фасада/вывески и подтверждения локации позволяет системе точно идентифицировать ресторан и показать пользователю информацию о нем (меню, отзывы, часы работы).

Вопросы и ответы

Является ли этот патент описанием Google Lens?

Да, этот патент описывает фундаментальную архитектуру и методы, которые лежат в основе Google Lens и аналогичных систем визуального поиска. Он охватывает весь процесс от получения изображения с камеры мобильного телефона до преобразования его в поисковый запрос и возврата информации по распознанным объектам, включая продукты, здания, текст и лица.

Как Google определяет, что изображено на картинке?

Патент описывает использование «Детекторов атрибутов» (Attribute Detectors). Это модели, обученные распознавать специфические графические характеристики объекта. Когда изображение анализируется, эти детекторы выдают «Значения уверенности» (Confidence Values). Если сумма этих значений превышает определенный порог, система считает объект распознанным и сопоставляет его с эталонным изображением в своей базе.

Что такое «Символьный идентификатор» (Symbolic Identifier) в контексте визуального поиска?

Это результат преобразования визуальной информации в формат, понятный стандартной поисковой системе. Например, фотография Эйфелевой башни преобразуется в текст «Эйфелева башня» или идентификатор соответствующей сущности в Knowledge Graph. Этот идентификатор затем используется как обычный поисковый запрос.

Как этот патент влияет на SEO для интернет-магазинов?

Влияние критическое. Он описывает механизм, позволяющий пользователям находить товары, фотографируя их (Claim 28). Для SEO это означает, что изображения товаров должны быть оптимизированы для распознавания алгоритмами Google (четкость, качество, разные ракурсы) и должны присутствовать в индексе Google (Merchant Center, Image Sitemaps), чтобы выступать в роли эталонных изображений.

Как патент влияет на локальное SEO?

Патент явно указывает на распознавание зданий (Claim 29) и использование GPS-данных для повышения точности. Для локального SEO это подчеркивает важность наличия качественных и актуальных фотографий фасада и вывесок в Google Business Profile, чтобы система могла точно идентифицировать бизнес, когда пользователь его фотографирует.

Что важнее для визуального поиска: ALT-текст или содержание изображения?

Согласно этому патенту, содержание изображения является первичным. Система анализирует пиксели с помощью Attribute Detectors для распознавания объекта. ALT-текст и окружающий контент могут использоваться как дополнительные сигналы, но ядром визуального поиска является именно машинное зрение и распознавание образов.

Как можно помочь Google распознать объекты на моих изображениях?

Во-первых, используйте высококачественные и четкие изображения, на которых объект хорошо виден. Во-вторых, используйте структурированные данные (Schema.org), чтобы явно связать изображение с конкретной сущностью (продуктом, местом). Это помогает Google корректно формировать базу эталонных изображений и их Symbolic Identifiers.

Описывает ли патент использование OCR?

Да, Claim 30 и раздел «Text Recognition» описывают использование системы распознавания символов (character recognition system) для извлечения текста из изображений. Более того, патент описывает последующий перевод этого текста на другой язык, что является стандартной функцией Google Lens.

Что произойдет, если система не уверена в том, что она видит?

Если агрегированные значения уверенности (Confidence Values) не превышают порогового значения (Threshold Value), объект не будет считаться распознанным. В таком случае система не сможет сгенерировать точный Symbolic Identifier. На практике Google Lens в таких ситуациях может предложить несколько похожих вариантов или выделить несколько объектов на изображении.

Могут ли сторонние компании добавлять свои изображения в базу распознавания Google?

Да, патент упоминает (Claim 10), что система позволяет поставщикам информации самостоятельно делать новые записи в системе обработки изображений, чтобы их данные можно было найти через ввод изображения. На практике это реализуется через индексацию сайтов, загрузку фидов в Merchant Center и использование Google Business Profile.