Патент Google, описывающий архитектуру Визуального Поиска (Google Lens). Система индексирует «цифровые дополнения» (информацию, отзывы, AR-модели, ссылки на покупку), связанные с объектами реального мира. Описаны процессы структурирования данных, обработки визуальных запросов (фотографий) и ранжирования результатов с учетом местоположения, времени и свежести контента.
Описание
Какую задачу решает
Патент решает проблему эффективного и масштабируемого связывания цифровой информации и интерактивного контента (включая дополненную реальность, AR) с объектами физического мира. Он описывает инфраструктуру, позволяющую пользователям мгновенно получать контекстную информацию (Digital Supplements) через визуальный интерфейс (камеру устройства), устраняя разрыв между тем, что пользователь видит в реальности, и доступными данными об этом объекте.
Что запатентовано
Запатентована система и метод для индексации, поиска и ранжирования Digital Supplements (цифровых дополнений) в ответ на Image Content Query (визуальный запрос). Система сканирует сетевые ресурсы, извлекает метаданные (включая визуальные триггеры и контекстные ограничения, такие как геолокация) и создает индексируемые структурированные экземпляры данных (Data Structure Instances). Это позволяет находить и предоставлять пользователю релевантный цифровой контент на основе того, что видит камера его устройства.
Как это работает
Система работает в двух основных режимах:
- Индексация (Offline): Content Crawler анализирует доступные ресурсы (веб-страницы, базы данных), идентифицирует метаданные, связанные с Digital Supplements, и генерирует Data Structure Instances. Эти данные включают визуальные признаки, геолокацию и другие контекстные триггеры.
- Поиск (Real-time): Пользователь отправляет визуальный запрос (фотографию). Система анализирует изображение (распознает объекты) и собирает контекст (GPS, время). Digital Supplement Search Engine ищет соответствующие экземпляры дополнений в индексе. Результаты ранжируются (учитывая релевантность, контекст, свежесть) и предоставляются пользователю, часто в интерфейсе AR или в виде информационных карточек.
Актуальность для SEO
Критически высокая. Визуальный поиск (Google Lens, Multisearch) является стратегическим направлением развития Google. Интеграция AR, e-commerce (виртуальные примерки) и локального поиска через камеру активно используется и развивается. Технологии, описанные в патенте (с приоритетом от 2018 года), лежат в основе этих современных интерфейсов.
Важность для SEO
Патент имеет высокое значение для SEO (85/100). Он описывает инфраструктуру и логику работы Визуального Поиска — канала, который становится критически важным источником трафика, особенно в E-commerce и Локальном поиске. Понимание того, как контент индексируется как Digital Supplement и как ранжируются результаты в Google Lens, необходимо для разработки современной SEO-стратегии (Visual Search Optimization — VSO).
Детальный разбор
Термины и определения
- Digital Supplement (Цифровое дополнение)
- Единица информации или интерактивный опыт, связанный с объектом реального мира. Примеры: отзыв, рейтинг, ссылка на покупку, 3D-модель, AR-оверлей (виртуальная примерка).
- Image Content Query (Визуальный запрос)
- Поисковый запрос, состоящий из изображения (часто захваченного камерой) и связанных контекстных метаданных (местоположение, время).
- Data Structure Instance (Экземпляр структуры данных)
- Структурированное представление Digital Supplement в индексе поисковой системы. Создается на основе метаданных и используется для эффективного поиска.
- Metadata (Метаданные)
- Данные, описывающие Digital Supplement. Включают триггеры активации (распознаваемые объекты) и контекстные ограничения (constraints), такие как требуемое местоположение или время. В патенте упоминаются форматы XML и JSON.
- Content Crawler (Контентный краулер)
- Компонент системы, отвечающий за сканирование сетевых ресурсов для обнаружения метаданных, определяющих Digital Supplements.
- Digital Supplement Search Engine (Поисковая система цифровых дополнений)
- Компонент, который индексирует Data Structure Instances и ищет/ранжирует их в ответ на визуальные запросы.
- Recency (Свежесть/Новизна)
- Сигнал, упомянутый в патенте (стр. 21), который может использоваться при ранжировании цифровых дополнений, учитывая актуальность контента.
Ключевые утверждения (Анализ Claims)
Поскольку текст Claims представлен на японском языке, анализ основан на интерпретации блок-схем (FIG. 3, 4, 6), которые иллюстрируют запатентованные методы.
Процесс 1: Индексация (Основано на FIG. 3 и FIG. 4, шаги 402-406)
- Система анализирует доступные сетевые ресурсы (Content Crawler).
- Идентифицируются метаданные, связанные с Digital Supplements в этих ресурсах.
- На основе этих метаданных генерируется экземпляр структуры данных (Data Structure Instance).
- Этот экземпляр сохраняется таким образом, чтобы обеспечить возможность его поиска по визуальному запросу (Image Content Query).
Ядром здесь является создание специализированной записи в индексе, которая связывает цифровой контент с визуальными и контекстными идентификаторами (триггерами и ограничениями).
Процесс 2: Поиск и Ранжирование (Основано на FIG. 4, шаги 408-414)
- Система получает Image Content Query от пользователя (включая изображение и контекст, например GPS).
- На основе визуального запроса идентифицируется множество релевантных Data Structure Instances. Это включает проверку визуальных триггеров и контекстных ограничений.
- Определяется порядок (ранжирование) этого множества экземпляров (Шаг 412). Это ключевой шаг, предполагающий использование алгоритмов ранжирования.
- Система предоставляет ответ на визуальный запрос на основе ранжированного списка.
Процесс 3: Взаимодействие на стороне клиента (Основано на FIG. 6)
- Клиентское устройство захватывает изображение и отправляет запрос на сервер.
- Устройство получает ответ, идентифицирующий множество Digital Supplements.
- Отображается пользовательский интерфейс, включающий элементы управления (user actionable controls) для выбора одного из дополнений.
- После получения ввода пользователя предоставляется информация или ресурс, связанный с выбранным дополнением (например, отображение AR-объекта или рейтинга).
Где и как применяется
Изобретение охватывает всю архитектуру визуального поиска (например, Google Lens).
CRAWLING – Сканирование и Сбор данных
Content Crawler активно ищет метаданные, определяющие Digital Supplements. Источниками могут быть веб-страницы (микроразметка), фиды данных (Merchant Center) и базы данных (Google Business Profile).
INDEXING – Индексирование и извлечение признаков
Основной этап патента. Извлеченные метаданные (XML, JSON) преобразуются в Data Structure Instances. Извлекаются ключевые признаки: визуальные триггеры, географические ограничения (geographic location constraint), временные рамки. Формируется специализированный индекс визуального поиска.
QUNDERSTANDING – Понимание Запросов (Визуальных)
Система получает Image Content Query и интерпретирует его: распознает объекты, сцену, текст (OCR). Также анализируются контекстные данные, полученные с устройства (GPS, время, данные сенсоров).
RANKING – Ранжирование
После идентификации кандидатов система определяет их порядок (Шаг 412). Ранжирование учитывает визуальную релевантность, контекстуальное соответствие (находится ли пользователь в нужном месте и времени) и другие факторы (например, recency).
METASEARCH / RERANKING (Представление)
Найденные Digital Supplements форматируются и отправляются на клиентское устройство для отображения в виде интерактивных элементов, карточек или AR-оверлеев.
Входные данные:
- Image Content Query (изображение).
- Метаданные из сетевых ресурсов (XML, JSON).
- Контекстные данные с устройства (GPS, время, данные сенсоров).
Выходные данные:
- Ранжированный список Digital Supplements (AR-модели, ссылки, отзывы, информация о товаре).
На что влияет
- Конкретные типы контента: Товары (E-commerce), локальные объекты (магазины, рестораны, достопримечательности), объекты искусства.
- Специфические запросы: Запросы, инициированные визуально («что это?», «где купить это?», «отзывы об этом месте»).
- Конкретные ниши: E-commerce (особенно одежда, мебель), Локальный бизнес, Туризм.
- Определенные форматы контента: Изображения, структурированные данные, 3D-модели (для AR-визуализации и виртуальных примерок).
Когда применяется
- Триггеры активации: Когда пользователь использует приложение визуального поиска (например, Google Lens) и направляет камеру на объект или сцену.
- Условия применения: Алгоритм применяется, если система способна распознать объект на изображении и если в индексе существуют Digital Supplements, связанные с этим объектом и соответствующие текущему контексту пользователя (местоположению, времени).
Пошаговый алгоритм
Процесс А: Индексация (Офлайн/Периодически)
- Сканирование ресурсов: Content Crawler анализирует доступные сетевые ресурсы.
- Идентификация метаданных: Выявление данных, определяющих Digital Supplements (например, через структурированные данные Schema.org).
- Генерация экземпляров: Создание Data Structure Instances. Это включает определение визуальных триггеров (распознаваемые объекты) и ограничений (географических, временных).
- Индексация: Сохранение экземпляров в хранилище данных для быстрого поиска.
Процесс Б: Обработка запроса (Реальное время)
- Получение Запроса: Клиентское устройство отправляет Image Content Query (изображение и контекст) на сервер.
- Понимание запроса: Сервер анализирует изображение (распознавание объектов) и контекстные данные (GPS, время).
- Поиск дополнений: Digital Supplement Search Engine идентифицирует релевантные Data Structure Instances в индексе, проверяя соответствие триггерам и ограничениям.
- Ранжирование: Определение порядка найденных дополнений на основе метрик визуальной релевантности, контекста, свежести (recency) и т.д.
- Отображение интерфейса: Клиентское устройство отображает результаты пользователю (AR-оверлеи или карточки) и обрабатывает взаимодействие.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Ключевые данные — это само изображение (Image Content Query). Система анализирует его визуальное содержание. Также используются 3D-модели для AR-функций (виртуальная примерка).
- Структурные факторы (Метаданные): Критически важные данные для индексации. В патенте явно упоминаются форматы extensible markup language (XML) и JavaScript Object Notation (JSON). Это подчеркивает важность структурированных данных (например, Schema.org).
- Географические факторы: Данные GPS (GPS receiver) и системы позиционирования используются для определения точного местоположения пользователя. Это критически важно для фильтрации и ранжирования локальных результатов на основе географических ограничений.
- Временные факторы: Текущее время используется для фильтрации дополнений с временными ограничениями (например, часы работы).
- Пользовательские факторы (Устройство): Данные датчиков устройства (Sensor System, Inertial Measurement Unit) используются для определения ориентации и движения устройства, что необходимо для корректного отображения AR-элементов.
Какие метрики используются и как они считаются
Патент не предоставляет конкретных формул, но описывает процесс ранжирования и упоминает следующие факторы:
- Визуальная Релевантность: Степень соответствия между объектом на Image Content Query и визуальными триггерами, связанными с Digital Supplement.
- Контекстуальное Соответствие: Проверка выполнения ограничений (constraints). Основные метрики:
- Совпадение местоположения пользователя с требуемым географическим ограничением.
- Совпадение текущего времени с временными ограничениями.
- Свежесть (Recency): В тексте патента явно упоминается recency, что указывает на использование свежести контента или актуальности данных как фактора ранжирования.
- Расстояние: Для локальных дополнений расстояние между пользователем и объектом может быть фактором ранжирования.
Выводы
- Визуальный поиск — это отдельная экосистема с собственным индексом: Google создает специализированный индекс для визуального поиска, состоящий из Data Structure Instances. Это не просто поиск похожих картинок, а поиск информации, действий и AR-опыта, связанных с объектами реального мира.
- Критическая роль структурированных данных: Основой для создания Digital Supplements являются метаданные (XML, JSON). Предоставление точных и полных структурированных данных (Schema.org) является ключевым фактором для попадания в индекс визуального поиска (VSO).
- Контекст как фильтр и фактор ранжирования: Местоположение (GPS) и время являются основными факторами. Система фильтрует и ранжирует результаты, чтобы предоставить информацию, релевантную тому месту и времени, где находится пользователь.
- Интеграция с AR и 3D-моделями: Патент явно ориентирован на AR. Примеры включают виртуальные примерки (FIG. 9) и визуализацию мебели (FIG. 10). Это указывает на стратегическую важность предоставления 3D-моделей для E-commerce.
- Свежесть имеет значение: Recency явно упоминается как фактор ранжирования, что подчеркивает необходимость поддержания актуальности данных (цены, наличие, часы работы).
Практика
Best practices (это мы делаем)
- Внедрение комплексных структурированных данных (Schema.org): Обеспечьте максимально полное описание товаров (Product, Offer), локального бизнеса (LocalBusiness) с помощью микроразметки. Это основа для создания Digital Supplements, так как система ищет метаданные в форматах JSON/XML.
- Оптимизация изображений для распознавания (VSO): Публикуйте высококачественные, четкие изображения объектов с разных ракурсов. Убедитесь, что изображения легко идентифицируются алгоритмами машинного зрения. Это улучшает способность системы связывать визуальный запрос с вашими данными.
- Предоставление 3D-моделей (для E-commerce): Для товаров (мебель, одежда, аксессуары) предоставляйте 3D-модели и используйте соответствующую разметку или загрузку в Merchant Center. Это позволяет участвовать в функциях AR-визуализации и виртуальных примерок, описанных в патенте.
- Оптимизация под локальный поиск (GBP): Критически важно предоставлять точную информацию о местоположении и времени работы (Google Business Profile, локальная разметка). Визуальный поиск использует GPS и временные ограничения для фильтрации и ранжирования результатов.
- Управление отзывами и рейтингами: Примеры в патенте (FIG. 7) показывают отображение рейтингов как Digital Supplements. Интегрируйте отзывы в структурированные данные (AggregateRating).
Worst practices (это делать не надо)
- Игнорирование микроразметки и фидов данных: Отсутствие структурированных данных значительно снижает шансы на то, что система сможет создать качественный Data Structure Instance для вашего контента.
- Использование низкокачественных или стоковых изображений: Использование неуникальных или размытых изображений затрудняет идентификацию объекта системой визуального поиска.
- Предоставление устаревшей информации: Поскольку Recency (свежесть) является фактором ранжирования, предоставление устаревших данных (цены, наличие, локация) приведет к пессимизации в визуальном поиске.
- Неактуальные локальные данные: Предоставление неверной информации о местоположении. Поскольку контекст является фильтром, неверные данные приведут к тому, что ваши дополнения не будут показаны релевантным пользователям.
Стратегическое значение
Патент подтверждает, что Визуальный Поиск (Google Lens) — это полноценная экосистема, связывающая онлайн и офлайн миры. Для E-commerce и Local SEO оптимизация под этот канал (VSO) должна стать стандартной частью стратегии. Долгосрочная стратегия должна включать инвестиции в качественный визуальный контент, включая 3D-модели, и глубокое внедрение структурированных данных для обеспечения видимости в этом канале.
Практические примеры
Сценарий 1: Оптимизация локального ресторана (Пример на основе FIG. 7)
- Действие: Ресторан поддерживает актуальный профиль в GBP, загружает качественные фото фасада. На сайте внедрена разметка LocalBusiness и агрегируются отзывы (AggregateRating).
- Механизм (по патенту): Google индексирует данные и генерирует Digital Supplement: «Рейтинг». Он привязывается к визуальному образу фасада и географическим координатам (geographic location constraint).
- Результат: Пользователь на улице наводит Google Lens на фасад. Система распознает место, подтверждает геолокацию пользователя и отображает в интерфейсе AR всплывающий элемент с текущим рейтингом.
Сценарий 2: Виртуальная примерка для E-commerce (Пример на основе FIG. 9)
- Действие: Магазин очков загружает 3D-модели своих оправ и качественные изображения товаров в Google Merchant Center или использует разметку 3DModel на сайте.
- Механизм (по патенту): Google создает Digital Supplement типа «AR Try-On» (Виртуальная примерка). Триггером является распознавание товара или поиск по категории.
- Результат: Пользователь ищет очки. В результатах появляется опция примерки. При активации система использует фронтальную камеру и накладывает 3D-модель очков на лицо пользователя в реальном времени.
Вопросы и ответы
Что такое «Digital Supplement» (Цифровое дополнение) и как сделать так, чтобы мой контент стал им?
Digital Supplement — это интерактивный или информационный элемент (AR-модель, отзыв, ссылка на покупку), который Google показывает в Google Lens. Чтобы ваш контент стал таким дополнением, необходимо предоставить Google структурированные метаданные. На практике это означает внедрение микроразметки (Schema.org для продуктов, локаций) и загрузку данных в сервисы типа Google Merchant Center и Business Profile.
Как этот патент связан с Google Lens?
Патент описывает базовую архитектуру и алгоритмы, которые лежат в основе работы Google Lens. Он объясняет, как система индексирует информацию, связанную с объектами (создает Data Structure Instances), как обрабатывает визуальные запросы (фотографии) и как выбирает, какую информацию или интерактивные элементы показать пользователю в интерфейсе камеры.
Насколько важен контекст пользователя (местоположение, время) для визуального поиска?
Контекст критически важен. Патент описывает использование географических и временных ограничений (constraints) как фильтров для определения релевантности. Если дополнение привязано к конкретному магазину или событию, оно будет показано только пользователям, находящимся в нужном месте в нужное время. Это подчеркивает важность точных локальных данных в SEO.
Описывает ли патент конкретные факторы ранжирования для визуального поиска?
Да, патент упоминает несколько факторов для определения порядка (ранжирования) Digital Supplements. Ключевыми являются визуальная релевантность и контекстуальное соответствие (местоположение, время). Также явно упоминается новизна (recency) как фактор ранжирования.
Какова роль структурированных данных (Schema.org) в этой системе?
Они играют центральную роль на этапе индексации. Система ищет метаданные (в патенте упоминаются JSON и XML, что соответствует JSON-LD в Schema.org), чтобы понять объект и информацию о нем. Без них система не сможет эффективно создать Data Structure Instances и проиндексировать контент для визуального поиска.
Как этот патент влияет на оптимизацию изображений (VSO)?
Патент смещает фокус на оптимизацию для распознавания (Computer Vision). Важно, чтобы изображения товаров, логотипов и фасадов были четкими, качественными, уникальными и легко идентифицируемыми алгоритмами. Это помогает системе точнее извлекать визуальные признаки и связывать визуальный запрос пользователя с вашими Digital Supplements.
Какие типы бизнеса получат наибольшую выгоду от этой технологии?
Наибольшую выгоду получат E-commerce (за счет визуального поиска товаров и виртуальной примерки) и Локальный бизнес (рестораны, магазины, достопримечательности за счет показа информации и отзывов при наведении камеры на объект). Также это важно для сфер туризма и культуры.
Нужно ли создавать собственный AR-контент (3D-модели) для попадания в визуальный поиск?
Для базового присутствия (информация, ссылки) достаточно структурированных данных и качественных изображений. Однако для использования продвинутых функций, таких как виртуальная примерка мебели или одежды (явно описанных в патенте), необходимо предоставлять 3D-модели товаров. Это становится конкурентным преимуществом в E-commerce.
Отличается ли индексация для визуального поиска от стандартного веб-индекса?
Да, патент описывает отдельный процесс индексации и специализированный индекс. Он оптимизирован для быстрого поиска по визуальным и контекстным данным (геолокация, время), а не только по тексту и ссылкам. Он состоит из Data Structure Instances, а не традиционных веб-документов.
Как система обрабатывает ситуации, когда для одного объекта есть много разной информации?
Система использует этап ранжирования. Она идентифицирует множество релевантных Digital Supplements, ранжирует их по релевантности, свежести (recency) и контексту, а затем предоставляет пользователю интерфейс с элементами управления (user actionable controls) для выбора наиболее интересующего его дополнения.