Как Google использует 3D-модели объектов для понимания контекста изображений и переписывания поисковых запросов

Google использует базу данных 3D-моделей для глубокого анализа объектов в поисковых запросах, особенно в изображениях. Система сопоставляет объект с его эталонной 3D-моделью, чтобы определить точный контекст: ориентацию, масштаб, освещение и окружающую обстановку. Затем исходный запрос переписывается с учетом этого контекста, что позволяет предоставлять более релевантные результаты, адаптированные под ситуацию (например, продукт на кухне vs продукт в магазине).

Описание

Какую задачу решает

Патент решает проблему ограниченного понимания контекста при обработке поисковых запросов, особенно визуальных. Традиционные системы распознавания могут идентифицировать объект на изображении, но часто не могут определить его точную ориентацию (pose), масштаб (scale), условия освещения или окружающую среду (environment). Это ограничивает способность поисковой системы понять истинный интент пользователя. Изобретение направлено на улучшение точности поиска путем использования 3D-данных для глубокого понимания сцены и контекста объекта.

Что запатентовано

Запатентована система, которая использует базу данных трехмерных (3D) моделей объектов для обогащения и переписывания поисковых запросов. Когда система получает запрос (текстовый или визуальный), указывающий на объект, она идентифицирует соответствующую 3D-модель. Используя данные этой модели (геометрию, текстуру) и связанные аннотации, система выводит контекстуальные детали. Исходный запрос затем переписывается в updated search query (обновленный поисковый запрос) с учетом этого контекста.

Как это работает

Ключевой механизм заключается в использовании 3D-модели как эталона для анализа запроса:

Идентификация: Входной запрос (например, изображение) сопоставляется с 3D-моделью из базы данных. Это часто включает сравнение входного изображения с виртуальными видами (рендерами) 3D-модели, сгенерированными под разными углами и освещением.
Извлечение контекста: После нахождения соответствия система определяет точные параметры сцены: ориентацию объекта, его масштаб и условия освещения, основываясь на параметрах совпавшего виртуального вида.
Анализ окружения: Используя вычисленный масштаб и освещение, система может идентифицировать другие объекты в окружении.
Переписывание запроса: Исходный запрос обновляется, включая выявленный контекст и идентификацию других объектов.
Выполнение поиска: Поиск выполняется по контекстуально обогащенному запросу.

Актуальность для SEO

Высокая. С развитием визуального поиска (Google Lens), дополненной реальности (AR) и интеграцией 3D-моделей в поисковую выдачу (особенно для товаров), способность Google точно интерпретировать объекты и их физический контекст критически важна. Этот патент описывает фундаментальную технологию для глубокого понимания сцены, необходимую для современных функций поиска в e-commerce.

Важность для SEO

Патент имеет высокое значение (85/100), особенно для E-commerce, продуктового поиска и оптимизации под визуальный поиск. Он демонстрирует механизм, позволяющий Google определять интент на основе визуального контекста. Если система может различить продукт на кухонном столе и тот же продукт на полке магазина, она предоставит разные результаты (информационные vs коммерческие). Это подчеркивает стратегическую важность предоставления Google богатых визуальных данных, включая контекстные изображения и 3D-активы.

Детальный разбор

Термины и определения

3D Object Data Model (3D-модель данных объекта): Цифровое представление объекта. Включает данные, характеризующие геометрию поверхности (surface geometry) и текстуру (texture) объекта в 3D-пространстве.
Database of 3D object data models (База данных 3D-моделей): Хранилище, содержащее множество 3D-моделей, их аннотации и предварительно сгенерированные виртуальные виды.
Annotation Module (Модуль аннотирования): Компонент, отвечающий за связывание информации с 3D-моделью (например, производитель, URL, описание, размеры).
Updated Search Query (Обновленный поисковый запрос): Переписанный исходный запрос, обогащенный контекстуальной информацией, полученной из анализа 3D-модели. Включает данные об окружении (environment), ориентации (orientation), положении (position) или идентификацию других объектов.
Virtual View / One or More Images (Виртуальный вид / Одно или несколько изображений): Двумерное изображение (рендер), сгенерированное из 3D-модели с определенной точки зрения и при заданных условиях освещения. Используется для сопоставления с входными изображениями.
Input Image (Входное изображение): Изображение, предоставленное в поисковом запросе (например, при визуальном поиске).
Depth Information (Информация о глубине): Данные о расстоянии до точек объекта, которые могут присутствовать во входном запросе (например, с 3D-камеры) и сравниваться с 3D-моделью.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает фундаментальный метод.

Сервер получает поисковый запрос об объекте.
Система обращается к базе данных 3D-моделей (содержащих геометрию и текстуру).
Система идентифицирует соответствующую 3D-модель и получает связанную с ней сохраненную информацию.
На основе этой информации система определяет updated search query.
Обновленный запрос включает контекст: окружение, ориентацию, положение объекта или идентификацию других объектов в окружении.
Система предоставляет результаты на основе этого обновленного запроса.

Claim 7 (Зависимый от 5): Детализирует процесс визуального поиска.

Если запрос содержит input image, идентификация происходит путем сопоставления (matching) этого изображения с одним из виртуальных видов (рендеров) 3D-модели (упомянутых в Claim 5).

Claim 8 (Зависимый от 7): Описывает механизм извлечения контекста.

На основе сравнения входного изображения и совпавшего виртуального вида, а также информации о 3D-модели, система определяет точную ориентацию, положение и условия освещения (lighting conditions) объекта. Результаты поиска конфигурируются с учетом этих параметров.

Claim 9 (Зависимый от 8): Описывает анализ сцены.

Система определяет масштаб (scale) входного изображения. Используя определенные ранее ориентацию, положение, освещение и масштаб, система идентифицирует другие объекты в окружении.

Claim 10 (Зависимый от 1): Описывает обработку 3D-ввода.

Если входной запрос включает depth information, система сравнивает ее с соответствующей информацией 3D-модели для предоставления результатов.

Где и как применяется

Изобретение интегрировано в несколько этапов поисковой архитектуры, с акцентом на глубокое понимание запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе формируется База данных 3D-моделей. Это включает:

Сбор 3D-моделей (сканирование, получение от производителей, CAD-файлы).
Обработка геометрии и текстур.
Аннотирование моделей метаданными (Annotation Module).
Предварительный рендеринг множества виртуальных видов с различными параметрами (освещение, ракурс) для будущего сопоставления.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система использует 3D-данные для интерпретации входного запроса (особенно визуального).

Сопоставление: Сравнение входного изображения с виртуальными видами 3D-моделей.
Извлечение контекста: Определение точных параметров (освещение, поза, масштаб) на основе совпавшего вида.
Анализ сцены: Идентификация окружения и соседних объектов.
Переписывание запроса: Генерация Updated Search Query, инкапсулирующего этот контекст.

RANKING / RERANKING – Ранжирование и Переранжирование
Поиск выполняется на основе Updated Search Query. Поскольку запрос обогащен контекстом, результаты ранжирования будут более релевантны ситуации пользователя. На этапе RERANKING результаты могут быть упорядочены с учетом извлеченного контекста (например, приоритет изображениям с похожим ракурсом).

Входные данные:

Исходный поисковый запрос (текст, 2D-изображение или данные с глубиной).
База данных 3D-моделей (геометрия, текстуры, аннотации, рендеры).

Выходные данные:

Updated Search Query (внутреннее представление).
Результаты поиска, релевантные обновленному запросу.

На что влияет

Конкретные типы контента: В первую очередь влияет на изображения и видео продуктов, физических объектов, контент дополненной реальности.
Специфические запросы: Визуальный поиск (Google Lens, Image Search) и запросы о товарах.
Конкретные ниши или тематики: Критически важно для E-commerce, дизайна интерьера, моды, автомобильной тематики – везде, где визуальное представление и контекст объекта имеют решающее значение.

Когда применяется

Триггеры активации: Получение поискового запроса, указывающего на физический объект, особенно если это визуальный запрос.
Условия работы: Наличие соответствующей 3D-модели в базе данных Google и успешное сопоставление объекта в запросе с этой моделью.

Пошаговый алгоритм

Процесс обработки визуального запроса

Получение запроса: Сервер получает входное изображение объекта.
Сопоставление с 3D-базой: Система сравнивает входное изображение с предварительно сгенерированными виртуальными видами (рендерами) 3D-моделей.
Идентификация модели и вида: Система находит наилучшее совпадение (matching) между входным изображением и конкретным виртуальным видом конкретной 3D-модели.
Извлечение контекста (Уровень 1): Поскольку параметры рендеринга совпавшего вида известны, система определяет ориентацию (orientation), положение (position) и условия освещения (lighting conditions) объекта на входном изображении.
Извлечение контекста (Уровень 2): На основе информации о 3D-модели (например, известных размеров) система вычисляет масштаб (scale) входного изображения.
Анализ сцены: Используя вычисленные ориентацию, масштаб и освещение, система анализирует окружение (environment) и пытается идентифицировать другие объекты на изображении.
Генерация обновленного запроса: Система формирует Updated Search Query. Он включает идентификацию основного объекта, его контекст и идентификацию других обнаруженных объектов. (Например, переход от [фото коробки хлопьев] к [рецепты хлопьев Бренд X на кухне]).
Выполнение поиска и предоставление результатов: Система выполняет поиск по обновленному запросу и предоставляет контекстуально релевантные результаты.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных, связанных с 3D-моделями, для интерпретации запросов.

Контентные факторы (Визуальные): Пиксельные данные входного изображения (текстуры, цвета, формы).
Технические факторы (Данные 3D-модели):
- Surface geometry: Данные о форме объекта (полигональная сетка, облако точек).
- Texture: Данные о цвете и текстуре поверхности.
- Depth information: Информация о глубине модели.
Структурные факторы (Метаданные): Информация из Annotation Module: описание, производитель, URL, размеры, бренд.
Пользовательские факторы (Входные данные): Depth information входного изображения, если оно получено с 3D-камеры или датчика LiDAR.

Какие метрики используются и как они считаются

Патент не описывает формулы ранжирования, но определяет ключевые вычисляемые параметры контекста и методы их получения:

Метрика сопоставления (Matching Score): Оценка степени схожести между входным изображением и виртуальными видами 3D-модели.
Orientation (Ориентация/Поза): Вычисляется путем определения угла виртуальной камеры относительно 3D-модели для совпавшего вида.
Lighting Conditions (Условия освещения): Определяются на основе параметров виртуальных источников света, использованных при рендеринге совпавшего вида, и анализа теней/бликов.
Scale (Масштаб): Определяется путем сравнения размера объекта на входном изображении с известными размерами 3D-модели.
Идентификация окружения: Классификация сцены и распознавание вторичных объектов, опирающееся на точность извлеченных параметров (масштаб, освещение).

Выводы

Переход от распознавания объектов к пониманию сцены: Ключевая идея патента — использование 3D-данных как эталона для понимания не только идентичности объекта, но и его полного контекста (окружения, освещения, масштаба). Google интерпретирует сцену целиком.
Контекстуальное переписывание запросов: Система активно переписывает исходный запрос (Updated Search Query) на основе визуального контекста. Это означает, что интент запроса может быть радикально изменен в зависимости от того, как и где объект представлен (например, товар дома vs товар в магазине).
Важность 3D-активов как источника истины: Патент предполагает наличие обширной базы данных 3D-моделей. Наличие точной 3D-модели для продукта значительно улучшает способность Google интерпретировать любые запросы, связанные с ним.
Использование синтетических данных для распознавания: Система генерирует виртуальные виды (синтетические данные) для сопоставления. Это позволяет распознавать объекты в сложных условиях (необычные ракурсы, плохое освещение), которые могут отсутствовать в стандартных наборах фотографий (Training Images).
Идентификация вторичных объектов: Понимание параметров основного объекта (масштаб, освещение) позволяет системе лучше идентифицировать другие объекты на изображении, что еще больше обогащает понимание сцены.
Поддержка 3D-ввода: Система готова к обработке данных глубины (depth information) от современных устройств (LiDAR, 3D-камеры), что критично для AR-приложений.

Практика

Best practices (это мы делаем)

Инвестиции в 3D-активы (для E-commerce): Создавайте и предоставляйте Google 3D-модели ваших продуктов (например, через Merchant Center или разметку 3DModel). Это напрямую питает базу данных, описанную в патенте, и гарантирует наиболее точное представление вашего продукта в системе.
Предоставление высококачественных и разнообразных изображений: Загружайте изображения продуктов со всех ракурсов (360 градусов) и при различных условиях освещения. Это помогает системе сопоставлять ваш продукт с виртуальными видами и точно определять orientation и lighting conditions.
Активное использование контекстных («Lifestyle») фотографий: Размещайте фотографии продукта в реальном окружении (например, диван в гостиной, блендер на кухне). Это критически важно, так как Google анализирует environment и соседние объекты для переписывания запроса и определения интента.
Точность данных о продукте: Убедитесь, что данные о размерах продукта в Schema.org и фидах точны. Эта информация используется системой для определения масштаба (scale) при визуальном поиске.

Worst practices (это делать не надо)

Использование только одного изображения или только студийных фото: Исключительное использование изображений на белом фоне лишает систему контекста. Хотя они полезны для идентификации, они не позволяют механизмам анализа окружения работать в полной мере.
Низкое качество изображений: Фотографии с низким разрешением или плохим освещением затрудняют анализ текстур и геометрии, что мешает точному сопоставлению с 3D-моделью и определению условий освещения.
Вводящий в заблуждение контекст или масштаб: Размещение продукта в нереалистичном окружении или манипуляции с масштабом на фото могут привести к неправильной интерпретации сцены и генерации нерелевантного Updated Search Query.
Игнорирование возможностей 3D и AR: Отказ от использования новых форматов представления продуктов приведет к отставанию, так как Google все больше полагается на эти данные для понимания физического мира.

Стратегическое значение

Патент подтверждает долгосрочную стратегию Google по слиянию цифрового и физического миров через компьютерное зрение (Visual Search, AR). Для SEO это означает, что оптимизация переходит от ключевых слов к оптимизации визуального представления объектов и сцен. В долгосрочной перспективе успех в продуктовом поиске будет зависеть от того, насколько хорошо Google понимает визуальные характеристики, контекст использования и физические параметры продукта.

Практические примеры

Сценарий: Оптимизация карточки товара для кухонного блендера

Действие 1 (3D-активы): Загрузить 3D-модель блендера. Результат: Google получает доступ к точной геометрии и текстурам для 3D Object Data Model Database.
Действие 2 (Разнообразие ракурсов): Добавить фото 360 градусов. Результат: Облегчает системе определение ориентации (orientation) при визуальном поиске с любого ракурса.
Действие 3 (Контекстуализация): Добавить «lifestyle» фото: блендер на кухонном столе рядом с фруктами.
- Анализ Google (по патенту): Система идентифицирует блендер (используя 3D-модель), определяет масштаб, освещение и идентифицирует вторичные объекты (фрукты). Контекст определяется как «кухня».
- Переписывание запроса: Запрос обновляется с «блендер [Бренд]» до «блендер [Бренд] использование на кухне, рецепты смузи».
- Выдача: Google покажет не только ссылки на покупку, но и рецепты или видеообзоры, так как контекст указывает на информационный/пользовательский интент.

Вопросы и ответы

Что такое «Updated Search Query» в этом патенте и почему это ключевой элемент?

Updated Search Query — это результат переписывания исходного запроса пользователя, обогащенный контекстом, который система извлекла с помощью 3D-модели. Это ключевой элемент, потому что финальная поисковая выдача формируется именно по этому обновленному запросу. Это позволяет радикально изменить интент: например, из запроса на покупку сделать запрос на инструкцию, если система поняла, что объект находится в контексте использования.

Как система определяет условия освещения и масштаб на обычном 2D-фото?

Это достигается путем сравнения 2D-фото с виртуальными видами (рендерами) 3D-модели. Поскольку 3D-модель содержит точные данные о геометрии, текстуре и реальных размерах, система может найти рендер, который максимально похож на фото. Параметры этого рендера (положение виртуальной камеры и источников света) и используются для определения масштаба и освещения реальной сцены.

Должен ли я начать создавать 3D-модели своих продуктов для SEO?

Да, это стратегически важно для e-commerce. Патент упоминает получение данных от производителей как способ наполнения базы 3D-моделей. Предоставление 3D-моделей (например, через Merchant Center) напрямую помогает Google создать точное представление вашего продукта. Это улучшает идентификацию при визуальном поиске и позволяет использовать функции 3D/AR в выдаче.

Какое влияние этот патент оказывает на оптимизацию изображений для e-commerce?

Влияние значительное. Недостаточно иметь только студийные фото. Патент подчеркивает важность контекстных («lifestyle») фотографий. Если продукт показан в реальном окружении, система может определить это окружение (environment) и скорректировать результаты поиска в соответствии с контекстом использования продукта.

Как система использует контекст для идентификации других объектов на изображении?

После того как система определила масштаб, ориентацию и освещение основного объекта (используя его 3D-модель), она получает калибровку всей сцены. Зная эти параметры, системе легче анализировать остальную часть изображения и распознавать вторичные объекты в окружении, сравнивая их с другими моделями в своей базе данных.

Применяется ли эта технология только к визуальному поиску (Google Lens)?

Хотя основное применение связано с визуальным поиском (Claim 7-10), базовый Claim 1 также охватывает текстовые запросы. Если пользователь ищет объект по тексту, система может использовать аннотации связанных 3D-моделей для уточнения запроса или для выбора и ранжирования наиболее релевантных изображений в результатах поиска.

Что делать, если у меня нет возможности создать 3D-модели моих продуктов?

Следует сосредоточиться на предоставлении максимального количества высококачественных 2D-изображений. Фотографируйте продукт со всех возможных ракурсов (360 градусов), при разном освещении и в разных контекстных окружениях. Это предоставит системе больше данных для анализа и может помочь Google самостоятельно построить или верифицировать 3D-модель.

Влияет ли этот патент на ранжирование стандартных веб-страниц (не изображений)?

Да, влияет косвенно через механизм Updated Search Query. Если визуальный анализ определяет конкретный контекст и интент (например, информационный, а не коммерческий), этот обновленный запрос используется для поиска всех типов контента. Это может повысить в выдаче релевантные информационные статьи или инструкции.

Учитывает ли система данные глубины (Depth Information) с современных смартфонов?

Да, Claim 10 прямо указывает на поддержку входных данных с информацией о глубине (например, данные LiDAR или портретного режима). Система сравнивает ее с данными 3D-модели, что значительно повышает точность идентификации объекта, определения его позы и масштаба.

Как использование 3D-моделей отличается от использования обычных обучающих изображений (Training Images)?

Обычные Training Images (фотографии) статичны и ограничены условиями, при которых они были сняты. 3D-модели динамичны: система может отрендерить бесконечное количество виртуальных видов под любым углом и с любым освещением. Это значительно расширяет возможности сопоставления и идентификации объектов в сложных реальных условиях.