Google патентует систему, которая позволяет пользователям создавать изображения желаемых товаров с помощью генеративного ИИ, используя структурированные подсказки или текст. Полученное изображение используется как визуальный запрос для поиска реальных товаров. Система также позволяет модифицировать существующие результаты поиска (например, удаляя детали) для уточнения визуального намерения.
Описание
Какую задачу решает
Патент решает проблему сложности формулирования запросов для визуально сложных концепций или специфических товаров, когда пользователь не может точно описать желаемое словами или не имеет примера изображения. Он устраняет разрыв между намерением пользователя и возможностями текстового поиска, особенно в E-commerce. Также патент адресует сценарий «почти идеального результата», позволяя модифицировать найденные товары для уточнения поиска, и упрощает взаимодействие с генеративными моделями (prompt engineering).
Что запатентовано
Запатентована система, интегрирующая генеративные модели ИИ (Image Generation Model, например, Diffusion Models) в процесс формирования поискового запроса. Суть изобретения — позволить пользователю создать или модифицировать визуальное представление своего поискового намерения (Model-Generated Image), а затем использовать это сгенерированное изображение в качестве визуального запроса для поиска реальных товаров или контента.
Как это работает
Система функционирует в двух основных режимах:
- Генерация с нуля (описано в Description): Пользователь формирует Prompt Input, используя текст или выбирая предопределенные атрибуты (стиль, материал, цвет) через элементы интерфейса (Chips/Tiles). Генеративная модель создает изображения. Лучшее из них используется для визуального поиска.
- Модификация результатов (основной фокус Claims): Пользователь выбирает существующее изображение из результатов поиска и дает инструкцию по его изменению (например, удалить деталь). Система использует Multi-modal Prompt Input (изображение + текст) для генерации модифицированного изображения, которое затем используется для повторного поиска.
Актуальность для SEO
Крайне высокая. Патент опубликован недавно и находится на пересечении ключевых направлений развития Google: генеративного ИИ и мультимодального визуального поиска (Google Lens, MUM). Описанные механизмы представляют собой вероятное будущее пользовательского опыта в E-commerce и соответствуют стратегии создания более интуитивных способов взаимодействия с поиском.
Важность для SEO
Влияние на SEO для E-commerce значительное (8.5/10). Патент не меняет базовые алгоритмы ранжирования, но радикально меняет процесс обнаружения товаров (Product Discovery). Это смещает фокус с текстовой релевантности на визуальное соответствие (Visual Similarity). Критически важным становится качество и оптимизация изображений товаров для алгоритмов визуального сопоставления, так как запросом выступает сгенерированное ИИ изображение.
Детальный разбор
Термины и определения
- Diffusion Model (Диффузионная модель)
- Тип генеративной модели машинного обучения, часто используемый для создания высококачественных изображений. Упоминается как реализация Image Generation Model.
- Image Generation Model / Data Generation Model
- Машинно-обученная модель (например, диффузионная модель или трансформер), обученная генерировать новые наборы данных (изображения, аудио) на основе Prompt Input.
- Model-Generated Image / Dataset
- Изображение или набор данных, созданный генеративной моделью. Используется в качестве визуального запроса для поиска.
- Multi-modal Prompt Input (Мультимодальный входной промпт)
- Входные данные для генеративной модели, сочетающие разные типы данных. В патенте это комбинация Prompt Image (существующее изображение) и Prompt Text (инструкции по модификации).
- Prompt Input (Входной промпт)
- Инструкции (текст, набор выбранных терминов, изображения), предоставляемые генеративной модели для создания контента.
- Descriptor User-Interface Elements (Элементы интерфейса дескрипторов)
- Интерактивные элементы (Chips, Tiles), представляющие конкретные термины (атрибуты, стили). Используются для структурированного создания промпта и упрощения prompt engineering.
Ключевые утверждения (Анализ Claims)
US20240394768A1 — это публикация заявки (A1). Важно отметить, что хотя общее описание (Description) патента широко охватывает генерацию изображений с нуля на основе атрибутов, ключевые независимые Claims (1, 11, 17) сфокусированы на конкретном механизме: модификации существующих результатов поиска путем удаления деталей.
Claim 1 (Независимый пункт): Описывает метод уточнения поиска через модификацию (исключение).
- Система получает первый поисковый запрос и определяет первые результаты поиска.
- Результаты отображаются в интерфейсе.
- Система получает текстовый ввод И выбор одного image search result (который отображает объект с определенными деталями).
- Генерируется multi-modal prompt input, состоящий из: Prompt Image (выбранный результат) и Prompt Text (текстовый ввод, интерпретируемый как запрос на рендеринг объекта БЕЗ этих деталей).
- Image generation model (генеративная модель) обрабатывает этот мультимодальный промпт.
- Генерируется model-generated image, отображающее объект БЕЗ указанных деталей.
- Система обрабатывает это сгенерированное изображение для определения вторых (уточненных) результатов поиска.
- Вторые результаты отображаются.
Ядро изобретения, защищенное этим Claim, — использование генеративного ИИ для реализации «отрицательного визуального ограничения» (Negative Visual Constraint) в поиске.
Claim 10 (Зависимый): Детализирует технический процесс модификации.
Текст обрабатывается embedding model для создания текстового эмбеддинга. Затем diffusion model обрабатывает эмбеддинг и prompt image для генерации замещающих пикселей (predicted replacement pixels) в области, содержащей удаляемые детали. Это технически соответствует процессу инпеинтинга (inpainting).
Claims 18, 19 (Зависимые): Уточняют, что удаляемые детали могут включать аксессуары, тип материала, цвет, стиль, атрибут или форму.
Где и как применяется
Изобретение меняет этап ввода запроса и влияет на выполнение поиска в визуальных вертикалях.
QUNDERSTANDING – Понимание Запросов
Система вводит новый способ формирования запроса. Вместо интерпретации текста система помогает пользователю сконструировать точный визуальный запрос с помощью ИИ. Это происходит через управляемый интерфейс (guided prompt engineering) или через мультимодальное уточнение (текст + изображение).
RANKING – Ранжирование (Визуальный поиск)
После генерации изображения оно используется как запрос для системы визуального поиска (например, Google Lens/Shopping). Эта система выполняет поиск, используя алгоритмы визуального сопоставления (сравнение Embeddings) для нахождения похожих товаров в индексе.
METASEARCH – Метапоиск и Смешивание / Интерфейс
Механизм интегрирован в различные точки входа (Entry Points): стандартный SERP, интерфейс камеры (Lens), видеоплатформы. Пользователь взаимодействует с этими интерфейсами для инициации генерации или модификации.
Входные данные:
- Текстовые дескрипторы (свободный ввод или выбор Chips).
- Существующие изображения (из поиска или галереи).
- Инструкции по модификации (Prompt Text).
- Данные о персонализации (Personalization) и трендах (Trends).
Выходные данные:
- Model-Generated Image (используется как новый запрос).
- Результаты визуального поиска (товары/ресурсы).
На что влияет
- Конкретные ниши: Наибольшее влияние на E-commerce, особенно в визуально-ориентированных нишах: мода, декор, искусство.
- Типы контента: Изображения товаров и страницы продуктов (PDP).
- Специфические запросы: Запросы, связанные с поиском стилей, эстетики и конкретных вариаций товаров, которые сложно описать текстом.
Когда применяется
Алгоритм применяется по инициативе пользователя в двух сценариях:
- Обнаружение (Discovery): Когда пользователь активирует функцию генерации (например, «Dream it» или «Imagine») для создания концепта товара с нуля, используя атрибуты.
- Уточнение (Refinement): Когда пользователь хочет модифицировать существующий результат поиска (например, убрать элемент) и найти товары, соответствующие модифицированному виду.
Пошаговый алгоритм
Сценарий А: Генерация на основе атрибутов (по мотивам Description)
- Инициализация интерфейса: Система предоставляет интерфейс генерации с категориями и дескрипторами (Chips).
- Сбор входных данных: Пользователь выбирает категорию и дескрипторы.
- Формирование промпта: Система компилирует выбранные данные в Prompt Input.
- Генерация изображений: Image Generation Model обрабатывает промпт и создает варианты Model-Generated Images.
- Выбор пользователя: Пользователь выбирает одно изображение из сгенерированных.
- Выполнение визуального поиска: Выбранное изображение используется как запрос к Search Engine.
- Предоставление результатов: Отображаются найденные похожие товары.
Сценарий Б: Уточнение поиска с исключением (по мотивам Claim 1)
- Первичный поиск: Пользователь выполняет поиск и получает результаты.
- Выбор результата для модификации: Пользователь выбирает изображение из результатов.
- Ввод исключения: Пользователь вводит текст, описывающий детали для удаления.
- Создание мультимодального промпта: Система формирует Multi-modal Prompt Input (изображение + текст исключения).
- Генерация модифицированного изображения: Image Generation Model создает новое изображение без указанных деталей (например, через inpainting).
- Выполнение вторичного поиска: Новое изображение используется как визуальный запрос.
- Предоставление результатов: Отображаются товары, соответствующие модифицированному виду.
Какие данные и как использует
Данные на входе
- Контентные факторы (Атрибуты и Текст): Термины, описывающие визуальные характеристики (цвет, материал, стиль). Текстовые инструкции пользователя для модификации (Prompt Text).
- Мультимедиа факторы (Изображения): Изображения из результатов поиска, используемые как основа для модификации (Prompt Image). Сгенерированные изображения (Model-Generated Images), используемые как поисковый запрос.
- Пользовательские факторы: Упоминается использование Personalization, Historical Data (история поиска, покупок) для персонализации предложений атрибутов и результатов генерации.
- Внешние данные: Trends (тренды в соцсетях, поиске) используются для формирования набора предлагаемых дескрипторов.
Какие метрики используются и как они считаются
Патент не детализирует метрики ранжирования, но подразумевает использование стандартных метрик и технологий визуального поиска:
- Visual Similarity (Визуальное сходство): Основной механизм поиска заключается в нахождении реальных товаров, которые визуально похожи на model-generated image.
- Эмбеддинги (Embeddings): Сгенерированное изображение обрабатывается моделью для создания эмбеддинга, который затем используется для поиска ближайших соседей в базе данных продуктовых изображений. Claim 10 упоминает embedding model для кодирования текста.
- Алгоритмы машинного обучения: Используются Image Generation Models. В описании упоминаются Diffusion Models и Трансформеры (например, T5-XXL encoder). Для обработки мультимодальных запросов упоминается возможное использование Multitask Unified Model (MUM).
Выводы
- Генеративный ИИ как новый интерфейс формирования запроса: Ключевая идея — использование ИИ не для ранжирования, а для помощи пользователю в конструировании сложного визуального запроса. Это переход от понимания текстового запроса к созданию визуального интента.
- Визуальный поиск становится основным для E-commerce Discovery: В этой парадигме финальный этап поиска полностью зависит от алгоритмов визуального сопоставления. Текстовая релевантность уступает место визуальному сходству (Visual Similarity).
- Поддержка итеративного и негативного поиска: Патент описывает механизмы уточнения. Claims особо выделяют возможность поиска с исключением нежелательных атрибутов («покажи мне это, но без X») с помощью генеративного ИИ (inpainting).
- Важность управляемого промпт-инжиниринга: Использование структурированных интерфейсов (Chips, Tiles) для выбора атрибутов снижает порог входа для пользователей и повышает качество генерации, направляя модель.
- Приоритет мультимодальности: Система основана на обработке multi-modal prompt input (изображение + текст), что подтверждает стратегическое направление Google на глубокое понимание взаимодействия между разными типами данных.
Практика
Best practices (это мы делаем)
- Приоритет оптимизации под визуальный поиск (Visual Search Optimization — VSO): Это становится критически важным для e-commerce. Необходимо обеспечить максимальное качество и информативность изображений товаров для алгоритмов визуального сопоставления.
- Качество, чистота и разнообразие изображений: Используйте высококачественные фотографии товаров на чистом фоне, с разных ракурсов и с детализацией текстур. Это увеличивает вероятность визуального совпадения со сгенерированным пользователем изображением и облегчает модификацию, если ваше изображение используется как основа.
- Индексация всех вариаций товара: Убедитесь, что каждая вариация товара (цвет, комплектация, материал) имеет уникальное изображение и доступна для индексации. Это критично для сценария, когда пользователь ищет конкретную модификацию (например, удалив деталь с базовой модели).
- Детальные структурированные данные (Schema.org/Product): Максимально подробно размечайте атрибуты товара. Это помогает поисковой системе лучше понять компоненты изображения, что важно как для первичного ранжирования, так и для финального сопоставления.
Worst practices (это делать не надо)
- Игнорирование визуальных активов: Стратегия, фокусирующаяся только на текстовом контенте в e-commerce, будет терять трафик от пользователей, использующих генеративный визуальный поиск.
- Использование перегруженных или некачественных изображений: Изображения с низким разрешением, сложным фоном, водяными знаками или перекрытием товара другими объектами будут плохо распознаваться алгоритмами визуального поиска и плохо поддаваться модификации.
- Ограничение каталога одной версией товара: Не предоставлять доступ к различным вариантам продукта снижает шансы на совпадение с уточненными визуальными запросами пользователей.
Стратегическое значение
Патент подтверждает стратегический сдвиг Google в сторону визуального, интерактивного и ассистируемого ИИ шоппинга. Для SEO-специалистов это означает необходимость глубокого понимания механизмов визуального поиска и машинного зрения. Конкурентоспособность будет зависеть от качества и структурированности визуального каталога. Технология может привести к увеличению доли «длинного хвоста» визуальных запросов, так как пользователи смогут генерировать очень специфические комбинации атрибутов.
Практические примеры
Сценарий 1: Поиск нишевого товара через генерацию атрибутов
- Задача: Пользователь хочет найти «зеленое пальто из искусственного меха с кожаными вставками».
- Действие: Вместо ввода текста он использует интерфейс генерации. Выбирает чипы: «Пальто», Цвет «Зеленый», Материалы «Искусственный мех» и «Кожа».
- Генерация и Поиск: ИИ создает изображение пальто. Пользователь выбирает лучший вариант, и система выполняет визуальный поиск.
- Результат для SEO: Чтобы товар магазина попал в выдачу, его фотографии должны четко отображать все эти атрибуты, чтобы алгоритм Visual Similarity счел его релевантным сгенерированному изображению.
Сценарий 2: Поиск с исключением (по Claim 1)
- Задача: Пользователь ищет «вечернее платье» и находит подходящее, но ему не нравится большой бант на поясе.
- Действие: Он выбирает это платье в результатах поиска и вводит инструкцию «без банта на поясе».
- Генерация и Поиск: ИИ перерисовывает платье, удаляя бант (inpainting). Система ищет реальные платья, похожие на модифицированное изображение.
- Результат для SEO: Наличие в ассортименте схожих товаров с вариациями дизайна и их качественная визуальная презентация увеличивают шансы на показ в таких уточненных запросах.
Вопросы и ответы
Заменяет ли эта технология поиск по ключевым словам в e-commerce?
Не полностью, но она предоставляет новый мощный путь обнаружения товаров, основанный на визуальных концепциях. Для запросов, связанных со стилем, эстетикой или когда пользователь не знает точного названия товара, этот метод может стать предпочтительным, снижая зависимость от точных текстовых формулировок.
Как оптимизировать сайт под изображения, сгенерированные ИИ?
Невозможно оптимизировать под конкретное синтетическое изображение. Вместо этого сосредоточьтесь на оптимизации ваших реальных изображений товаров для алгоритмов визуального сопоставления (как в Google Lens): высокое качество, четкость, разнообразие ракурсов и точное представление товара.
В чем разница между этим патентом и Google Lens?
Google Lens использует реальные фотографии для поиска. Эта система сначала создает синтетическое изображение на основе воображения или описания пользователя (или модифицирует существующее), а затем использует это синтетическое изображение в качестве запроса. Google Lens, вероятно, выполняет финальный этап поиска по этому изображению.
Что такое управляемое создание промпта (Guided Prompt Engineering), описанное в патенте?
Это интерфейс, который помогает пользователю создать эффективный запрос для генеративной модели без специальных знаний. Система предлагает выбрать предопределенные атрибуты (Chips или Tiles) — например, «Платье», «Барокко», «С перьями». Это гарантирует, что ИИ сгенерирует релевантный концепт.
Какая часть изобретения является самой важной согласно Claims?
Согласно формуле изобретения (Claims 1, 11, 17), ключевым защищенным элементом является процесс модификации существующего результата поиска: пользователь выбирает товар, просит ИИ удалить нежелательную деталь (используя Multi-modal Prompt Input) и выполняет повторный поиск по измененному изображению.
Какие модели ИИ используются в этой системе?
Патент упоминает использование моделей генерации изображений (Image Generation Models), в частности диффузионных моделей (Diffusion Models) и трансформеров (например, T5-XXL encoder). Также упоминается возможное использование MUM (Multitask Unified Model) для понимания контекста поиска.
Влияет ли текст на странице товара на ранжирование в таком поиске?
Напрямую — минимально, так как запрос является изображением, и сопоставление происходит визуально (Visual Similarity). Однако текст и структурированные данные (цена, наличие, атрибуты) по-прежнему важны для фильтрации и отображения финальных результатов поиска после того, как визуальное совпадение найдено.
Где может появиться этот функционал?
Патент описывает интеграцию («Dream it», «Imagine») в различные точки входа: стандартные результаты поиска, Google Images, Google Shopping, Google Lens и даже внутри видеоплееров (например, YouTube) при распознавании объектов в кадре.
Что делать, если мои товары имеют много вариаций?
Это преимущество. Убедитесь, что каждая вариация (например, разный цвет фурнитуры, материал отделки) имеет собственное четкое изображение и доступна для индексации. Это повышает шансы соответствовать уточненным запросам пользователей, созданным через генерацию или модификацию изображений.
Что такое механизм «поиска через отсутствие деталей», описанный в Claims?
Это механизм уточнения поиска. Если пользователю нравится товар, но не устраивают детали, он может попросить систему перерисовать изображение без этих деталей с помощью ИИ. Затем это новое изображение используется для поиска товаров, которые изначально не имеют этих нежелательных характеристик.