Google разработал механизм для улучшения точности поиска визуальных концепций. Система анализирует текстовый запрос и определяет слова с «визуальным интентом» (например, описание узора или цвета). Пользователю предлагается заменить эти слова конкретным изображением (из галереи, интернета или через камеру), формируя мультимодальный запрос (текст + изображение) для более точных результатов.
Описание
Какую задачу решает
Патент решает проблему неточности и потери детализации (loss of fidelity), когда пользователи пытаются описать сложные визуальные концепции с помощью текста в поисковом запросе. Текстовые описания (например, «яркий цветочный узор») часто неоднозначны и не передают специфику того, что ищет пользователь. Изобретение направлено на повышение точности запроса, позволяя заменить абстрактное текстовое описание конкретным визуальным примером (изображением).
Что запатентовано
Запатентована система и пользовательский интерфейс (UI) для динамического преобразования текстового запроса в мультимодальный (текст + изображение). Суть изобретения заключается в автоматическом определении «визуального интента» (visual intent) в тексте и предоставлении пользователю механизма для замены этих визуально-описательных терминов (visually-descriptive terms) на конкретное изображение непосредственно в строке поиска.
Как это работает
Система работает в несколько этапов:
- Анализ запроса: Введенный текст анализируется с помощью ML-моделей (например, Visual Intent Determination Model) или на основе Historical Search Data для выявления слов с визуальным интентом.
- Индикация: Если интент обнаружен, система выделяет соответствующие слова в запросе (Indicator), предлагая опцию замены. Это может происходить даже после показа первоначальных результатов поиска.
- Взаимодействие: Пользователь активирует опцию, и система открывает Image-Selection Interface.
- Выбор изображения: Пользователь выбирает изображение из галереи, делает снимок камерой или ищет в интернете. Изображение может быть обрезано (вручную или с помощью Cropping Model) для уточнения деталей.
- Формирование запроса: Выбранное изображение заменяет исходный текст, создавая Multimodal Search Query.
- Поиск: Система выполняет поиск по комбинированному запросу (оставшийся текст + изображение).
Актуальность для SEO
Высокая. Мультимодальный поиск (Google Lens, Multisearch) является стратегическим направлением развития Google. Этот патент, опубликованный в 2025 году, описывает конкретную реализацию интерфейса для бесшовной интеграции этих возможностей в основную строку поиска, что крайне актуально для эволюции поисковых технологий.
Важность для SEO
Влияние на SEO значительное (6.5/10), особенно для E-commerce и визуально-ориентированных ниш. Хотя патент описывает механизм формирования запроса (UI), а не ранжирование, он указывает на фундаментальный сдвиг в поведении пользователей и росте объема мультимодальных запросов. Это критически повышает важность оптимизации визуальных активов сайта (VSO), поскольку изображения становятся прямым объектом сопоставления с визуальным компонентом запроса пользователя.
Детальный разбор
Термины и определения
- Cropping Model (Модель обрезки)
- Модель машинного обучения (Computer Vision), используемая для анализа выбранного изображения. Она предлагает автоматическую обрезку (suggested cropping regions) для фокусировки запроса на конкретном релевантном визуальном элементе (например, узоре).
- Historical Search Data (Исторические данные поиска)
- Данные о предыдущих поисковых запросах и поведении пользователей (например, частота переключения на поиск по картинкам после ввода определенных терминов), используемые для определения Visual Intent. Также упоминаются как historical selection data.
- Image-Selection Interface (Интерфейс выбора изображения)
- Пользовательский интерфейс, позволяющий выбрать изображение для замены текста. Включает опции: image search option (поиск в вебе), user-image database option (галерея пользователя), image-capture option (камера).
- Indicator (Индикатор)
- Визуальный элемент UI (подсветка, изменение цвета текста), который уведомляет пользователя о возможности заменить текст изображением (text replacement option).
- Multimodal Search Query (Мультимодальный поисковый запрос)
- Итоговый запрос, который содержит данные разных типов — комбинацию текста и изображения.
- Visual Intent (Визуальный интент)
- Определение системой того, что часть текстового запроса направлена на описание визуальных характеристик (visual features, например, цвет, узор, стиль), которые лучше выражаются изображением.
- Visual Intent Determination Model (Модель определения визуального интента)
- Машинно-обученная модель (NLP, semantic understanding model), используемая для анализа текста и выявления Visual Intent. Также упоминается как intent determination model.
- Visually-Descriptive Term (Визуально-описательный термин)
- Слово или фраза в запросе, идентифицированные как имеющие Visual Intent.
Ключевые утверждения (Анализ Claims)
Анализируется патентная заявка (Application Publication A1).
Claim 1 (Независимый пункт): Описывает основной процесс реагирования на поисковый запрос, его преобразование и обновление результатов.
- Система получает текстовые данные (запрос), включающие первую группу слов (one or more words) и вторую группу (additional words).
- Система обрабатывает весь текст для определения первого набора результатов поиска.
- Система определяет, что первая группа слов содержит visually-descriptive term.
- В ответ на это определение, система предоставляет Indicator (опцию замены) вместе с первым набором результатов.
- Система получает первый ввод от пользователя (выбор опции замены).
- Система предоставляет Image-Selection Interface, содержащий изображения, связанные с visually-descriptive term.
- Система получает второй ввод (выбор изображения).
- Система заменяет первую группу слов на изображение, генерируя multimodal search query, и отображает изображение вместо текста.
- Система определяет второй набор результатов поиска на основе второй группы слов (контекста) И визуальных признаков (visual features) изображения.
- Система предоставляет второй набор результатов.
Ядро изобретения — это процесс определения визуального интента в тексте и предоставление интерфейса для создания мультимодального запроса на лету, причем этот процесс может запускаться уже после показа первоначальных результатов.
Claims 2-5 (Зависимые): Детализируют процесс обрезки (Cropping).
Выбранное изображение может быть обрезано. Этот процесс может включать использование ML-моделей (Cropping Model) для обнаружения и сегментации релевантной части изображения (relevant portion) или предоставление интерфейса с предложенным регионом обрезки. Это подчеркивает стремление к максимальной точности визуального компонента запроса.
Claims 8-10 (Зависимые): Детализируют механизм определения интента.
Определение visually-descriptive term включает парсинг текста и классификацию сегментов с использованием модели определения интента (intent determination model), которая может быть моделью обработки естественного языка (natural language processing model).
Где и как применяется
Изобретение применяется на этапе взаимодействия пользователя с интерфейсом поиска и понимания его намерения.
QUNDERSTANDING – Понимание Запросов (Query Understanding & Formulation)
Это основной этап применения. Система анализирует текстовый ввод для выявления Visual Intent.
- Анализ интента: Visual Intent Determination Model обрабатывает запрос в реальном времени или после первичной отправки.
- Реформулирование запроса: Система активно предлагает пользователю изменить запрос с текстового на мультимодальный и выполняет замену текста на изображение.
UI/Frontend Layer (Слой интерфейса пользователя)
Интерфейс критичен для реализации патента. Фронтенд отвечает за отображение Indicator и реализацию Image-Selection Interface, включая взаимодействие с камерой или галереей.
RANKING – Ранжирование
Система ранжирования потребляет результат работы этого механизма. После формирования Multimodal Search Query, он передается алгоритмам ранжирования, способным обрабатывать комбинированные текстовые и визуальные сигналы.
Входные данные:
- Текстовый запрос пользователя (Text data).
- Historical Search Data (для определения интента).
- Изображение, выбранное пользователем (из галереи, камеры или сети).
- Взаимодействие пользователя с UI (клики, выбор, обрезка).
Выходные данные:
- Indicator в строке поиска.
- Multimodal Search Query (текст + токен изображения).
- Результаты мультимодального поиска.
На что влияет
- Конкретные ниши или тематики: Наибольшее влияние на E-commerce, особенно в категориях моды, дизайна интерьера, мебели, искусства — там, где визуальные атрибуты (узор, стиль, цвет) критичны.
- Специфические запросы: Запросы, содержащие описательные прилагательные, которые сложно точно передать словами (например, «диван с [описание узора]»).
- Типы контента: Повышает значимость оптимизации изображений и карточек товаров.
Когда применяется
- Триггеры активации: Алгоритм активируется, когда система обнаруживает в запросе visually-descriptive term, указывающий на visual intent.
- Условия работы: Определение базируется на выводах ML-моделей (NLP) или на анализе Historical Search Data (например, если пользователи часто ищут изображения по этим терминам или переключаются на вкладку поиска по картинкам).
- Временные рамки: В реальном времени при вводе запроса или сразу после отображения первоначальной выдачи (SERP), как указано в Claim 1.
Пошаговый алгоритм
- Получение ввода: Система получает текстовый запрос.
- Первичный поиск (Опционально): Выполняется поиск по исходному тексту, генерируется первый набор результатов.
- Анализ визуального интента: Запрос обрабатывается Visual Intent Determination Model и анализируется на основе Historical Data.
- Идентификация дескрипторов: Система идентифицирует Visually-Descriptive Terms (например, «цветочный узор»).
- Отображение индикатора: В интерфейсе (возможно, на странице результатов) отображается Indicator (например, выделение текста), предлагающий замену.
- Активация пользователем: Пользователь взаимодействует с индикатором.
- Запуск интерфейса выбора: Открывается Image-Selection Interface. Предлагаются источники: Галерея (user-image database option), Камера (image-capture option), Поиск (image search option).
- Выбор и обработка изображения: Пользователь выбирает изображение. Система может активировать Cropping Model для предложения автоматической обрезки или пользователь обрезает вручную.
- Формирование мультимодального запроса: Система удаляет Visually-Descriptive Terms и заменяет их выбранным изображением.
- Выполнение мультимодального поиска: Новый запрос обрабатывается поисковой системой.
- Вывод результатов: Отображается второй набор результатов, релевантных мультимодальному запросу.
Какие данные и как использует
Данные на входе
- Контентные факторы (Текст запроса): Текст запроса анализируется для выявления visually-descriptive terms.
- Поведенческие факторы (Исторические данные): Historical search data используются для определения visual intent. Патент упоминает анализ того, как часто пользователи ищут изображения (image search results) или переключаются на визуальный поиск при использовании определенных терминов. Упоминаются глобальные, пользовательские, региональные и контекстные исторические данные о выборе (historical selection data).
- Мультимедиа факторы (Изображения): Изображения, выбранные или захваченные пользователем, становятся ключевым компонентом мультимодального запроса. Анализируются их визуальные признаки (visual features).
- Пользовательские факторы: Доступ к user-specific image database (локальная галерея или облако пользователя) как источнику изображений.
Какие метрики используются и как они считаются
Патент не описывает метрики ранжирования, но фокусируется на используемых моделях и процессах:
- Методы анализа текста (NLP): Упоминаются Visual Intent Determination Model, semantic understanding model, NLP-модели и трансформеры (transformer models). Они используются для классификации слов и фраз как visually-descriptive.
- Алгоритмы машинного обучения (Computer Vision): Используется Cropping Model для обработки изображений. Она может включать модели обнаружения объектов (detection), классификации (classification) и сегментации (segmentation) для выделения релевантных частей изображения (relevant portion).
- Статистические методы: Анализ исторических данных для выявления корреляций между терминами и поведением, связанным с поиском изображений.
Выводы
- Интеграция мультимодальности в основной поиск: Google активно стирает грань между текстовым и визуальным поиском, интегрируя возможности ввода изображений непосредственно в стандартную строку поиска.
- Автоматическое распознавание визуального интента: Ключевой технологией является способность системы проактивно определять, когда текстовый запрос описывает визуальный концепт (Visual Intent), используя NLP и исторические данные, и предлагать пользователю более точный способ ввода (изображение).
- Эволюция формирования запросов (Query Formulation): Патент описывает механизм UI/UX для построения сложных мультимодальных запросов «на лету». Это меняет способ взаимодействия пользователя с поиском.
- Улучшение точности в E-commerce: Механизм направлен на повышение точности (fidelity) запросов в нишах, где визуальные атрибуты критичны, снижая зависимость от неоднозначных текстовых описаний.
- Важность обработки изображений на входе: Система использует сложные ML-модели не только для ранжирования, но и для обработки ввода пользователя (например, Cropping Model для уточнения визуального компонента запроса).
- Интерактивный SERP: Система может предлагать уточнение запроса уже после показа результатов (Claim 1), делая SERP более интерактивным.
Практика
Best practices (это мы делаем)
Хотя патент описывает интерфейс ввода запроса, он критически повышает важность оптимизации визуального поиска (VSO).
- Приоритет высококачественных и разнообразных изображений: Обеспечьте наличие четких, качественных изображений товаров. Демонстрируйте ключевые детали, текстуры и узоры крупным планом. Пользователи будут искать по конкретным визуальным примерам, и ваши изображения должны им соответствовать.
- Оптимизация под визуальное сопоставление (Visual Matching): Убедитесь, что изображения легко обрабатываются системами компьютерного зрения. Используйте чистый фон, когда это уместно, и избегайте перекрытия ключевых элементов водяными знаками. Тестируйте изображения через инструменты визуального поиска (например, Google Lens).
- Детальная микроразметка изображений: Внедряйте структурированные данные (Schema.org/Product, ImageObject) для предоставления поисковым системам максимального контекста об изображении.
- Усиление семантической связи текста и изображений: Убедитесь, что текст на странице (описание товара, alt-атрибуты) точно соответствует визуальным характеристикам изображения. Это важно для релевантности в мультимодальном поиске, где запрос состоит из текста и картинки.
Worst practices (это делать не надо)
- Использование стоковых или общих изображений: Использование неуникальных или нерелевантных изображений снижает шансы на успешное ранжирование в мультимодальном поиске, так как они не соответствуют конкретным визуальным запросам.
- Игнорирование визуального контента: Стратегии, сфокусированные исключительно на текстовом контенте, будут терять эффективность в нишах, где пользователи начнут применять мультимодальные уточнения.
- Низкое качество или маленький размер изображений: Изображения, на которых сложно различить детали (узоры, текстуры), будут плохо работать в системах визуального поиска и сопоставления.
- Блокировка индексации важных изображений: Сокрытие изображений товаров от индексации лишает сайт возможности участвовать в мультимодальном поиске.
Стратегическое значение
Патент подтверждает стратегию Google по развитию поиска за пределами текста. Для Senior SEO-специалистов это сигнал о том, что оптимизация визуальных активов (VSO) становится не менее важной, чем работа с текстом, особенно в E-commerce. Долгосрочная стратегия должна включать интеграцию процессов создания и оптимизации визуального контента в основной SEO-workflow, так как способность сайта быть релевантным мультимодальному запросу напрямую зависит от качества его изображений.
Практические примеры
Сценарий: Поиск товара по узору (E-commerce/Fashion)
- Контекст: Пользователь увидел в социальной сети фотографию платья с уникальным узором и сделал скриншот.
- Формирование запроса: Пользователь хочет найти носки с таким же узором и вводит в Google: «носки с красочным цветочным узором».
- Действие системы: Google определяет visual intent во фразе «красочным цветочным узором» и выделяет ее (Indicator).
- Взаимодействие пользователя: Пользователь нажимает на выделенную фразу. Открывается Image-Selection Interface. Пользователь загружает скриншот платья.
- Обработка: Система (используя Cropping Model) автоматически выделяет узор на платье, или пользователь обрезает изображение вручную.
- Результат: Запрос меняется на «носки с [ИЗОБРАЖЕНИЕ УЗОРА]». Поисковая выдача показывает носки, визуально соответствующие именно этому узору, а не общие результаты по запросу «цветочные носки».
- Действие SEO: Убедиться, что на сайте магазина одежды есть крупные, четкие фотографии узоров товаров, чтобы системы визуального сопоставления могли их распознать.
Вопросы и ответы
Описывает ли этот патент новые алгоритмы ранжирования?
Нет. Патент фокусируется исключительно на пользовательском интерфейсе (UI) и процессе формирования запроса (Query Formulation). Он описывает, как Google помогает пользователю создать мультимодальный запрос (текст + картинка), но не раскрывает, как именно поисковая система ранжирует результаты по такому запросу.
Что такое «Визуальный интент» (Visual Intent) в контексте этого патента?
Это определение системой того, что пользователь пытается описать визуальные характеристики (цвет, узор, стиль) словами. Система понимает, что эта часть запроса может быть более точно и эффективно выражена с помощью изображения, а не текста.
Как система определяет, какие слова имеют визуальный интент?
Патент упоминает два основных метода. Первый — использование ML-моделей (Visual Intent Determination Model, NLP-модели для семантического анализа). Второй — анализ исторических данных поиска (Historical Search Data), например, если пользователи часто переключаются на поиск картинок после ввода этих конкретных слов.
Для каких ниш этот патент наиболее важен?
Наибольшее влияние он окажет на E-commerce и визуально-ориентированные ниши: мода и одежда, домашний декор, мебель, дизайн, искусство. В этих сферах пользователи часто ищут товары по визуальным характеристикам, которые сложно описать текстом.
Что такое «Cropping Model» и зачем она нужна?
Это модель машинного обучения (Computer Vision), которая помогает пользователю выделить нужную часть изображения. Если пользователь загружает фото комнаты, а ищет только диван, модель может автоматически предложить обрезку изображения до дивана (suggested cropping region), чтобы уточнить визуальный компонент запроса и повысить точность поиска.
Как это связано с Google Lens или Multisearch?
Это тесно связанные технологии. Google Multisearch позволяет искать по картинке и тексту. Данный патент описывает механизм интеграции этой возможности непосредственно в процесс ввода текста в основной строке поиска Google, делая его более интуитивным и бесшовным.
Откуда пользователь может брать изображения для замены текста?
Патент описывает три основных источника в Image-Selection Interface: user-image database option (галерея устройства, скриншоты, облачное хранилище), image-capture option (использование камеры устройства) и image search option (поиск изображений в интернете).
Что меняется в подходе к SEO-оптимизации изображений?
Критически возрастает важность качества, четкости и детализации изображений товаров. Поскольку поиск будет выполнять прямое визуальное сопоставление (visual matching) между картинкой в запросе и картинками на сайте, необходимо оптимизировать изображения так, чтобы системы компьютерного зрения могли легко распознать ключевые характеристики товара.
Может ли этот механизм активироваться после того, как я уже увидел результаты поиска?
Да. Согласно Claim 1, система может определить визуальный интент, показать первоначальные результаты поиска и одновременно с ними показать индикатор в строке запроса, предлагая уточнить поиск с помощью изображения. Это позволяет пользователю сначала оценить выдачу, а затем реформулировать запрос.
Какое главное действие я должен предпринять как SEO-специалист после анализа этого патента?
Необходимо провести аудит визуального контента на сайте, особенно для E-commerce. Убедитесь, что у вас есть четкие, высококачественные изображения, демонстрирующие детали (узоры, текстуры) крупным планом, так как именно эти детали пользователи будут использовать в качестве компонентов мультимодальных запросов. Интегрируйте VSO в вашу стратегию.