
Google патентует механизм для улучшения визуального поиска (например, Google Lens). Система генерирует единое векторное представление (Image Embedding) для изображения-запроса и использует его для одновременного поиска визуально похожих результатов в нескольких разных базах данных (например, в общем веб-индексе и специализированном индексе товаров или локаций). Контекст пользователя (местоположение, история) помогает системе выбрать, какие специализированные базы активировать для поиска.
Патент решает проблему ограниченности и одномерности результатов традиционного визуального поиска. Часто результаты визуального запроса не соответствуют истинному намерению пользователя (например, пользователь ищет товар для покупки, а получает только информационные ссылки) или требуют ручного уточнения области поиска (например, переключения между вкладками Web, Shopping). Изобретение направлено на автоматическое предоставление разнообразных, многомерных результатов из различных источников (датасетов) в ответ на единственный визуальный запрос, устраняя необходимость в ручном уточнении.
Запатентована система, которая обрабатывает визуальный запрос (Image Data) с помощью Embedding Model для создания векторного представления (Image Embedding). Этот эмбеддинг затем используется для одновременного поиска в нескольких различных наборах данных (Multiple Datasets), как минимум в общем индексе (Global Database) и одном или нескольких специализированных индексах (Specialized Database). Система может динамически выбирать релевантные специализированные базы на основе контекста и применять разные методы поиска (векторный или мультимодальный) для разных баз.
Система функционирует следующим образом:
Image Embedding, который фиксирует его визуальные характеристики.Context Data (местоположение пользователя, история поиска, классификация объекта на изображении).Image Embedding используется для поиска визуально похожих элементов в каждом выбранном датасете. Для разных датасетов могут применяться разные техники: чистый поиск по схожести эмбеддингов или комбинация эмбеддинга с Text Labels или Visual Tokens (мультимодальный поиск).Критически высокая. Визуальный поиск (Google Lens, Circle to Search) является ключевым элементом стратегии Google. Описанный механизм напрямую соответствует текущим тенденциям к мультимодальному поиску (MUM, Gemini) и интеграции различных вертикалей (Shopping, Local) в единый пользовательский опыт. Патент подан недавно (2023 год), что указывает на его актуальность для текущих систем.
Влияние на SEO значительное (85/100), особенно для E-commerce, локального бизнеса и контент-проектов с богатым визуальным контентом. Патент подчеркивает переход к векторному поиску на основе Embeddings как универсальному методу сопоставления контента. Для попадания в выдачу по визуальным запросам критически важно, чтобы изображения сайта были высокого качества и присутствовали не только в общем индексе, но и в специализированных вертикалях (например, Google Shopping через Merchant Center).
Particular Context и выбора релевантных специализированных баз данных. Включает историю поиска/браузинга/покупок пользователя, местоположение, время, тренды, используемое приложение или классификацию объектов на изображении.Image Embedding.live video feed) или выделенную часть изображения.Embedding Model. Фиксирует визуальные признаки (Image Features). Используется для поиска схожих элементов путем сравнения векторов.Image Embedding.Tokenizer Block). Могут использоваться для отбора кандидатов поиска или для их ранжирования.Патент содержит три основных независимых пункта (Claim 1, 11, 17), описывающих разные варианты реализации системы.
Claim 1 (Независимый пункт): Описывает базовый механизм параллельного поиска по эмбеддингу.
Image Data).Image Embedding с помощью Embedding Model.Image Embedding.Image Embedding.Ядро изобретения — использование одного и того же Image Embedding для одновременного поиска в двух разных типах баз данных (общей и специализированной).
Claim 11 (Независимый пункт): Описывает механизм выбора специализированной базы на основе контекста.
Context Data.Image Embedding.Particular Context).Ключевое отличие от Claim 1: специализированная база данных не предопределена, а выбирается динамически на основе контекста запроса или пользователя.
Claim 17 (Независимый пункт): Описывает мультимодальный подход к поиску в разных базах.
Image Embedding.Text Labels (классификации) для объектов на изображении.Image Embedding.Image Embedding, и Text Labels.Ключевое отличие: для разных баз данных используются разные методы поиска. Одна база использует чистый векторный поиск, другая — мультимодальный (вектор + текст).
Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая работу систем визуального поиска типа Google Lens.
INDEXING – Индексирование и извлечение признаков
На этом этапе система предварительно обрабатывает контент из различных баз данных (Web, Shopping, Local и т.д.). Для каждого элемента генерируются и сохраняются Search Result Embeddings. Критически важно, чтобы эти эмбеддинги находились в совместимом векторном пространстве с Image Embedding запроса.
QUNDERSTANDING – Понимание Запросов
Основное применение. При получении визуального запроса система:
Image Embedding запроса в реальном времени.Visual Tokens или Text Labels (мультимодальная обработка).Context Data.RANKING – Ранжирование (Параллельное выполнение)
Система запускает процессы поиска одновременно в выбранных базах данных (L1/Retrieval).
Image Embedding (Claim 17).Image Embedding (Claim 1) или мультимодально (Embedding + Text Labels) (Claim 17).На этапах L2/L3 происходит ранжирование кандидатов. Патент упоминает (Claims 6-9), что Visual Tokens могут использоваться для отбора кандидатов (Retrieval), а Embedding — для их ранжирования (Ranking), или наоборот.
METASEARCH – Метапоиск и Смешивание
Результаты из разных баз данных (General Search Results и Specialized Search Results) агрегируются. Система формирует единый интерфейс (Search Results Interface). Результаты могут отображаться в отдельных панелях для каждой базы или смешиваться (intermingled).
Входные данные:
Image Data (визуальный запрос).Context Data (местоположение, история пользователя, метаданные).Выходные данные:
Описаны три основных варианта работы системы, соответствующие независимым Claims.
Вариант А: Базовый параллельный поиск (на основе Claim 1 и FIG. 3)
Image Data.Image Data обрабатывается Embedding Model для создания Image Embedding.threshold pairwise similarity) с эмбеддингом запроса.Image Embedding.Вариант Б: Контекстно-зависимый поиск (на основе Claim 11 и FIG. 4, 7)
Image Data и Context Data.Particular Context).Image Embedding запроса.Image Embedding.Вариант В: Мультимодальный поиск с разными стратегиями (на основе Claim 17 и FIG. 8)
Image Data.Image Embedding И определяет Text Labels для объектов на изображении.Image Embedding.Image Embedding и Text Labels.Система использует следующие типы данных:
Image Data является основным входом. Система анализирует Image Features (визуальные признаки объектов).Context Data. Включают историю поиска (user search history), историю просмотров, историю покупок, предпочтения пользователя.Location Data), где был сделан снимок или находится пользователь. Критично для выбора локальных баз данных.Context Data.Патент упоминает ключевые метрики и методы:
Image Embedding запроса и эмбеддингами контента в базах данных. Поиск возвращает результаты, превышающие порог (threshold pairwise similarity).Visual Tokens или Text Labels.Text Labels и определения контекста на основе объектов в изображении (например, классификация объекта как "дом" для активации поиска по недвижимости).Image Embedding) как универсальный "ключ" для поиска визуально похожего контента в любых своих индексах (Web, Shopping, Local). Это подтверждает стратегический переход к семантическому и визуальному пониманию контента через векторы.Context Data (местоположение, история пользователя, тип объекта на фото) определяют, какие специализированные базы данных будут активированы.Embedding и сопоставления с запросами пользователей по визуальной схожести.Specialized Databases.Text Labels) и выбрать правильную вертикаль (Claim 11).Text Labels вместе с эмбеддингами (Claim 17), важно оптимизировать текстовые атрибуты (alt-текст, описания). Это помогает в сценариях, где поиск комбинирует визуальную схожесть и текстовые фильтры.Embeddings таких изображений будут соответствовать множеству нерелевантных запросов.Embeddings и включить их в визуальный поиск.Этот патент подтверждает стратегию Google на развитие поиска за пределами текста, делая визуальный ввод (через Google Lens и аналогичные технологии) равноправным типом запроса. Для SEO это означает необходимость интеграции стратегий визуального поиска (VSO) в общую стратегию продвижения. Понимание того, как Google интерпретирует изображения через Embeddings и как контекст влияет на выбор вертикалей, становится ключевой компетенцией, особенно в E-commerce и Local SEO.
Сценарий 1: Оптимизация карточки товара в E-commerce (Контекстный поиск)
Embeddings.Specialized Database (Shopping).Text Labels.Image Embedding. Благодаря контексту (объект = мебель) система активирует базу Shopping (Claim 11). Поиск находит товар по схожести Embedding. Пользователь видит в выдаче прямую ссылку на покупку данного товара.Сценарий 2: Привлечение локального трафика для ресторана
Context Data (текущее местоположение пользователя рядом с рестораном) и активирует Specialized Database (Local Search) (Claim 11). Система находит совпадение по Image Embedding в профиле ресторана и показывает пользователю информацию о ресторане, маршрут и опции бронирования (Action Links).Что такое Image Embedding в контексте этого патента и почему это важно для SEO?
Image Embedding — это числовой вектор, который представляет визуальное содержание изображения. В этом патенте он используется как универсальный ключ для поиска похожих изображений сразу в нескольких базах данных (Web, Shopping и т.д.). Для SEO это критически важно, так как сопоставление контента все больше переходит от ключевых слов к визуальной и семантической схожести, измеряемой через близость этих векторов.
Как система решает, в каких специализированных базах данных искать?
Система анализирует Context Data (Claim 11). Это включает местоположение пользователя, его историю поиска, время суток, а также классификацию объекта на фото. Если контекст указывает на коммерческий интент (например, распознан товар) или локальный поиск (например, распознано здание поблизости), система активирует соответствующие специализированные базы данных (Shopping, Local).
Влияет ли текст на странице (например, alt-текст или заголовок) на этот тип визуального поиска?
Да, влияет. Во-первых, текст помогает системе понять контекст и классифицировать изображение (создать Text Labels), что влияет на выбор баз данных. Во-вторых, в мультимодальном варианте (Claim 17) система может использовать эти Text Labels вместе с Image Embedding для поиска в специализированных базах данных, повышая точность результатов.
Что такое мультимодальный поиск, описанный в патенте?
Это подход, при котором для поиска используется более одного типа данных. В патенте описано использование комбинации Image Embedding (визуальные данные) и Text Labels или Visual Tokens (текстовые/структурные данные) (Claim 17). Например, система может использовать текстовую метку для отбора кандидатов (например, "платье"), а затем использовать Image Embedding для точного ранжирования этих платьев по визуальной схожести фасона.
Как этот патент влияет на стратегию E-commerce SEO?
Он делает присутствие в Google Shopping (через Merchant Center) еще более важным. Поскольку система параллельно ищет товары при визуальных запросах, отсутствие товара в этой Specialized Database означает потерю трафика. Также критически важным становится качество и уникальность фотографий товаров, так как они напрямую влияют на генерацию Embeddings и визуальное сопоставление.
Может ли система использовать разные алгоритмы поиска для разных баз данных?
Да, это прямо указано в патенте (Claim 17). Система может использовать чистый векторный поиск (только по Image Embedding) для одной базы данных (например, общего индекса изображений) и одновременно использовать мультимодальный поиск (Embedding + Text Labels) для другой базы данных (например, индекса товаров).
Как обеспечить, чтобы мои изображения ранжировались лучше с помощью этого механизма?
Необходимо фокусироваться на качестве и четкости изображения, чтобы Embedding Model могла точно считать визуальные признаки. Изображение должно быть релевантным контексту страницы. Также важно обеспечить наличие контента в релевантных специализированных индексах (Shopping, Local) и использовать микроразметку для помощи в генерации точных Text Labels.
Что такое Visual Tokens и как они используются?
Visual Tokens — это токенизированные представления визуальных признаков изображения. Патент описывает (Claims 6-9), что они могут использоваться в процессе поиска либо для первоначального отбора кандидатов (Retrieval), которые затем ранжируются с помощью Image Embedding, либо наоборот.
Влияет ли этот патент на локальный поиск (Local SEO)?
Да. Если пользователь фотографирует локальный объект, система может использовать его местоположение (Context Data) для активации локальной базы данных (Claim 11). Если Image Embedding запроса совпадет с фотографиями в вашем Google Business Profile, ваш бизнес будет показан в результатах. Это подчеркивает важность загрузки качественных фото в GBP.
Означает ли это, что Google использует одну и ту же модель для создания эмбеддингов для Web и Shopping?
Патент предполагает, что Embeddings из разных баз данных должны быть совместимы с Image Embedding запроса. Это подразумевает использование одной и той же модели или разных моделей, обученных для маппинга в одно общее векторное пространство, что обеспечивает возможность сравнения визуальной схожести независимо от источника контента.

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Индексация
Google Shopping

Мультимедиа
Ссылки

Мультимедиа
Семантика и интент
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

EEAT и качество
Ссылки

Ссылки
Индексация
Краулинг

Персонализация
Поведенческие сигналы
Local SEO

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
SERP

Knowledge Graph
SERP
Семантика и интент

Knowledge Graph
SERP
Семантика и интент

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP
