
Google использует технологию, позволяющую пользователям уточнять визуальные запросы путем произвольного выделения конкретных деталей на изображении (например, обводя или закрашивая элемент). Система интерпретирует это действие для понимания истинного намерения пользователя. Используя визуальные эмбеддинги, система находит результаты, релевантные как выделенному признаку, так и объекту в целом, и предоставляет комбинированную выдачу, сохраняя контекст исходного запроса.
Патент решает проблему неоднозначности пользовательского намерения (интента) в визуальном поиске. Когда пользователь отправляет изображение в качестве запроса, неясно, интересует ли его объект целиком или конкретный визуальный признак (например, узор ткани, форма детали, цвет). Существующие системы часто фокусируются на общем визуальном сходстве (holistically similar visual characteristics), что может не соответствовать истинному интересу пользователя. Изобретение позволяет точно определить гранулярность запроса и сфокусировать поиск на конкретных деталях, интересующих пользователя.
Запатентована система и метод для уточнения визуального поиска посредством произвольного пользовательского ввода (free-form user input). Пользователь может выделить определенную часть (particular sub-portion) изображения (например, обвести, выделить цветом или выбрать пиксели). Система использует этот ввод для фокусировки поиска на конкретных визуальных признаках. Ключевым элементом является способность системы комбинировать результаты, относящиеся как к объекту в целом (object overall), так и к выделенной части, используя visual embeddings.
Механизм работает следующим образом:
visual embeddings для идентификации двух наборов результатов: (1) связанных с объектом в целом и (2) связанных с выделенной частью.combined set of content) из этих двух наборов. Ранжирование может гибко приоритизировать либо общее сходство, либо сходство деталей.Критически высокая. Патент опубликован в 2024 году и описывает базовые технологии для функций интерактивного визуального поиска, таких как Google Lens и "Circle to Search". Понимание гранулярного визуального интента является ключевым направлением развития поисковых технологий, особенно в e-commerce.
Патент имеет высокое значение (85/100) для SEO, особенно в E-commerce и визуально-ориентированных нишах. Он демонстрирует способность Google интерпретировать запросы на уровне отдельных визуальных признаков (стиль, узор, форма), а не только объекта целиком. Это требует от SEO-специалистов нового уровня оптимизации изображений, гарантируя, что ключевые характеристики и детали продуктов четко различимы и могут быть корректно интерпретированы моделями машинного зрения (visual embeddings) при гранулярном запросе.
line drawn in a loop), выделение полупрозрачным цветом (swathe of translucent color) или выбор подмножества пикселей (subset of pixels).visual features).object overall, и результатов, связанных с particular sub-portion.free-form user selection mode).Патент содержит несколько ключевых независимых пунктов, описывающих разные аспекты изобретения.
Claim 1 (Независимый пункт): Описывает базовый метод взаимодействия.
free-form user input, выбирающий particular sub-portion объекта. В этом пункте ввод конкретизирован как "линия, нарисованная в виде петли вокруг конкретной части объекта тактильным объектом".Claim 21 (Независимый пункт): Описывает продвинутый метод выбора части изображения.
free-form user input в виде выбора подмножества пикселей. Ключевое уточнение: это подмножество включает как минимум две группы выбранных пикселей, которые отделены друг от друга и не являются смежными (non-adjacent). Это позволяет выбирать несколько несвязанных элементов одновременно (например, узор на воротнике и узор на подоле).Claim 10 (Независимый пункт): Описывает критически важный механизм обработки запроса и сохранения контекста.
visual embeddings кандидатов, чтобы идентифицировать: object overall).particular sub-portion).combined set of content, включающий результаты из обоих наборов.Claim 12 и 13 (Зависимые от 10): Детализируют гибкость ранжирования комбинированного набора.
Изобретение применяется в системах визуального поиска (например, Google Lens, Google Images) и затрагивает несколько этапов поисковой архитектуры.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна предварительно вычислить и сохранить visual embeddings для изображений в индексе. Критически важно, что эти эмбеддинги должны характеризовать как объект в целом (object overall), так и его различные визуальные признаки или части, чтобы обеспечить возможность гранулярного поиска.
QUNDERSTANDING – Понимание Запросов
Ключевой этап применения. Система интерпретирует сложный ввод, состоящий из изображения и данных о free-form user input (например, координат обводки или маски пикселей). Происходит трансформация сырого ввода в структурированное намерение, определяя фокус поиска (particular sub-portion) и контекст (object overall).
RANKING – Ранжирование (Retrieval)
На этапе отбора кандидатов система реализует механизм из Claim 10. Она выполняет поиск (вероятно, в пространстве visual embeddings) для идентификации Первого и Второго наборов результатов.
RERANKING – Переранжирование / METASEARCH – Смешивание
На этом этапе система формирует combined set of content из двух наборов. Происходит финальное ранжирование с использованием гибких приоритетов (Claims 12 и 13) или взвешенного среднего.
Входные данные:
free-form user input (координаты петли, маска выделения, выбранные пиксели).visual embeddings кандидатов.Выходные данные:
Combined set of content – ранжированный список визуальных результатов поиска.free-form selection) для уточнения запроса (например, обводит элемент на экране).initial visual feature suggestions), но позволяет пользователю переключиться в режим свободного выбора (Claim 22).Процесс А: Обработка взаимодействия пользователя
free-form user input (петля, выделение цветом или выбор несмежных групп пикселей), который определяет particular sub-portion объекта.Процесс Б: Обработка запроса в поисковой системе (Комбинированный поиск)
visual embeddings кандидатов для идентификации: object overall).particular sub-portion).combined set of content, включающего результаты из обоих наборов (например, поиск пересечения или комбинирование оценок сходства).Патент фокусируется на обработке визуальных данных и взаимодействии пользователя.
Free-form user input (данные о взаимодействии с интерфейсом – касания, свайпы, координаты выделения).visual embeddings для изображений в индексе.object overall.particular sub-portion.average), которое может быть взвешено в пользу общего объекта или выделенной части.particular sub-portion) и по объекту в целом (object overall). Система стремится найти баланс (например, найти "платье с такими рукавами", а не просто "такие рукава").non-adjacent pixels) указывает на высокую сложность системы. Она может обрабатывать запросы, включающие комбинацию признаков, расположенных в разных частях изображения.Visual Embeddings, которые Google рассчитывает на этапе индексирования. Это подчеркивает важность того, как модели машинного обучения интерпретируют визуальный контент.Visual Embeddings для этих деталей.particular sub-portion поиске.object overall для сохранения контекста.Visual Embeddings.Этот патент подтверждает, что визуальный поиск становится все более точным, интерактивным и гранулярным. Для E-commerce это означает смещение фокуса с текстовой оптимизации на оптимизацию под машинное зрение. Способность Google интерпретировать сложный визуальный интент делает качество, детализацию и представление продуктовых изображений одним из ключевых факторов ранжирования в визуальном поиске. Долгосрочная стратегия должна включать инвестиции в качественный визуальный контент, оптимизированный для распознавания как целых объектов, так и их атрибутов.
Сценарий: Оптимизация карточки товара (Дизайнерское платье с уникальным узором)
object overall (платье определенного фасона).particular sub-portion (узор).Free-form Input), система Google анализирует Visual Embeddings. Благодаря наличию четких изображений узора, эмбеддинги вашего товара будут иметь высокую степень совпадения. Система сформирует Combined Set of Content. Если система применит ранжирование с приоритетом детали (Claim 13), ваш товар может появиться в выдаче, даже если фасон платья отличается от исходного изображения.Что такое Visual Embeddings и почему они критичны для этого патента?
Visual Embeddings — это числовые векторные представления визуального контента, созданные нейросетями. Они позволяют системе сравнивать изображения по их семантическому и визуальному содержанию, а не попиксельно. В этом патенте они критичны, так как используются для выполнения двойного поиска: оценки сходства как на уровне целых объектов (object overall), так и на уровне выделенных деталей (particular sub-portion).
Как работает механизм комбинирования результатов (Claim 10)?
Этот механизм решает проблему сохранения контекста. Система ищет два набора результатов: первый соответствует объекту в целом (например, «диван»), а второй — выделенной детали (например, «резные ножки»). Затем она формирует комбинированный набор (например, «диваны с резными ножками»). Это гарантирует, что пользователь получит результаты, соответствующие и типу объекта, и его специфическим характеристикам.
Что важнее для ранжирования: сходство с объектом в целом или с выделенной деталью?
Патент предусматривает гибкость (Claims 12 и 13). Система может ранжировать комбинированный набор, отдавая приоритет либо сходству с объектом в целом, либо сходству с выделенной деталью. Также упоминается возможность использования взвешенного среднего. Выбор стратегии, вероятно, зависит от конкретного запроса и уверенности системы в распознавании.
Как этот патент влияет на SEO для E-commerce?
Влияние значительное. Это подчеркивает, что оптимизация изображений должна проводиться не только для распознавания товара в целом, но и для распознавания его ключевых деталей. Если ваши изображения позволяют системе четко выделить и понять отдельные визуальные признаки (текстуру, цвет, форму деталей), вы сможете получать трафик по уточненным, гранулярным визуальным запросам.
Какие требования к фотографиям товаров вытекают из этого патента?
Необходимо использовать высококачественные, четкие изображения с хорошим освещением. Важно предоставлять не только общие планы, но и крупные планы ключевых деталей и уникальных характеристик товара. Избегайте визуального шума, водяных знаков на деталях и чрезмерного сжатия, которые могут ухудшить распознавание текстур и мелких элементов.
Может ли пользователь выделить несколько несвязанных деталей одновременно?
Да. Claim 21 специально описывает метод выбора подмножества пикселей, состоящего из двух или более несмежных групп (non-adjacent). Это позволяет пользователю сформировать сложный запрос, например, выделив рукава и воротник на платье одновременно, чтобы найти похожий фасон.
Связано ли это с функцией Google "Circle to Search"?
Да, описанные в патенте механизмы, особенно Claim 1 (рисование петли вокруг части объекта для инициации поиска), очень похожи на функциональность "Circle to Search" или аналогичные интерактивные элементы в Google Lens. Патент описывает базовую технологию, позволяющую реализовать такие функции для уточнения визуального интента пользователя.
Всегда ли пользователь должен выделять детали вручную?
Не обязательно. Патент упоминает initial visual feature suggestions (Claim 22). Система может автоматически распознать различные части объекта и предложить их пользователю для выбора. Однако, если автоматические предложения не подходят, пользователь может переключиться в режим свободного ввода (free-form selection mode) и выделить область самостоятельно.
Влияет ли текст вокруг изображения (например, Alt-теги) на этот тип поиска?
Патент сфокусирован исключительно на анализе визуальных данных (пикселей), пользовательском вводе и использовании visual embeddings. Текстовые атрибуты напрямую не упоминаются как факторы для этого конкретного механизма уточнения. Основная задача SEO — обеспечить высокое визуальное качество изображений.
Как SEO-специалисту проверить, насколько хорошо распознаются детали моих товаров?
Используйте инструменты визуального поиска, такие как Google Lens. Попробуйте загрузить изображение вашего товара и затем использовать инструменты уточнения (например, выделить область или деталь), чтобы увидеть, меняются ли результаты и насколько они релевантны выделенной детали. Это даст представление о том, как система интерпретирует визуальные признаки вашего продукта.

Семантика и интент

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Индексация
Google Shopping

Мультимедиа
Семантика и интент

Ссылки
Антиспам
SERP

Поведенческие сигналы
SERP
Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

Мультиязычность
Семантика и интент
Ссылки

Knowledge Graph
Семантика и интент
EEAT и качество

EEAT и качество
SERP
Ссылки

Поведенческие сигналы
Индексация
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Ссылки
Антиспам
Краулинг

Поведенческие сигналы
