Патент описывает комплексную систему для визуального поиска. Google может анализировать изображения на удаленных (сторонних) веб-страницах, распознавать объекты (например, одежду на человеке), извлекать их визуальные характеристики (цвет, форму, текстуру) и делать эти объекты интерактивными. Это позволяет пользователям инициировать поиск похожих товаров, выбрав объект непосредственно на исходном изображении.
Описание
Какую задачу решает
Патент решает проблему поиска и идентификации объектов на основе их визуальных характеристик (image data), а не только текстовых метаданных. Основная задача — сделать возможным распознавание и поиск объектов (например, товаров) в изображениях, размещенных на удаленных или сторонних сайтах (remote content on display), которые часто неструктурированы и не имеют коммерческого контекста (например, блоги, новостные сайты). Это устраняет зависимость поиска только от ключевых слов и позволяет превратить любое изображение в интернете в стартовую точку для визуального поиска и электронной коммерции.
Что запатентовано
Запатентована система и метод для анализа изображений, полученных с удаленных веб-страниц. Система программно извлекает контент, анализирует изображения для определения информации об объектах (используя image recognition) и делает эти объекты или их части выбираемыми (selectable). Эта определенная информация (например, визуальные сигнатуры или классификация объекта) затем связывается с выбираемым объектом и используется в поисковых приложениях, позволяя инициировать поиск похожих элементов на основе визуального ввода.
Как это работает
Система функционирует через комплексный конвейер обработки изображений и активации контента:
- Получение контента (Procurement): Система сканирует веб-страницы или получает изображения по триггеру (trigger input).
- Сегментация и Выравнивание (Segmentation/Alignment): Объекты отделяются от фона (например, с использованием статистического анализа распределения пикселей или Markov Random Field) и нормализуются к каноническому виду.
- Определение объекта (Object Determination): Система классифицирует объект, используя анализ текста/метаданных и анализ данных изображения (image data analysis). Для изображений людей может использоваться обнаружение лиц как маркер для последующего обнаружения одежды.
- Извлечение признаков (Feature Extraction): Извлекаются глобальные (цвет, общая форма) и локальные (текстура, форма частей) признаки. Используются техники вроде Histogram of Oriented Gradients (HOG), Color Histograms и анализ текстур.
- Индексация: Признаки квантуются в визуальные сигнатуры (signatures) и индексируются для быстрого поиска.
- Активация удаленного контента: На удаленных страницах идентифицированные объекты делаются активными. Выбор объекта пользователем генерирует запрос к визуальной поисковой системе на основе его признаков.
Актуальность для SEO
Высокая. Патент описывает инфраструктуру и методы, лежащие в основе современных систем визуального поиска (Visual Search) и интеграции электронной коммерции в контентные проекты. Учитывая рост значимости изображений в поиске и фокус Google на распознавании сущностей и объектов в медиаконтенте, описанные механизмы крайне актуальны. Методы извлечения признаков (например, HOG) и конвейер обработки остаются фундаментальными в компьютерном зрении.
Важность для SEO
Патент имеет высокое стратегическое значение для SEO, особенно в e-commerce, fashion, и контентных проектах. Он демонстрирует, что Google рассматривает изображения как первостепенные объекты поиска, способные генерировать запросы независимо от окружающего текста. Это подчеркивает критическую важность оптимизации изображений не только через alt-тексты, но и через обеспечение их визуального качества, четкости и легкой распознаваемости (recognition) для алгоритмов компьютерного зрения. Если система может легко сегментировать и извлечь признаки товара, он будет более видим в визуальном поиске.
Детальный разбор
Термины и определения
- Content-based Image Retrieval (CBIR)
- Поиск изображений на основе визуальной информации (содержимого), а не контекстных текстовых метаданных.
- Feature Extraction (Извлечение признаков)
- Процесс идентификации и представления визуальных характеристик объекта (цвет, форма, текстура) в виде данных (часто векторов или сигнатур), отдельных от самого изображения.
- Global Features (Глобальные признаки)
- Визуальные характеристики, описывающие объект на изображении в целом (например, доминирующий цвет, общая форма).
- Histogram of Oriented Gradients (HOG)
- Дескриптор признаков, используемый для обнаружения объектов. Он основан на градиентах изображения и фиксирует информацию о форме и структуре краев.
- Image Data (Данные изображения)
- Данные, соответствующие дискретным частям захваченного изображения, например, информация о пикселях или данные, определенные на основе пикселей (включая сигнатуры или нетекстовые данные, представляющие признаки).
- Image Segmentation (Сегментация изображения)
- Процесс разделения изображения на передний план (объект) и фон.
- Local Features (Локальные признаки)
- Визуальные характеристики, локализованные в определенной части или регионе объекта (например, форма каблука туфли).
- Object Determinator (Определитель объекта)
- Компонент системы, который определяет информацию об объекте (например, классификацию) с использованием анализа изображений, текста, метаданных или их комбинации.
- Principal Component Analysis (PCA)
- Статистическая процедура, используемая в патенте для выравнивания объектов (например, ювелирных изделий) путем определения главной оси, вдоль которой распределена масса объекта.
- Procurement (Получение контента)
- Процесс обнаружения и получения элементов контента (например, веб-страниц с изображениями) через сканирование (crawling), получение фидов или триггеров.
- Recognition (Распознавание)
- Определение того, с чем коррелирует изображение, что оно представляет, идентифицирует или какой контекст обеспечивает.
- Signatures (Сигнатуры)
- Квантифицированное (часто векторное) представление набора признаков для объекта изображения, используемое для индексации и сравнения.
Ключевые утверждения (Анализ Claims)
Примечание: Анализ базируется на Abstract и Detailed Description, которые описывают суть изобретения, так как полный текст Claims может быть недоступен в предоставленном фрагменте.
Суть изобретения 1 (Соответствует Claim 1, описанному в Abstract): Описывает метод анализа изображений, выполняемый программными механизмами.
- Доступ к одной или нескольким удаленным веб-страницам (remote web pages) для получения контента, отображаемого на них.
- Анализ одного или нескольких изображений из полученного контента.
- Определение информации об объекте, показанном на соответствующем изображении.
- Предоставление возможности выбора (making selectable) по крайней мере части объекта, показанного на изображении.
- Связывание (associating) определенной информации с выбираемой частью объекта.
Ядро изобретения — это возможность программно анализировать изображения на сторонних сайтах и делать объекты на этих изображениях интерактивными, связывая их с данными, полученными в ходе анализа.
Суть изобретения 2 (Применение определенной информации):
Определенная информация используется в поисковом приложении (search application). Это связывает механизм анализа и активации удаленного контента непосредственно с поиском.
Суть изобретения 3 (Детализация определения информации):
Определение информации включает идентификацию объекта как принадлежащего к определенному классу (identifying the object as being of a class). Система не просто извлекает признаки, но и классифицирует объект (например, «туфля», «часы»).
Суть изобретения 4 (Механизм взаимодействия пользователя):
Определенная информация об объекте отображается в ответ на взаимодействие пользователя (user interaction) с частью объекта на изображении. Это описывает пользовательский опыт, когда взаимодействие (например, наведение курсора или клик) показывает данные об объекте или инициирует поиск.
Где и как применяется
Изобретение охватывает полный цикл обработки изображений для поисковой системы, от сбора данных до взаимодействия с пользователем.
CRAWLING – Сканирование и Сбор данных
Компонент Procurement активно сканирует сеть (web crawlers) для поиска контента, содержащего изображения (например, e-commerce сайты, блоги). Также система может получать контент по расписанию (schedule input) или по триггеру (trigger input) с удаленных сайтов.
INDEXING – Индексирование и извлечение признаков
Это основной этап работы системы (Content Analysis System).
- Image Segmentation и Alignment: Обработка сырых изображений для выделения объектов и их нормализации.
- Feature Extraction: Извлечение локальных и глобальных визуальных признаков (цвет, форма, текстура) с использованием методов вроде HOG, PCA, Color Histograms.
- Object Determinator: Классификация объектов с использованием image analysis и text/metadata analysis.
- Vectorization и Indexing: Преобразование признаков в signatures и их сохранение в индексе (Index) для последующего поиска.
QUNDERSTANDING – Понимание Запросов
Когда пользователь взаимодействует с активированным изображением на удаленном сайте или загружает изображение (unprocessed image input), система анализирует этот ввод. Query Generator преобразует визуальный ввод (например, выбор региона изображения) в структурированный запрос, содержащий визуальные сигнатуры и, возможно, дополнительные фильтры (цвет, текст).
RANKING – Ранжирование
Модуль Search выполняет поиск по индексу, используя запрос. Применяются алгоритмы поиска ближайших соседей (nearest neighbors) и метрики измерения сходства (similarity measurements). Патент описывает различные методы ранжирования, включая Simple Voting, а также использование каскадных структур для ускорения поиска (быстрые признаки для первого прохода, более сложные для уточнения).
Входные данные:
- Элементы контента (веб-страницы, изображения, текст, метаданные).
- Необработанные изображения, загруженные пользователем или полученные по триггеру.
- Ввод пользователя через интерфейс (выбор изображения, выбор региона, ввод текста, использование слайдеров/color picker).
Выходные данные:
- Индексные данные (сигнатуры, классификации, извлеченный текст).
- Результаты поиска (презентация панелей с похожими объектами).
- Активированные изображения на удаленных сайтах (с интерактивными областями).
На что влияет
- Конкретные типы контента: Изображения товаров (одежда, обувь, аксессуары, ювелирные изделия, мебель). Изображения людей (для идентификации одежды и аксессуаров на них).
- Специфические запросы: Визуальные поисковые запросы (Visual Search), запросы типа «найти похожее», запросы, инициированные выбором объекта на изображении.
- Конкретные ниши или тематики: E-commerce, мода (Fashion), дизайн интерьера, блоги о знаменитостях.
Когда применяется
- Триггеры активации (Backend): При обнаружении нового контента во время сканирования или при получении контента по триггеру/расписанию с удаленного сайта. Активируется, если Image Classification определяет наличие объектов интереса (например, обнаружение человека и последующее обнаружение одежды).
- Триггеры активации (Frontend): Когда пользователь инициирует визуальный поиск, загружая изображение, выбирая существующее изображение в результатах поиска или взаимодействуя с активированным изображением на стороннем сайте.
- Условия: Применяется, когда система может успешно сегментировать объект и извлечь достаточное количество значимых визуальных признаков.
Пошаговый алгоритм
Процесс А: Построение индекса визуального поиска (Backend)
- Получение контента: Сканирование или получение элементов контента (изображение + текст/метаданные).
- Определение объекта и классификация: Анализ текста и метаданных для предварительной классификации объекта.
- Сегментация изображения: Применение статистического анализа распределения пикселей (или других алгоритмов, например, Min-cut Max-flow) для отделения объекта от фона.
- Мануальное подтверждение (Опционально): Использование Editor Interface для подтверждения качества сегментации группой операторов.
- Выравнивание (Alignment): Нормализация ориентации объекта к каноническому виду (например, с использованием PCA для ювелирных изделий или анализа профиля для обуви).
- Извлечение глобальных признаков: Определение доминирующих цветов (например, через k-means clustering), формы (например, Edge Histogram Distributions) и текстуры (например, через Gabor filters).
- Извлечение локальных признаков: Нормализация изображения, определение ключевых точек/регионов, вычисление дескрипторов (например, HOG или Color Spatial Histograms) вокруг этих точек.
- Генерация данных для анализа: Квантификация признаков в сигнатуры (векторы) и перевод признаков в текст (Text Translate).
- Индексация: Сохранение сигнатур, текста и классификаций в индексе.
Процесс Б: Активация удаленного контента (Backend/Frontend)
- Извлечение изображений: Получение изображений с удаленной веб-страницы по триггеру или расписанию.
- Классификация изображений: Определение, содержит ли изображение объекты интереса. Например, выполнение обнаружения лиц (Face detection).
- Идентификация объектов (Apparel Identification): Использование маркеров (например, лица) для оценки местоположения других объектов (например, одежды). Сегментация одежды с учетом цвета кожи.
- Оценка уверенности: Ассоциация показателя уверенности с сегментацией одежды.
- Извлечение признаков и идентификаторов: Определение признаков и идентификаторов для высокоуверенных регионов.
- Активация: Модификация отображения контента для того, чтобы идентифицированные объекты стали выбираемыми (активными).
- Обработка выбора пользователя: При выборе активной области генерируется запрос к визуальному поисковому движку на основе связанных признаков/идентификаторов.
- Возврат результатов: Отображение результатов поиска похожих объектов.
Какие данные и как использует
Данные на входе
- Контентные факторы: Изображения (пиксельные данные, цветовые пространства RGB, HSV, Lab), текст (описания товаров, заголовки), метаданные (бренд, цена, ключевые слова, категории источника).
- Технические факторы: URL источника изображения.
- Пользовательские факторы: Ввод пользователя через интерфейс (выбор региона, загрузка изображения, ввод через слайдеры, color picker).
Какие метрики используются и как они считаются
Патент описывает множество метрик и методов для анализа изображений и измерения сходства:
- Сегментация: Статистический анализ распределения пикселей, Mixture of Gaussian models, Markov Random Field.
- Выравнивание: Principal Component Analysis (PCA) (анализ главных компонент) для определения основной ориентации объекта; Hough transform для поиска круглых частей (например, циферблата часов).
- Извлечение признаков (Цвет): k-means clustering для определения доминирующих цветов; Color Histograms (Цветовые гистограммы); Color Spatial Histograms (CSH).
- Извлечение признаков (Форма): Elliptic Fourier Descriptors, Moment Descriptors, Edge Histogram Distributions (EHD), Region-Shape-Descriptor (RSD).
- Извлечение признаков (Текстура): Сверточные фильтры (Convolution filters), Gabor filters.
- Извлечение признаков (Локальные): Histogram of Oriented Gradients (HOG).
- Анализ текста: Inverse Document Frequency (IDF) для оценки важности терминов в метаданных.
- Измерение сходства (Similarity Measurement): Дистанция между признаками (Feature distance). Используются метрики L2 (Евклидово расстояние), L1, L-infinity, Bhattacharya coefficient. Общее расстояние рассчитывается как взвешенная сумма дистанций отдельных признаков (например, с использованием Linear Discriminant Analysis (LDA) для определения весов).
- Алгоритмы машинного обучения: Naïve Bayes, Logistic Regression, Support Vector Machines (SVM) используются для классификации объектов и изучения мер сходства.
Выводы
- Визуальные характеристики как основа поиска: Патент подтверждает переход от текстового поиска изображений к поиску на основе содержимого (CBIR). Система полагается на извлечение и квантификацию визуальных признаков (цвет, форма, текстура) для определения сходства.
- Важность сегментации и нормализации: Успешное распознавание и извлечение признаков критически зависят от способности системы отделить объект от фона (Segmentation) и привести его к стандартному виду (Alignment). Ошибки на этом этапе снижают качество визуального поиска.
- Глобальные и локальные признаки играют разные роли: Система использует Global Features для общего сопоставления внешнего вида и Local Features (например, HOG) для поиска по конкретным частям объекта. Это позволяет пользователям уточнять запросы, фокусируясь на деталях.
- Интеграция анализа изображений и текста: Система не полагается только на визуальные данные. Metadata features (бренд, цена, описания) и анализ текста (например, с использованием IDF) используются совместно с визуальными сигнатурами для классификации и ранжирования.
- Расширение поиска на сторонний контент: Ключевая часть патента — механизм анализа и активации изображений на удаленных сайтах (remote content). Это позволяет Google превращать любой контент (например, фото в блоге) в точку входа для коммерческого поиска, распознавая объекты (например, одежду через обнаружение лиц) и инициируя поиск похожих товаров.
- Машинное обучение и ручное обогащение: Система использует ML-алгоритмы (SVM, Logistic Regression) для определения мер сходства и классификации, но также полагается на ручное обогащение (manual enrichment) и обратную связь для повышения точности и корректировки весов признаков.
Практика
Best practices (это мы делаем)
- Оптимизация изображений для сегментации: Размещайте товары на чистом, контрастном фоне. Это облегчает алгоритмам Image Segmentation корректное выделение объекта, что критически важно для точного извлечения признаков и последующего сопоставления.
- Обеспечение высокого качества и четкости изображений: Используйте изображения с высоким разрешением, где детали и текстуры товара хорошо различимы. Это необходимо для корректной работы алгоритмов извлечения текстурных (Gabor filters) и локальных признаков (HOG).
- Стандартизация ракурсов (Alignment): По возможности используйте стандартные ракурсы для товаров (например, обувь в профиль, часы циферблатом вперед). Хотя система имеет механизмы выравнивания (PCA), предоставление изображений в каноническом виде упрощает распознавание.
- Предоставление богатых и точных метаданных: Обеспечьте точные текстовые описания, заголовки, бренды и категории. Система использует Metadata Features и анализ текста (IDF) в сочетании с визуальными признаками. Точные метаданные помогают в классификации (Object Determination).
- Использование визуально различимых характеристик: Если продукт имеет уникальные визуальные особенности (паттерны, формы), убедитесь, что они четко видны на изображениях. Это поможет системе выделить уникальные Local Features.
- Оптимизация для мобильных устройств и Visual Search: Учитывая, что патент закладывает основу для визуального поиска по любым изображениям, убедитесь, что ваши изображения быстро загружаются и корректно отображаются, так как они могут стать источником прямого трафика через инструменты Visual Search.
Worst practices (это делать не надо)
- Использование сложных, перегруженных фонов: Размещение товаров на фоне других объектов или сложных текстур затрудняет сегментацию и может привести к некорректному извлечению признаков.
- Изображения низкого качества: Размытые, плохо освещенные или пикселизированные изображения не позволят системе точно определить градиенты, текстуры и цвета.
- Нестандартные или экстремальные ракурсы: Использование только художественных или необычных ракурсов без предоставления стандартных видов может усложнить процесс выравнивания и сравнения с другими товарами в индексе.
- Игнорирование текстовых данных: Полагаться только на визуальное представление и пренебрегать качественными текстовыми описаниями. Система использует текст для классификации и как один из факторов сходства.
Стратегическое значение
Этот патент имеет фундаментальное значение для понимания стратегии Google в области визуального поиска и e-commerce. Он описывает инфраструктуру, позволяющую индексировать мир визуальных объектов так же, как индексируется текст. Для SEO это означает, что оптимизация изображений переходит из разряда второстепенных задач в одно из ключевых направлений, особенно в товарных нишах. Способность Google распознавать товары на любых изображениях (включая пользовательский контент, блоги, социальные сети) создает новые пути обнаружения товаров, минуя традиционный текстовый поиск. Стратегия должна включать создание визуального актива (Image Assets), который легко распознается и корректно интерпретируется алгоритмами компьютерного зрения.
Практические примеры
Сценарий: Оптимизация карточки товара (Обувь) для визуального поиска
- Действие: Загрузка основного изображения товара (кроссовка) на чистом белом фоне.
- Как это работает (по патенту): Белый фон облегчает Image Segmentation, позволяя системе точно определить границы объекта.
- Действие: Предоставление изображения кроссовка в профиль (канонический вид).
- Как это работает (по патенту): Это упрощает процесс Alignment. Система анализирует профиль для выравнивания.
- Действие: Загрузка дополнительных изображений крупным планом, показывающих текстуру материала и логотип.
- Как это работает (по патенту): Система извлекает Local Features (текстуру через Gabor filters, форму логотипа через HOG). Эти локальные признаки могут быть использованы пользователями для уточненного поиска.
- Ожидаемый результат: Товар корректно индексируется в системе визуального поиска и имеет больше шансов появиться в выдаче при поиске похожих товаров, даже если запрос инициирован с изображения на стороннем сайте.
Вопросы и ответы
Насколько важен фон изображения в контексте этого патента?
Фон критически важен. Патент уделяет значительное внимание сегментации (Image Segmentation) — отделению объекта от фона. Для этого используются различные методы, включая статистический анализ пикселей и предположение, что фон находится по краям изображения. Чистый, контрастный фон значительно облегчает этот процесс, обеспечивая более точное извлечение признаков объекта.
Что такое глобальные и локальные признаки и как это влияет на SEO?
Global Features описывают объект в целом (например, доминирующий цвет, общая форма), а Local Features описывают детали (например, текстура ткани, форма пряжки). Влияние на SEO заключается в том, что пользователи могут искать как по общему виду товара, так и по его специфическим деталям. Необходимо предоставлять изображения, которые позволяют системе извлечь оба типа признаков: как общие планы, так и крупные планы деталей.
Патент упоминает анализ удаленного контента. Что это значит для владельцев сайтов?
Это означает, что Google может распознавать ваши товары на изображениях, размещенных на сторонних сайтах (блогах, новостях, соцсетях), даже если там нет ссылки на вас. Если изображение вашего товара качественное и легко распознается, оно может стать источником трафика через визуальный поиск, когда пользователи ищут похожие предметы, увиденные где-то в интернете.
Как система распознает одежду на людях в неструктурированных изображениях?
Патент описывает конкретный механизм: сначала выполняется обнаружение лица (Face detection). Лицо используется как маркер для определения вероятного местоположения одежды (например, торса). Затем применяется алгоритм сегментации (например, region growing) в этой области, при этом исключаются пиксели, соответствующие цвету кожи. Это позволяет выделить элементы одежды.
Что такое HOG и почему это важно?
HOG (Histogram of Oriented Gradients) — это мощный дескриптор формы и локальных признаков. Он анализирует направления градиентов (перепадов яркости) в ячейках изображения, что позволяет фиксировать структуру краев и форму деталей объекта независимо от цвета и освещения. Для SEO это важно, так как четкие края и хорошо различимая форма товара способствуют корректному извлечению HOG-признаков и улучшают сопоставление.
Использует ли эта система только визуальную информацию для ранжирования?
Нет. Патент четко указывает на использование комбинации визуальных признаков и метаданных (Metadata Features), таких как бренд, цена, описание товара. Сходство рассчитывается как взвешенная сумма расстояний между различными признаками (визуальными и текстовыми). Текстовая оптимизация остается важной частью процесса.
Что такое «выравнивание» (Alignment) и нужно ли стандартизировать ракурсы фотографий?
Выравнивание — это процесс приведения объекта к каноническому (стандартному) виду для упрощения сравнения. Система использует методы вроде PCA для автоматического определения ориентации. Хотя система может делать это автоматически, предоставление стандартизированных ракурсов (например, обувь в профиль) снижает вероятность ошибок и улучшает качество распознавания.
Как система определяет важность слов в описании товара?
Патент упоминает использование Inverse Document Frequency (IDF). Редкие слова в описании считаются более важными для определения сходства, чем часто встречающиеся. Это стандартный механизм в Information Retrieval, подчеркивающий важность использования точной и специфичной терминологии в описаниях товаров.
Что означает «мануальное обогащение» (Manual Enrichment) в контексте патента?
Manual Enrichment — это процесс, когда операторы проверяют результаты работы автоматических алгоритмов (например, сегментации или классификации). Патент предлагает интерфейс, где операторы видят множество результатов одновременно и быстро отмечают ошибки. Это указывает на то, что Google использует комбинацию автоматических алгоритмов и человеческой оценки для обеспечения качества данных.
Как влиять на результаты визуального поиска согласно патенту?
Патент описывает интерфейсы обратной связи, такие как слайдеры (sliders) и выбор цвета (color picker). Они позволяют пользователям изменять веса различных признаков (например, сделать форму важнее цвета) для уточнения результатов поиска. SEO-специалисты напрямую на это влиять не могут, но это показывает, какие именно параметры (цвет, форма, текстура) система считает ключевыми для управления сходством.