Google разработал систему для улучшения визуального поиска путем стандартизации входных изображений. Анализируя свою базу, Google определяет оптимальный ракурс («канонический вид») для разных объектов. Эти виды предоставляются как шаблоны (наложения) в камере, чтобы помочь пользователям сделать оптимальный снимок. Отправка изображения вместе с идентификатором шаблона позволяет Google точно сегментировать объект и ограничить поиск нужной категорией.
Описание
Какую задачу решает
Патент решает проблему низкой точности результатов визуального поиска, вызванную плохим качеством входных изображений (принцип «Garbage In, Garbage Out»). Когда пользователи фотографируют объекты для поиска, они часто делают снимки с неоптимальных ракурсов, с плохим выравниванием или на зашумленном фоне. Это затрудняет для поисковой системы идентификацию объекта, его сегментацию (Segmentation) от фона и поиск релевантных совпадений.
Что запатентовано
Запатентована система, которая генерирует и использует Image Search Templates (шаблоны поиска по изображениям) для стандартизации визуальных запросов. Шаблон основан на Canonical View (каноническом виде) для определенной категории объектов (например, «обувь») и отображается как наложение (Overlay) в видоискателе камеры. Критически важно, что система отправляет в поисковую систему не только изображение, но и идентификатор использованного шаблона, что улучшает сегментацию и ограничивает область поиска.
Как это работает
Система функционирует в нескольких режимах:
- Офлайн-генерация шаблонов: Google анализирует базу данных изображений (Source Images), классифицирует их по категориям (используя Labels) и применяет кластеризацию (Clustering). Наиболее репрезентативный кластер определяет Canonical View для этой категории, который затем преобразуется в шаблон.
- Захват изображения (Клиент): Пользователь выбирает шаблон (или устройство определяет его автоматически). Шаблон отображается как Overlay, помогая выровнять объект. Устройство может показывать индикатор успешного выравнивания.
- Обработка запроса (Сервер): Изображение и идентификатор шаблона отправляются на сервер. Сервер использует шаблон для точной Segmentation объекта от фона и выполняет поиск, ограниченный категорией шаблона.
Актуальность для SEO
Высокая. Визуальный поиск (например, Google Lens) является стратегическим направлением развития Google, особенно в контексте E-commerce. Улучшение качества входных данных и предоставление контекста (через шаблон) критически важно для повышения точности распознавания объектов и удовлетворенности пользователей. Описанные механизмы напрямую связаны с текущими задачами в области компьютерного зрения.
Важность для SEO
Влияние на SEO оценивается как значительное (75/100). Хотя патент описывает улучшение ввода визуального запроса, он имеет критические последствия для того, как SEO-специалисты должны оптимизировать изображения для индексации и ранжирования в визуальном поиске (Visual Search Optimization — VSO). Понимание того, как Google определяет Canonical View и использует кластеризацию, необходимо для оптимизации изображений товаров для максимальной видимости.
Детальный разбор
Термины и определения
- Canonical View (Канонический вид)
- Предпочтительный или репрезентативный вид (поза, угол обзора) для категории объектов. Определяется путем кластеризации изображений и выбора наиболее представительного кластера (например, самого большого или самого разнообразного). Используется как основа для создания шаблона.
- Clustering (Кластеризация)
- Процесс группировки изображений внутри категории на основе схожести (например, схожести пикселей, меток или форм объектов). Используется для определения Canonical View.
- Image Acquisition Template / Image Search Template (Шаблон получения/поиска изображения)
- Данные, созданные на основе Canonical View. Включают прозрачное наложение (Overlay) для видоискателя и могут содержать информацию о ключевых отличительных признаках объекта. Используется для помощи пользователю при съемке и для сегментации изображения поисковой системой.
- Labels (Метки)
- Текстовые строки, связанные с изображениями в базе данных. Используются для первоначальной классификации изображений по категориям. Могут быть получены из поисковых запросов, в ответ на которые изображение было выбрано.
- Overlay (Наложение/Оверлей)
- Визуальное представление шаблона (например, прозрачный контур), которое отображается поверх видоискателя камеры, чтобы помочь пользователю выровнять объект в соответствии с Canonical View.
- Segmentation (Сегментация)
- Процесс разделения изображения на важные (объект интереса) и неважные (фон) части. Шаблон помогает поисковой системе точно сегментировать объект в запросе пользователя.
- Source Images (Исходные изображения)
- Изображения в базе данных Google, которые анализируются для создания шаблонов.
Ключевые утверждения (Анализ Claims)
Патент US9805292B2 является патентом-продолжением (continuation). Его формула изобретения фокусируется на клиентской части, но общее описание изобретения охватывает всю систему.
Процесс на стороне клиента (Claim 1 — Независимый): Описывает использование шаблонов на мобильном устройстве.
- Мобильное устройство получает данные, идентифицирующие выбранный Image Acquisition Template, связанный с определенным типом объекта (например, «обувь»), из множества сохраненных шаблонов.
- На дисплее отображается паттерн (Overlay), связанный с выбранным шаблоном.
- Камера генерирует изображение запроса (Query Image), пока на дисплее отображается наложение.
- Устройство отправляет поисковой системе запрос, который включает (i) само изображение и (ii) указание на выбранный шаблон.
- Устройство получает результаты поиска в ответ на запрос.
Ядро изобретения здесь — явная передача информации о шаблоне вместе с изображением в поисковую систему для улучшения результатов.
Детализация клиентского процесса (Зависимые Claims 2, 4, 5, 6, 7):
- Claim 2: Выбор шаблона может происходить вручную пользователем или автоматически устройством.
- Claim 4: Цель наложения (Overlay) — продемонстрировать оптимальный ракурс или позу для захвата изображения, что приводит к лучшим результатам поиска.
- Claim 5: Идентификатор шаблона может быть встроен в метаданные изображения запроса для помощи в идентификации объекта.
- Claims 6 и 7: Устройство обнаруживает несоответствие между формой объекта и наложением и предоставляет визуальную обратную связь пользователю.
Процесс генерации шаблонов (Описан в патенте и родительских заявках): Описывает офлайн-процесс создания шаблонов на сервере.
- Классификация множества изображений в базе данных по категориям (на основе Labels).
- Кластеризация (Clustering) изображений внутри заданной категории (например, на основе схожести пикселей или форм).
- Идентификация Canonical View для категории (например, выбор самого большого кластера).
- Генерация шаблона на основе Canonical View.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя офлайн-обработку для генерации данных и онлайн-обработку для интерпретации запроса.
INDEXING – Индексирование и извлечение признаков (Офлайн-обработка)
На этом этапе происходит генерация шаблонов. Система анализирует Source Images и ассоциированные Labels (которые могут быть получены из истории поисковых запросов). Происходит классификация, применение Clustering для определения Canonical Views и извлечение отличительных признаков. Эти данные сохраняются как Templates.
QUNDERSTANDING – Понимание Запросов (Онлайн)
Это основной этап применения патента в реальном времени. Система изменяет способ интерпретации визуального запроса. Входные данные — это комбинация «Изображение + Идентификатор Шаблона». Шаблон предоставляет критически важный контекст:
- Категоризация: Шаблон явно указывает категорию объекта (например, «обувь»), устраняя неоднозначность.
- Сегментация: Шаблон используется для точного отделения объекта от фона (Segmentation).
RANKING – Ранжирование (Отбор кандидатов)
На этапе отбора кандидатов (Retrieval) идентификатор шаблона используется для ограничения пространства поиска. Система может искать совпадения только среди изображений, принадлежащих к той же категории. Для сравнения используется сегментированное изображение (объект без фона).
Входные данные (Офлайн):
- База данных изображений (Source Images).
- Labels, связанные с этими изображениями.
Входные данные (Онлайн):
- Изображение запроса (Query Image).
- Идентификатор использованного Image Acquisition Template.
Выходные данные:
- Результаты визуального поиска (похожие изображения, ссылки на товары), ограниченные категорией шаблона.
На что влияет
- Конкретные типы контента и Ниши: Наибольшее влияние оказывается на физические товары (E-commerce): одежда, обувь, аксессуары, электроника, мебель. Технология применима в нишах, где визуальная идентификация конкретного объекта критична.
- Специфические запросы: Влияет на запросы визуального поиска, инициированные пользователем с целью идентификации объекта или поиска похожих товаров (например, через Google Lens).
Когда применяется
- Триггеры активации: Алгоритм активируется, когда пользователь инициирует сеанс визуального поиска через приложение камеры, поддерживающее эти шаблоны.
- Условия применения: Применяется при условии, что для объекта интереса существует заранее сгенерированный Image Acquisition Template и этот шаблон был выбран (вручную или автоматически) перед захватом изображения.
Пошаговый алгоритм
Процесс А: Офлайн-генерация шаблонов (Server Side)
- Сегментация и Маркировка: Исходные изображения в базе данных сегментируются и маркируются (присваиваются Labels).
- Категоризация: Изображения классифицируются по категориям на основе меток (например, «Обувь»).
- Кластеризация: Внутри каждой категории изображения группируются (Clustering) на основе схожести вида, ракурса или формы объекта (pixel similarity, shapes).
- Определение Канонического вида: Для категории выбирается Canonical View. Это может быть вид, соответствующий самому большому кластеру (greatest number of images), или кластеру с наиболее разнообразными изображениями (most diverse images).
- Генерация Шаблона: Канонический вид преобразуется в шаблон. Это включает создание прозрачного изображения для Overlay и идентификацию ключевых точек интереса (например, каблук, шнурки).
Процесс Б: Захват изображения (Client Side)
- Выбор шаблона: Получение ввода для выбора Image Acquisition Template (вручную или автоматически).
- Отображение наложения: Отображение Overlay, соответствующего шаблону, поверх видоискателя.
- Помощь в выравнивании: Мониторинг соответствия объекта наложению. Предоставление визуальной обратной связи пользователю (индикатор успеха/неудачи).
- Захват изображения: Сохранение изображения, когда объект выровнен по шаблону.
- Подготовка запроса: Встраивание идентификатора шаблона в метаданные изображения или подготовка его к отправке вместе с изображением.
Процесс В: Обработка поискового запроса (Server Side)
- Получение данных: Прием изображения и информации о шаблоне.
- Сегментация изображения: Использование шаблона для идентификации и сегментации объекта интереса от фона.
- Выполнение поиска: Поиск совпадений с использованием сегментированного изображения. Поиск ограничивается категорией, указанной в шаблоне.
- Предоставление результатов: Возврат результатов поиска клиенту.
Какие данные и как использует
Данные на входе
Патент фокусируется на обработке изображений и использовании метаданных для категоризации.
- Мультимедиа факторы (Визуальные данные): Пиксельные данные Source Images и Query Image. Схожесть пикселей (pixel similarity) и формы объектов (shapes associated with the content) используются для кластеризации.
- Контекстные/Семантические факторы (Labels): Labels, связанные с изображениями. Они критически важны для категоризации при генерации шаблонов. Упоминается, что метки могут быть получены из поисковых запросов, в ответ на которые изображения были выбраны как результат поиска.
- Технические факторы (Метаданные запроса): Идентификатор Image Acquisition Template, который отправляется вместе с изображением запроса.
Какие метрики используются и как они считаются
- Метрики схожести для кластеризации: Система использует метрики для определения схожести видов. Упоминаются схожесть пикселей и форм.
- Критерии выбора Canonical View: Для выбора канонического вида из кластеров используются следующие критерии (упомянуты как варианты реализации):
- Размер кластера: Выбор кластера с наибольшим количеством изображений в данной категории.
- Разнообразие кластера: Выбор кластера, содержащего наиболее разнообразные изображения.
- Соответствие шаблону (Alignment Score): Метрика, используемая клиентским устройством для определения того, насколько хорошо объект в видоискателе соответствует наложению шаблона. Используется для предоставления обратной связи пользователю.
Выводы
- Стандартизация визуального ввода: Google активно стремится стандартизировать визуальные данные, используемые в качестве запросов. Это необходимо для повышения точности и масштабируемости систем машинного зрения.
- Центральная роль «Canonical Views»: Canonical Views являются фундаментальным элементом того, как Google понимает объекты визуально. Это не просто рекомендация по съемке, а стандарт для интерпретации визуальных данных.
- Генерация на основе существующего корпуса: Canonical Views выводятся алгоритмически путем кластеризации проиндексированных изображений. Это означает, что доминирующие тренды в представлении контента в интернете (и на сайтах) определяют эти стандарты.
- Шаблон как сильный сигнал интента и категории: Передача идентификатора шаблона вместе с изображением является мощным сигналом для Query Understanding. Это позволяет Google мгновенно определить категорию объекта и значительно сужает пространство поиска.
- Критическая роль сегментации: Патент подчеркивает важность Segmentation. Шаблон используется не только для выравнивания, но и как инструмент для точной сегментации изображения на сервере перед выполнением поиска.
- Связь между текстовым и визуальным поиском: Labels, используемые для категоризации изображений, могут быть получены из текстовых поисковых запросов. Это подчеркивает важность предоставления четких семантических сигналов (текстовый контекст, разметка) для помощи Google в категоризации изображений.
Практика
Best practices (это мы делаем)
Практическое применение для SEO вытекает из понимания того, как Google генерирует шаблоны и обрабатывает визуальные запросы. Цель — оптимизация под визуальный поиск (VSO).
- Анализ и адаптация к Canonical View: Анализируйте доминирующие ракурсы в результатах Google Images, Google Shopping и Google Lens для ваших категорий товаров. Оптимизируйте основные изображения товаров так, чтобы они соответствовали этим выявленным Canonical Views (например, если для обуви каноническим является вид сбоку, используйте его как основное фото).
- Оптимизация для сегментации: Используйте высококонтрастные изображения с чистым фоном (например, белым или нейтральным). Это облегчает Segmentation как на этапе индексации (генерации шаблонов), так и на этапе обработки запроса пользователя.
- Усиление семантических сигналов (Labels): Поскольку Labels используются для категоризации, критически важно предоставлять точный контекст. Используйте релевантные и описательные Alt-теги, структурированные данные (Product Schema), а также окружающий текст, чтобы помочь Google правильно классифицировать изображение.
- Разнообразие в рамках стандартов: Хотя основное изображение должно соответствовать Canonical View, предоставляйте дополнительные изображения с разных ракурсов, чтобы охватить различные отличительные признаки (например, вид подошвы, детали фурнитуры).
Worst practices (это делать не надо)
- Использование сложных фонов и Lifestyle-фото как основных: Использование изображений с зашумленным фоном или сложных композиций затрудняет для системы сегментацию объекта, что снижает вероятность его точного распознавания и ранжирования в визуальном поиске.
- Нестандартные ракурсы для основных изображений: Использование необычных или художественных ракурсов, которые не соответствуют Canonical View, может привести к тому, что изображение не попадет в основной кластер и будет хуже распознаваться.
- Игнорирование текстового контекста: Полагаться только на визуальное содержание и игнорировать Alt-теги и Schema. Без четких Labels Google может испытывать трудности с первоначальной категоризацией изображения.
Стратегическое значение
Патент подтверждает стратегический фокус Google на развитии визуального поиска как основного способа взаимодействия с информацией, особенно в e-commerce. Для SEO это означает, что оптимизация изображений переходит к стратегическому подходу, ориентированному на компьютерное зрение. Приоритетом становится оптимизация для машинного распознавания (Object Recognition) и сегментации, а понимание Canonical View становится ключевым элементом стратегии VSO.
Практические примеры
Сценарий: Оптимизация карточки товара (Кроссовки) для визуального поиска
- Анализ Canonical View: SEO-специалист анализирует выдачу Google Images и результаты Google Lens по запросам, связанным с кроссовками. Он замечает, что большинство топовых результатов показывают кроссовок строго сбоку (профиль) на белом фоне. Это определяется как вероятный Canonical View.
- Подготовка изображений: Основное изображение товара делается в этом каноническом виде на чистом белом фоне для обеспечения легкой Segmentation.
- Оптимизация контекста (Labels): Внедряется Product Schema с указанием типа товара, бренда, цвета. Alt-текст оптимизируется (например, «Вид сбоку кроссовка Nike Air Max 270, черный»).
- Ожидаемый результат: Изображение легко классифицируется Google и попадает в основной кластер. Когда пользователь использует Google Lens (который применяет описанный механизм), система легко сегментирует изображение пользователя, сравнивает его с оптимизированным изображением магазина и показывает его в результатах поиска.
Вопросы и ответы
Что такое «Канонический вид» (Canonical View) и как он определяется?
Canonical View — это наиболее репрезентативный или предпочтительный ракурс для определенной категории объектов. Google определяет его офлайн, анализируя свою базу изображений. Сначала изображения группируются по категориям (например, «обувь»), а затем внутри категории применяется кластеризация (Clustering) по схожести вида. Кластер, который лучше всего представляет категорию (например, самый большой), выбирается в качестве Canonical View.
Как SEO-специалист может определить Canonical View для своей ниши?
Патент не предоставляет инструмента для этого. Однако SEO-специалисты могут аппроксимировать его путем тщательного анализа результатов Google Images, Google Shopping и Google Lens для ключевых категорий товаров. Необходимо обращать внимание на доминирующие ракурсы и позы объектов в топовых результатах. Доминирующий ракурс следует считать вероятным Canonical View.
Какова роль сегментации (Segmentation) в этом патенте и почему это важно для SEO?
Segmentation — это процесс отделения объекта интереса от фона. В патенте шаблон используется сервером для точной сегментации изображения пользователя, так как поиск выполняется по объекту, а не по фону. Для SEO это подчеркивает необходимость использования чистых, контрастных фонов для изображений товаров, чтобы облегчить Google процесс сегментации ваших изображений при индексации.
Почему система отправляет идентификатор шаблона вместе с изображением?
Это ключевой аспект изобретения. Отправка идентификатора шаблона дает поисковой системе две критически важные информации. Во-первых, это точная категоризация объекта, что позволяет ограничить поиск только релевантной категорией. Во-вторых, это помогает системе понять, как именно нужно сегментировать изображение, чтобы выделить объект интереса.
Что такое Labels и как они используются в этом процессе?
Labels — это текстовые метки, связанные с изображениями в базе Google. Они используются на этапе офлайн-генерации шаблонов для первоначальной классификации изображений по категориям. Это подтверждает, что для успешной оптимизации изображений необходимы четкие текстовые сигналы (Alt-теги, Schema, окружающий текст), помогающие Google классифицировать контент.
Применяется ли этот патент к работе Google Lens?
Хотя Google Lens явно не упоминается, патент описывает базовую технологию и интерфейс для визуального поиска через камеру мобильного устройства. Механизмы стандартизации ввода через Overlay и использование шаблонов для анализа изображений являются фундаментальными для работы систем типа Google Lens.
Стоит ли использовать Lifestyle-фотографии или лучше только студийные снимки?
Исходя из акцента патента на Segmentation и Canonical View, для основных изображений товаров предпочтительнее использовать студийные снимки на чистом фоне, соответствующие каноническому виду. Это максимизирует точность распознавания. Lifestyle-фотографии полезны для конверсии, но их следует использовать как дополнительные, а не основные изображения для целей визуального поиска.
Что произойдет, если мое изображение не соответствует Canonical View?
Если изображение снято с нестандартного ракурса, оно, вероятно, не попадет в основной кластер. Это не означает, что оно не будет проиндексировано, но оно может быть менее эффективно распознано и иметь более низкий приоритет в результатах визуального поиска по сравнению с изображениями, которые соответствуют стандартизированному виду.
Патент описывает, что Labels могут браться из истории поисковых запросов. Что это значит?
Это означает, что если пользователи часто ищут «синие замшевые ботинки» и кликают на ваше изображение, эта фраза может стать Label, ассоциированной с вашим изображением. Это подчеркивает важность традиционной SEO-оптимизации изображений (alt text, окружающий текст) для повышения их видимости и получения релевантных меток.
Это патент про улучшение пользовательского опыта (UX) или про алгоритм ранжирования?
И то, и другое. Он улучшает UX, помогая пользователю сделать качественный снимок для поиска (Overlay). Но он также описывает, как эта стандартизация ввода напрямую используется алгоритмом поиска для улучшения сегментации, идентификации признаков и повышения релевантности результатов, что влияет на ранжирование в визуальном поиске.