Google может получать от пользователя одновременно текстовый запрос и изображение (например, фото с камеры). Система сначала находит каноническое изображение, соответствующее текстовому запросу, а затем ищет этот объект на фотографии пользователя. Если объект найден, система выделяет его, помогая пользователю идентифицировать объекты в сложной визуальной среде.
Описание
Какую задачу решает
Патент решает задачу помощи пользователю в идентификации и поиске конкретных объектов внутри сложных изображений или сцен реального мира, снятых на камеру. Он устраняет разрыв между знанием названия объекта (запрос) и его визуальным обнаружением в контексте (изображение). Например, помогает найти конкретный товар на переполненной полке магазина.
Что запатентовано
Запатентована система для поиска внутри изображений, которая использует комбинированный ввод: текстовый (или аудио) запрос и изображение (Query Image). Ключевой особенностью является то, что система сначала идентифицирует эталонное изображение (Result Image), соответствующее текстовому запросу, а затем использует это эталонное изображение для поиска и аннотирования соответствующего объекта на изображении, предоставленном пользователем.
Как это работает
Механизм работает следующим образом:
- Получение данных: Система получает от пользователя текстовый запрос (например, название продукта) и Query Image (например, фотографию полки магазина).
- Поиск эталона: Система выполняет поиск по текстовому запросу, чтобы найти Result Image. Обычно это каноническое, высокоранжируемое изображение объекта.
- Визуальное сравнение: Система сравнивает визуальные признаки (visual features) эталонного Result Image с признаками Query Image.
- Идентификация и Аннотирование: Если обнаружено сходство выше определенного порога (similarity threshold), система генерирует Annotation Data (например, координаты ограничивающей рамки) и отправляет их на устройство пользователя для выделения найденного объекта на исходном фото.
Актуальность для SEO
Высокая. Описанная технология является фундаментальной для сервисов визуального поиска, таких как Google Lens, поиска товаров по фото и функций дополненной реальности. Способность системы связывать текстовые запросы с визуальными объектами в реальном времени крайне актуальна.
Важность для SEO
Влияние на SEO оценивается как среднее/высокое (7/10). Патент не влияет напрямую на алгоритмы ранжирования веб-страниц. Однако он имеет критическое значение для Image SEO, особенно в E-commerce. Чтобы система могла идентифицировать ваш продукт в реальном мире, ваше изображение должно быть тем самым каноническим Result Image, которое система выберет в качестве эталона. Это подчеркивает важность ранжирования на первой позиции в поиске по картинкам по названиям продуктов и объектов.
Детальный разбор
Термины и определения
- Annotation Data (Данные аннотации)
- Информация, отправляемая на устройство пользователя, которая инструктирует устройство, как отобразить аннотацию поверх Query Image. Может включать координаты, тип выделения (например, Bounding Box) или само Result Image.
- Bounding Box (Ограничивающая рамка)
- Визуальная аннотация в виде рамки, окружающей найденный объект на изображении.
- Image Index (Индекс изображений)
- База данных, хранящая проиндексированные изображения и их метаданные, включая визуальные признаки и оценки релевантности.
- Image Relevance Score (Оценка релевантности изображения)
- Метрика, используемая для определения того, насколько изображение соответствует текстовому запросу. Используется для выбора наилучшего Result Image.
- Query (Запрос)
- В контексте патента, это ввод от пользователя, который НЕ является изображением (например, текст или аудио), описывающий объект поиска.
- Query Image (Изображение запроса)
- Изображение (или видеокадр), предоставленное пользователем, внутри которого необходимо найти объект. В Claims называется first image.
- Query-Image Pairs (Пары Запрос-Изображение)
- Предварительно определенная база данных, связывающая конкретные запросы с каноническими изображениями. Может использоваться как альтернатива поиску в реальном времени для нахождения Result Image.
- Result Image (Результирующее изображение / Эталонное изображение)
- Изображение, которое система идентифицирует как релевантное текстовому Query. Оно используется как эталон для сравнения с Query Image. В Claims называется second image.
- Sub-portion (Под-область)
- Часть Query Image, которая меньше, чем все изображение. Место, где обнаружен искомый объект.
- Visual Features (Визуальные признаки)
- Характеристики изображения, используемые для сравнения (цвета, контраст, контуры, ключевые точки, текст, распознанный OCR). В описании патента упоминаются методы вроде SIFT (scale-invariant feature transform).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс системы.
- Система получает первое изображение (Query Image).
- Система получает первый запрос (Query), который НЕ является изображением и связан с первым изображением, но отделен от него.
- Система идентифицирует набор вторых изображений (Result Images), которые отвечают первому запросу, отличаются от первого изображения и не включают его.
- В ответ на идентификацию набора вторых изображений система:
- Сравнивает визуальные признаки (visual features) каждого второго изображения с визуальными признаками первого изображения.
- Определяет, что объект-кандидат, изображенный на одном или нескольких вторых изображениях, похож на конкретный объект, изображенный в под-области (sub-portion) первого изображения.
- Если сходство установлено, система предоставляет аннотацию (Annotation Data), которая заставляет устройство пользователя отобразить аннотацию с первым изображением. Эта аннотация предоставляет информацию о конкретном объекте и указывает, что первое изображение содержит объект, релевантный первому запросу.
Claim 7 (Зависимый от 1): Детализирует метод идентификации Result Images (набора вторых изображений) через стандартный поиск.
- Идентификация множества результатов поиска изображений, отвечающих первому запросу. Каждый результат имеет Image Relevance Score.
- Выбор набора топовых результатов поиска (с наивысшими Image Relevance Score).
- Использование изображений, на которые ссылаются эти топовые результаты, как набора вторых изображений (Result Images).
Claim 8 (Зависимый от 1): Детализирует альтернативный метод идентификации Result Images через базу данных.
- Доступ к хранилищу данных, содержащему Query-Image Pairs (пары запрос-изображение).
- Идентификация конкретной пары, где парный запрос соответствует первому запросу.
- Использование парного изображения из этой пары как части набора вторых изображений (Result Images).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, но его основная логика реализуется в специализированной системе визуального анализа (подобной Google Lens), которая взаимодействует с основным индексом изображений.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит подготовка данных. Система извлекает и сохраняет Visual Features (включая дескрипторы SIFT и данные OCR) из изображений в Image Index. Также рассчитываются базовые оценки качества и релевантности изображений для потенциальных запросов.
QUNDERSTANDING – Понимание Запросов
Система обрабатывает входящий текстовый Query. Также на этом этапе (или офлайн) может происходить формирование базы данных Query-Image Pairs, где для ключевых запросов (например, названий продуктов) определяются канонические изображения.
RANKING – Ранжирование (в вертикали Изображений)
Система выполняет внутренний поиск в Image Index на основе текстового Query. Используя Image Relevance Score, система определяет лучшее изображение (или набор изображений), которое становится Result Image (как описано в Claim 7).
METASEARCH / Visual Analysis (Специализированный слой)
Это ядро патента. Система визуального анализа получает Result Image (от этапа Ranking) и Query Image (от пользователя). Происходит сравнение Visual Features, вычисление measure of similarity и генерация Annotation Data.
Входные данные:
- Текстовый или аудио Query.
- Query Image (фотография или видеопоток).
Выходные данные:
- Annotation Data (инструкции для выделения объекта на Query Image).
На что влияет
- Конкретные типы контента и ниши: Наибольшее влияние оказывается на E-commerce, продукты, бренды, логотипы, произведения искусства и любые объекты с узнаваемым визуальным представлением. Это критично для сценариев, где пользователь ищет физический объект в реальном мире.
- Специфические запросы: Влияет на запросы, представляющие собой названия конкретных объектов (например, «Шоколад Crunchy Delight», «Кроссовки Nike Air Max 90»).
Когда применяется
- Условия активации: Алгоритм активируется, когда пользователь явно использует функцию визуального поиска/аннотирования, предоставляя системе одновременно и изображение (Query Image), и текстовый запрос (Query). Это не стандартный поиск, а специализированный сервис.
- Триггеры: Успешная идентификация Result Image по текстовому запросу и последующее обнаружение достаточного визуального сходства (превышение similarity threshold) между Result Image и Query Image.
Пошаговый алгоритм
Процесс работы системы поиска и аннотирования:
- Получение ввода: Система получает текстовый Query и Query Image от пользовательского устройства.
- Идентификация эталона (Result Image): Система определяет Result Image, соответствующее текстовому Query. Это может быть сделано двумя способами:
- Вариант А (Поиск): Выполняется поиск в Image Index, результаты ранжируются по Image Relevance Score, и выбирается топовый результат.
- Вариант Б (База данных): Выполняется поиск соответствующего канонического изображения в предопределенной базе Query-Image Pairs.
- Извлечение признаков: Система извлекает Visual Features из Result Image и Query Image. В описании патента упоминается использование SIFT (scale-invariant feature transform), анализа контуров, цвета и OCR. (Признаки Result Image могут быть предварительно вычислены).
- Сравнение и Сопоставление: Визуальные признаки Result Image сравниваются с признаками различных под-областей (sub-portions) Query Image для поиска совпадений.
- Оценка сходства: Рассчитывается мера сходства (measure of similarity) между эталоном и найденными объектами-кандидатами на Query Image.
- Применение порога: Мера сходства сравнивается с предопределенным порогом (similarity threshold).
- Генерация аннотации: Если порог превышен, система определяет точное местоположение объекта (sub-portion) на Query Image и генерирует Annotation Data (например, координаты Bounding Box).
- Предоставление результата: Annotation Data отправляются на устройство пользователя, которое отображает аннотацию поверх исходного Query Image.
Какие данные и как использует
Данные на входе
- Контентные факторы (Изображения): Патент фокусируется на визуальных данных. Используются Visual Features: цвет, контраст, ключевые точки (points), контуры (edges). В описании также упоминается использование оптического распознавания символов (OCR) для идентификации текста на изображениях (например, логотипов) и SIFT.
- Пользовательские факторы: Система использует Query Image, предоставленное пользователем, и явный текстовый Query.
Какие метрики используются и как они считаются
- Image Relevance Score: Стандартная метрика поиска по изображениям, определяющая релевантность изображения текстовому запросу. Используется для выбора наилучшего Result Image из индекса. Патент не детализирует ее расчет.
- Measure of Similarity (Мера сходства): Метрика, вычисляемая путем сравнения Visual Features между Result Image и Query Image. Может быть числом (например, от 0.0 до 1.0), отражающим степень визуального совпадения.
- Similarity Threshold (Порог сходства): Предопределенное значение, которое должна превысить Measure of Similarity, чтобы система зафиксировала обнаружение объекта. Может быть установлено администратором или с помощью машинного обучения.
Выводы
- Это технология визуальной помощи, а не ранжирования: Патент описывает механизм идентификации объектов (типа Google Lens), а не алгоритм ранжирования веб-страниц или изображений в основной выдаче. Он решает задачу поиска объекта на фото пользователя, используя текстовый запрос как указатель.
- Критическая роль канонических изображений (Canonical Images): Успех всего процесса зависит от способности системы найти качественное эталонное изображение (Result Image) для текстового запроса. Система ищет именно то, что считает лучшим визуальным представлением запроса.
- Два пути поиска эталона: Система может либо использовать топовый результат стандартного поиска по картинкам (Claim 7), либо обращаться к специальной, возможно курируемой, базе данных канонических пар Query-Image Pairs (Claim 8).
- Image SEO как основа для Визуального Поиска: Для SEO-специалистов ключевой вывод заключается в том, что ранжирование в Image Search напрямую влияет на видимость в сервисах визуального поиска, использующих эту технологию. Если ваше изображение не является топовым результатом по названию продукта, оно не будет использоваться в качестве Result Image.
- Использование стандартных методов Computer Vision: Для сравнения изображений используются стандартные техники анализа визуальных признаков. В описании патента явно упоминаются SIFT (scale-invariant feature transform) и OCR, что указывает на сложный механизм сопоставления.
Практика
Best practices (это мы делаем)
Поскольку технология полагается на выбор канонического Result Image из индекса Google (часто топового результата в Image Search), все усилия должны быть направлены на оптимизацию изображений для достижения этой цели.
- Оптимизация под Image Search для ключевых продуктов: Обеспечьте, чтобы изображения ваших продуктов занимали первые позиции в поиске по картинкам по их точным названиям. Это включает использование качественных, четких изображений, оптимизированных alt-текстов, descriptive filenames и быструю загрузку.
- Использование четких и узнаваемых изображений: В качестве основных изображений продукта используйте фотографии, которые максимально четко демонстрируют продукт, его упаковку и логотип. Изображения на белом фоне часто становятся каноническими.
- Внедрение микроразметки Schema.org (Product): Используйте разметку Product и свойство image для явного указания основного изображения продукта. Это помогает поисковым системам ассоциировать изображение с конкретной сущностью (продуктом).
- Оптимизация под распознавание признаков (OCR и SIFT): Убедитесь, что ключевые визуальные характеристики продукта (уникальная форма, цвет, текст на упаковке) хорошо видны и не искажены. Четкий текст поможет OCR, а уникальные детали помогут алгоритмам типа SIFT. Это улучшит способность системы извлекать Visual Features и повысит Measure of Similarity.
Worst practices (это делать не надо)
- Использование нечетких или «зашумленных» изображений: Изображения низкого качества, с водяными знаками, перекрывающие продукт другими объектами, или слишком сложные композиции снижают вероятность того, что изображение станет каноническим Result Image и усложняют извлечение признаков.
- Игнорирование Image SEO: Рассчитывать только на текстовую оптимизацию страницы продукта недостаточно. Если конкуренты имеют лучше оптимизированные изображения, именно их картинки будут использоваться Google для визуальной идентификации.
- Манипуляции с изображениями: Попытки обмануть систему путем использования изображений, не соответствующих продукту, будут неэффективны, так как Image Relevance Score будет низким.
Стратегическое значение
Патент подтверждает стратегическую важность инвестиций Google в технологии визуального поиска и дополненной реальности (Google Lens). Для E-commerce и брендов это означает, что оптимизация визуальных активов становится ключевым элементом SEO-стратегии. Способность Google идентифицировать продукт в реальном мире напрямую влияет на пользовательский опыт и может стимулировать покупки. Долгосрочная стратегия должна включать создание и продвижение высококачественных, канонических изображений для всего ассортимента.
Практические примеры
Сценарий: Оптимизация изображения книги для визуального поиска
- Цель: Сделать изображение обложки книги каноническим Result Image для запроса по названию и автору.
- Действия:
- Разместить высококачественное, фронтальное изображение обложки на странице книги.
- Оптимизировать Alt-текст: «Обложка книги [Название] автора [Автор]».
- Внедрить разметку Schema.org (Book), указав это изображение.
- Обеспечить, чтобы текст на обложке был четким и читаемым (для OCR).
- Ожидаемый результат: Изображение занимает ТОП-1 в Google Image Search по запросу «[Название] [Автор]».
- Применение технологии: Пользователь в книжном магазине фотографирует полку (Query Image) и вводит название книги (Query). Google использует оптимизированное изображение как Result Image, находит книгу на полке с помощью сравнения визуальных признаков (включая OCR текста на обложке) и выделяет ее рамкой (Bounding Box) на экране пользователя.
Вопросы и ответы
Влияет ли этот патент напрямую на ранжирование моего сайта в веб-поиске?
Нет, напрямую на ранжирование веб-страниц этот патент не влияет. Он описывает технологию визуального аннотирования (подобную Google Lens). Однако он косвенно влияет на общую видимость бренда или продукта, подчеркивая важность оптимизации изображений (Image SEO) для использования в этих визуальных сервисах.
Что такое «Result Image» (Эталонное изображение) и почему это важно?
Result Image — это изображение, которое Google считает лучшим визуальным ответом на текстовый запрос пользователя. Оно используется как эталон для поиска объекта на фотографии пользователя. Если ваше изображение является этим эталоном, ваш продукт будет корректно идентифицирован системой визуального поиска.
Как система выбирает «Result Image»?
Патент описывает два основных способа. Первый и наиболее вероятный для большинства запросов — это выбор изображения с наивысшим рейтингом (Image Relevance Score) в стандартном поиске по картинкам (Claim 7). Второй — использование предопределенной базы данных канонических пар Запрос-Изображение (Claim 8).
Как мне сделать мое изображение этим самым «Result Image»?
Необходимо применять лучшие практики Image SEO. Это включает использование высококачественных, четких изображений, оптимизацию Alt-текста и имени файла, использование микроразметки (например, Product Schema), а также обеспечение высокой авторитетности страницы, на которой размещено изображение. Цель — занять ТОП-1 в Google Images по названию вашего продукта.
Какие типы изображений лучше всего подходят для этой технологии?
Лучше всего подходят четкие изображения с хорошим контрастом, где объект хорошо виден. Для продуктов важны изображения упаковки и логотипов. Патент упоминает использование OCR и SIFT, поэтому четкий текст и уникальные визуальные детали на изображении являются сильными признаками для идентификации.
Что такое «Query-Image Pairs» (Пары Запрос-Изображение)?
Это база данных, где конкретные запросы заранее связаны с каноническими изображениями. Это позволяет системе быстрее находить эталонное изображение без выполнения поиска в реальном времени. Вероятно, Google использует такие базы для очень популярных или важных объектов.
Может ли система распознать мой продукт, если он частично скрыт на фото пользователя?
Это зависит от того, насколько хорошо видны ключевые визуальные признаки (Visual Features) и насколько высок порог сходства (Similarity Threshold). Если достаточное количество признаков совпадает с Result Image, система может идентифицировать объект, но точность будет ниже, чем при полном обзоре.
Используется ли эта технология только для продуктов?
Нет. Хотя E-commerce является очевидным применением (поиск товара на полке), технология может применяться для идентификации любых узнаваемых объектов: произведений искусства, логотипов, достопримечательностей, видов растений или животных, если для них существует качественное Result Image в индексе Google.
Чем это отличается от обратного поиска по изображению (Reverse Image Search)?
При обратном поиске пользователь загружает изображение, и система ищет похожие изображения в интернете. В данном патенте пользователь загружает изображение И текстовый запрос. Система ищет объект, описанный текстом, внутри загруженного изображения, используя эталон из своего индекса.
Какое значение это имеет для локального SEO?
Значение может быть высоким, так как технология помогает пользователям находить товары в физических магазинах. Если пользователь использует эту технологию для идентификации нужного товара в вашем магазине, это улучшает пользовательский опыт. Это подчеркивает важность наличия качественных изображений товаров в профилях Google Business Profile и на локальных лендингах.