Google повышает точность поиска по картинкам для запросов, указывающих ракурс (например, «вид сбоку»). Система генерирует более широкий запрос (например, «автомобиль вид сбоку») и использует эти результаты как эталонный набор. Это позволяет проверить, действительно ли результаты по конкретному запросу (например, «Subaru вид сбоку») соответствуют запрошенному ракурсу, и отфильтровать ложные срабатывания.
Описание
Какую задачу решает
Патент решает проблему ложных срабатываний (false positives) и неточного ранжирования в поиске изображений, когда запрос содержит как семантическую часть (объект), так и визуальное ограничение (например, ракурс, viewpoint, или условия съемки). Стандартные алгоритмы могут ошибочно присваивать высокие оценки изображениям, которые соответствуют объекту, но не соответствуют визуальному ограничению. Например, по запросу «Subaru Legacy вид сбоку» могут высоко ранжироваться изображения Subaru Legacy, снятые спереди. Изобретение улучшает точность (precision) выдачи.
Что запатентовано
Запатентован метод улучшения результатов поиска изображений путем использования обобщенных запросов для валидации визуальных характеристик. Если поступает конкретный запрос (например, «Subaru вид сбоку»), система генерирует второй, более широкий запрос, заменяя конкретный объект его категорией (например, «Автомобиль вид сбоку»), сохраняя при этом визуальное ограничение. Результаты широкого запроса используются как эталонный набор для обучения классификатора или для прямого визуального сравнения, что позволяет переранжировать или отфильтровать результаты исходного запроса.
Как это работает
Система работает следующим образом:
- Декомпозиция запроса: Исходный запрос (Q1) разделяется на семантическую часть (P1, объект) и визуальную часть (P2, ограничение/ракурс).
- Генерализация: Семантическая часть P1 обобщается до категории P3 (например, с помощью Category Database).
- Обобщенный запрос: Формируется новый запрос Q2 (P3 + P2).
- Параллельный поиск: Выполняются поиски по Q1 (получая набор S1) и Q2 (получая набор S2).
- Валидация и Переранжирование: Набор S2 используется для валидации S1. Это может включать:
- Обучение Image Classifier на S2 для распознавания визуальной характеристики P2, и последующая переоценка S1.
- Прямое вычисление Measure of Similarity (меры сходства) между визуальными представлениями изображений из S1 и S2.
- Фильтрация: Изображения из S1, которые не похожи на эталонный набор S2 (т.е. не соответствуют визуальному ограничению), понижаются в ранжировании или удаляются.
Актуальность для SEO
Высокая. Понимание визуального контента и точное соответствие интенту пользователя (визуальный интент) является ключевым направлением развития поиска (Google Images, Google Lens). Этот патент описывает конкретный механизм для повышения точности интерпретации сложных визуальных запросов, что особенно важно для e-commerce и продуктовых тематик, где ракурс имеет значение.
Важность для SEO
Патент имеет высокое значение (7.5/10) для стратегий продвижения в Image Search. Он показывает, что Google активно проверяет соответствие изображения заявленным визуальным характеристикам в запросе с помощью компьютерного зрения. Для SEO это означает, что оптимизации только под объект недостаточно; изображение должно четко и недвусмысленно соответствовать визуальному интенту (например, ракурсу), чтобы избежать фильтрации как false positive.
Детальный разбор
Термины и определения
- First Search Query (Q1) (Первый/Исходный запрос)
- Конкретный запрос пользователя, содержащий семантическую и визуальную части. Пример: «Subaru Legacy side view».
- Second Search Query (Q2) (Второй/Обобщенный запрос)
- Автоматически сгенерированный запрос, который шире исходного. Он заменяет объект его категорией, сохраняя визуальное ограничение. Пример: «Car side view».
- Semantic Portion (P1) (Семантическая часть)
- Часть запроса, идентифицирующая объект. Пример: «Subaru Legacy».
- Visual Portion (P2) (Визуальная часть)
- Часть запроса, указывающая визуальную характеристику, нейтральную по отношению к идентичности объекта (например, ракурс/Viewpoint, время суток). Пример: «side view».
- Generalized Search Query Portion (P3) (Обобщенная часть запроса)
- Более широкая категория, которой принадлежит объект из P1. Пример: «Car».
- Category Database (База данных категорий)
- Хранилище, связывающее ключевые слова с категориями (например, «Honda Civic» -> «Car»). Может использоваться для определения P3.
- Image Classifier (Классификатор изображений)
- Инструмент (модель), обученный определять релевантность изображения запросу. В патенте он может обучаться на результатах S2 для оценки S1.
- Measure of Similarity (Мера сходства)
- Метрика, указывающая, насколько изображение из S1 визуально похоже на одно или несколько изображений из S2.
- Image Representation (Представление изображения)
- Численное представление визуального контента (например, вектор признаков, bag of visterms, GIST features), используемое для сравнения или классификации.
- F(q,p)
- Функция, реализуемая классификатором для оценки релевантности. q — представление запроса, p — представление изображения.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод улучшения поиска изображений с визуальными ограничениями.
- Система получает первый запрос (Q1), включающий термины, определяющие viewpoint (ракурс) объекта.
- В ответ система генерирует второй запрос (Q2). Q2 включает (i) термины категории объекта и (ii) те же термины, определяющие viewpoint.
- Система получает первый набор изображений (S1), релевантных Q1, и второй набор (S2), релевантных Q2.
- Система отбирает изображения из S1 на основе indication of visual similarity (индикатора визуального сходства) между изображениями из S1 и изображениями из S2.
Ядро изобретения — использование результатов более широкого запроса (по категории объекта) для валидации того, что результаты узкого запроса (по конкретному объекту) действительно соответствуют требуемому ракурсу.
Claim 5 (Зависимый от 1): Уточняет один из методов генерации индикатора визуального сходства (Вариант А).
- Система обучает image classifier, используя изображения из второго набора (S2).
- Индикатор сходства генерируется путем классификации изображений из S1 с помощью этого обученного классификатора.
Система использует набор S2 (например, «Car side view») как обучающую выборку, чтобы научиться распознавать, что такое «side view», а затем применяет это знание к S1 («Subaru side view»).
Claim 6 (Зависимый от 1): Уточняет альтернативный метод генерации индикатора визуального сходства (Вариант Б).
- Генерируются представления (representations) для изображений из S1.
- Генерируется представление на основе набора S2 (например, агрегированное).
- Идентифицируются визуальные различия (visual differences) между представлениями.
- Индикатор сходства генерируется на основе этих различий.
Это описывает подход прямого сравнения визуальных признаков (например, векторов) между конкретными изображениями и эталонным набором.
Где и как применяется
Изобретение применяется преимущественно в рамках вертикали поиска по изображениям (Image Search).
INDEXING – Индексирование и извлечение признаков
На этом этапе должны быть предварительно вычислены визуальные признаки изображений (Image Representations), которые затем будут использоваться для анализа.
QUNDERSTANDING – Понимание Запросов
На этом этапе происходит декомпозиция исходного запроса Q1 на P1 и P2. Также здесь происходит генерализация: система определяет категорию P3 для объекта P1. Это может включать обращение к Category Database, лексическим базам данных (например, WordNet) или анализ логов уточнения запросов (query refinement log).
RANKING – Ранжирование
Система выполняет два параллельных процесса ранжирования для получения наборов S1 и S2.
RERANKING – Переранжирование
Основной этап применения патента. Полученные наборы S1 и S2 обрабатываются для валидации визуальных характеристик.
- Анализ S2: Результаты Q2 анализируются для создания эталона визуального соответствия (обучение классификатора или создание шаблона).
- Переоценка S1: Применяется один из описанных методов (классификатор или сравнение) для переоценки S1.
- Корректировка оценок: Relevance Scores для изображений в S1 корректируются на основе вычисленной Measure of Similarity или оценки классификатора. Изображения с низкими оценками фильтруются или понижаются.
Входные данные:
- Исходный запрос (Q1).
- Базы данных для генерализации (Category Database, лексические базы).
- Индекс изображений с визуальными признаками (Image Representations).
Выходные данные:
- Уточненный набор результатов (S1) с пересчитанными Relevance Scores, где соблюдены визуальные ограничения.
На что влияет
- Конкретные типы контента и Ниши: Изображения продуктов, автомобилей, недвижимости, одежды (E-commerce, Авто, Недвижимость). Любой контент, где важен ракурс или специфические визуальные условия.
- Специфические запросы: Запросы, содержащие указания на ракурс («вид сбоку», «спереди», «сверху»), проекцию или условия съемки («ночью», «крупный план»).
Когда применяется
- Триггеры активации: Обнаружение в запросе комбинации семантического указания на объект (P1) и визуального ограничения (P2), которое является нейтральным к идентичности объекта.
- Условие применения: Возможность системы успешно обобщить семантическую часть (P1) до более широкой категории (P3), для которой существует достаточное количество релевантных изображений.
Пошаговый алгоритм
Этап 1: Прием и анализ запроса
- Получение первого поискового запроса (Q1).
- Идентификация семантической части (P1) и визуальной части (P2).
Этап 2: Генерализация запроса
- Определение обобщенной части запроса (P3) на основе P1.
- Генерация второго поискового запроса (Q2 = P3 + P2).
Этап 3: Выполнение поиска
- Выполнение поиска по Q1 для получения набора S1.
- Выполнение поиска по Q2 для получения набора S2.
Этап 4: Валидация и уточнение результатов
Вариант А: Использование классификатора (Claims 1, 5; FIG. 4)
- Обучение классификатора: Использование S2 как обучающей выборки для Image Classifier. Цель — научить классификатор распознавать визуальную характеристику P2. Это может включать определение функции F(q,p).
- Применение классификатора: Применение обученного классификатора к изображениям из S1.
- Переранжирование: Присвоение новых Relevance Scores изображениям в S1 на основе оценок классификатора.
Вариант Б: Прямое сравнение (Claims 1, 6; FIG. 11)
- Извлечение представлений: Получение Image Representations для изображений из S1 и S2 (или агрегированного представления S2).
- Вычисление сходства: Определение Measure of Similarity между каждым изображением из S1 и эталоном из S2 (например, путем вычисления расстояния между векторами).
- Фильтрация: Отбор изображений из S1 для показа, только если мера сходства превышает определенный порог.
Этап 5: Выдача результатов
- Предоставление уточненного набора S1 пользователю.
Какие данные и как использует
Данные на входе
- Контентные (Текстовые) факторы: Текст исходного запроса Q1, используемый для идентификации P1 и P2.
- Мультимедиа (Визуальные) факторы: Критически важные данные. Используются визуальные представления изображений (Image Representations). Патент упоминает bag of visterms, гистограммы цвета/текстуры, GIST features. Эти данные необходимы для работы классификатора и вычисления сходства.
- Системные данные (Источники знаний для генерализации):
- Category Database: База данных, связывающая ключевые слова с категориями.
- Lexical Database (например, WordNet): Для определения родовидовых отношений.
- Query Refinement Log (Логи уточнений запросов): Для определения статистических связей между запросами.
Какие метрики используются и как они считаются
- Measure of Similarity (Мера сходства): Ключевая метрика. Может рассчитываться как расстояние между Image Representations (Вариант Б) или как оценка, выданная Image Classifier (Вариант А). Упоминается возможность использования Mahalanobis distance.
- Relevance Score (Оценка релевантности): Итоговая оценка изображения в S1, скорректированная на основе визуальной валидации.
- Функция F(q,p): Используется в Варианте А. Функция обучается на данных из S2 для оценки релевантности изображения (p) запросу (q). Обучение может включать маппинг из пространства изображений в текстовое пространство и минимизацию функции потерь (loss function), например, с использованием модели PAMIR.
- Пороги (Thresholds): Используются для принятия решения о включении изображения в финальную выдачу на основе меры сходства или новой оценки релевантности.
Выводы
- Валидация визуального интента через генерализацию: Ключевой вывод — Google использует обобщение запроса (переход от объекта к категории) для проверки соответствия изображения визуальным ограничениям. Система учится понимать, как выглядит требуемая характеристика (например, ракурс) на широком наборе данных категории, прежде чем применить это знание к конкретному объекту.
- Два пути реализации: Классификатор vs. Сходство: Патент защищает два основных метода валидации: (А) обучение временного классификатора на лету на основе широкой выдачи или (Б) прямое сравнение визуальных признаков (Image Representations). Оба метода служат для отсеивания false positives.
- Критичность визуальной чистоты и каноничности: Для ранжирования по запросам с визуальными ограничениями изображение должно четко соответствовать требуемой характеристике и быть похожим на другие изображения в этой категории. Двусмысленные, нестандартные или зашумленные ракурсы могут быть отфильтрованы.
- Компьютерное зрение как финальный арбитр: Механизм демонстрирует, как компьютерное зрение используется для переранжирования результатов, исправляя ошибки стандартных алгоритмов. Текстовая релевантность вторична по отношению к визуальному соответствию для таких запросов.
- Зависимость от категоризации: Эффективность механизма зависит от способности системы правильно определить категорию объекта (например, понять, что «Subaru Legacy» это «Car»).
Практика
Best practices (это мы делаем)
- Использование канонических ракурсов: При создании галерей товаров (особенно в e-commerce) используйте стандартные, легко узнаваемые ракурсы (вид спереди, сбоку, сверху). Изображение должно быть недвусмысленным и соответствовать общепринятому представлению для данной категории, чтобы быть похожим на эталонный набор (S2).
- Обеспечение визуальной чистоты: Изображения должны быть высокого качества, с хорошим освещением и минимальным количеством отвлекающих элементов. Это облегчает извлечение визуальных признаков (Image Representation) и повышает вероятность успешного прохождения валидации.
- Оптимизация метаданных под визуальный интент: Убедитесь, что метаданные (alt text, filename, окружающий текст) точно описывают ракурс, если вы целитесь на трафик по таким запросам. Это помогает на этапе первичного ранжирования (Q1).
- Анализ выдачи по категории: Изучите выдачу Google Images по обобщенному запросу (например, «кроссовки вид сверху»). Это даст представление об эталонном наборе (S2), на который ориентируется система. Ваши изображения должны визуально соответствовать этому паттерну.
Worst practices (это делать не надо)
- Использование неоднозначных или сложных ракурсов: Размещение изображений, снятых под нестандартным углом (например, три четверти), для оптимизации под стандартные ракурсы (например, «вид спереди»). Система может классифицировать их как false positive.
- Манипуляции с метаданными при визуальном несоответствии: Попытки оптимизировать ALT-текст под визуальные запросы (например, «вид сбоку»), если само изображение этому не соответствует. Описанный механизм направлен на выявление таких несоответствий на основе визуального анализа.
- Игнорирование разнообразия ракурсов: Предоставление только одного вида товара ограничивает видимость в Image Search по запросам с визуальными ограничениями.
Стратегическое значение
Патент подтверждает, что Google не просто ищет совпадения текста с метаданными, но и глубоко анализирует визуальный контент для удовлетворения интента пользователя. Стратегически это подчеркивает важность инвестиций в качественный, четкий и разнообразный визуальный контент. Понимание того, что Google сравнивает ваши изображения с более широким эталонным набором в категории, должно стимулировать создание визуального контента, соответствующего лучшим отраслевым стандартам и ожиданиям пользователей.
Практические примеры
Сценарий: Оптимизация карточки товара для интернет-магазина кроссовок
Задача: Ранжироваться по запросу «Nike Air Max 90 вид сбоку».
- Анализ (Действия Google):
- Google получает запрос Q1: «Nike Air Max 90 вид сбоку».
- Обобщает до Q2: «Кроссовки вид сбоку».
- Получает эталонный набор S2 (как выглядят кроссовки сбоку в целом).
- Действия SEO-специалиста и дизайнера:
- Создать высококачественное изображение Nike Air Max 90, где кроссовок расположен строго в профиль.
- Фон должен быть чистым (желательно нейтральным), освещение равномерным.
- Убедиться, что ракурс соответствует каноническому виду сбоку для категории «Кроссовки».
- Оптимизация: Разместить изображение с релевантным ALT-текстом (например, «Вид сбоку кроссовок Nike Air Max 90») и именем файла (nike-air-max-90-side-view.jpg).
- Ожидаемый результат: Когда Google сравнивает это изображение (из S1) с эталонным набором (S2), он обнаруживает высокое Measure of Similarity по ракурсу. Изображение успешно проходит визуальную валидацию и имеет высокие шансы на ранжирование по запросу Q1.
Вопросы и ответы
Что является ключевой инновацией этого патента?
Ключевая инновация — это использование результатов обобщенного запроса для валидации визуальных характеристик результатов конкретного запроса. Вместо того чтобы пытаться понять сложный запрос напрямую, система сначала учится распознавать требуемую визуальную характеристику (например, ракурс) на более широком и разнообразном наборе данных (категория объекта), а затем применяет это знание к конкретному объекту.
Как Google определяет категорию объекта для генерации широкого запроса?
Патент предлагает несколько методов. Система может использовать заранее подготовленную Category Database, связывающую ключевые слова с категориями. Также могут использоваться лексические базы данных (например, WordNet) для определения отношений род-вид. Кроме того, система может анализировать логи уточнения запросов (Query Refinement Logs), чтобы найти запросы, которые статистически являются обобщениями исходного запроса.
Какие есть способы использования широкой выдачи (S2) для улучшения узкой (S1)?
Патент описывает два основных подхода. Первый (Вариант А) — обучить Image Classifier на изображениях из S2, чтобы он научился распознавать нужную визуальную характеристику, и затем применить его к S1 для переранжирования. Второй (Вариант Б) — прямое вычисление Measure of Similarity путем сравнения визуальных представлений (векторов признаков) изображений из S1 и S2 и фильтрация на основе порогового значения сходства.
Что такое «визуальная часть» (Visual Portion) запроса?
Это часть запроса, которая накладывает ограничения на визуальные характеристики изображения, но при этом нейтральна к идентичности объекта. Типичные примеры — это указание ракурса (Viewpoint: «вид сбоку», «сверху»), типа проекции или условий съемки («ночью»). Например, «вид сбоку» может применяться как к автомобилю, так и к степлеру.
Как SEO-специалисту использовать этот патент в работе для E-commerce сайта?
Ключевое действие — обеспечить максимальную визуальную чистоту и соответствие стандартным (каноническим) ракурсам для фотографий товаров. Если вы хотите ранжироваться по запросу «[товар] вид спереди», ваше изображение должно быть эталонным видом спереди, похожим на лучшие примеры в вашей категории. Избегайте сложных углов и визуального шума на основных изображениях.
Что произойдет, если мое изображение показывает правильный объект, но с неправильным ракурсом?
Согласно патенту, такое изображение будет считаться ложным срабатыванием (false positive). Система сравнит его с эталонным набором изображений (полученным по обобщенному запросу) и обнаружит низкое визуальное сходство в контексте запрошенного ракурса. В результате изображение будет понижено в ранжировании или отфильтровано из выдачи по данному запросу.
Обучает ли Google классификатор на лету для каждого запроса?
Патент описывает процесс (FIG. 4), включающий обучение классификатора после получения запроса, используя результаты Q2 как обучающую выборку. Это подразумевает возможность обучения на лету. Однако на практике Google может также использовать предобученные модели, реализующие схожую логику, для ускорения процесса, но концептуально они основаны на сравнении с обобщенным набором данных.
Будет ли этот механизм работать, если для категории объекта мало изображений?
Эффективность механизма зависит от качества и количества результатов в обобщенном запросе (S2). Если для категории мало изображений или они низкого качества, системе будет сложно обучить надежный классификатор или сформировать качественное эталонное представление. В таких случаях механизм может работать менее точно или не активироваться.
Означает ли это, что оптимизация ALT-текстов для изображений больше не важна?
Нет, оптимизация ALT-текстов и окружающего контента остается важной для определения базовой релевантности изображения объекту (семантическая часть) и для попадания в первичный набор S1. Однако этот патент показывает, что для запросов с визуальными ограничениями Google проводит дополнительную валидацию самого визуального контента. Текстовой оптимизации недостаточно, если изображение визуально не соответствует запросу.
Применяется ли этот алгоритм только к поиску по картинкам или он влияет и на веб-поиск?
Патент сфокусирован исключительно на поиске изображений (Image Searches). Он напрямую не влияет на ранжирование веб-документов. Однако он может косвенно влиять на ранжирование блоков с изображениями (Image Packs) в универсальной выдаче, определяя, какие именно картинки попадут в эти блоки как наиболее релевантные.