Google анализирует, какие изображения пользователи нажимают вместе (co-select) в ответ на конкретный запрос. Изучая визуальные характеристики этих совместно выбранных изображений, Google создает «Профиль изображения, зависящий от запроса» (Query-Dependent Image Profile). Этот профиль взвешивает важность визуальных признаков (таких как цвет, форма или текстура) специально для этого запроса, позволяя системе лучше понимать намерения пользователя и повышать релевантность поиска изображений.
Описание
Какую задачу решает
Патент решает проблему статичности традиционных метрик визуального сходства. Обычно сходство оценивается на основе визуальных признаков (цвет, текстура) вне зависимости от контекста. Однако восприятие сходства пользователем зависит от его информационных потребностей (интента запроса). Например, дневное и ночное фото Эйфелевой башни могут считаться похожими по запросу «достопримечательности Парижа», но разными по запросу «Эйфелева башня днем». Изобретение создает механизм для динамической оценки сходства изображений в контексте конкретного запроса.
Что запатентовано
Запатентована система генерации Query-Dependent Image Profile (QDIP) — профиля изображения, зависящего от запроса. Этот профиль представляет собой набор весов, определяющих относительную важность различных визуальных признаков (цвет, форма, текстура) для оценки сходства изображений конкретно для данного запроса. QDIP формируется на основе анализа исторического поведения пользователей, а именно совместного выбора (co-selection) изображений в рамках поисковых сессий.
Как это работает
Система работает в двух режимах: обучение (офлайн) и применение (онлайн).
- Обучение (Офлайн): Анализируются исторические данные поисковых сессий. Идентифицируются изображения, которые пользователи часто нажимают вместе (co-selected images) по конкретному запросу. Система формирует «тройки» (Triplets) изображений: референсное изображение (высокий ранг, клик), похожее изображение (низкий ранг, клик) и непохожее изображение (средний ранг, пропуск). Сравнивая их визуальные признаки, система учится, какие характеристики определяют сходство для данного запроса, и генерирует QDIP.
- Применение (Онлайн): Когда поступает запрос, система загружает его заранее рассчитанный QDIP. Сходство между изображениями рассчитывается с учетом весов из QDIP, что позволяет ранжировать результаты на основе контекстуального визуального сходства.
Актуальность для SEO
Высокая. Понимание контекста и пользовательского интента в визуальном поиске является критически важной задачей для современных поисковых систем (например, Google Lens, мультимодальные модели). Принцип контекстно-зависимого сходства, описанный в патенте, остается фундаментальным для улучшения качества поиска изображений.
Важность для SEO
Патент имеет значительное влияние на стратегии продвижения в поиске по картинкам (Image SEO). Он показывает, что релевантность изображения определяется не только его содержанием и текстовыми метками (labels), но и тем, насколько его визуальные характеристики соответствуют ожиданиям пользователей по конкретному запросу. Эти ожидания Google изучает через поведенческие факторы. Оптимизация требует понимания того, какие визуальные признаки (цвет, форма, стиль) ассоциируются у пользователей с целевым интентом.
Детальный разбор
Термины и определения
- Co-selected images (Совместно выбранные изображения)
- Два или более изображения, с которыми пользователь взаимодействовал (например, кликнул) в течение одной поисковой сессии в ответ на один и тот же запрос.
- Co-selection Matrix (Матрица совместного выбора)
- Структура данных для конкретного запроса, хранящая частоту (co-selection rate), с которой каждая пара изображений выбирается совместно.
- Co-selection Score (CSS) (Оценка совместного выбора)
- Метрика, указывающая на дистанцию (например, косинусное расстояние) между векторами совместного выбора двух изображений. Высокий CSS предполагает, что изображения часто выбираются вместе в контексте данного запроса.
- Co-selection Vector (Вектор совместного выбора)
- Вектор для конкретного изображения, содержащий частоту его совместного выбора с каждым другим изображением по данному запросу.
- Distance Vector (Вектор расстояния)
- Вектор, указывающий на визуальное расстояние между двумя изображениями. Рассчитывается как разница между значениями их визуальных признаков (Image Feature Values).
- Image Feature Values (Значения признаков изображения)
- Числовые значения, характеризующие визуальные особенности изображения (цвет, текстура, яркость, информация о границах и т.д.).
- Learning Images / Triplets (Обучающие изображения / Тройки)
- Наборы из трех изображений (li, lj, lk), используемые для обучения модели. Они выбираются на основе их Co-selection Scores и поискового ранга (Search Rank), чтобы определить, какие визуальные признаки важны для сходства.
- Query-Dependent Image Profile (QDIP) (Профиль изображения, зависящий от запроса)
- Вектор весов, специфичный для конкретного запроса. Он определяет относительную важность различных Image Feature Values для расчета визуального сходства в контексте этого запроса.
- Search Session (Поисковая сессия)
- Определенный период активности пользователя, включающий один или несколько запросов и последующие взаимодействия с результатами.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод работы системы.
- Система получает данные поиска изображений для разных поисковых сессий, включающие текстовые запросы, показанные изображения и взаимодействия пользователей.
- Идентифицируются co-selected images: изображения, выбранные пользователем в рамках одной сессии.
- Определяется, что пара изображений является co-selected для конкретного текстового запроса, если частота их совместного выбора (co-selection rate) превышает порог.
- На основе этих данных для текстового запроса определяется Query-Dependent Image Profile (QDIP). QDIP указывает важность различных визуальных характеристик для идентификации релевантных изображений.
- При получении этого текстового запроса от пользователя система идентифицирует релевантные изображения, основываясь на их визуальных характеристиках и QDIP для этого запроса.
- Система предоставляет пользователю идентифицированные изображения.
Claim 2 (Зависимый от 1): Детализирует использование QDIP для расчета сходства.
Для изображения и референсного изображения (которое уже признано релевантным запросу) определяется Distance Vector на основе визуального расстояния между их Image Feature Values. Затем рассчитывается Query-Dependent Image Similarity Score на основе этого визуального расстояния и QDIP.
Claim 5 (Зависимый от 1): Детализирует процесс подготовки данных для обучения.
Система получает Co-selection Vector для изображений, рассчитывает Co-selection Score (CSS) для пар и выбирает наборы обучающих изображений (Learning Images) на основе CSS и их поискового ранга (Search Rank).
Claims 6 и 7 (Зависимые от 5): Описывают критически важный механизм выбора обучающих «троек» (Triplets).
- Выбор похожей пары (Claim 6): Выбирается пара изображений (Первое и Второе), у которых CSS выше первого порога (т.е. они похожи с точки зрения поведения), и при этом ранг Первого изображения выше ранга Второго.
- Выбор третьего изображения (Claim 7): Выбирается Третье изображение, у которого CSS с Первым изображением ниже второго порога (т.е. они не похожи). При этом ранг Третьего изображения находится между рангами Первого и Второго (выше Второго, но ниже Первого). Первый порог (сходство) выше второго порога (различие).
Эта структура (например, кликнули на 1 и 3 позицию, но пропустили 2 позицию) позволяет системе понять, почему пользователи посчитали изображения 1 и 3 похожими, а 1 и 2 — разными, несмотря на их ранжирование, что помогает бороться с позиционным смещением (position bias).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, в основном фокусируясь на анализе данных и ранжировании изображений.
INDEXING – Индексирование и извлечение признаков
На этом этапе система извлекает и сохраняет визуальные признаки (Image Feature Values) для каждого изображения (цвет, текстура, форма и т.д.).
RANKING – Ранжирование (Офлайн/Пакетная обработка)
Основной процесс обучения происходит здесь. Система анализирует Historical Data (логи поведения).
- Анализ совместного выбора (Co-selection Analysis).
- Идентификация обучающих наборов (Triplets).
- Генерация и сохранение Query-Dependent Image Profiles (QDIP) для конкретных запросов с помощью машинного обучения.
RANKING – Ранжирование (В реальном времени)
Когда пользователь вводит запрос, система применяет изученную модель.
- Система получает предварительно рассчитанный QDIP для этого запроса.
- Рассчитываются Query-Dependent Image Similarity Scores между изображениями-кандидатами, используя веса из QDIP.
- Эти оценки используются для финального ранжирования или для поиска дополнительных визуально похожих изображений.
Входные данные:
- Исторические данные поисковых сессий (запросы, показы, клики).
- Image Feature Values (визуальные признаки) изображений.
- Search Ranks изображений в исторических данных.
Выходные данные:
- Query-Dependent Image Profile (QDIP) для запросов.
- Query-Dependent Image Similarity Scores, используемые при ранжировании.
На что влияет
- Конкретные типы контента: В первую очередь влияет на поиск изображений (Image Search) и блоки изображений в универсальном поиске.
- Специфические запросы: Наибольшее влияние оказывается на запросы, где визуальная интерпретация неоднозначна или сильно зависит от контекста (например, запросы, связанные со стилем, брендами, товарами, достопримечательностями, где разные визуальные представления могут быть одинаково релевантны).
- Конкретные ниши: E-commerce, мода, дизайн, путешествия — ниши, где визуальные атрибуты критичны.
Когда применяется
- Условия применения: Алгоритм применяется для запросов, по которым накоплено достаточно исторических данных о поведении пользователей для надежного определения паттернов совместного выбора (co-selection).
- Триггеры активации: Наличие предварительно рассчитанного QDIP для введенного запроса активирует использование контекстно-зависимой оценки сходства во время ранжирования.
Пошаговый алгоритм
Процесс разделен на две фазы: Обучение профиля и Применение профиля.
Фаза А: Обучение профиля (Офлайн/Пакетная обработка)
- Сбор данных: Накопление данных поисковых сессий, включая запросы, показанные результаты, ранги и клики пользователей.
- Анализ совместного выбора: Для конкретного запроса (Q1) идентификация пар изображений, которые часто выбираются вместе (co-selected).
- Генерация метрик: Построение матрицы (Co-selection Matrix), генерация векторов (Co-selection Vectors) и расчет оценок совместного выбора (Co-selection Scores, CSS) между парами изображений.
- Идентификация Троек (Triplets): Выбор наборов обучающих изображений. Для каждого набора выбираются три изображения (li, lj, lk) на основе пороговых значений CSS и Ранга:
- li: Референсное изображение (например, Ранг 1).
- lj: Похожее изображение (Ранг ниже li, но CSS(li, lj) высокий).
- lk: Непохожее изображение (Ранг между li и lj, но CSS(li, lk) низкий).
- Машинное обучение: Анализ визуальных признаков (Image Feature Values) этих троек с использованием методов машинного обучения (например, max margin technique, упомянутой в патенте как Relationship 2). Цель — определить, какие признаки делают li похожим на lj и отличают его от lk в контексте Q1.
- Генерация QDIP: Результатом обучения является Query-Dependent Image Profile (вектор весов) для Q1, который сохраняется в базе данных.
Фаза Б: Применение профиля (В реальном времени)
- Получение запроса: Пользователь вводит запрос Q1.
- Загрузка QDIP: Система извлекает предварительно рассчитанный QDIP для Q1.
- Расчет расстояния: Для изображений-кандидатов рассчитывается Distance Vector (разница визуальных признаков) по отношению к референсным изображениям.
- Расчет сходства: Вычисляется Query-Dependent Image Similarity Score путем применения весов из QDIP к Distance Vector (например, с использованием Relationship 1 из патента).
- Ранжирование/Поиск: Полученные оценки сходства используются для финального выбора и ранжирования изображений в выдаче.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важные данные. Взаимодействия пользователей (клики) с результатами поиска. Данные поисковых сессий. Частота совместного выбора (co-selection rates).
- Мультимедиа факторы: Image Feature Values — извлеченные визуальные характеристики изображений (цвет, текстура, форма, яркость, информация о границах/краях).
- Системные данные: Поисковый ранг (Search Rank) изображений в исторических данных, используемый для формирования обучающих наборов (Triplets) и коррекции позиционного смещения.
Какие метрики используются и как они считаются
- Co-selection Rate (Частота совместного выбора): Частота, с которой два изображения выбираются вместе в рамках одной сессии по данному запросу.
- Co-selection Score (CSS): Метрика схожести поведения пользователей в отношении двух изображений. Рассчитывается как расстояние (например, косинусное) между их Co-selection Vectors.
- Distance Vector (Вектор расстояния): Метрика сырого визуального различия между двумя изображениями. Рассчитывается как разница между значениями признаков.
- Query-Dependent Image Profile (QDIP): Вектор весов, определяющий важность признаков. Генерируется в процессе машинного обучения (например, с использованием Relationship (2) в патенте) для минимизации нормы вектора при соблюдении ограничений, накладываемых тройками.
- Query-Dependent Image Similarity Score: Финальная взвешенная оценка сходства. Рассчитывается путем применения QDIP к Distance Vector (например, Relationship (1) в патенте: d(x_i, x_j) = sqrt( Σ [w_t^m * (x_i^m — x_j^m)^2] )).
- Пороговые значения: Минимальный и максимальный пороги CSS, используемые для выбора похожих и непохожих пар при формировании Triplets.
Выводы
- Визуальное сходство контекстуально: Главный вывод патента — визуальное сходство не является абсолютной величиной. Оно сильно зависит от контекста запроса (интента пользователя). Система разработана для того, чтобы уловить эту разницу (например, когда цвет важен, а когда нет).
- Поведенческие данные определяют визуальное понимание: Google использует агрегированные данные о кликах (co-selection) как источник истины для понимания того, как люди воспринимают визуальное сходство в различных контекстах. Поведение пользователей обучает визуальные алгоритмы.
- Критическая роль «Троек» (Triplets) в обучении: Механизм обучения основан не только на том, что пользователи нажимают, но и на том, что они пропускают. Анализ изображений, которые были пропущены, несмотря на высокий ранг (особенно тех, что расположены между нажатыми изображениями), критически важен для уточнения понимания релевантности и борьбы с позиционным смещением.
- Динамическое взвешивание визуальных признаков: Система не использует все визуальные признаки одинаково. Query-Dependent Image Profile (QDIP) активно взвешивает их, повышая важность одних (например, формы) и понижая важность других (например, цвета) для конкретного запроса.
- Офлайн обучение для онлайн применения: Для обеспечения скорости работы поиска, сложный процесс анализа поведения и генерации QDIP происходит офлайн. В реальном времени применяется уже готовый профиль, что обеспечивает масштабируемость.
Практика
Best practices (это мы делаем)
- Анализ визуального интента в Image SERP: Изучайте типы изображений, которые Google группирует в выдаче по целевому запросу. Это дает представление об активном QDIP. Например, если в выдаче доминируют изображения схожей формы, но разных цветов, значит, вес признака формы в QDIP высок, а цвета — низок. Адаптируйте свои изображения под эти визуальные паттерны.
- Оптимизация под клики и вовлеченность (Image CTR): Поскольку модель обучается на кликах (co-selection), создание привлекательных, высококачественных миниатюр, побуждающих к взаимодействию, критически важно. Высокий CTR и совместный выбор с другими релевантными изображениями усиливают сигналы релевантности.
- Обеспечение визуальной консистентности внутри темы: Изображения, используемые для освещения определенной темы или продукта, должны обладать визуальными характеристиками, соответствующими ожиданиям пользователей по этой теме. Это повышает вероятность того, что они будут совместно выбраны (co-selected).
- Оптимизация под ясность и различимость объекта: Изображения должны четко представлять объект поиска. Ясные изображения позволяют системе точнее извлекать Image Feature Values и с большей вероятностью будут вовлечены в релевантные паттерны co-selection.
Worst practices (это делать не надо)
- Визуальный кликбейт (Несоответствие изображения интенту): Использование изображений, которые привлекают клики, но не удовлетворяют интент запроса. Это приведет к низким показателям co-selection с другими действительно релевантными изображениями, что может навредить сигналам релевантности в долгосрочной перспективе.
- Игнорирование визуального контекста ниши: Публикация изображений, которые технически соответствуют запросу, но визуально выбиваются из общепринятого стиля или типа контента в данной нише (например, использование стоковых фото там, где пользователи ожидают реальные фотографии).
- Чрезмерная зависимость только от текстовой оптимизации: Полагаться исключительно на alt-текст и метаданные недостаточно, поскольку QDIP напрямую оценивает визуальные характеристики для уточнения ранжирования.
Стратегическое значение
Патент подтверждает стратегический сдвиг в сторону ранжирования на основе интента, даже в визуальном поиске. Недостаточно, чтобы изображение соответствовало ключевым словам (меткам или окружающему тексту); его визуальные характеристики должны соответствовать контекстуальным ожиданиям пользователя. Google изучает эти ожидания через поведение. Это подчеркивает важность создания визуального контента, который не просто иллюстрирует текст, а самостоятельно удовлетворяет информационную потребность пользователя.
Практические примеры
Сценарий: Оптимизация изображений для интернет-магазина обуви
- Анализ запроса: Целевой запрос — «Красные кроссовки Nike Air Max».
- Наблюдение за поведением (Гипотеза на основе патента): Google анализирует, что пользователи, вводящие этот запрос, часто кликают на изображения ярко-красных и бордовых кроссовок (co-selection), но пропускают розовые или оранжевые оттенки, даже если они ранжируются высоко.
- Формирование QDIP: Система учится, что для этого запроса точное соответствие определенным оттенкам красного цвета критично. QDIP для «Красные кроссовки Nike Air Max» будет иметь высокий вес для признаков цвета в красном спектре.
- Действия SEO-специалиста: Убедиться, что изображения продукта на сайте имеют точную цветопередачу и соответствуют тем оттенкам, которые пользователи считают релевантными (ярко-красный, бордовый). Не использовать изображения с искаженными цветами (уходящими в розовый или оранжевый).
- Результат: Изображения магазина с большей вероятностью будут ранжироваться выше, так как их визуальные признаки соответствуют весам в QDIP, сформированном на основе поведения пользователей.
Вопросы и ответы
Что такое Query-Dependent Image Profile (QDIP) простыми словами?
QDIP — это набор правил для конкретного запроса, который говорит Google, какие визуальные элементы важны. Например, для запроса «яблоко» профиль может указывать, что форма очень важна, а цвет менее важен (так как яблоки бывают красными и зелеными). Этот профиль создается на основе анализа того, на что кликали пользователи в прошлом.
Как Google определяет, какие изображения пользователи считают похожими?
Google использует сигнал co-selection (совместный выбор). Если значительное количество пользователей в рамках одной поисковой сессии кликает сначала на изображение А, а затем на изображение Б в ответ на один и тот же запрос, система интерпретирует это как сигнал о том, что А и Б похожи в контексте этого запроса.
Что такое «Тройки» (Triplets) и почему они важны?
Тройки — это обучающие наборы из трех изображений (А, Б, В). Система выбирает их так: А похоже на В (часто кликают вместе, ранг В ниже), но А не похоже на Б (редко кликают вместе, ранг Б выше, чем у В). Анализируя, почему пользователь пропустил высокоранговое (Б) и выбрал низкоранговое (В), Google учится отличать действительно похожие изображения от непохожих и корректирует ранжирование.
Означает ли этот патент, что CTR изображений стал еще важнее?
Да, абсолютно. Данные о кликах (в частности, co-selection) являются топливом для этого алгоритма. Привлекательные изображения, которые пользователи выбирают, обучают систему тому, что эти визуальные характеристики релевантны запросу. Высокий CTR и совместный выбор с другими релевантными изображениями критически важны для успеха в Image SEO.
Означает ли этот патент, что Alt-текст и окружающий контент менее важны?
Нет. Alt-текст, заголовки и окружающий текст (упоминаемые в патенте как labels) по-прежнему критически важны для первоначальной идентификации изображения как кандидата на ранжирование. QDIP используется на более поздних этапах для уточнения визуального сходства и ранжирования среди уже отобранных релевантных кандидатов.
Как этот механизм борется с позиционным смещением (Position Bias)?
Пользователи склонны кликать на первые результаты. Чтобы учесть это, при формировании обучающих триплетов система специально выбирает пары, где пользователь кликнул на изображение с низкой позицией, проигнорировав изображение с более высокой позицией (которое находилось между первым кликнутым и вторым). Это является сильным сигналом предпочтения, не связанным с позицией.
Могу ли я узнать, какой QDIP у моего целевого запроса?
Вы не можете увидеть QDIP напрямую, но вы можете сделать обоснованное предположение, проанализировав топовые результаты поиска по изображениям. Ищите закономерности: доминирующие цвета, типы текстур, композиция, фон. Эти доминирующие визуальные характеристики и есть отражение QDIP.
Применяется ли этот механизм ко всем запросам?
Вероятно, нет. Для генерации надежного QDIP требуется значительный объем исторических данных о взаимодействиях пользователей. Он, скорее всего, применяется к частотным и среднечастотным запросам, где достаточно данных о кликах и совместных выборах. Для редких запросов система полагается на стандартные модели.
Может ли этот механизм помочь новым изображениям ранжироваться?
Да. Если QDIP для запроса уже рассчитан, новое изображение может быть немедленно оценено на основе его визуальных характеристик с использованием этого QDIP. Если оно визуально соответствует профилю, оно может хорошо ранжироваться даже без собственных исторических данных о кликах.
Как этот патент связан с Google Lens или MUM?
Этот патент описывает foundational technology для понимания визуального контекста. Современные системы, такие как Google Lens и мультимодальные модели (MUM), вероятно, используют гораздо более сложные нейросетевые методы, но базовый принцип, заложенный здесь — что визуальное сходство зависит от контекста и интента — остается неизменным и ключевым.