Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

Описание

Какую задачу решает

Патент решает проблему отсутствия специализированных моделей визуальной релевантности (image relevance models) для огромного количества многословных поисковых фраз (search phrases), особенно для редких или сложных (long-tail) запросов. Поскольку невозможно обучить модель для каждого уникального запроса, изобретение предлагает механизм для использования существующих моделей, обученных на частях исходного запроса (sub-queries), чтобы улучшить ранжирование изображений по полному запросу.

Что запатентовано

Запатентована система для оценки и выбора наилучшей модели подзапроса (sub-query model) в качестве модели релевантности для полной поисковой фразы. Система определяет, какая из доступных моделей подзапросов генерирует ранжирование изображений, наиболее близкое к фактическому ранжированию, основанному на взаимодействиях пользователей (interaction rankings, например, кликах) с этими изображениями по полной поисковой фразе.

Как это работает

Система работает следующим образом:

Определение эталона (Ground Truth): Для поисковой фразы (например, «торт на день рождения для мальчиков») система анализирует, на какие изображения пользователи кликают чаще всего. Это формирует «Рейтинг взаимодействий» (Interaction Ranking).
Идентификация кандидатов: Система разбивает фразу на подзапросы (например, «торт на день рождения», «мальчики») и находит их предварительно обученные модели (Sub-Query Models).
Оценка моделей: Каждая модель подзапроса используется для ранжирования того же набора изображений на основе их визуальных характеристик, формируя «Рейтинг модели подзапроса» (Sub-Query Model Ranking).
Сравнение и Выбор: Система сравнивает, насколько Sub-Query Model Ranking похож на Interaction Ranking. Сходство измеряется метрикой Search Phrase Score. Модель с наивысшей оценкой выбирается для ранжирования изображений по исходной фразе.

Актуальность для SEO

Высокая. Проблема обработки длинного хвоста запросов и масштабирования моделей машинного обучения остается критически важной для Google, особенно в визуальном поиске (Image Search, Google Lens). Хотя конкретные модели релевантности эволюционировали с момента подачи патента, базовая концепция использования данных о взаимодействии пользователей в качестве эталона для валидации и выбора моделей остается фундаментальной практикой.

Важность для SEO

Влияние на SEO оценивается как умеренное (6/10), но оно имеет высокое значение для стратегий продвижения в Google Images. Патент раскрывает, что ранжирование изображений по сложным запросам может зависеть от того, насколько хорошо изображение визуально соответствует доминирующей части запроса (подзапросу), для которого у Google есть сильная модель. Это подчеркивает фундаментальную роль пользовательских взаимодействий (кликов) как эталона релевантности.

Детальный разбор

Термины и определения

Anti-sub query term (Анти-подзапросовый термин): Термин в поисковой фразе, указывающий на то, что модель подзапроса не должна использоваться или должна использоваться для понижения результатов (например, слово «без» в запросе «идеи вечеринки без торта»).
Global Sub-query (Глобальный подзапрос): Подзапрос, чья модель релевантности показала стабильно высокую эффективность (высокий Global Search Phrase Score) для множества различных поисковых фраз, включающих этот подзапрос. Модель глобального подзапроса может использоваться по умолчанию.
Image Relevance Model (Модель релевантности изображений): Модель машинного обучения, обученная оценивать релевантность изображения конкретному запросу на основе визуальных характеристик изображения (visual features).
Interaction Histogram (Гистограмма взаимодействий): Представление данных, где изображения упорядочены по Interaction Ranking, а высота столбца соответствует количеству взаимодействий (например, кликов).
Interaction Ranking (Рейтинг взаимодействий): Ранжирование набора изображений, основанное на количестве пользовательских взаимодействий (кликов, наведений курсора) с этими изображениями, когда они были показаны в ответ на поисковую фразу. Служит как «ground truth».
Search Phrase (Поисковая фраза): Запрос, состоящий из двух или более терминов.
Search Phrase Score (Оценка поисковой фразы): Метрика, измеряющая степень сходства между Interaction Ranking и Sub-query Model Ranking. Используется для выбора лучшей модели.
Sub-query (Подзапрос): Собственное подмножество (proper subset) терминов из исходной поисковой фразы.
Sub-query Histogram (Гистограмма подзапроса): Представление данных, где те же изображения с тем же количеством взаимодействий переупорядочены в соответствии с Sub-query Model Ranking.
Sub-query Model (Модель подзапроса): Image Relevance Model, обученная для конкретного подзапроса.
Sub-query Model Ranking (Рейтинг модели подзапроса): Ранжирование набора изображений, сгенерированное путем применения Sub-query Model к визуальным признакам этих изображений.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод выбора модели релевантности для поисковой фразы.

Система идентифицирует набор релевантных изображений для поисковой фразы (2+ термина).
Определяются Interaction Rankings для этих изображений на основе количества пользовательских взаимодействий.
Создаются два или более подзапроса (собственные подмножества терминов фразы).
Для каждого подзапроса:
1. Определяются Sub-query Model Rankings. Ранжирование выполняется на основе модели подзапроса (image relevance model для этого подзапроса) и визуальных признаков (visual features) изображений.
2. Определяется Search Phrase Score — мера сходства между позициями изображений в Interaction Rankings и Sub-query Model Rankings.
На основе Search Phrase Scores выбирается одна из моделей подзапросов в качестве модели для исходной поисковой фразы (та, чей скор удовлетворяет порогу).

Claims 3, 4, 5 (Зависимые): Детализируют механизм сравнения рейтингов с помощью гистограмм.

Система создает Interaction Histogram (изображения упорядочены по взаимодействиям) и Sub-query Histogram (те же изображения переупорядочены по оценке модели). Search Phrase Score определяется на основе «уровня совпадения» (level of match) между этими двумя гистограммами. (В патенте упоминается возможность использования L1 similarity для измерения совпадения/перекрытия).

Claims 6, 7 (Зависимые): Описывают механизм идентификации Глобальных подзапросов.

Для выбранной модели подзапроса собираются дополнительные Search Phrase Scores, полученные при ее тестировании на других поисковых фразах.
Вычисляется Global Search Phrase Score — агрегированная мера всех этих оценок.
Если Global Search Phrase Score удовлетворяет порогу (globalization threshold), подзапрос идентифицируется как Global Sub-query.
Модель этого глобального подзапроса используется для ранжирования изображений для других поисковых фраз, содержащих этот подзапрос.

Где и как применяется

Изобретение применяется в рамках вертикали Поиска по картинкам (Image Search) и затрагивает несколько этапов обработки данных, преимущественно в офлайн-режиме для анализа и в реальном времени для ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются и сохраняются визуальные признаки (visual features) изображений, которые позже используются моделями релевантности.

RANKING – Ранжирование (Офлайн-компоненты и Аналитика)
Основная часть работы, описанной в патенте, происходит офлайн:

Обучение моделей: Image Relevance Models обучаются для конкретных запросов.
Анализ логов и Валидация: Система анализирует логи взаимодействий пользователей (клики). Происходит процесс оценки Sub-query Models, расчет Search Phrase Scores и идентификация Global Sub-queries. Результаты сохраняются для использования в реальном времени.

RANKING – Ранжирование (Онлайн-компоненты)
Во время обработки запроса пользователя в реальном времени:

Если для поисковой фразы нет специализированной модели, система использует предварительно выбранную Sub-query Model (из офлайн-анализа) или модель Global Sub-query.
Выбранная модель применяется к визуальным признакам изображений-кандидатов для генерации или корректировки оценок релевантности (relevance scores).

Входные данные (для процесса оценки):

Поисковая фраза.
Набор релевантных изображений и их визуальные признаки.
Исторические данные о взаимодействиях пользователей (клики) с этими изображениями для данной фразы.
База данных обученных Sub-query Models.

Выходные данные (для процесса оценки):

Выбранная Sub-query Model, ассоциированная с поисковой фразой.
Идентификация Global Sub-Queries.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на сложные, многословные или редкие (long-tail) запросы в Image Search, для которых маловероятно существование специализированной модели релевантности.
Типы контента: Влияет исключительно на ранжирование изображений на основе их визуального соответствия запросу.

Когда применяется

Условия работы: Алгоритм выбора модели применяется, когда для точной поисковой фразы отсутствует собственная Image Relevance Model, но существуют модели для ее подзапросов.
Триггеры активации (Офлайн): Процесс оценки активируется для поисковых фраз, по которым накоплено достаточно данных о пользовательских взаимодействиях для формирования надежного Interaction Ranking.
Исключения: Механизм может быть отключен или модифицирован при обнаружении Anti-sub query terms (например, «без», «кроме»). В этом случае модель подзапроса может использоваться для понижения (демоутинга) релевантных ему изображений.

Пошаговый алгоритм

Процесс А: Выбор модели подзапроса для поисковой фразы (Офлайн)

Идентификация изображений: Определяется набор релевантных изображений для поисковой фразы (например, «ABC»).
Определение Interaction Ranking: Анализируются данные о взаимодействиях (кликах) пользователей. Изображения ранжируются в порядке убывания количества взаимодействий.
Создание Interaction Histogram: Создается гистограмма на основе Interaction Ranking и количества взаимодействий.
Идентификация подзапросов: Определяются подзапросы поисковой фразы (например, «AB», «BC»).
Цикл оценки моделей: Для каждого подзапроса с доступной моделью:
1. Определение Sub-query Model Ranking: Модель применяется к визуальным признакам изображений. Изображения ранжируются по этим оценкам.
2. Создание Sub-query Histogram: Создается гистограмма, где изображения упорядочены по Sub-query Model Ranking, но высота столбцов соответствует исходному количеству взаимодействий.
3. Расчет Search Phrase Score: Определяется степень сходства (например, перекрытие или L1 similarity) между Interaction Histogram и Sub-query Histogram.
Выбор модели: Выбирается Sub-query Model с наивысшим Search Phrase Score (при условии превышения порога) в качестве модели для исходной поисковой фразы «ABC».

Процесс Б: Идентификация Глобальных подзапросов (Офлайн)

Сбор данных: Для конкретной Sub-query Model (например, для «AB») собираются Search Phrase Scores, полученные при ее оценке на множестве разных поисковых фраз (например, «ABC», «DAB», «ABE»).
Расчет Global Search Phrase Score: Вычисляется агрегированная оценка (например, среднее или взвешенное среднее) собранных Search Phrase Scores.
Сравнение с порогом: Проверяется, удовлетворяет ли Global Search Phrase Score порогу глобализации (globalization threshold).
Идентификация: Если порог превышен, подзапрос («AB») идентифицируется как Global Sub-query. Его модель может использоваться для других фраз, содержащих этот подзапрос, без предварительной оценки.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании трех основных типов данных:

Поведенческие факторы (Критические): Данные о взаимодействиях пользователей (user interactions) с изображениями в ответ на конкретную поисковую фразу. Упоминаются клики (clicks) и наведения курсора (hovers). Эти данные формируют Interaction Ranking, который служит эталоном (ground truth) для оценки моделей.
Мультимедиа факторы (Визуальные признаки): Визуальные характеристики изображений (visual features или image feature values). Они являются входом для Image Relevance Models.
Системные данные: Поисковые фразы, подзапросы и заранее обученные Sub-query Models.

Какие метрики используются и как они считаются

Interaction Ranking: Ранжирование изображений по убыванию количества взаимодействий.
Model Relevance Value: Оценка, генерируемая моделью подзапроса. Может рассчитываться как скалярное произведение (dot product) или косинусное расстояние (cosine distance) между вектором модели и вектором признаков изображения.
Sub-query Model Ranking: Ранжирование изображений по убыванию Model Relevance Value.
Search Phrase Score: Мера сходства между Interaction Ranking и Sub-query Model Ranking. Рассчитывается путем сравнения Interaction Histogram и Sub-query Histogram. Патент упоминает использование L1 similarity measure для измерения степени перекрытия гистограмм.
Global Search Phrase Score: Агрегация (например, среднее, взвешенное среднее) нескольких Search Phrase Scores для одной модели, протестированной на разных фразах.
Globalization Threshold: Пороговое значение для Global Search Phrase Score.

Выводы

Поведенческие сигналы как эталон релевантности: Ключевой вывод — Google использует данные о кликах пользователей (Interaction Ranking) как эталон (ground truth) для оценки и валидации своих моделей визуальной релевантности в Image Search. Если модель ранжирует изображения не так, как их выбирают пользователи, она считается неэффективной для данного запроса.
Определение доминирующего визуального интента: Механизм позволяет системе определить доминирующий визуальный интент многословного запроса. Например, для «красное винтажное платье» система определит, модель какого подзапроса («красное платье» или «винтажное платье») лучше соответствует ожиданиям пользователей, и выберет ее.
Масштабирование моделей релевантности: Патент описывает инфраструктурное решение для повышения покрытия запросов качественными моделями ранжирования без необходимости обучать модель для каждого уникального long-tail запроса.
Глобальные концепции (Global Sub-queries): Идентификация глобальных подзапросов позволяет автоматически применять проверенные, сильные модели к новым или очень редким запросам, содержащим эти подзапросы, повышая качество ранжирования по умолчанию.
Обработка отрицаний: Система учитывает наличие Anti-sub query terms (например, «без»), что предотвращает некорректное применение моделей подзапросов и может использоваться для понижения нерелевантных изображений.

Практика

Best practices (это мы делаем)

Патент описывает внутренние механизмы Image Search, но из него можно извлечь важные практические рекомендации для SEO-специалистов, фокусирующихся на оптимизации изображений:

Стимулирование взаимодействий (Высокий CTR изображений): Поскольку Interaction Ranking является эталоном релевантности, критически важно создавать изображения, которые пользователи захотят кликнуть. Изображения должны быть высокого качества, визуально привлекательными и четко отражать суть запроса.
Точное соответствие доминирующему визуальному интенту: Анализируйте выдачу Image Search, чтобы понять, какой визуальный стиль и контент предпочитают пользователи по вашим целевым запросам. Создавайте изображения, которые соответствуют этому доминирующему интенту, так как система выберет модель, которая поддерживает этот тренд.
Оптимизация под «ядро» запроса (Core Concepts): Для сложных запросов старайтесь, чтобы изображение было максимально визуально релевантно ключевой сущности запроса (потенциальному Global Sub-query). Если изображение отлично отвечает на запрос «торт на день рождения», оно имеет больше шансов ранжироваться по запросу «синий торт на день рождения для 5-летнего».
Использование четких визуальных сигналов: Убедитесь, что изображения содержат ясные визуальные признаки, которые модели машинного зрения могут легко распознать и классифицировать. Это повышает вероятность корректной оценки со стороны Sub-query Models.

Worst practices (это делать не надо)

Кликбейт и визуальное несоответствие: Использование изображений, которые привлекают клик, но не соответствуют интенту запроса. Хотя краткосрочно это может дать взаимодействия, в долгосрочной перспективе несоответствие между кликами и оценкой модели, а также другие поведенческие факторы (например, быстрый возврат в выдачу), могут негативно сказаться на ранжировании.
Игнорирование визуального контекста: Фокусироваться только на текстовой оптимизации (alt, title, surrounding text) и игнорировать качество и визуальную релевантность самого изображения. Патент показывает, что визуальные признаки обрабатываются специализированными моделями.
Переоптимизация под второстепенные части запроса: Создание изображений, которые визуально соответствуют модификаторам запроса, но слабо соответствуют основному объекту поиска. Система, вероятно, предпочтет модель, сфокусированную на основном объекте (ядре).

Стратегическое значение

Патент подтверждает стратегическую важность поведенческих факторов (в данном случае, кликов на изображения) в качестве основного валидатора алгоритмов ранжирования Google. Он демонстрирует, как Google стремится привести работу своих моделей машинного обучения в соответствие с реальными предпочтениями пользователей. Для SEO-стратегии это означает, что долгосрочный успех в Image Search зависит от глубокого понимания визуальных предпочтений аудитории и создания контента, который вызывает положительный отклик и четко соответствует ключевым визуальным концепциям.

Практические примеры

Сценарий: Оптимизация изображения для интернет-магазина

Целевой запрос: «Красное винтажное платье в горошек» (Предположим, для него нет специальной модели).

Анализ интента и данных: Google анализирует клики (Interaction Ranking). Предположим, пользователи чаще всего кликают на изображения, где четко виден узор «горошек».
Тестирование моделей: Система Google тестирует модели для «красное платье», «платье в горошек», «винтажное платье».
Выбор модели: Основываясь на анализе кликов, система определяет, что модель для «платье в горошек» дает ранжирование, наиболее близкое к предпочтениям пользователей. Search Phrase Score для этой модели максимален.
Действия SEO-специалиста: Необходимо убедиться, что основное изображение товара максимально четко демонстрирует узор «горошек». Изображение должно быть визуально привлекательным для максимизации CTR.
Ожидаемый результат: Модель «платье в горошек» используется для ранжирования. Изображение магазина, визуально соответствующее этой модели и имеющее высокий CTR, получает более высокие позиции в Image Search по полному запросу.

Вопросы и ответы

Что такое Interaction Ranking и почему он важен?

Interaction Ranking — это ранжирование изображений, основанное на том, как часто пользователи взаимодействуют с ними (например, кликают) в ответ на конкретный запрос. В контексте данного патента он критически важен, так как служит эталоном (ground truth) пользовательских предпочтений. Google использует его для валидации и выбора своих моделей визуальной релевантности.

Означает ли этот патент, что CTR является главным фактором ранжирования в Image Search?

Не совсем. Патент показывает, что CTR (как форма взаимодействия) используется для *выбора* модели ранжирования, которая будет применена к запросу. Сама модель ранжирует изображения на основе визуальных признаков. Однако, если ваше изображение привлекает клики, это подтверждает для Google релевантность и способствует лучшему ранжированию изображений с похожими характеристиками.

Как Google определяет, какая часть сложного запроса является главной?

Google определяет это эмпирически. Система тестирует модели релевантности для разных частей запроса (подзапросов) и смотрит, какая из них лучше предсказывает поведение пользователей (Interaction Ranking). Та часть запроса, чья модель лучше соответствует кликам пользователей, и считается главной для данного визуального интента.

Что такое Глобальный подзапрос (Global Sub-query)?

Это подзапрос, модель релевантности которого стабильно хорошо работает для множества различных поисковых фраз. Например, если модель для «кроссовки Nike» хорошо ранжирует изображения по запросам «синие кроссовки Nike», «детские кроссовки Nike» и т.д., этот подзапрос может стать глобальным. Это позволяет Google применять эту надежную модель к любым новым запросам, содержащим «кроссовки Nike».

Влияет ли этот патент на ранжирование в основном веб-поиске?

Нет, данный патент описывает механизмы, специфичные для Поиска по картинкам (Image Search) и оценки визуальной релевантности. Он не описывает факторы ранжирования текстового контента в основном веб-индексе.

Как система обрабатывает отрицания, например, запрос «собаки без поводка»?

Патент упоминает Anti-sub query terms (например, «без»). Если такой термин обнаружен, система может отказаться от использования модели подзапроса (например, модели для «поводок») или использовать ее для понижения результатов. В данном примере, изображения, которые модель для «поводок» оценила бы высоко, могут быть деприоритезированы.

Как SEO-специалисту использовать информацию о выборе моделей на практике?

Основное применение — это анализ выдачи Image Search для понимания доминирующего визуального интента. Если вы видите, что по сложному запросу ранжируются изображения с определенным стилем или фокусом, это означает, что Google выбрал модель, которая предпочитает эти характеристики. Вам нужно создавать визуально похожие и привлекательные для клика изображения.

Использует ли система текстовые факторы, такие как ALT-текст?

Патент фокусируется исключительно на выборе и применении моделей визуальной релевантности (Image Relevance Models), которые работают с визуальными признаками (visual features) изображений. Текстовые факторы используются в Image Search для начального отбора кандидатов, но данный патент их не обсуждает.

Что такое гистограммы взаимодействий и подзапросов и как они сравниваются?

Это способ сравнения рейтингов. Interaction Histogram упорядочивает изображения по кликам. Sub-query Histogram берет те же изображения с тем же количеством кликов, но переупорядочивает их так, как их ранжирует модель. Сравнивая перекрытие (overlap) этих двух гистограмм (например, используя L1 similarity), система определяет, насколько хорошо модель соответствует поведению пользователей.

Происходит ли выбор модели в реальном времени при запросе пользователя?

Нет. Процесс оценки моделей, сравнения гистограмм и выбора наилучшей Sub-Query Model для конкретной поисковой фразы происходит офлайн. В реальном времени (онлайн) система ранжирования использует уже предварительно выбранную модель для быстрого расчета релевантности изображений.