Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует визуальный анализ для переранжирования поиска по картинкам для редких (long-tail) запросов

    QUERY IMAGE MODEL (Модель изображения запроса)
    • US9218366B1
    • Google LLC
    • 2015-12-22
    • 2013-12-31
    2013 Мультимедиа Патенты Google

    Google улучшает поиск изображений по редким (long-tail) запросам, когда данных о кликах недостаточно. Система анализирует визуальные характеристики топовых и нижних результатов исходной выдачи, чтобы создать «визуальную подпись» запроса. Затем все изображения переранжируются на основе того, насколько они визуально соответствуют этой подписи, повышая консистентные результаты.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему повышения релевантности поиска изображений для «длиннохвостых» (long-tail) или редких запросов. Для таких запросов у поисковой системы недостаточно исторических данных о поведении пользователей (кликов), чтобы построить надежные модели обратной связи (user feedback models). Изобретение улучшает качество выдачи, используя анализ визуальных (контентных) признаков изображений, когда полагаться можно преимущественно на тематическую (текстовую) релевантность (topicality signal).

    Что запатентовано

    Запатентована система генерации «Визуальной подписи запроса» (Query Image Signature или Query Image Model) в реальном времени (at run time). Система анализирует визуальные признаки (image feature values) изображений, полученных в результате первоначального поиска. Она определяет консенсус того, как выглядят релевантные изображения (Positive Image Signature из топа) и как выглядят нерелевантные (Negative Image Signature из низа выдачи). Эта комбинированная подпись затем используется для переранжирования исходного набора результатов.

    Как это работает

    Система работает следующим образом:

    • Первичное ранжирование (First Order): Изображения ранжируются по первичному сигналу (например, текстовой релевантности).
    • Анализ Топа и Удаление Выбросов: Топовые результаты анализируются на предмет визуальной согласованности (Quality Threshold). Визуально непохожие изображения (Outliers) удаляются.
    • Генерация Позитивной Подписи: Если топ согласован, создается Positive Image Signature.
    • Анализ Низа и Удаление Вхождений: Нижние результаты анализируются. Изображения, похожие на позитивную подпись (Inliers), удаляются.
    • Генерация Негативной Подписи: Создается Negative Image Signature из оставшихся изображений.
    • Расчет Подписи Запроса: Query Image Signature вычисляется как разница между Позитивной и Негативной подписями.
    • Переранжирование (Second Order): Все изображения переранжируются на основе их визуального сходства с Query Image Signature.

    Актуальность для SEO

    Высокая. С развитием технологий компьютерного зрения и увеличением доли визуального поиска, механизмы, основанные на анализе содержимого изображения (Content-Based Image Retrieval), критически важны. Определение визуального интента запроса динамически, особенно при нехватке поведенческих данных, остается ключевой задачей современного поиска по картинкам.

    Важность для SEO

    Патент имеет высокое значение для Image SEO (7/10). Он демонстрирует, что визуальные характеристики изображения (цвет, форма, текстура) являются прямыми сигналами ранжирования на этапе переранжирования. Если изображение текстуально релевантно, но визуально не соответствует консенсусу топовых результатов, оно может быть понижено. Это подчеркивает важность оптимизации самого визуального контента, а не только метаданных (alt text, filename).

    Детальный разбор

    Термины и определения

    Content Feature / Image Feature Values (Визуальные признаки / Значения признаков изображения)
    Числовые значения, описывающие визуальные характеристики изображения или его части. Примеры: цвет, текстура, края, углы, гистограммы цвета или оттенков серого, геометрическая информация.
    Feedback Signal (Сигнал обратной связи)
    Сигнал ранжирования, основанный на взаимодействии пользователей с изображением (например, клики или частота выбора) по данному запросу.
    Inlier (Инлаер / Вхождение)
    Изображение из нижнего набора результатов (second subset), которое визуально похоже на Positive Image Signature (т.е. корреляция превышает Inlier Threshold). Такие изображения удаляются перед генерацией Negative Image Signature.
    Negative Image Signature (Негативная подпись изображения)
    Модель, сгенерированная на основе визуальных признаков изображений, ранжированных внизу выдачи (после удаления Inliers). Представляет визуальные характеристики нерелевантного контента.
    Outlier (Аутлаер / Выброс)
    Изображение из топового набора результатов (first subset), которое визуально сильно отличается от остальных изображений в этом наборе. Такие изображения удаляются перед генерацией Positive Image Signature.
    Positive Image Signature (Позитивная подпись изображения)
    Модель, сгенерированная на основе визуальных признаков изображений, ранжированных в топе выдачи (после удаления Outliers). Представляет визуальный консенсус релевантного контента.
    Quality Threshold (Порог качества)
    Метрика, определяющая, достаточно ли визуально консистентны (похожи друг на друга) топовые результаты поиска для построения надежной Positive Image Signature.
    Query Image Signature (Подпись изображения запроса)
    Итоговая модель, используемая для переранжирования. Вычисляется на основе разницы между Positive Image Signature и Negative Image Signature.
    Topicality Signal (Сигнал тематичности)
    Сигнал ранжирования, основанный на текстовой релевантности, например, соответствие терминов запроса тексту, связанному с изображением (метки, окружающий текст, метаданные).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод генерации и применения модели изображения запроса с условной активацией.

    1. Система получает набор изображений, ранжированных в первом порядке (first order).
    2. Проверяется, соответствует ли первый набор топовых изображений (first subset) порогу качества (quality threshold).
    3. Если НЕТ: ранжирование НЕ корректируется на основе Query Image Signature.
    4. Если ДА:
      • Определяется Positive Image Signature на основе визуальных признаков топового набора.
      • Определяется второй набор изображений из низа выдачи (second subset).
      • Определяется Negative Image Signature на основе визуальных признаков второго набора.
      • Определяется Query Image Signature как разница между позитивной и негативной подписями.
      • Query Image Signature применяется к каждому изображению для их переранжирования во втором порядке (second order).

    Claim 2 (Зависимый от 1): Детализирует процесс проверки Quality Threshold и удаления выбросов (Outlier Removal).

    Это итеративный процесс. Система оценивает первый поднабор (изначально N изображений). На каждой итерации создаются меньшие подмножества (proper subsets, например, размера N-1), проверяется наличие выбросов (outlier image). Если выброс найден, он удаляется, и процесс повторяется, если не достигнуто условие остановки (termination condition, например, минимальный размер набора). Если условие остановки достигнуто, quality threshold не пройден. Если выбросов больше нет, quality threshold пройден.

    Claim 7 (Зависимый от 1): Описывает механизм кросс-валидации (Cross Validation) при наличии двух разных сигналов релевантности.

    Система может выбрать два набора топовых изображений: один на основе первого сигнала (например, Topicality Signal), второй — на основе второго сигнала (например, Feedback Signal). Для каждого набора строится модель. Затем эти модели валидируются перекрестно (первая модель проверяется на втором наборе, вторая — на первом). Это позволяет использовать даже небольшое количество данных обратной связи, если они доступны.

    Claim 13 (Независимый пункт): Альтернативное описание основного процесса с фокусом на этапах очистки данных.

    Описывает процесс, аналогичный Claim 1, но явно выделяет шаги удаления Outliers из положительного набора и удаления Inliers из отрицательного набора как необходимые этапы перед генерацией соответствующих подписей. Inlier определяется как изображение из нижнего набора, чья корреляция с Positive Image Signature соответствует inlier threshold.

    Где и как применяется

    Изобретение применяется в подсистеме анализа изображений (Image Analysis Subsystem) и затрагивает несколько этапов поиска по картинкам.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система извлекает и сохраняет визуальные признаки (Image Feature Values) для каждого изображения (цвет, текстура, формы и т.д.).

    RANKING – Ранжирование
    На этом этапе генерируется первичный набор результатов (first order). Ранжирование может основываться на Topicality Signal или Feedback Signal.

    RERANKING – Переранжирование
    Основное применение патента. Система анализирует результаты этапа RANKING:

    1. Оценка согласованности: Проверяется Quality Threshold для топовых результатов и удаляются Outliers.
    2. Генерация модели: Если порог пройден, система вычисляет Positive (после анализа топа) и Negative (после анализа низа и удаления Inliers) подписи. Затем вычисляется финальная Query Image Signature на лету.
    3. Корректировка ранжирования: Оценки релевантности корректируются на основе сходства с Query Image Signature, формируя финальное ранжирование (second order).

    Входные данные:

    • Запрос пользователя.
    • Набор изображений, ранжированных в first order (с их оценками релевантности).
    • Image Feature Values для каждого изображения в наборе.

    Выходные данные:

    • Набор изображений, ранжированных в second order (если порог качества пройден).
    • Исходный набор изображений (если порог качества не пройден).

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на long-tail queries, где данных о кликах мало. Также влияет на запросы, где текстовые сигналы слабы или неоднозначны, но визуальный интент ясен.
    • Конкретные типы контента: Влияет исключительно на изображения в Image Search.
    • Неоднозначные запросы: Система обрабатывает визуально неоднозначные запросы. Если топ выдачи визуально разнообразен (низкая когезия), Quality Threshold не будет достигнут, и система вернется к исходному ранжированию, не применяя визуальное переранжирование.

    Когда применяется

    • Условия применения: Механизм разработан специально для ситуаций, когда надежные модели обратной связи недоступны (long-tail), но может применяться к любому запросу.
    • Триггер активации: Ключевое условие — топовые результаты в first order должны соответствовать Quality Threshold, то есть демонстрировать общие визуальные признаки после удаления выбросов.

    Пошаговый алгоритм

    Этап 1: Подготовка и анализ положительного набора

    1. Получение исходных данных: Система получает набор изображений, ранжированных в first order.
    2. Выбор Топ-N: Выбирается первый поднабор из N высокоранжированных изображений.
    3. Итеративное удаление выбросов (Outlier Removal) и проверка качества:
      1. Система итеративно анализирует подмножества Топ-N для выявления визуальных Outliers.
      2. Для каждого подмножества строится временная модель и оценивается ее корреляция с изображениями в этом подмножестве.
      3. Изображение, отсутствие которого максимально повышает среднюю корреляцию оставшегося подмножества, идентифицируется как Outlier и удаляется. N уменьшается на 1.
      4. Проверяется условие завершения (например, N достигло минимума). Если да, процесс останавливается (Quality Threshold не пройден).
      5. Если выбросы удалены и условие завершения не выполнено, процесс повторяется с шага 3.1.
      6. Если выбросов не найдено или итерации завершены успешно, Quality Threshold пройден.
    4. Генерация Позитивной Подписи: Если порог качества пройден, генерируется Positive Image Signature на основе визуальных признаков оставшихся изображений (например, взвешенное среднее значение признаков).

    (Опционально) Кросс-валидация: Если доступны два сигнала ранжирования (например, Topicality и Feedback), система может построить две модели и выбрать лучшую (предпочтение отдается Feedback, если она валидна), как описано в Claim 7.

    Этап 2: Подготовка и анализ негативного набора

    1. Выбор Низа-M: Выбирается второй поднабор из M низкоранжированных изображений.
    2. Удаление вхождений (Inlier Removal):
      1. Для каждого изображения вычисляется корреляция с Positive Image Signature.
      2. Если корреляция превышает Inlier Threshold, изображение удаляется из набора.
    3. Генерация Негативной Подписи: Генерируется Negative Image Signature на основе визуальных признаков оставшихся изображений.

    Этап 3: Переранжирование

    1. Генерация Подписи Запроса: Вычисляется Query Image Signature как разница между Positive Image Signature и Negative Image Signature.
    2. Расчет схожести: Для каждого изображения в исходном наборе вычисляется оценка схожести (similarity score) с Query Image Signature.
    3. Корректировка ранга: Исходные оценки релевантности корректируются на основе оценок схожести. Изображения сортируются в second order.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Визуальные): Критически важные данные. Используются Image Feature Values. Патент явно упоминает: цвет, гистограммы цвета или оттенков серого, текстуру, края, углы, геометрическую информацию.
    • Контентные факторы (Текстовые): Используются для генерации начального ранжирования (first order). Topicality Signal основан на тексте, связанном с изображением (имя файла, окружающий текст, метаданные).
    • Поведенческие факторы: Используются, если доступны. Feedback Signal (данные о кликах) может использоваться для начального ранжирования или в механизме кросс-валидации.

    Какие метрики используются и как они считаются

    • Quality Threshold (Порог качества): Порог для определения визуальной когезии топовых результатов. Проверяется путем оценки корреляции между изображениями и моделью, построенной на их основе (correlation threshold).
    • Correlation Value (Значение корреляции): Мера корреляции между моделью (подписью) и признаками отдельного изображения. Используется для обнаружения Outliers и Inliers.
    • Inlier Threshold (Порог вхождения): Пороговое значение корреляции. Если изображение из нижнего подмножества превышает этот порог при сравнении с Positive Image Signature, оно удаляется.
    • Similarity Score (Оценка сходства): Оценка сходства изображения с финальной Query Image Signature. Используется для переранжирования.
    • Weighted Central Tendency (Взвешенная центральная тенденция): Метод построения подписей. Визуальные признаки изображений усредняются, при этом признаки более высокоранжированных изображений могут иметь больший вес.
    • Расчет финальной подписи: Вычисляется как разница: Positive Image Signature минус Negative Image Signature.

    Выводы

    1. Визуальные характеристики как прямой сигнал релевантности: Патент демонстрирует механизм, позволяющий Google определять релевантность изображения на основе его визуального сходства с другими релевантными изображениями. Это позволяет системе работать даже при отсутствии надежных текстовых данных или истории кликов (long-tail).
    2. Моделирование «на лету» и Дискриминативный подход: Система создает модель визуальной релевантности в реальном времени для конкретного запроса. Она не просто ищет сходство с «хорошими» примерами (Positive), но активно учится отличать их от «плохих» (Negative), создавая дискриминативную модель.
    3. Критичность визуального консенсуса (Quality Threshold): Система активно проверяет, существует ли визуальный консенсус среди топовых результатов. Если результаты визуально разнообразны (например, запрос неоднозначен), Quality Threshold не будет достигнут, и система НЕ применяет визуальное переранжирование, полагаясь на исходные сигналы.
    4. Сложная очистка данных для чистоты сигнала: Механизм использует сложную логику очистки. Удаление Outliers из топа гарантирует, что позитивная модель строится на согласованных данных. Удаление Inliers из низа гарантирует, что негативная модель не включает случайно пониженные релевантные изображения.
    5. Визуальное сходство может перевесить исходную релевантность: Изображение, которое имело низкий начальный ранг (например, из-за слабого текста), но визуально очень похоже на Query Image Signature, будет повышено на этапе переранжирования.

    Практика

    Best practices (это мы делаем)

    Рекомендации касаются оптимизации для Image Search.

    • Анализ визуального интента и консенсуса SERP: Изучайте, какие типы изображений (цветовая гамма, композиция, стиль) доминируют в выдаче по вашим целевым запросам. Старайтесь соответствовать этому визуальному консенсусу. Если ваш контент визуально сильно отличается от того, что Google считает эталоном (Positive Image Signature), он может быть понижен.
    • Обеспечение визуального соответствия запросу: Критически важно, чтобы изображение визуально соответствовало ожидаемому интенту. Если запрос «красное яблоко Макинтош», изображение должно явно демонстрировать характеристики этого сорта. Система сгенерирует подпись на основе этих характеристик и будет повышать похожие изображения.
    • Использование четких и репрезентативных изображений: Изображения должны обладать ясными визуальными признаками (цвет, форма, текстура), которые система сможет легко интерпретировать. Размытые или зашумленные изображения могут хуже оцениваться моделью.
    • Поддержание текстовой релевантности (Topicality): Необходимо продолжать оптимизировать Alt-текст, заголовок, окружающий текст, имя файла. Это необходимо для достижения высокого ранга в first order, чтобы изображение попало в анализ для построения Positive Image Signature или получило буст при переранжировании.

    Worst practices (это делать не надо)

    • Использование визуально нерелевантных изображений (Кликбейт): Попытка ранжировать изображение, которое визуально не соответствует запросу, но имеет оптимизированный текст. Если такое изображение попадет в топ, оно может быть классифицировано как Outlier. Если оно попадет в середину выдачи, оно будет понижено при сравнении с Query Image Signature.
    • Игнорирование визуальных стандартов ниши: Использование изображений, стиль, цвет или композиция которых радикально отличается от того, что представлено в топе выдачи по целевым запросам. Система ищет визуальный консенсус, и сильные отклонения могут привести к понижению.
    • Использование слишком абстрактных иллюстраций для конкретных запросов: Если пользователь ищет фотографию конкретного объекта, использование абстрактной иллюстрации может привести к тому, что изображение будет понижено, так как Positive Image Signature, вероятно, будет основана на фотографиях.

    Стратегическое значение

    Патент подтверждает стратегию Google по интеграции компьютерного зрения в алгоритмы ранжирования (Content-Based Image Retrieval). Для SEO-специалистов это означает, что Image SEO требует внимания не только к метаданным, но и к самому визуальному контенту. Визуальное соответствие интенту становится измеримым фактором ранжирования. Это особенно важно для e-commerce и контентных проектов при таргетинге на низкочастотные запросы, где визуальная составляющая может стать решающим фактором.

    Практические примеры

    Сценарий: Переранжирование в E-commerce для Long-Tail запроса

    1. Исходный запрос: «Винтажное кожаное кресло с деревянными подлокотниками» (редкий запрос, мало данных о кликах).
    2. Исходная выдача (First Order): Ранжирование основано на тексте (Topicality). В топе есть фотографии реальных кресел, но также несколько схем сборки и рисунков кресел, так как они хорошо оптимизированы по тексту.
    3. Анализ Топа и Outlier Removal: Система анализирует Топ-10. Фотографии формируют визуальный консенсус. Схемы и рисунки идентифицируются как Outliers и удаляются из эталона. Quality Threshold пройден.
    4. Генерация Positive Image Signature: Модель строится на основе фотографий (коричневые цвета, текстура кожи, форма кресла).
    5. Анализ Низа и Генерация Negative Signature: Внизу выдачи много изображений диванов, стульев. Система строит негативную модель.
    6. Переранжирование: Система применяет Query Image Signature. Изображения на позициях 11-50, которые являются четкими фотографиями релевантных кресел, получают буст и поднимаются в Топ-10. Схемы и рисунки, которые были в Топ-10, понижаются, так как их визуальные признаки слабо коррелируют с моделью.

    Вопросы и ответы

    Заменяет ли этот алгоритм традиционную текстовую оптимизацию изображений (Alt text, filenames)?

    Нет, не заменяет. Этот механизм работает поверх первичного ранжирования (first order), которое часто основано на текстовых сигналах (Topicality Signal). Текстовая оптимизация необходима, чтобы попасть в исходный набор результатов. Описанный алгоритм затем переранжирует этот набор, используя визуальные сигналы для уточнения выдачи.

    Как система обрабатывает визуально неоднозначные запросы, например, «Ягуар» (машина и животное)?

    В патенте предусмотрен механизм Quality Threshold. Если топовые результаты визуально разнообразны (часть про машины, часть про животных), система определит, что визуальный консенсус отсутствует. В этом случае Quality Threshold не будет достигнут, Query Image Signature не будет сгенерирована, и переранжирование этим методом не произойдет.

    Что такое «визуальные признаки» (Image Feature Values), которые использует Google?

    Патент упоминает стандартные признаки компьютерного зрения: цвет, гистограммы цвета или оттенков серого, текстуру, края, углы и геометрическую информацию. Это базовые элементы, которые позволяют системе численно описать, как выглядит изображение.

    Почему этот механизм важен именно для long-tail запросов?

    Для популярных запросов у Google много данных о кликах, которые позволяют строить надежные Feedback Models. Для редких (long-tail) запросов таких данных нет. В этом случае система использует описанный механизм, чтобы определить визуальный интент на лету, анализируя контент изображений, а не поведение пользователей.

    Что такое удаление выбросов (Outlier Removal) из топа выдачи?

    Это процесс очистки топовых результатов для уточнения визуального интента. Если по запросу «красные розы» в топ попало изображение желтой розы, оно будет идентифицировано как визуальный выброс (Outlier) по сравнению с остальными красными розами и исключено из построения Positive Image Signature. Это гарантирует, что модель строится только на согласованных примерах.

    Что такое удаление инлаеров (Inlier Removal) из низа выдачи?

    Это процесс очистки нижних результатов. Inliers — это изображения внизу выдачи, которые визуально похожи на топовые результаты. Их удаляют для того, чтобы Negative Image Signature была максимально отличной от Positive Image Signature. Это позволяет создать более сильную дискриминативную модель.

    Влияет ли этот патент на ранжирование в основном веб-поиске?

    Патент описывает исключительно механизмы ранжирования внутри поиска по изображениям (Image Search). Он не описывает прямого влияния на ранжирование веб-страниц в основном поиске, но может влиять на ранжирование изображений в блоках универсального поиска.

    Что означает кросс-валидация (Claim 7) между Topicality и Feedback сигналами?

    Это механизм для ситуаций, когда есть немного данных о кликах. Система строит две модели: одну на основе топа по тексту (Topicality), вторую — на основе топа по кликам (Feedback), и проверяет их друг на друге. Патент указывает, что предпочтение отдается модели, основанной на кликах, если она проходит валидацию, подтверждая приоритет поведенческих факторов.

    Как использовать эти знания при оптимизации изображений товаров в E-commerce?

    Критически важно использовать точные и качественные изображения товара. Если пользователь ищет конкретную модель и цвет, ваше изображение должно визуально точно соответствовать этому запросу. Убедитесь, что цвет, форма и детали товара на фото соответствуют ожиданиям, так как система будет использовать эти визуальные признаки для переранжирования.

    Может ли этот алгоритм ошибочно понизить релевантное изображение?

    Да. Если релевантное изображение визуально сильно отличается от большинства других релевантных изображений в Топ-N (визуального консенсуса), оно может быть идентифицировано как Outlier и исключено из положительной модели. Это может привести к его понижению на финальном этапе переранжирования.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.