Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует машинное обучение и клики пользователей для понимания и ранжирования визуального контента в Поиске по картинкам

    IMAGE RELEVANCE MODEL (Модель релевантности изображений)
    • US9176988B2
    • Google LLC
    • 2015-11-03
    • 2009-07-17
    2009 Мультимедиа Патенты Google Персонализация

    Google обучает отдельные модели машинного обучения для каждого уникального запроса в Поиске по картинкам. Эти модели учатся определять визуальную релевантность, основываясь на признаках (цвет, текстура) изображений, на которые пользователи часто кликают. Это позволяет ранжировать изображения по их фактическому содержанию, а не только по окружающему тексту, и включает механизм повышения визуального разнообразия выдачи.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточности традиционного поиска по картинкам, который чрезмерно полагается на текст, ассоциированный с изображением (подписи, окружающий контент). Этот текст может вводить в заблуждение относительно фактического содержания картинки. Например, изображение торта с подписью «Джонни получил торт» может ошибочно ранжироваться по запросу «Джонни», хотя его нет на фото. Изобретение улучшает качество поиска, позволяя системе оценивать релевантность на основе визуального содержания самого изображения.

    Что запатентовано

    Запатентована система, которая создает и обучает независимую Image Relevance Model (Модель релевантности изображений) для каждого уникального поискового запроса. Эта модель машинного обучения учится определять, какие визуальные характеристики (content feature values) делают изображение релевантным для конкретного запроса. В качестве обучающих данных («ground truth») используются сигналы пользовательского поведения (клики или selection rates).

    Как это работает

    Система работает в несколько этапов:

    • Извлечение признаков: Визуальное содержание изображений (цвет, текстура, края) анализируется и преобразуется в формат «мешка признаков» (bag of features) или «визуальных терминов» (visual terms).
    • Выбор обучающих данных: Для Запроса А определяются Positive Images (изображения, на которые часто кликали при поиске по Запросу А) и Negative Images (изображения, на которые часто кликали при поиске по другим запросам).
    • Обучение модели: Для Запроса А обучается модель (упоминается алгоритм PAMIR), которая учится отличать визуальные признаки позитивных изображений от негативных. Модель представляет собой вектор весов (W).
    • Применение: Модель применяется к визуальным признакам (вектор X) изображений в индексе для расчета оценки релевантности (Image Relevance Score, IRS; например, IRS=W*X).
    • Ранжирование и Разнообразие: Изображения ранжируются по этим оценкам. Дополнительно система понижает в выдаче почти идентичные изображения (nearly identical images) для увеличения визуального разнообразия.

    Актуальность для SEO

    Высокая. Понимание визуального контента с помощью машинного обучения является центральным элементом современных поисковых технологий Google (например, Google Lens). Хотя конкретные алгоритмы, упомянутые в патенте (PAMIR, k-means), вероятно, эволюционировали в сторону глубокого обучения, базовая концепция обучения визуальной релевантности на основе контентных признаков и пользовательских сигналов остается фундаментальной.

    Важность для SEO

    Патент имеет высокое значение (8.5/10) для стратегий продвижения в Поиске по картинкам (Image SEO). Он описывает механизм, при котором визуальное содержание изображения и его способность привлекать клики становятся определяющими факторами ранжирования. Это снижает значимость традиционных текстовых сигналов, если они противоречат визуальному содержанию. Также критически подчеркивается важность создания визуально уникального контента из-за механизмов обеспечения разнообразия.

    Детальный разбор

    Термины и определения

    Bag of Features (Мешок признаков)
    Способ представления изображения как неупорядоченного набора локальных визуальных признаков (Visual Terms) с указанием частоты их встречаемости, но без учета их пространственного расположения на изображении.
    Content Feature Values (Значения признаков контента)
    Визуальные характеристики части изображения. Примеры включают цвет (color histograms), текстуру (edge histograms), края. Извлекаются с помощью алгоритмов типа SIFT (Scale-Invariant Feature Transform), edge detection.
    Image Relevance Model (IRM) (Модель релевантности изображений)
    Модель машинного обучения, обученная для конкретного уникального запроса. Реализуется как вектор весов (W), где каждый вес соответствует определенному Visual Term.
    Image Relevance Score (IRS) (Оценка релевантности изображения)
    Числовая оценка, определяющая релевантность изображения запросу. Рассчитывается путем применения IRM к признакам изображения (например, скалярное произведение W*X).
    Negative Images (Негативные изображения)
    Изображения, используемые для обучения. Это изображения, которые имеют высокую релевантность (высокий selection rate) для запроса, *отличного* от того, для которого обучается модель.
    PAMIR (Passive-Aggressive Model for Image Retrieval)
    Алгоритм машинного обучения (линейная модель), используемый для тренировки Image Relevance Model. Он итеративно корректирует веса модели, если разница в оценках между позитивным и негативным примерами не достигает заданного порога.
    Positive Images (Позитивные изображения)
    Изображения, используемые для обучения. Это изображения, которые считаются релевантными для целевого запроса, основываясь на высоком показателе выбора (selection rate) пользователями.
    Selection Rate / User Interaction Rate (Частота выбора / Уровень взаимодействия пользователя)
    Метрика, основанная на действиях пользователя (например, кликах), указывающая на релевантность изображения запросу. Используется для отбора обучающих данных.
    Training Score Margin (Порог оценки обучения)
    Минимальная требуемая разница между оценками позитивного и негативного изображений во время обучения PAMIR.
    Visual Terms (Визуальные термины)
    Дискретные категории признаков, полученные путем кластеризации (например, k-means) извлеченных Content Feature Values. Представляют собой словарь визуальных элементов.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обучения и применения модели релевантности для конкретного запроса.

    1. Идентификация первого набора изображений (Positive Images), релевантных первому запросу. Основание: частота выбора (first selection rate) этих изображений в результатах поиска по первому запросу.
    2. Идентификация второго набора изображений (Negative Images), релевантных другому запросу. Основание: частота выбора (second selection rate) этих изображений в результатах поиска по другому запросу.
    3. Обучение Image Relevance Model для первого запроса на основе значений признаков (feature values) позитивных и негативных изображений.
    4. Генерация оценок (score) для множества изображений с использованием обученной модели и их признаков.
    5. Получение поискового запроса, идентификация изображений с наивысшими оценками и предоставление их в качестве результатов.

    Claim 4 (Зависимый от 1): Описывает механизм обеспечения визуального разнообразия (Diversity).

    1. Определение, на основе признаков изображений, что первое изображение имеет пороговый уровень схожести (threshold level of similarity) со вторым изображением, причем второе имеет более высокую оценку.
    2. Назначение первому (похожему) изображению более низкой позиции в результатах поиска, чем позиция третьего изображения, которое имеет более низкую оценку, чем первое.

    Это критически важный механизм пессимизации похожих изображений (nearly identical images) для повышения разнообразия в топе выдачи, даже в ущерб прямой релевантности.

    Claim 5 (Зависимый от 1): Детализирует процесс генерации моделей для множества разных запросов.

    Для уникального запроса, для которого модель еще не создана:

    1. Идентификация позитивных изображений, имеющих как минимум первый минимально заданный уровень взаимодействия с пользователем (minimum specified user interaction rate) по этому запросу.
    2. Идентификация негативных изображений, имеющих как минимум второй минимально заданный уровень взаимодействия по другому запросу.
    3. Генерация Image Relevance Model на основе этих данных.

    Где и как применяется

    Изобретение применяется в подсистеме поиска изображений (Image Search Subsystem) и затрагивает несколько этапов поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит ключевая предварительная обработка:

    • Извлечение признаков: Система извлекает Content Feature Values (цвет, текстура, края) из изображений, возможно, в разных масштабах.
    • Создание Визуальных Терминов: Извлеченные признаки кластеризуются (например, k-means) для создания словаря Visual Terms.
    • Индексирование: Изображения индексируются в виде Bag of Features (вектора частот визуальных терминов X) и сохраняются в Indexed Cache.

    Офлайн-процессы (Связано с RANKING и QUNDERSTANDING)
    Основной процесс обучения моделей происходит офлайн или в пакетном режиме:

    • Анализ Логов: Система анализирует Query Logs и Click Logs для расчета Selection Rates.
    • Отбор Данных: Идентификация Positive Images и Negative Images для каждого уникального запроса.
    • Обучение Моделей: Тренировка независимой Image Relevance Model (вектор W) для каждого запроса с использованием алгоритма типа PAMIR.
    • Предварительный расчет оценок: Обученные модели могут применяться ко всем изображениям в корпусе для предварительного расчета и сохранения Image Relevance Scores.

    RANKING – Ранжирование (Image Search)
    При получении запроса система получает Image Relevance Scores (предварительно рассчитанные или вычисленные на лету) и использует их для первичной сортировки кандидатов.

    RERANKING – Переранжирование (Image Search)
    Применяется механизм обеспечения разнообразия. Система анализирует топ результатов на наличие nearly identical images. Если таковые найдены, менее релевантные дубликаты понижаются в выдаче (Claim 4).

    На что влияет

    • Типы контента: Влияет исключительно на ранжирование изображений в Поиске по картинкам (Google Images).
    • Специфические запросы: Наибольшее влияние на запросы, где визуальный интент является определяющим (названия продуктов, объектов, мест) и где достаточно данных о кликах для обучения надежной модели.

    Когда применяется

    • Условия работы алгоритма: Алгоритм применяется для тех уникальных запросов, для которых удалось обучить Image Relevance Model.
    • Триггеры активации (Обучение): Накопление достаточного количества данных о взаимодействии пользователей (user interaction rate) с изображениями по данному запросу для надежного определения позитивных и негативных примеров (Claim 5).
    • Триггеры активации (Разнообразие): Обнаружение в топе выдачи изображений, чья визуальная схожесть превышает пороговый уровень (threshold level of similarity) (Claim 4).

    Пошаговый алгоритм

    Процесс А: Обучение Модели Релевантности (Офлайн/Пакетный режим)

    1. Анализ Логов: Анализ Query Logs и Click Logs для определения частоты выбора (Selection Rate) изображений по запросам.
    2. Выбор Запроса: Выбор уникального запроса (Q_A) для обучения модели.
    3. Отбор Обучающих Данных:
      • Идентификация Positive Images: изображения с Selection Rate выше порога для Q_A.
      • Идентификация Negative Images: изображения с Selection Rate выше порога для других запросов (Q_B, Q_C…).
    4. Получение Признаков: Получение векторов визуальных признаков (Bag of Features) для всех обучающих изображений.
    5. Инициализация Модели: Инициализация вектора весов (W) для Q_A (например, нулями или значениями из похожей модели).
    6. Итеративное Обучение (например, PAMIR):
      • Выбор пары: одно позитивное (P) и одно негативное (N) изображение.
      • Расчет оценок: ScoreP и ScoreN (скалярное произведение W и вектора признаков изображения).
      • Проверка Порога: Определение, удовлетворяет ли разница между ScoreP и ScoreN заданному Training Score Margin.
      • Корректировка Весов: Если порог не достигнут, корректировка W для увеличения разницы оценок.
      • Повторение цикла.
    7. Валидация Обучения: Проверка выполнения условия остановки (training condition) – например, когда среднее количество корректировок W за последние N итераций падает ниже порога.
    8. Сохранение Модели: Определение модели как обученной.

    Процесс Б: Обработка Запроса и Ранжирование

    1. Получение Запроса: Система получает новый поисковый запрос.
    2. Получение Оценок Релевантности: Система получает Image Relevance Scores для изображений. Это может быть сделано путем извлечения предварительно рассчитанных оценок или путем применения обученной IRM на лету.
    3. Первичное Ранжирование: Формирование списка результатов, отсортированного по Image Relevance Scores (возможно, в комбинации с другими сигналами, такими как IR scores или resource quality score).
    4. Анализ Разнообразия (Reranking):
      • Анализ топовых результатов на визуальную схожесть (например, с помощью кластеризации).
      • Идентификация nearly identical images.
      • Понижение (Demotion): Если найдено два похожих изображения, то изображение с более низкой оценкой понижается в выдаче, уступая место визуально отличным результатам.
    5. Предоставление Результатов: Отправка финального набора результатов пользователю.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Визуальные): Это основные данные для алгоритма. Content Feature Values, описывающие цвет (color histograms), текстуру (edge histograms), края и другие визуальные характеристики. Используются данные, извлеченные из разных масштабов изображения.
    • Поведенческие факторы: Критически важные данные для обучения. Click Logs и Query Logs, из которых рассчитывается Selection Rate (частота кликов на изображение по конкретному запросу). Это служит индикатором релевантности.

    Какие метрики используются и как они считаются

    • Relevance Threshold / Minimum User Interaction Rate: Пороговые значения частоты кликов, используемые для классификации изображений как Positive или Negative для целей обучения.
    • Image Relevance Score (IRS): Основная метрика ранжирования. Рассчитывается как скалярное произведение вектора весов модели (W) и вектора визуальных признаков изображения (X).
    • Веса Визуальных Терминов (TF-IDF style): Признаки нормализуются с использованием подхода, похожего на TF-IDF (Relationship 1 в патенте). Это повышает вес редких визуальных терминов и снижает вес часто встречающихся, считая редкие термины более информативными.
    • Training Score Margin: Порог разницы оценок, используемый в алгоритме PAMIR для определения необходимости корректировки весов модели.
    • Threshold Level of Similarity: Порог визуальной схожести, используемый для идентификации nearly identical images при обеспечении разнообразия выдачи.
    • Алгоритмы машинного обучения: PAMIR используется для обучения моделей ранжирования. K-means clustering используется для создания словаря Visual Terms из сырых визуальных признаков.

    Выводы

    1. Приоритет визуального контента и поведения пользователей: Патент описывает систему, где релевантность изображения определяется его визуальным содержанием, а «истинная» релевантность валидируется поведением пользователей (кликами). Если пользователи часто кликают на изображение по запросу, его визуальные признаки становятся эталоном для этого запроса.
    2. Индивидуальные модели для каждого запроса: Google обучает отдельную модель для каждого уникального запроса. Это позволяет системе точно понимать, как выглядит объект или концепция, связанная с конкретной формулировкой запроса, вместо использования универсальной модели оценки изображений.
    3. Специфика обучающих данных (Negative Images): Ключевой особенностью является использование в качестве негативных примеров не просто нерелевантных изображений, а изображений, которые высоко релевантны *другим* запросам. Это позволяет модели лучше различать близкие визуальные концепции.
    4. Технический подход «Bag of Features»: Система анализирует изображение как набор дискретных визуальных признаков (цвет, текстура, формы) без учета их расположения (согласно описанию в патенте). Это позволяет масштабировать анализ.
    5. Явное обеспечение визуального разнообразия: В патент включен механизм переранжирования (Claim 4), который активно борется с доминированием похожих изображений в топе выдачи. Система идентифицирует и понижает nearly identical images.
    6. Комбинирование сигналов: Хотя фокус сделан на визуальной релевантности, система предусматривает возможность комбинации Image Relevance Score с другими сигналами ранжирования (текстовыми, ссылочными, качеством ресурса).

    Практика

    Best practices (это мы делаем)

    • Оптимизация под клики (Визуальная привлекательность и Релевантность): Поскольку Selection Rate является основой для обучения моделей, критически важно использовать изображения, которые визуально привлекательны и точно соответствуют интенту запроса. Высокий CTR подтверждает релевантность и улучшает модель для будущих ранжирований.
    • Обеспечение высокого технического качества и четкости: Изображения должны быть четкими и высокого разрешения. Это необходимо для того, чтобы система могла корректно извлечь Content Feature Values (цвета, текстуры, края). Размытые изображения могут быть некорректно интерпретированы.
    • Создание визуально уникального контента: Из-за механизма обеспечения разнообразия (Claim 4) стратегически выгодно создавать уникальные изображения. Если вы публикуете несколько изображений на одну тему, убедитесь, что они имеют явные визуальные отличия, чтобы избежать их пессимизации как nearly identical images.
    • Анализ визуального интента в нише: Изучайте, какие типы изображений (стиль, цвет, композиция) ранжируются в Google Images по вашим запросам. Это показывает, какие визуальные характеристики Image Relevance Model уже считает важными для этих запросов.

    Worst practices (это делать не надо)

    • Использование нерелевантных или кликбейтных изображений: Попытки привлечь клики с помощью обманчивых изображений контрпродуктивны. Модель обучается на взаимодействиях; хотя данный патент фокусируется на факте клика, другие системы могут учитывать показатель отказов или короткие клики.
    • Полное игнорирование текстовой оптимизации: Не стоит полностью отказываться от ALT-тегов и окружающего текста. Патент указывает, что Image Relevance Score может комбинироваться с другими IR scores. Текст также важен для запросов, где визуальная модель еще не обучена.
    • Массовая генерация похожих изображений: Создание большого количества страниц с минимально отличающимися изображениями (например, разные цвета одного товара в разных карточках) может привести к тому, что большинство этих изображений будут пессимизированы механизмом разнообразия.
    • Использование популярных стоковых фото без адаптации: Шаблонные стоковые фотографии могут быть идентифицированы как дубликаты и понижены в выдаче. Если они используются, их следует модифицировать для уникальности.

    Стратегическое значение

    Этот патент подтверждает, что Поиск по картинкам функционирует по принципам, отличным от основного веб-поиска. В его основе лежит машинное обучение, направленное на понимание визуального содержания через призму пользовательского поведения. Стратегия Image SEO должна фокусироваться на качестве самого изображения и его способности удовлетворить визуальный интент пользователя, что подтверждается кликами. Это также подчеркивает важность создания уникальных визуальных активов.

    Практические примеры

    Сценарий: Оптимизация изображений для рецепта «Торт Красный Бархат»

    1. Анализ Интента и Выдачи: Изучаем, на какие изображения пользователи чаще всего кликают по запросу «Торт Красный Бархат». Допустим, это изображения разрезанного торта, где видна красная текстура бисквита и белый крем.
    2. Создание Контента (Best Practice): Создаем высококачественное, аппетитное фото именно такого разреза. Это максимизирует вероятность клика (высокий Selection Rate).
    3. Обучение Модели Google: Когда пользователи кликают на это фото, Google получает позитивный сигнал. Визуальные признаки (глубокий красный цвет, текстура крема) используются для обучения Image Relevance Model для этого запроса.
    4. Избегание Худших Практик: Мы не используем фото только ингредиентов или фото другого красного торта (например, клубничного), полагаясь на ALT-тег. Система распознает визуальное несоответствие.
    5. Обеспечение Разнообразия: Если мы также добавляем фото целого торта, оно должно визуально сильно отличаться от фото разреза. Это позволит обоим изображениям ранжироваться независимо, не попадая под фильтр nearly identical images.

    Вопросы и ответы

    Являются ли ALT-теги и имена файлов по-прежнему важными для Image SEO в контексте этого патента?

    Да, но их относительная значимость снижается по мере улучшения визуальных моделей. Патент описывает систему, которая стремится понять визуальное содержание напрямую. Однако текстовые данные (IR scores) все еще могут использоваться в комбинации с Image Relevance Score. Кроме того, для новых или редких запросов, по которым еще нет достаточных данных о кликах для обучения визуальной модели, система будет больше полагаться на традиционные текстовые сигналы.

    Как этот патент связан с CTR изображений в выдаче?

    CTR (или Selection Rate) имеет критическое значение. Он используется как основной сигнал обратной связи для определения того, какие изображения являются релевантными (Positive Images) для обучения модели. Изображения, которые привлекают больше кликов по конкретному запросу, обучают модель тому, как должен выглядеть объект этого запроса.

    Что такое «Визуальные термины» (Visual Terms) и как SEO-специалист может на них повлиять?

    Visual Terms — это дискретные категории визуальных признаков (цвет, текстура, формы), которые система извлекает из изображений. SEO-специалист не может напрямую контролировать этот автоматизированный процесс (например, SIFT и k-means). Однако можно повлиять косвенно, предоставляя четкие, высококачественные изображения с хорошо выраженными визуальными элементами, которые система сможет легко интерпретировать и классифицировать.

    Как работает механизм обеспечения разнообразия, описанный в патенте?

    Система анализирует визуальные признаки изображений в топе выдачи. Если она обнаруживает nearly identical images (схожесть выше порога), она активно понижает в ранжировании те из них, которые имеют более низкий Image Relevance Score. Это делается для того, чтобы освободить место для визуально отличных изображений, даже если их исходная оценка релевантности была ниже (Claim 4).

    Что значит, что модель обучается для каждого уникального запроса?

    Это означает, что система не пытается понять общие концепции (например, что такое «красивый»). Вместо этого она обучается конкретно: как выглядит «кроссовки Nike Air Max 90» и как выглядит «кроссовки Adidas Samba». Для каждого из этих запросов будет создана отдельная Image Relevance Model, основанная на том, на что кликают пользователи именно по этому запросу.

    Что такое PAMIR и почему это важно?

    PAMIR (Passive-Aggressive Model for Image Retrieval) — это конкретный алгоритм машинного обучения, используемый для тренировки моделей. Его упоминание показывает, как именно система корректирует веса признаков. Алгоритм итеративно стремится увеличить разрыв в оценках между позитивными и негативными примерами. Хотя сегодня могут использоваться более новые алгоритмы, принцип итеративного обучения на контрасте остается важным.

    В чем особенность «Негативных изображений» (Negative Images) в этом патенте?

    Важная особенность в том, что Negative Images — это не просто изображения, на которые не кликают по целевому запросу. Это изображения, на которые активно кликают (высокий Selection Rate) по *другим* запросам. Использование таких качественных, но нерелевантных примеров позволяет модели лучше научиться различать близкие визуальные концепции.

    Может ли этот алгоритм работать в реальном времени?

    Обучение моделей (PAMIR) происходит в офлайн или пакетном режиме, так как требует анализа логов и итеративных вычислений. Применение модели для ранжирования может происходить в реальном времени, либо система может использовать предварительно рассчитанные Image Relevance Scores, которые хранятся в индексе (Claim 2, 3), что значительно ускоряет ответ на запрос.

    Как этот патент влияет на использование стоковых фотографий?

    Он значительно снижает ценность использования популярных стоковых фотографий без изменений. Механизм обеспечения разнообразия (Claim 4) активно ищет почти идентичные изображения в топе выдачи и понижает дубликаты. Если вы используете то же стоковое фото, что и конкуренты, ваше изображение может быть демотировано.

    Как извлечение признаков в формате «Bag of Features» влияет на SEO?

    Формат Bag of Features означает, что система анализирует наличие и частоту визуальных признаков, но (согласно описанию в патенте) игнорирует их пространственное расположение на картинке. Для SEO это означает, что важны общие характеристики (доминирующие цвета, текстуры, формы), а не композиция сама по себе. Изображение должно быть насыщено релевантными визуальными элементами.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.