Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует визуальное сходство и поведение пользователей для ранжирования изображений (Алгоритм Диффузии)

    CONTENT-BASED IMAGE RANKING (Ранжирование изображений на основе контента)
    • US9436707B2
    • Google LLC
    • 2016-09-06
    • 2009-08-25
    2009 Индексация Мультимедиа Патенты Google Поведенческие сигналы

    Google использует механизм диффузии для улучшения ранжирования в поиске по картинкам. Система строит граф визуально похожих изображений и распространяет оценки релевантности, основанные на поведении пользователей (клики, dwell time), по этому графу. Это позволяет сгладить шум в данных о кликах и присвоить оценки даже тем изображениям, по которым пользователи напрямую не кликали, основываясь на популярности визуально похожих картинок.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает две ключевые проблемы в ранжировании поиска по изображениям:

    • Шум в поведенческих данных (Noise): Пользователи могут кликать на изображения, которые интересны им в моменте, но не релевантны исходному запросу (например, фото знаменитости по запросу «футбольный мяч», как указано в патенте). Это приводит к ложному повышению ранга нерелевантных изображений на основе click data.
    • Недостаток или разреженность данных (Data Sparsity): Многие изображения могут не иметь достаточного количества кликов или текстовых аннотаций для надежной оценки их релевантности конкретному запросу.

    Что запатентовано

    Запатентована система ранжирования изображений, которая использует визуальное сходство для распространения (диффузии) сигналов релевантности, полученных из поведения пользователей (historical click data). Система строит граф, где узлы — это изображения, а связи (ребра) отражают степень их визуального сходства. Оценки релевантности (основанные на кликах) передаются между связанными узлами, позволяя визуально похожим изображениям получать схожие оценки релевантности для одного и того же запроса.

    Как это работает

    Механизм работает следующим образом:

    1. Извлечение признаков: Из визуального контента изображений извлекаются признаки (цвет, текстура, формы).
    2. Расчет сходства: Вычисляются показатели визуального сходства (visual similarity score) между парами изображений.
    3. Построение графа: Строится граф, где каждое изображение связывается со своими ближайшими визуальными соседями (k nearest neighbor images). Связи взвешиваются по степени сходства.
    4. Инициализация оценок: Каждому изображению присваивается начальная оценка на основе исторических данных о кликах пользователей по этому изображению в ответ на запрос. Особо выделяются клики с длительным временем просмотра (long clicks / dwell time).
    5. Диффузия оценок: Происходит процесс пересчета оценок (итеративно или через формулу). Новая оценка изображения зависит от его начальной оценки и оценок его визуальных соседей, взвешенных по силе их визуального сходства.

    Актуальность для SEO

    Высокая. Использование компьютерного зрения (Content-Based Image Retrieval) и машинного обучения на основе поведенческих сигналов является основой современных систем поиска изображений (Google Images, Google Lens). Механизмы сглаживания шума и борьбы с недостатком данных критически важны для масштабируемых систем.

    Важность для SEO

    Влияние на SEO для поиска по изображениям значительно (8/10). Патент демонстрирует, что релевантность изображения определяется не только текстовыми факторами или прямыми кликами на него, но и его визуальными характеристиками. Изображение может «заимствовать» релевантность у визуально похожих изображений, которые популярны у пользователей по данному запросу. Это требует от SEO-специалистов уделять внимание визуальной оптимизации и соответствию визуальному интенту запроса.

    Детальный разбор

    Термины и определения

    Click Data (Данные о кликах)
    Записи о взаимодействии пользователей с результатами поиска. Включают информацию о том, какой результат был выбран для данного запроса.
    Diffusion Process (Процесс диффузии)
    Процесс распространения информации (в данном случае — оценок релевантности) по графу. Позволяет сглаживать оценки между связанными узлами.
    Dwell Time / Long Click (Время пребывания / Длинный клик)
    Метрика, измеряющая время просмотра результата после клика. В патенте (Claim 1) определяется как взаимодействие, при котором время показа (presentation time) превысило предопределенный порог. Интерпретируется как индикатор удовлетворенности пользователя.
    Feature Vector (Вектор признаков)
    Численное представление характеристик изображения (цвет, текстура, SIFT и т.д.) в многомерном пространстве.
    Graph of Images (Граф изображений)
    Структура данных, где узлы представляют изображения, а ребра соединяют визуально похожие изображения. Ребра имеют веса (weights), отражающие степень сходства.
    Joint Equal Contribution (JEC)
    Упомянутый в патенте метод расчета меры расстояния между изображениями, основанный на равном вкладе различных глобальных признаков.
    k Nearest Neighbors (kNN) (k Ближайших соседей)
    Алгоритм для нахождения k изображений, наиболее визуально похожих на данное изображение.
    Visual Similarity Score (Оценка визуального сходства)
    Численная мера, определяющая, насколько похожи два изображения с точки зрения их визуального контента.

    Ключевые утверждения (Анализ Claims)

    Анализ основан на формуле изобретения патента US9436707B2.

    Claim 1 (Независимый пункт): Описывает метод определения оценки для конкретного изображения.

    1. Извлечение первого набора признаков из визуального контента конкретного изображения.
    2. Доступ к оценкам визуального сходства (visual similarity scores).
    3. Идентификация набора ближайших соседей (nearest neighbor images) для конкретного изображения на основе оценок сходства и меры расстояния (distance measure).
    4. Получение доступа к историческим данным о кликах (historical click data) для каждого из ближайших соседей. Эти данные учитывают взаимодействия, когда время просмотра (presentation time) после клика превысило порог (т.е. long clicks).
    5. Определение оценки (score) для конкретного изображения на основе исторических данных о кликах соседей, взвешенных по их визуальному сходству с конкретным изображением.

    Ядро изобретения — это использование поведенческих данных (конкретно, long clicks) визуальных соседей для определения оценки текущего изображения. Визуальное сходство служит мостом для переноса релевантности.

    Claim 5 (Зависимый): Детализирует математический аппарат диффузии, предоставляя формулу замкнутого решения.

    Определение оценки включает расчет по формуле: C=(1-α)*(I-(α*W))⁻¹*c.

    Где:

    • c — вектор начальных оценок (основанных на кликах).
    • C — вектор итоговых оценок после диффузии.
    • W — матрица нормализованных весов (normalized weights) сходства между изображениями в графе.
    • I — единичная матрица.
    • α (Alpha) — заданный параметр (коэффициент смешивания), определяющий баланс между собственной оценкой изображения и оценками его соседей.

    Эта формула представляет результат бесконечного числа итераций распространения оценок.

    Claim 6 (Зависимый от 5): Указывает альтернативный метод расчета — итеративное вычисление оценки до достижения сходимости.

    Где и как применяется

    Изобретение применяется в системе поиска изображений (Image Search) и затрагивает этапы индексирования и ранжирования.

    INDEXING – Индексирование и извлечение признаков

    • Извлечение признаков: На этом этапе система анализирует визуальный контент и извлекает Feature Vectors (цвет, текстура, SIFT и т.д.).
    • Построение графа (Офлайн): Патент указывает, что построение Graph of Images и определение k Nearest Neighbors может происходить офлайн. Система рассчитывает Visual Similarity Scores и строит связи (ребра) с соответствующими весами (weights).

    RANKING – Ранжирование / RERANKING – Переранжирование

    Основное применение патента происходит во время обработки запроса (run-time) или как процесс переранжирования Топ-N результатов.

    • Инициализация оценок: Для данного запроса система определяет начальные оценки (initial scores, вектор c) для набора изображений-кандидатов. Эти оценки основаны на historical click data (в частности, long clicks) для этого запроса.
    • Диффузия (Scoring): Diffusion Module использует предварительно построенный визуальный граф (матрицу W) и начальные оценки (c) для выполнения процесса диффузии и расчета финальных оценок (C).
    • Финальное ранжирование: Изображения ранжируются в соответствии с новыми, пересчитанными оценками.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на изображения (Image Search). В патенте также упоминается возможность применения к видео.
    • Специфические запросы: Наибольшее влияние оказывается на запросы, где визуальный контент является основным носителем информации, и где существует проблема шумных кликов (кликбейт) или недостатка данных (long-tail запросы).
    • Конкретные ниши: E-commerce, мода, путешествия – ниши с высокой визуальной составляющей и большим количеством похожих изображений.

    Когда применяется

    • Условия работы: Алгоритм применяется во время ранжирования результатов поиска по изображениям для уточнения оценок релевантности на основе комбинации поведенческих данных и визуального анализа.
    • Временные рамки: Построение графа может происходить офлайн. Расчет диффузии может происходить как офлайн (для популярных запросов), так и в реальном времени.

    Пошаговый алгоритм

    Процесс можно разделить на две части: подготовка (офлайн) и обработка запроса (рантайм).

    Часть А: Подготовка (Индексирование и Построение Графа)

    1. Извлечение визуальных признаков: Для каждого изображения в корпусе извлекаются визуальные признаки и формируются Feature Vectors.
    2. Расчет мер расстояния: Вычисляется мера расстояния (например, используя JEC) между векторами признаков для пар изображений.
    3. Идентификация kNN: Для каждого изображения определяются k Nearest Neighbors.
    4. Построение графа: Строится Graph of Images. Изображения (узлы) соединяются ребрами со своими kNN.
    5. Расчет и нормализация весов: Меры расстояния преобразуются в веса сходства (Weights), например, с помощью Гауссовой функции. Веса нормализуются, формируя матрицу W.

    Часть Б: Обработка запроса (Ранжирование и Диффузия)

    1. Получение кандидатов: Система получает набор изображений, релевантных запросу.
    2. Инициализация оценок (Вектор c): Для каждого изображения определяется начальная оценка на основе historical click data для данного запроса (акцент на long clicks). Если кликов нет, оценка может быть нулевой.
    3. Диффузия оценок: Происходит расчет новых оценок (Вектор C). Это может быть сделано одним из двух способов:
      • Итеративный метод: Оценки обновляются по формуле C_i,new = α * Σ(W_ij * C_j,current) + (1-α) * C_i,current. Процесс повторяется до сходимости.
      • Метод замкнутой формы: Итоговые оценки рассчитываются напрямую по формуле C = (1-α) * (I — (α*W))⁻¹ * c.
    4. Ранжирование: Изображения сортируются на основе итоговых оценок C.

    Какие данные и как использует

    Данные на входе

    Система использует два основных типа данных:

    • Мультимедиа факторы (Визуальный контент): Это основа для построения графа. Используются различные визуальные признаки:
      • Глобальные признаки (цвет, текстура).
      • Локальные признаки (например, SIFT – Scale-Invariant Feature Transform).
    • Поведенческие факторы (User Behavior): Это основа для инициализации оценок релевантности.
      • Clicks (Клики): Количество выборов изображения пользователями в ответ на запрос.
      • Dwell Time (Время пребывания): Патент явно подчеркивает важность кликов, где время просмотра превысило порог (long clicks), что указывает на удовлетворенность пользователя.

    Какие метрики используются и как они считаются

    • Distance Measure (Мера расстояния): Метрика, обратная визуальному сходству. Рассчитывается между Feature Vectors. Может использоваться JEC (Joint Equal Contribution) или другие методы (Euclidean, L1).
    • Weights (W) (Веса сходства): Нормализованные значения визуального сходства, присвоенные ребрам графа. Часто рассчитываются путем пропускания меры расстояния через нелинейную функцию (например, Гауссову).
    • Initial Scores (c) (Начальные оценки): Оценки релевантности, основанные строго на поведенческих данных (например, нормализованное количество long clicks по запросу).
    • Final Scores (C) (Итоговые оценки): Оценки после процесса диффузии.
    • Alpha (α): Параметр смешивания (0 ≤ α < 1). Определяет, насколько сильно оценки соседей влияют на оценку изображения.

    Выводы

    1. Визуальное сходство как мост для релевантности: Ключевой вывод патента в том, что визуальные характеристики изображения определяют его «соседей». Если изображение визуально похоже на другие изображения, которые пользователи считают релевантными (имеют много long clicks) для запроса, оно также будет считаться релевантным.
    2. Сглаживание шума в поведенческих данных: Механизм диффузии эффективно борется с шумными кликами (кликбейтом). Если изображение получает много кликов, но визуально сильно отличается от других популярных изображений по этому запросу, его оценка будет снижена (усреднена) в процессе диффузии.
    3. Решение проблемы недостатка данных (Sparsity/Cold Start): Изображения, которые сами не имеют кликов по данному запросу (например, новые изображения), могут получить высокую оценку, если они являются визуальными соседями изображений с высоким количеством кликов.
    4. Важность удовлетворенности пользователя (Long Clicks): Патент явно указывает на использование long clicks (время просмотра выше порога) как основного сигнала качества/релевантности, который затем распространяется по графу. Это подтверждает фокус на метриках удовлетворенности, а не просто на CTR.
    5. Группировка визуально схожего контента: Следствием работы алгоритма является то, что визуально похожие изображения будут иметь схожие оценки и, соответственно, ранжироваться ближе друг к другу в выдаче (кластеризация).

    Практика

    Best practices (это мы делаем)

    • Визуальное соответствие интенту запроса (Visual Intent): Создавайте изображения, которые визуально точно соответствуют тому, что ищет пользователь. Анализируйте выдачу Google Images, чтобы понять, какие визуальные характеристики (цвет, композиция, тип объекта) доминируют для ваших целевых запросов. Ваше изображение должно попасть в «правильный» визуальный кластер.
    • Оптимизация под Long Clicks (Удовлетворенность): Поскольку начальные оценки основаны на long clicks, важно, чтобы страница, на которую попадает пользователь после клика по изображению, была качественной и релевантной. Это увеличит Dwell Time, что повысит начальную оценку изображения и позволит ему стать источником релевантности для визуальных соседей.
    • Четкость и качество изображения: Используйте качественные, четкие изображения, на которых легко идентифицировать объекты. Это помогает системам компьютерного зрения корректно извлекать признаки и находить правильных визуальных соседей (kNN).
    • Консистентность визуального стиля (для E-commerce): При запуске новых товаров, похожих на популярные (например, новый цвет модели), используйте схожий стиль фотографий. Это позволит новому товару быстро унаследовать релевантность популярного товара через диффузию.

    Worst practices (это делать не надо)

    • Использование кликбейтных изображений (Clickbait): Использование изображений, которые привлекают внимание, но визуально не соответствуют теме запроса. Алгоритм диффузии направлен на борьбу с этим: даже если такое изображение получит клики, его оценка будет снижена, так как оно визуально отличается от релевантного контента.
    • Использование слишком общих или некачественных стоковых фото: Если стоковое фото визуально похоже на тысячи других изображений, используемых на низкокачественных сайтах (с низкими поведенческими метриками), процесс диффузии может снизить его оценку, ассоциируя его с этим низкокачественным кластером.
    • Игнорирование визуального контекста: Фокусироваться только на ALT-тегах и окружающем тексте, игнорируя само изображение. Визуальные характеристики напрямую влияют на ранжирование через механизм диффузии.

    Стратегическое значение

    Патент подтверждает, что Google Image Search — это в первую очередь система компьютерного зрения, а не просто текстовый поиск по метаданным картинок. Понимание визуального контента является критически важным фактором ранжирования. Стратегия SEO для изображений должна включать анализ визуального ландшафта и оптимизацию самих изображений, а не только их атрибутов. Алгоритм поощряет качество и точность визуального представления информации.

    Практические примеры

    Сценарий 1: Оптимизация изображения товара в E-commerce (Соответствие интенту)

    Задача: Ранжироваться по запросу «Синий бархатный диван».

    1. Анализ визуального ландшафта: Изучаем выдачу. Видим, что в топе доминируют и получают больше кликов lifestyle-изображения диванов в интерьере, а не студийные фото на белом фоне.
    2. Действие: Создаем качественное фото нашего дивана в интерьере, соответствующее доминирующему визуальному стилю.
    3. Ожидаемый результат: Наше изображение попадает в нужный кластер визуального графа (Graph of Images). Оно быстро получает высокую оценку благодаря диффузии от популярных визуальных соседей.
    4. Ошибка: Использовать только студийное фото на белом фоне. Оно попадет в другой кластер графа и не получит преимуществ от диффузии оценок от популярных lifestyle-фото.

    Сценарий 2: Борьба с шумом (Информационный поиск)

    1. Ситуация: По запросу «ягуар животное» высоко ранжируется фото автомобиля Jaguar (Изображение А) из-за случайных кликов (шум). Фото настоящего животного (Изображение Б) ранжируется ниже.
    2. Работа алгоритма: Система строит граф. Визуальные соседи Изображения А — другие фото автомобилей. Большинство из них имеют низкие оценки релевантности по запросу «ягуар животное». Визуальные соседи Изображения Б — другие фото животных, и они имеют высокие оценки.
    3. Результат: В процессе диффузии оценка Изображения А снижается из-за низких оценок его визуальных соседей. Оценка Изображения Б усиливается. Фото животного ранжируется выше фото автомобиля.

    Вопросы и ответы

    Что такое «процесс диффузии» в контексте этого патента?

    Это процесс распространения оценок релевантности по графу визуально похожих изображений. Он работает по принципу: «Скажи мне, как ты выглядишь, и я скажу, насколько ты релевантен». Если изображение А визуально очень похоже на изображение Б, и Б очень популярно (много long clicks) по запросу X, то система предполагает, что А также релевантно запросу X, и повышает его оценку.

    Означает ли это, что ALT-теги и окружающий текст больше не важны для SEO картинок?

    Нет, они по-прежнему важны. Текстовые факторы помогают системе понять контекст изображения и определить начальный набор кандидатов для ранжирования (Retrieval). Однако описанный в патенте механизм диффузии работает на этапе уточнения ранжирования (Ranking/Reranking) и использует визуальные и поведенческие сигналы для финальной сортировки.

    Что такое «шумные клики» и как система с ними борется?

    Шумные клики — это когда пользователи кликают на изображение, которое нерелевантно их запросу, но привлекает внимание (кликбейт, фото знаменитости и т.д.). Система борется с этим путем усреднения оценок. Если изображение получает клики, но визуально не похоже на другие релевантные изображения по этому запросу, процесс диффузии снизит его итоговую оценку, так как его визуальные соседи не подтверждают его релевантность.

    Как система определяет визуальное сходство?

    Система извлекает из изображений визуальные признаки (visual features), такие как цвет, текстура, формы, или локальные дескрипторы (например, SIFT). Затем она сравнивает эти признаки (представленные в виде Feature Vectors) используя метрики расстояния. В патенте упоминается метод Joint Equal Contribution (JEC) для комбинирования различных признаков.

    Что такое «Long Click» и почему он важен в этом патенте?

    Long Click (Длинный клик) происходит, когда пользователь кликает на результат и проводит значительное время на целевой странице (высокий Dwell Time). В Claim 1 это описано как время просмотра, превышающее порог. Это сильный индикатор удовлетворенности пользователя. В патенте long clicks используются как основной сигнал для инициализации оценок релевантности, которые затем распространяются по графу.

    Как этот патент помогает новым изображениям ранжироваться (Cold Start Problem)?

    Новые изображения обычно не имеют исторических данных о кликах. Однако, если новое изображение визуально похоже на уже существующие изображения, которые имеют высокие поведенческие метрики по определенному запросу, оно может «унаследовать» высокую оценку релевантности через процесс диффузии. Это позволяет качественному новому контенту быстро набирать видимость.

    Стоит ли использовать уникальные изображения или лучше копировать стиль популярных?

    Стратегически выгодно использовать уникальные изображения, которые при этом точно соответствуют визуальному интенту запроса. Соответствие интенту позволяет попасть в правильный кластер графа и получать выгоду от диффузии. Уникальность помогает выделиться и потенциально стать источником релевантности, если изображение обеспечит высокий Dwell Time.

    Может ли этот механизм навредить моему изображению, если оно похоже на спам?

    Да. Механизм диффузии работает в обе стороны. Если ваше изображение визуально похоже на кластер изображений, которые пользователи игнорируют или быстро закрывают (имеют низкие поведенческие оценки), то ваше изображение унаследует эти негативные сигналы. Это подчеркивает важность избегания визуальных шаблонов, ассоциирующихся с низкокачественным контентом.

    Что определяет параметр Alpha (α) в формулах диффузии?

    Параметр Alpha (α) — это коэффициент смешивания. Он определяет баланс между собственной начальной оценкой изображения (основанной на его прямых кликах) и оценками, полученными от его визуальных соседей. Высокое значение α означает большее влияние соседей (сильное сглаживание), низкое значение α означает больший вес собственных данных изображения.

    Как этот патент связан с Google Lens?

    Технологии, описанные в патенте, лежат в основе систем визуального поиска, таких как Google Lens. Извлечение Visual Features и быстрое нахождение Nearest Neighbors (визуально похожих объектов) являются ключевыми компонентами Lens. Google Lens может использовать этот же граф визуального сходства для понимания контекста изображения и предложения релевантного контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.