Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует визуальное сходство для переноса репутации и поведенческих сигналов между изображениями

    PROPAGATING IMAGE SIGNALS TO IMAGES (Распространение сигналов изображений на другие изображения)
    • US9251171B2
    • Google LLC
    • 2016-02-02
    • 2012-11-30
    2012 Антиспам Мультимедиа Патенты Google Поведенческие сигналы

    Патент Google описывает систему классификации изображений, которая переносит поведенческие сигналы (клики, наведения) с известных изображений («Seed Images») на визуально похожие копии. Это позволяет системе идентифицировать нежелательный контент (например, сатирический «spoof» или кликбейт «Click Magnet») даже у новых изображений, еще не имеющих собственного трафика, наследуя репутацию их визуальных аналогов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему классификации изображений, когда анализ их визуального содержания недостаточен, а собственные поведенческие данные (traffic signal data) отсутствуют (проблема «холодного старта»). Это особенно актуально для идентификации модифицированных или сатирических изображений (spoofy images), а также кликбейтных изображений (click magnets), которые сложно выявить только по пикселям.

    Что запатентовано

    Запатентована система для распространения (пропагации) сигнальных данных (Signal Data) от известного набора изображений (Seed Images) к визуально похожим изображениям. Seed Images классифицируются на основе сигналов, не зависящих от их контента (например, по поведению пользователей). Система находит визуальные аналоги и приписывает им сигнальные данные исходных изображений, позволяя классифицировать их, несмотря на отсутствие собственных данных.

    Как это работает

    Система функционирует следующим образом:

    • Идентификация Seed Images: Определяется набор исходных изображений, которые уже классифицированы (например, как spoofy или click magnet) на основе их Signal Data (клики, наведения), независимо от визуального контента.
    • Поиск похожих изображений: Для каждого Seed Image система ищет в корпусе визуально похожие изображения (Similar Images), используя Visual Similarity Score, превышающий заданный порог.
    • Атрибуция сигналов: Signal Data от Seed Image переносятся на Similar Images. Сигналы могут быть взвешены пропорционально степени сходства.
    • Агрегация: Если изображение похоже на несколько Seed Images (включая как положительные, так и отрицательные примеры), сигналы агрегируются.
    • Классификация и Действие: На основе атрибутированных сигналов система классифицирует похожие изображения и использует эту информацию при ранжировании (например, для демоута).

    Актуальность для SEO

    Высокая/Средняя. Борьба с кликбейтом (click magnets), дезинформацией и нежелательными модификациями изображений остается критически важной задачей. Хотя современные методы компьютерного зрения улучшили прямую классификацию, описанный метод переноса поведенческих сигналов через визуальное сходство остается фундаментальным подходом для решения проблемы «холодного старта» и борьбы со спамом в виде почти дубликатов.

    Важность для SEO

    Влияние на SEO, особенно в Google Images, значительно (75/100). Патент описывает механизм, который позволяет Google мгновенно применять санкции к изображениям, если они являются копиями или модификациями других изображений, уже классифицированных как нежелательные (spoof, кликбейт). Это подчеркивает важность использования оригинальных изображений и риск наследования негативной репутации при копировании контента.

    Детальный разбор

    Термины и определения

    Attribution (Атрибуция, Перенос)
    Процесс приписывания Signal Data от исходного изображения (Seed Image) к похожему изображению (Similar Image).
    Click Magnets (Магниты кликов, Кликбейт)
    Изображения, которые получают непропорционально большое количество выборов (кликов) относительно их показателя качества (quality measure) или релевантности.
    Image Corpus (Корпус изображений)
    Общая коллекция изображений, известная поисковой системе (индекс).
    Seed Image (Исходное изображение, Эталон)
    Изображение, которое уже классифицировано на основе Signal Data, не зависящих от его визуального контента. Разделяются на First Seed Images (положительные примеры, например, «spoofy») и Second Seed Images (отрицательные примеры, не «spoofy»).
    Signal Data (Сигнальные данные)
    Данные, используемые для классификации, которые не зависят от визуального контента. Примеры: данные о трафике (traffic signal data), метрики кликов (click metrics), метрики наведения курсора (hover metrics), метки (labels).
    Similar Image (Похожее изображение)
    Изображение в корпусе, которое имеет Visual Similarity Score по отношению к Seed Image, удовлетворяющий определенному порогу.
    Spoofy Image / Spoof (Модифицированное/Сатирическое изображение)
    Изображение, которое было изменено (тонко или очевидно) для передачи сатирического, политического или оскорбительного сообщения. Является основной целью идентификации в патенте.
    Visual Similarity Score (Оценка визуального сходства)
    Количественная мера визуального сходства двух изображений, основанная на их контенте.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс идентификации и классификации.

    1. Система получает доступ к набору First Seed Images. Каждое из них уже классифицировано как принадлежащее к первой категории на основе Signal Data (независимых от контента).
    2. Для каждого First Seed Image определяется набор похожих изображений (Similar Images), чей Visual Similarity Score превышает порог.
    3. Каждому Similar Image приписываются (attributing) Signal Data от соответствующих First Seed Images.
    4. Система определяет, принадлежит ли Similar Image к первой категории, основываясь на атрибутированных Signal Data, и классифицирует его.
    5. Критическое уточнение: В конце Claim 1 указано, что первая категория — это изображения, классифицированные как spoof images.

    Claim 2 (Зависимый от 1): Вводит концепцию различных порогов уверенности.

    Seed Images выбираются с использованием первого (высокого) порога уверенности (например, 95% уверенности, что это spoof). Для классификации Similar Image используется второй порог, который ниже первого (например, 70%). Это позволяет использовать надежные исходные данные, но расширяет охват классификации.

    Claim 3 (Зависимый от 1): Описывает механизм пропагации между исходными изображениями (Seed-to-Seed).

    Если два Seed Images визуально похожи друг на друга, их сигналы могут быть объединены. Similar Image наследует эти агрегированные, более сильные сигналы.

    Claim 4 (Зависимый от 1): Вводит использование отрицательных примеров.

    Система использует Second Seed Images (изображения, классифицированные как НЕ spoof). Их сигналы также переносятся. Финальная классификация изображения, похожего и на положительный, и на отрицательный пример, основывается на комбинации атрибутированных сигналов от обоих источников.

    Claims 5, 6, 7 (Зависимые от 1): Уточняют типы Signal Data: click metric data (Claim 5), hover metric data (Claim 6), и данные, указывающие на Click Magnet (Claim 7).

    Claim 10 (Зависимый от 1): Детализирует механизм взвешенной атрибуции.

    Атрибуция включает корректировку (adjusting) переносимых Signal Data пропорционально Visual Similarity Score. Чем выше сходство, тем больший вес имеют переносимые сигналы.

    Где и как применяется

    Изобретение в основном применяется на этапах индексирования и ранжирования в контексте поиска по изображениям (Image Search).

    INDEXING – Индексирование и извлечение признаков
    Это ключевой этап для применения патента. Modification Detection Subsystem выполняет следующие процессы:

    1. Извлечение визуальных признаков: Вычисляются визуальные характеристики для всех изображений, необходимые для расчета Visual Similarity Score.
    2. Определение Seed Images (Офлайн/Периодически): Анализируются поведенческие данные (Historical Data) для идентификации Seed Images (положительных и отрицательных) с высокой уверенностью, без учета контента.
    3. Поиск похожих изображений и Пропагация сигналов: Система находит Similar Images и осуществляет перенос (Attribution) сигналов.
    4. Классификация: Похожие изображения классифицируются, и результаты сохраняются в индексе (Indexed Cache).

    RANKING / RERANKING – Ранжирование и Переранжирование
    На этапе ранжирования система использует предварительно вычисленные классификации. Если изображение помечено как Spoofy или Click Magnet, оно может быть понижено в выдаче (демоут), если только пользователь явно не ищет такой контент.

    Входные данные:

    • Image Corpus (изображения и их визуальные признаки).
    • Historical Data (поведенческие данные: клики, ховеры).
    • Набор Seed Images и их Signal Data.

    Выходные данные:

    • Атрибутированные Signal Data для похожих изображений.
    • Метки классификации (например, вероятность быть Spoofy) для изображений в индексе.

    На что влияет

    • Конкретные типы контента: Влияет на статичные изображения, анимированные GIF и видео (путем анализа кадров). Особенно сильно влияет на контент, который часто копируется или модифицируется (мемы, вирусные изображения, стоковые фото).
    • Специфические запросы и ниши: Наибольшее влияние в нишах, где распространены сатира, политический контент, а также в тематиках, подверженных использованию кликбейтных изображений (знаменитости, сенсационные новости).

    Когда применяется

    • Условия работы: Алгоритм особенно полезен для изображений, у которых недостаточно собственных Signal Data для классификации (новые или малопопулярные изображения).
    • Триггеры активации: Обнаружение визуального сходства между изображением и одним или несколькими Seed Images, превышающего порог (Similarity Threshold).
    • Частота применения: Процесс выполняется во время индексирования. Патент также упоминает возможность непрерывного обновления агрегации по мере поступления новых поведенческих данных для любого из связанных изображений.

    Пошаговый алгоритм

    Этап 1: Подготовка (Офлайн/Периодически)

    1. Анализ поведенческих данных: Обработка Historical Data для вычисления Signal Data (метрики кликов и наведений) для изображений в корпусе.
    2. Идентификация Seed Images: Выбор First Seed Images (положительные, например, Spoofy) и Second Seed Images (отрицательные), чья классификация превышает высокий порог уверенности (Первый порог). Например, выявление Click Magnets или изображений с высоким Hover rate и низким Click rate.

    Этап 2: Пропагация сигналов (Индексирование)

    1. Поиск похожих изображений: Для каждого Seed Image выполняется поиск изображений в корпусе, чей Visual Similarity Score (рассчитанный по визуальным признакам) превышает порог сходства.
    2. (Опционально) Пропагация Seed-to-Seed: Если несколько Seed Images похожи друг на друга, их Signal Data агрегируются.
    3. Атрибуция сигналов: Signal Data от Seed Images переносятся на похожие изображения. Это включает:
      • Агрегацию: Суммирование или усреднение сигналов, если изображение похоже на несколько источников (положительных и отрицательных).
      • Взвешивание: Масштабирование сигнала пропорционально Visual Similarity Score (Claim 10).

    Этап 3: Классификация и Применение

    1. Расчет оценки: На основе итоговых атрибутированных Signal Data вычисляется оценка классификации (classification score) для похожих изображений.
    2. Классификация: Если оценка превышает второй (более низкий) порог уверенности (Claim 2), изображение классифицируется соответствующим образом (например, как Spoofy).
    3. Использование в поиске: Классификация сохраняется в индексе и используется при ранжировании.

    Какие данные и как использует

    Данные на входе

    Патент четко разделяет два типа данных:

    • Поведенческие факторы (Signal Data): Это ключевые данные для определения Seed Images и то, что переносится. Они НЕ зависят от визуального контента.
      • Click metrics (метрики кликов/выборов).
      • Hover metrics (метрики наведения курсора).
      • Данные, идентифицирующие Click Magnets (непропорциональное количество кликов относительно качества).
    • Мультимедиа факторы (Visual Features): Визуальный контент изображения. Используется исключительно для определения сходства. Упоминаются техники анализа признаков: edge detection, blob detection, scale invariant feature transforms (SIFT).
    • Другие (Signal Data): Метки (labels) или оценки вероятности (likelihood scores), присвоенные изображению.

    Какие метрики используются и как они считаются

    • Visual Similarity Score: Мера визуального сходства, рассчитываемая на основе сравнения визуальных признаков.
    • First Seed Image Similarity Threshold: Порог для Visual Similarity Score, определяющий, считается ли изображение похожим.
    • Classification Score (Оценка классификации): Вероятность или мера уверенности в том, что изображение принадлежит к категории (например, Spoofy). Рассчитывается на основе Signal Data.
    • Пороги классификации:
      • Первый порог: Высокий порог уверенности, используемый для выбора надежных Seed Images (Claim 2).
      • Второй порог: Более низкий порог уверенности, используемый для классификации похожих изображений (Claim 2).
    • Веса (W): Коэффициенты, основанные на Visual Similarity Score, используемые для масштабирования Signal Data при атрибуции (Claim 10).
    • Методы агрегации: Суммирование (Claim 8), усреднение/центральная тенденция (Claim 9).

    Выводы

    1. Визуальное сходство создает наследование репутации: Ключевой вывод – репутация изображения (основанная на поведении пользователей или метках) передается его визуальным копиям и модификациям. Если оригинал классифицирован как кликбейт или spoof, все похожие изображения мгновенно наследуют эти негативные сигналы.
    2. Решение проблемы «холодного старта»: Механизм позволяет классифицировать новые изображения до того, как они получат собственный трафик, что критично для борьбы с масштабированием спама.
    3. Приоритет поведенческих сигналов над контентом: Исходная классификация базируется на поведенческих факторах (Signal Data). Визуальный анализ используется только как механизм переноса этой классификации.
    4. Использование позитивных и негативных сигналов: Система использует как «плохие» эталоны (First Seed Images), так и «хорошие» эталоны (Second Seed Images, Claim 4) для более точной классификации в спорных случаях.
    5. Взвешенный и агрегированный перенос: Система не просто копирует сигналы, а агрегирует их от нескольких источников и взвешивает по степени визуального сходства (Claim 10), что повышает точность и снижает влияние шума.
    6. Гибкие пороги уверенности: Использование высоких порогов для выбора эталонов и более низких для классификации копий (Claim 2) позволяет сбалансировать точность исходных данных и полноту охвата системы.

    Практика

    Best practices (это мы делаем)

    • Приоритет оригинальных изображений: Инвестируйте в создание уникального визуального контента. Это гарантирует, что ваши изображения будут оцениваться на основе их собственных заслуг и поведения пользователей, а не унаследуют негативные сигналы от чужих изображений.
    • Обеспечение честного взаимодействия (Анти-Кликбейт): Убедитесь, что изображения и миниатюры (thumbnails) точно отражают содержание целевой страницы. Это помогает избежать классификации как Click Magnet (высокий CTR при низкой удовлетворенности пользователя).
    • Создание высококачественных «позитивных эталонов»: Создавайте полезные, релевантные изображения, которые генерируют позитивные поведенческие сигналы. Если ваше изображение станет позитивным эталоном (Second Seed Image), оно будет передавать позитивные сигналы своим копиям.
    • Осторожное использование стоковых фото: При использовании популярных стоковых изображений существует риск, что они используются другими сайтами в спамных целях. Если стоковое фото стало негативным Seed Image, ваш экземпляр может унаследовать эти сигналы. Рекомендуется уникализировать стоковые фото.

    Worst practices (это делать не надо)

    • Использование кликбейтных изображений (Click Magnets): Создание изображений, которые получают клики обманным путем. Система активно выявляет такие изображения по поведенческим факторам и использует их как эталоны для пессимизации всех похожих копий.
    • Копирование или легкая модификация чужого контента: Это прямой путь к наследованию чужой репутации. Если оригинал будет признан некачественным (spoofy или спам), ваша копия также пострадает.
    • Попытки обойти фильтры путем незначительной модификации: Незначительные изменения (цветокоррекция, кадрирование) спамного изображения не помогут, так как система использует устойчивые алгоритмы визуального сходства (например, SIFT) и перенесет негативные сигналы.

    Стратегическое значение

    Патент подтверждает, что в Google Images качество и репутация изображения неразрывно связаны с поведением пользователей. Система построена так, чтобы предотвратить распространение визуального спама и кликбейта путем «заражения» похожих изображений негативными сигналами. Для долгосрочной SEO-стратегии это означает, что инвестиции в уникальность, качество и честность визуального контента критически важны для успеха в поиске по картинкам.

    Практические примеры

    Сценарий 1: Пессимизация кликбейтной миниатюры

    1. Этап 1 (Идентификация эталона): Сайт А публикует миниатюру с вводящим в заблуждение содержанием (кликбейт). Оно получает много кликов, но пользователи быстро уходят. Google классифицирует изображение как Click Magnet (Seed Image) с вероятностью 95%.
    2. Этап 2 (Распространение): Сайт Б копирует это изображение и слегка меняет цвет. Система определяет высокое визуальное сходство с эталоном Сайта А.
    3. Этап 3 (Перенос и классификация): Система переносит негативные сигналы на изображение Сайта Б. Classification Score изображения Сайта Б достигает 80% (выше порога 70%).
    4. Результат: Изображение Сайта Б автоматически классифицируется как Click Magnet и понижается в Google Images, даже если оно еще не получило собственного трафика.

    Сценарий 2: Использование позитивных и негативных примеров (Claim 4)

    1. Этап 1: Существует качественное новостное фото (Фото А), которое классифицировано как НЕ spoof (Second Seed Image). Также существует сатирическая модификация этого фото (Фото Б), классифицированная как spoof (First Seed Image).
    2. Этап 2: Появляется новое изображение (Фото В), которое визуально похоже и на Фото А, и на Фото Б.
    3. Этап 3: Система переносит позитивные сигналы от Фото А и негативные сигналы от Фото Б на Фото В.
    4. Результат: Система анализирует баланс агрегированных сигналов и их веса (степень сходства с А и Б), чтобы принять финальное решение о классификации Фото В, снижая риск ошибки.

    Вопросы и ответы

    Что такое «Spoofy Image» и «Click Magnet» в контексте патента?

    Spoofy Image — это изображение, модифицированное для передачи сатирического, политического или оскорбительного сообщения. Click Magnet — это изображение, получающее непропорционально много кликов относительно его качества или релевантности (типичный кликбейт). Система стремится идентифицировать оба типа, так как они обычно не удовлетворяют информационную потребность пользователя.

    Означает ли этот патент, что Google определяет качество изображения по его виду (пикселям)?

    Нет. Патент четко указывает, что исходная классификация (Seed Images) базируется на Signal Data, не зависящих от контента (например, поведение пользователей). Визуальный анализ используется только для поиска похожих изображений и переноса этой классификации. Система не оценивает качество по пикселям, а переносит оценку пользователей с одного изображения на другое.

    Как система определяет исходные эталоны (Seed Images)?

    Эталоны определяются на основе анализа поведенческих данных с высокой степенью уверенности. Примеры паттернов: большое количество наведений курсора (hovers), но мало кликов (selections); или аномально много кликов для изображения низкого качества (Click Magnet).

    Если я отредактирую изображение (кадрирую, изменю цвет), система все равно распознает его как копию?

    Да, если визуальное сходство остается высоким. Система использует устойчивые алгоритмы анализа визуальных признаков (упомянуты SIFT, edge detection). Если Visual Similarity Score превышает порог, система посчитает изображение похожим и перенесет сигналы.

    Влияет ли степень сходства на перенос сигналов?

    Да, влияет. Патент описывает механизм взвешенного переноса (Claim 10). Чем выше Visual Similarity Score, тем сильнее переносятся сигналы. Идентичная копия унаследует максимум сигналов, а сильно модифицированное изображение унаследует меньше.

    Что произойдет, если мое изображение похоже и на спамный эталон, и на качественный эталон?

    Патент предусматривает использование как позитивных (Claim 1), так и негативных (Claim 4) эталонов (изображений, которые точно не являются спамом). Система агрегирует сигналы от всех эталонов. Итоговая классификация будет зависеть от баланса этих сигналов и их весов (степени сходства с каждым источником).

    Может ли этот патент объяснить проблемы с ранжированием популярных стоковых фотографий?

    Да, это вероятное объяснение. Если популярное стоковое фото массово используется на кликбейтных ресурсах, эти ресурсы становятся негативными эталонами. Система распространяет эти негативные сигналы на все экземпляры этого фото в интернете, что может ухудшить его ранжирование даже на качественных сайтах.

    Как защитить свои изображения от наследования негативных сигналов?

    Единственный надежный способ – использовать оригинальный визуальный контент. Чем уникальнее ваше изображение с точки зрения визуальных признаков, тем меньше вероятность, что оно будет связано с чужими негативными эталонами и унаследует их репутацию.

    Что такое «разные пороги уверенности» для Seed Images и похожих изображений (Claim 2)?

    Это механизм управления точностью и полнотой. Для выбора Seed Image используется очень высокий порог (например, 95% уверенность), чтобы гарантировать чистоту исходных данных. Но для классификации похожих изображений используется более низкий порог (например, 70%), так как при переносе сигналов возможна погрешность. Это позволяет классифицировать больше изображений.

    Применяется ли этот механизм к видео?

    Да. В патенте указано, что термин «изображение» может относиться к статичным картинкам, анимированным GIF и видео. Для видео система может сэмплировать кадры, индексировать их и применять тот же процесс пропагации сигналов к этим кадрам (например, к миниатюрам) для классификации всего видео.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.