Google анализирует огромные коллекции изображений, группируя точные и близкие дубликаты в кластеры. Используя метрики, такие как низкий CTR и большое количество ссылающихся сайтов, система идентифицирует кластеры, состоящие из шаблонных изображений (например, «Фото скоро будет»). Это позволяет фильтровать их в поиске по картинкам и улучшать качество продуктовой выдачи.
Описание
Какую задачу решает
Патент решает проблему засорения поисковой выдачи (особенно в поиске по картинкам и продуктовом поиске) шаблонными изображениями (placeholder images). Это изображения-заглушки (например, «Image Not Available», «Photo Coming Soon»), которые используются на сайтах, когда реальное изображение товара или объекта недоступно. Такие изображения снижают качество пользовательского опыта и уменьшают точность результатов поиска. Патент предлагает масштабируемое решение для их автоматического обнаружения, превосходящее неэффективные методы, такие как ручная модерация или оптическое распознавание символов (OCR).
Что запатентовано
Запатентована система автоматического обнаружения шаблонных изображений в больших масштабах. Суть изобретения заключается в использовании предположения, что шаблонные изображения часто повторяются и являются идентичными или почти идентичными на разных сайтах. Система использует методы кластеризации для поиска групп таких дубликатов (exact-duplicate и near-duplicate clusters). Эти кластеры затем оцениваются с использованием специфических сигналов, чтобы определить, являются ли они шаблонами.
Как это работает
Система работает путем анализа большого корпуса изображений:
- Сбор данных: Собираются изображения и связанные с ними метаданные, такие как click-through rate (CTR) и количество ссылающихся источников (linking sources).
- Кластеризация дубликатов: Изображения группируются в кластеры точных дубликатов (например, с использованием MD5 hash) и близких дубликатов (например, с использованием wavelet-based fingerprints).
- Отбор кластеров-шаблонов: Кластеры анализируются по критериям, характерным для шаблонов. Ключевые критерии включают низкий показатель CTR и большое количество уникальных ссылающихся источников.
- Классификация: Может использоваться machine-learning classifier для комбинирования различных сигналов и точной идентификации кластеров-шаблонов.
- Применение: Идентифицированные шаблоны сохраняются в базу данных, которая используется для фильтрации новых изображений.
Актуальность для SEO
Высокая. Технологии компьютерного зрения, обработка изображений и кластеризация лежат в основе современных сервисов Google, таких как Google Images, Google Lens и продуктовый поиск. Фильтрация неинформативных, шаблонных изображений остается критически важной задачей для поддержания качества выдачи, особенно в условиях роста объемов e-commerce.
Важность для SEO
Патент имеет высокое значение (7.5/10) для SEO в e-commerce и для стратегий продвижения в поиске по картинкам (Image SEO). Он описывает конкретный механизм, который Google использует для идентификации и последующей фильтрации или понижения изображений, классифицированных как шаблоны. Это подчеркивает критическую необходимость использования уникальных, реальных и привлекательных изображений товаров или контента для достижения видимости в Google Images и продуктовых блоках SERP.
Детальный разбор
Термины и определения
- Placeholder Image (Шаблонное изображение / Заглушка)
- Изображение, которое отображается на веб-сайте вместо реального изображения, когда последнее недоступно (например, «Image Not Available»).
- Exact-duplicate image cluster (Кластер точных дубликатов)
- Группа изображений, которые являются попиксельно идентичными. Определяются, например, путем сравнения Image Signatures.
- Near-duplicate image cluster (Кластер близких дубликатов)
- Группа изображений, которые не идентичны попиксельно, но отличаются только размером, форматом или цветом, сохраняя при этом ту же сцену или объект. Определяются путем сравнения Feature representations.
- Image Signature (Сигнатура изображения)
- Значение (например, MD5 hash), рассчитанное для изображения и используемое для быстрого поиска точных дубликатов.
- Feature Representation / Feature Vector (Представление признаков)
- Численное представление характеристик изображения (например, на основе SIFT, wavelet transforms), используемое для поиска близких дубликатов.
- Wavelet-based fingerprints (Отпечатки на основе вейвлетов)
- Один из методов Feature Representation, использующий коэффициенты вейвлет-преобразования для характеристики изображения.
- Click-through rate (CTR) (Показатель кликабельности)
- Метрика, показывающая, как часто пользователи кликают на изображение после его показа. Используется как сигнал для идентификации шаблонов (предполагается, что у шаблонов низкий CTR).
- Linking sources measure / Linking sources count (Мера/Количество ссылающихся источников)
- Метрика, отражающая количество источников (например, разных веб-сайтов), которые ссылаются на изображение или отображают его. Используется как сигнал для идентификации шаблонов (предполагается, что у шаблонов много разных источников).
- Machine-learning classifier (Классификатор машинного обучения)
- Модель (например, SVM), обученная на различных сигналах для автоматического определения, является ли кластер изображений шаблонным.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обнаружения шаблонных изображений.
- Система получает доступ к коллекции изображений.
- Изображения кластеризуются для генерации кластеров точных дубликатов (exact-duplicate image clusters) и/или кластеров близких дубликатов (near-duplicate image clusters).
- Для кластеров близких дубликатов определяется linking sources measure (мера ссылающихся источников), основанная на количестве источников изображений в кластере.
- Идентифицируются кластеры-шаблоны. Ключевой критерий: идентификация кластеров, у которых linking sources measure превышает пороговое значение.
Система ищет группы похожих изображений, которые встречаются на слишком большом количестве разных сайтов, что является сильным сигналом того, что это изображение-заглушка.
Claim 4 и 5 (Зависимые): Уточняют методы кластеризации.
- Claim 4: Рассчитывается image signature (например, хэш) для поиска точных дубликатов.
- Claim 5: Рассчитывается feature representation (например, визуальные признаки) для поиска близких дубликатов на основе дистанции между признаками.
Claim 6 (Зависимый): Описывает использование CTR для идентификации шаблонов.
- Определяется click-through rate для изображений в кластерах.
- Для каждого кластера рассчитывается мера CTR (click-through rate measure).
- Кластеры ранжируются на основе этой меры.
- Кластеры, у которых мера CTR ниже порогового значения, идентифицируются как шаблоны.
Система идентифицирует группы похожих изображений, на которые пользователи редко кликают, что является сильным сигналом их низкой информативности и шаблонности.
Claim 8 (Зависимый): Описывает использование внутренней вариативности кластера.
- Определяется intra-cluster image variance (внутренняя вариативность изображений) для кластеров близких дубликатов.
- Кластеры ранжируются на основе этой вариативности.
- Кластеры, у которых вариативность ниже порогового значения (т.е. изображения очень похожи друг на друга), идентифицируются как шаблоны.
Claim 9 (Зависимый): Описывает использование машинного обучения.
- Обучается machine-learning classifier для идентификации кластеров-шаблонов с использованием двух или более сигналов, подходящих для обнаружения шаблонов (например, CTR, источники, визуальные характеристики, наличие текста — Claim 10, 11).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, в основном связанных с обработкой изображений.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает цифровые изображения и связанные с ними URL из интернета (например, с сайтов e-commerce).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.
- Извлечение признаков: Для каждого изображения рассчитываются Image Signature (для точных дубликатов) и Feature Representation (для близких дубликатов).
- Сбор метаданных: Система собирает и ассоциирует с изображениями поведенческие данные (Click-through rate) и данные об источниках (Linking sources count).
- Кластеризация и Анализ: Процесс кластеризации всего корпуса изображений и последующий анализ кластеров для выявления шаблонов происходит офлайн.
- Создание базы данных: Результатом является Placeholder Image Database – база данных идентифицированных шаблонных изображений.
RANKING / RERANKING (в контексте Image Search или Product Search)
На этапе ранжирования система может использовать Placeholder Image Database для фильтрации или значительного понижения шаблонных изображений в результатах поиска по картинкам или в продуктовой выдаче.
Входные данные:
- Коллекция цифровых изображений (пиксельные данные).
- Метаданные изображений (CTR, URL, количество ссылающихся источников).
Выходные данные:
- База данных идентифицированных кластеров шаблонных изображений.
- Метка (placeholder/not placeholder) для конкретного изображения при сравнении с базой.
На что влияет
- Конкретные ниши или тематики: Наибольшее влияние оказывается на E-commerce, продуктовые каталоги, сайты недвижимости, доски объявлений – любые ниши, где часто используются заглушки из-за отсутствия реальных фотографий товаров или объектов.
- Типы контента: Карточки товаров, изображения профилей пользователей, превью объектов.
- Форматы поиска: Google Images (Поиск по картинкам), Google Shopping (Продуктовый поиск), блоки с изображениями в основной веб-выдаче.
Когда применяется
- Временные рамки: Процесс кластеризации и анализа большого корпуса изображений выполняется периодически в офлайн-режиме для обновления Placeholder Image Database.
- Применение фильтрации: Сравнение новых или уже проиндексированных изображений с базой данных шаблонов происходит либо на финальных этапах индексирования, либо в реальном времени при формировании поисковой выдачи для пользователя.
Пошаговый алгоритм
Процесс А: Идентификация кластеров-шаблонов (Офлайн)
- Сбор и доступ к данным: Система получает доступ к коллекции цифровых изображений и связанным метаданным.
- Кластеризация точных дубликатов:
- Вычисление Image Signature (например, MD5 hash) для каждого изображения.
- Группировка изображений с идентичными сигнатурами в exact-duplicate clusters.
- Кластеризация близких дубликатов:
- Вычисление Feature Representation (например, wavelet-based fingerprints) для каждого изображения.
- Группировка изображений на основе дистанции между их признаками (например, используя connected component analysis или leader clustering) в near-duplicate clusters.
- Определение параметров кластеров: Для полученных кластеров вычисляются ключевые метрики:
- Linking sources measure: Количество уникальных источников (сайтов), использующих изображения из кластера.
- Click-through rate measure: Агрегированный показатель CTR для изображений кластера.
- Intra-cluster image variance: Степень визуального сходства внутри кластера.
- Размер кластера.
- Отбор и Ранжирование кластеров (Выбор шаблонов): Кластеры оцениваются на предмет вероятности того, что они являются шаблонами. Это может быть реализовано двумя способами:
- На основе порогов: Отбираются кластеры, у которых Linking sources measure ВЫШЕ порога (много сайтов) И Click-through rate measure НИЖЕ порога (мало кликов).
- На основе ML: Используется обученный machine-learning classifier, который принимает на вход параметры кластеров и выдает оценку шаблонности.
- Верификация (Опционально): Выбранные кластеры могут быть проверены человеком-оценщиком, особенно пограничные случаи.
- Сохранение: Идентифицированные кластеры сохраняются в Placeholder Image Database.
Процесс Б: Проверка нового изображения (Онлайн или Индексация)
- Получение изображения: Система получает новое изображение для проверки.
- Сравнение: Изображение сравнивается с кластерами в Placeholder Image Database.
- Определение: Если сходство с одним из шаблонных кластеров превышает порог, изображение помечается как шаблонное.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Пиксельные данные изображений. Они используются для расчета хэш-сумм и извлечения визуальных признаков (features).
- Поведенческие факторы: Click-through rate (CTR). Данные о кликах пользователей на изображения в результатах поиска или на сайтах.
- Ссылочные/Структурные факторы: Данные об источниках изображений. Система анализирует, сколько различных источников (Linking sources count) ссылаются на данное изображение или используют его.
- Контентные факторы (Опционально): Наличие текста на изображении (может быть определено через OCR) может использоваться как один из сигналов для machine-learning classifier.
Какие метрики используются и как они считаются
- Image Signature: Хэш-функция (например, MD5), применяемая к данным изображения для поиска точных совпадений.
- Feature Representation: Вектор признаков, рассчитанный с помощью методов компьютерного зрения (например, Wavelet transforms, SIFT).
- Дистанция между изображениями: Метрика расстояния (например, Jaccard distance), применяемая к Feature Representations для определения близости дубликатов.
- Linking sources measure: Статистическая метрика, рассчитываемая для кластера на основе количества уникальных источников изображений в нем. Используется порог: если ВЫШЕ порога – вероятно шаблон.
- Click-through rate measure: Статистическая метрика (например, средний или медианный CTR), рассчитываемая для кластера. Используется порог: если НИЖЕ порога – вероятно шаблон.
- Intra-cluster image variance: Мера визуального разнообразия внутри кластера. Если НИЖЕ порога (все очень похожи) – вероятно шаблон.
- ML Classifier Score: Оценка, выдаваемая классификатором машинного обучения, часто являющаяся взвешенной суммой различных сигналов (включая вышеперечисленные метрики, размер кластера, визуальные характеристики).
Выводы
- Автоматическое выявление низкокачественного визуального контента: Патент описывает масштабируемый механизм для борьбы с неинформативными изображениями-заглушками без необходимости ручного труда или сложных правил для каждого сайта.
- Кластеризация как основа: Система полагается на то, что шаблонные изображения массово повторяются. Обнаружение точных и близких дубликатов является фундаментом для дальнейшего анализа.
- Ключевые сигналы шаблонности – Поведение и Распространение: Патент четко определяет два критически важных сигнала для идентификации шаблонов:
- Распространение (High Linking Sources): Изображение используется на слишком большом количестве разных сайтов.
- Поведение (Low CTR): Пользователи редко кликают на изображение.
- Комбинирование сигналов через ML: Использование Machine-learning classifier позволяет Google комбинировать множество сигналов (CTR, источники, размер кластера, визуальные признаки, наличие текста) для более точной и устойчивой идентификации шаблонов.
- Влияние на Image SEO: Изображения, идентифицированные как шаблоны, будут исключены или сильно понижены в поиске по картинкам и продуктовой выдаче. Уникальность и привлекательность (высокий CTR) изображений критически важны.
Практика
Best practices (это мы делаем)
- Использование уникальных реальных изображений: Ключевая рекомендация для E-commerce и контентных сайтов. Необходимо использовать реальные фотографии товаров, объектов или уникальные иллюстрации. Это гарантирует, что изображения не попадут в кластеры шаблонов.
- Приоритезация создания визуального контента: Если на сайте много товаров без фотографий, необходимо разработать стратегию по их получению. Отсутствие фото и использование заглушек напрямую ведет к потере видимости в Google Images и продуктовых блоках.
- Повышение привлекательности изображений (Image CTR Optimization): Работать над качеством, релевантностью и привлекательностью изображений. Поскольку низкий CTR является сигналом шаблонности, поддержание высокого CTR помогает системе классифицировать изображение как полезное и востребованное.
- Управление отсутствующими изображениями (Техническая рекомендация): Если изображение действительно отсутствует, лучше не показывать ничего или использовать минималистичный, технический плейсхолдер (например, через CSS background). Если используется файл-заглушка, его следует закрыть от индексации (например, через robots.txt или X-Robots-Tag).
Worst practices (это делать не надо)
- Использование стандартных заглушек: Использование изображений с текстом «Фото скоро будет», «Image Not Available», «Нет картинки» и т.п. гарантирует, что система, описанная в патенте, идентифицирует их и отфильтрует.
- Использование одинаковых шаблонов для разных товаров: Применение одного и того же изображения-заглушки для сотен или тысяч товаров создает большой кластер с высоким Linking sources count (в рамках одного или разных доменов), что является триггером для алгоритма.
- Игнорирование качества превью: Создание неинформативных или непривлекательных превью, которые приводят к низкому CTR, повышает риск того, что даже реальные изображения будут оценены системой как низкокачественные или шаблонные.
Стратегическое значение
Патент подтверждает стратегический фокус Google на качестве и информативности визуального контента. В контексте E-commerce это означает, что наличие реальных изображений является не просто рекомендацией по юзабилити, а обязательным техническим условием для успешного ранжирования в поиске по картинкам и Google Shopping. Система использует поведенческие факторы (CTR) как меру качества изображения, что требует от SEO-специалистов и владельцев сайтов внимания к оптимизации привлекательности визуального контента.
Практические примеры
Сценарий: Повышение видимости интернет-магазина в Google Images
Ситуация: Интернет-магазин электроники имеет 10,000 товаров. Для 3,000 из них нет фотографий от поставщика, и сайт использует стандартную заглушку «Фотография товара временно недоступна». Видимость этих товаров в Google Images нулевая.
Применение патента: Google проиндексировал эти 3,000 заглушек. Алгоритм кластеризации объединил их в один большой кластер (exact-duplicate cluster). Система проанализировала кластер и обнаружила: Linking sources count = 1 (один сайт, но много URL), Click-through rate = 0.01% (очень низкий). Кластер был идентифицирован как Placeholder Image Cluster и отфильтрован из выдачи.
Действия SEO-специалиста:
- Аудит изображений: Выявить все товары, использующие заглушки.
- Приоритезация: Сосредоточиться на получении реальных фотографий для наиболее маржинальных или популярных товаров из списка.
- Замена контента: Заменить заглушки на реальные фотографии. Даже базовые фотографии, сделанные самостоятельно, лучше заглушек.
- Оптимизация привлекательности: Убедиться, что новые фотографии четкие, информативные и хорошо выглядят в превью, чтобы стимулировать высокий CTR.
- Переиндексация: Отправить новые URL изображений на переиндексацию.
Ожидаемый результат: Новые изображения индексируются как уникальные. Они не попадают в кластеры шаблонов и имеют более высокий CTR. Видимость товаров в Google Images и продуктовых блоках значительно возрастает.
Вопросы и ответы
Как Google отличает популярное стоковое изображение или мем от шаблонной заглушки?
Патент фокусируется на комбинации сигналов. Хотя и мем, и заглушка могут иметь высокий показатель Linking sources count (используются на многих сайтах), они, скорее всего, будут иметь разный Click-through rate. Мемы и популярные стоковые фото часто имеют средний или высокий CTR, так как они интересны пользователям. Заглушки («Image Not Available») имеют стабильно низкий CTR, так как они неинформативны. Система ищет комбинацию широкого распространения и низкой кликабельности.
Влияет ли этот патент на ранжирование стандартных веб-страниц (синих ссылок)?
Патент напрямую описывает обработку изображений для улучшения качества поиска по картинкам или продуктовой выдачи. Однако, если веб-страница в значительной степени состоит из шаблонных изображений (например, страница каталога с заглушками), это может косвенно повлиять на общую оценку качества страницы и ее пользовательский опыт, что может учитываться основными алгоритмами ранжирования. Также это влияет на видимость страницы в блоках с изображениями в основной SERP.
Какие метрики самые важные для идентификации шаблона согласно патенту?
Патент выделяет две ключевые метрики как сильные индикаторы шаблонности: Linking sources measure (мера ссылающихся источников) ВЫШЕ порога и Click-through rate measure (мера CTR) НИЖЕ порога. Иными словами, это изображения, которые встречаются повсеместно, но никому не интересны.
Что делать интернет-магазину, если у него тысячи товаров и нет возможности сделать фото для всех?
Необходимо признать, что товары с заглушками не будут ранжироваться в поиске по картинкам. Стратегия должна включать: 1) Приоритезацию получения фото для самых важных товаров. 2) Использование фотографий от поставщиков, если они доступны (хотя они не уникальны, они лучше заглушек). 3) Рассмотрение возможности исключения товаров без фото из индексации картинок, чтобы не тратить краулинговый бюджет на заглушки.
Использует ли Google OCR (распознавание текста) для поиска слов типа «Image Not Available»?
В разделе Background патента упоминается, что OCR является одним из существующих, но недостаточно точных и масштабируемых методов, так как существует много вариаций текста, разные языки, и многие заглушки вообще не содержат текста. Описанная в патенте система кластеризации и анализа поведения является более надежной альтернативой. Однако, наличие текста (определенное через OCR) может использоваться как один из сигналов для machine-learning classifier (Claim 10).
Как система обрабатывает близкие дубликаты (Near-duplicates)?
Система рассчитывает Feature Representation (например, с помощью вейвлет-преобразований) для изображений и сравнивает их, используя метрику дистанции. Если дистанция меньше порога, изображения считаются близкими дубликатами (например, одно и то же изображение в разных размерах или форматах) и объединяются в один кластер. Затем этот кластер анализируется целиком.
Насколько похожими должны быть изображения внутри кластера, чтобы он считался шаблонным?
Патент (Claim 8) предлагает использовать метрику intra-cluster image variance (внутренняя вариативность кластера). Если вариативность ниже определенного порога, это означает, что все изображения в кластере очень похожи друг на друга, что усиливает уверенность системы в том, что это шаблон.
Может ли этот алгоритм ошибочно принять уникальное изображение за шаблон?
Если уникальное изображение имеет крайне низкий CTR и по какой-то причине его визуальные характеристики (Feature Representation) окажутся близки к существующему кластеру шаблонов, теоретически это возможно. Однако основная логика опирается на анализ кластеров (групп повторяющихся изображений), а не отдельных уникальных картинок.
Как быстро система обнаруживает новые типы шаблонных изображений?
Обнаружение происходит во время офлайн-процесса кластеризации и анализа всего корпуса изображений (Процесс А). Скорость обнаружения зависит от частоты запуска этого процесса и скорости индексации новых изображений в интернете. Как только новый шаблон наберет критическую массу повторений и данных по CTR/источникам, он будет обнаружен при следующем запуске анализа.
Влияет ли alt-текст или окружающий текст на определение шаблонности изображения?
Патент не упоминает анализ alt-текста или окружающего контента страницы как фактор для определения шаблонности изображения. Анализ основан исключительно на пиксельных данных самого изображения (для кластеризации) и связанных с ним метаданных (CTR и количество ссылающихся источников).