Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует «Идентификаторы Групп Изображений» для обнаружения дубликатов и отдает предпочтение первоисточникам в поиске по картинкам

    IMAGE SEARCH (Поиск изображений)
    • US8909625B1
    • Google LLC
    • 2014-12-09
    • 2012-05-17
    2012 Индексация Мультимедиа Патенты Google

    Google использует систему для повышения визуального разнообразия в поиске по картинкам. Система заранее (офлайн) анализирует визуальное сходство изображений и объединяет их в группы. Если в результатах поиска появляются два изображения из одной группы (почти дубликаты), система корректирует выдачу, понижая более новую версию и отдавая предпочтение более ранней (оригиналу).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему низкого визуального разнообразия (Diversity) в результатах поиска по изображениям. Стандартные алгоритмы часто заполняют выдачу near-duplicate images (почти дубликатами) — например, одно и то же изображение на разных сайтах или его незначительные вариации. Это ухудшает пользовательский опыт. Кроме того, патент решает проблему вычислительной сложности: анализ визуального сходства ресурсоемок, и система предлагает способ делать это эффективно, не замедляя поиск в реальном времени.

    Что запатентовано

    Запатентована система для эффективного обнаружения и фильтрации почти дубликатов изображений. Изобретение использует двухэтапный подход. Офлайн система предварительно вычисляет визуальное сходство и присваивает изображениям Image Group Identifiers (IGIDs). Онлайн, во время запроса, система быстро сравнивает эти идентификаторы. При обнаружении совпадения изображения признаются дубликатами, и система корректирует их позиции, отдавая предпочтение более ранней проиндексированной версии.

    Как это работает

    Система работает в два этапа:

    Офлайн (Индексирование):

    • Изображения упорядочиваются по fixed attribute (времени индексации/timestamp).
    • Система сравнивает каждое новое изображение с более старыми, вычисляя Image Similarity Score на основе визуальных характеристик (feature values).
    • Если сходство превышает порог, новое изображение наследует Image Group Identifier (IGID) старого.

    Онлайн (Обработка запроса):

    • Система генерирует начальный набор результатов и проверяет их IGID.
    • Если два изображения имеют общий IGID, они помечаются как near-duplicate images.
    • Система корректирует presentation position одного из дубликатов. Конкретно (согласно Claim 7), понижается изображение с самой последней временной меткой (самое новое).

    Актуальность для SEO

    Высокая. Обеспечение разнообразия выдачи и эффективная дедупликация визуального контента являются фундаментальными задачами для современных поисковых систем, особенно с ростом значимости Google Images и Google Lens. Описанный механизм предлагает масштабируемое инфраструктурное решение для управления качеством поиска по изображениям и определения первоисточников.

    Важность для SEO

    Патент имеет существенное значение (7/10) для стратегий продвижения в Google Images (Image SEO). Он описывает конкретный механизм, который может привести к фильтрации изображения, если оно признано визуальным дубликатом. Более того, он явно указывает на предпочтение более старых версий изображений. Это подчеркивает критическую важность не только создания уникального визуального контента, но и обеспечения его максимально быстрой индексации.

    Детальный разбор

    Термины и определения

    Feature Values (Значения признаков)
    Числовые значения, представляющие визуальные характеристики изображения (цвет, текстура, края и т.д.). Используются для расчета визуального сходства.
    Fixed Attribute (Фиксированный атрибут)
    Значение, присваиваемое изображению, которое не меняется со временем. Используется для упорядочивания изображений в офлайн-процессе. Основной пример — timestamp (временная метка) индексации.
    Image Group Identifier (IGID) (Идентификатор группы изображений)
    Метка, указывающая на принадлежность изображения к группе визуально похожих изображений. У изображения может быть набор IGID.
    Image Similarity Score (Оценка сходства изображений)
    Числовое значение, указывающее на степень визуального сходства между двумя изображениями. Рассчитывается на основе Feature Values.
    Near-duplicate images (Почти дубликаты изображений)
    Изображения, чья оценка сходства превышает Similarity Threshold, или которые имеют общий IGID.
    Ordinal Position (Порядковая позиция)
    Позиция изображения после упорядочивания по Fixed Attribute. Например, самое старое изображение имеет наивысшую позицию.
    Reference Image (Эталонное изображение)
    Изображение, выбранное в офлайн-процессе, с которым сравниваются другие изображения для определения сходства.
    Similarity Threshold (Порог сходства)
    Минимальное значение Image Similarity Score, необходимое для классификации изображения как почти дубликата.

    Ключевые утверждения (Анализ Claims)

    Патент разделяет процесс на онлайн-фильтрацию и офлайн-генерацию идентификаторов.

    Claim 1 (Независимый пункт) — Онлайн-процесс: Описывает метод корректировки результатов в реальном времени.

    1. Система получает результаты поиска изображений и их предполагаемые позиции (candidate presentation positions).
    2. Получаются наборы Image Group Identifiers (IGID) для этих изображений.
    3. Система находит совпадение IGID (matching image group identifier) у двух изображений.
    4. На основании совпадения они определяются как near-duplicate images.
    5. Система корректирует позицию первого дубликата, перемещая его на более низкую позицию (lower presentation position) относительно второго дубликата.

    Claim 2 (Зависимый от 1) — Офлайн-процесс: Описывает, как генерируются IGID.

    1. Система анализирует коллекцию изображений, используя визуальные характеристики (feature values).
    2. Выбирается эталонное изображение (reference image).
    3. Рассчитываются Image Similarity Scores с другими изображениями.
    4. Если оценка превышает Similarity Threshold, IGID похожего изображения включается в набор IGID эталонного изображения.

    Claims 3-5 (Зависимые) — Оптимизация офлайн-процесса: Описывают ключевой механизм эффективности.

    • Изображения упорядочиваются по fixed attribute (Claim 3), конкретно по timestamp (Claim 4), от старых к новым (самое старое имеет наивысшую порядковую позицию).
    • При выборе эталонного изображения (Claim 5) сравнение происходит только с изображениями, имеющими более высокие порядковые позиции (т.е. с более старыми). Это позволяет избежать избыточных сравнений и делает процесс масштабируемым.

    Claim 7 (Зависимый от 4) — Правило понижения: Критически важный пункт для SEO.

    • Корректировка позиции (понижение) применяется к тому из дубликатов, который имеет самую последнюю временную метку (timestamp that specifies a most recent time). Система явно предпочитает более старую (ранее проиндексированную) версию изображения.

    Где и как применяется

    Изобретение затрагивает два ключевых этапа поисковой архитектуры: индексирование (предварительные вычисления) и переранжирование (применение фильтров).

    INDEXING – Индексирование и извлечение признаков

    На этом этапе происходит офлайн-обработка:

    1. Извлечение визуальных характеристик (feature values) и фиксация timestamps.
    2. Офлайн-кластеризация: Запускается процесс, который анализирует визуальное сходство, используя упорядочивание по времени, и генерирует наборы Image Group Identifiers (IGIDs).
    3. IGIDs сохраняются в индексе (Image Store).

    RERANKING – Переранжирование

    Здесь применяется логика патента в реальном времени для обеспечения разнообразия (Diversity):

    1. Система получает начальный набор результатов от этапа RANKING.
    2. Извлекаются IGIDs и Timestamps для этих результатов.
    3. Обнаружение дубликатов: Быстрое сравнение наборов IGID.
    4. Корректировка позиций: Если обнаружены совпадения, система применяет логику корректировки (понижение или фильтрация) к одному из дубликатов, основываясь на timestamp (понижается более новый).

    Входные данные:

    • Офлайн: Корпус изображений, Feature values, Timestamps.
    • Онлайн: Предварительный набор результатов поиска, IGIDs для этих результатов, Timestamps.

    Выходные данные:

    • Офлайн: Наборы IGID для каждого изображения в индексе.
    • Онлайн: Скорректированный набор результатов поиска с повышенным визуальным разнообразием.

    На что влияет

    • Типы контента: Влияет исключительно на поиск по изображениям (Image Search) и блоки изображений в универсальном поиске.
    • Конкретные ниши: Сильное влияние в E-commerce (стандартные фото товаров), новостях (фото событий), стоковых фотографиях, где изображения часто дублируются на разных сайтах.

    Когда применяется

    • Условия работы: Офлайн-процесс работает постоянно по мере индексации. Онлайн-процесс активируется при обработке запросов к поиску изображений.
    • Триггеры активации (Онлайн): Обнаружение двух или более изображений в наборе результатов, которые имеют совпадающий Image Group Identifier.

    Пошаговый алгоритм

    Процесс А: Офлайн-генерация идентификаторов групп (Кластеризация)

    1. Доступ к данным: Получение feature values и fixed attribute (timestamp) для изображений.
    2. Упорядочивание: Изображения сортируются по timestamp (от старых к новым). Самое старое получает наивысшую порядковую позицию.
    3. Инициализация: Каждому изображению может быть присвоен начальный уникальный IGID.
    4. Выбор эталона: Система итеративно выбирает следующее изображение в порядке сортировки как reference image.
    5. Вычисление сходства: Для эталона вычисляются Image Similarity Scores по отношению к изображениям, которые находятся выше в списке (т.е. являются более старыми).
    6. Сравнение с порогом: Определяется, превышает ли оценка Similarity Threshold.
    7. Наследование идентификаторов: Если порог превышен, эталонное (новое) изображение наследует IGID более старого похожего изображения.
    8. Повторение: Переход к шагу 4, пока не будут обработаны все изображения.

    Процесс Б: Онлайн-фильтрация результатов поиска (Обеспечение разнообразия)

    1. Получение результатов: Система получает начальный набор релевантных изображений с их позициями.
    2. Получение данных: Для каждого изображения извлекается его набор IGID и его timestamp.
    3. Обнаружение дубликатов: Система ищет совпадения IGID между разными изображениями. Если совпадение найдено, они идентифицируются как near-duplicate images.
    4. Выбор цели для корректировки: Система определяет, какой из дубликатов будет скорректирован. Согласно Claim 7, выбирается изображение с самой последней временной меткой (самое новое).
    5. Корректировка позиций: Позиция выбранного изображения понижается (демоушен) или оно удаляется из текущей страницы результатов.
    6. Предоставление результатов: Скорректированный набор результатов отправляется пользователю.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы (Визуальные характеристики / Feature Values): Основа для определения сходства. Патент упоминает гистограммы цветов (color histograms), обнаружение текстуры (texture detection), SIFT (Scale-Invariant Feature Transform), обнаружение границ (edge detection), углов и геометрическое размытие (geometric blur).
    • Временные факторы (Timestamp / Fixed Attribute): Время индексации изображения. Критически важно для двух целей: 1) Эффективность офлайн-процесса (упорядочивание). 2) Принятие решения о понижении в онлайн-процессе (понижается более новое).

    Какие метрики используются и как они считаются

    • Image Similarity Score: Метрика визуального сходства. Рассчитывается на основе сравнения векторов feature values. Может использоваться Манхэттенское (Manhattan distance) или Евклидово расстояние (Euclidean distance) для генерации вектора визуального расстояния (visual distance vector). К этому вектору может применяться модель сходства (image similarity model).
    • Similarity Threshold: Пороговое значение для Image Similarity Score.
    • Ordinal Position: Порядковая позиция изображения, определенная на основе timestamp. Используется для оптимизации офлайн-процесса.

    Выводы

    1. Приоритет визуального разнообразия: Google активно вмешивается в ранжирование Image Search, чтобы предотвратить доминирование визуально похожих изображений (near-duplicate images) в выдаче.
    2. Эффективность за счет пре-калькуляции: Ресурсоемкий анализ визуального сходства выполняется офлайн. Использование Image Group Identifiers позволяет проводить дедупликацию очень быстро во время выполнения запроса.
    3. Оптимизированная кластеризация по времени: Ключевая особенность — упорядочивание по timestamp и сравнение новых изображений только со старыми. Это делает процесс масштабируемым и позволяет эффективно наследовать идентификаторы.
    4. Предпочтение оригиналу (более старой версии): Критический вывод из Claim 7: при обнаружении дубликатов система понижает изображение с самой последней временной меткой (самое новое). Google стремится показывать первоисточник или самую раннюю проиндексированную версию.
    5. Основа — визуальные признаки: Определение дубликатов базируется на визуальном содержании (feature values), а не на метаданных. Изменения размера или формата файла не влияют на статус дубликата, если визуальное сходство сохраняется.

    Практика

    Best practices (это мы делаем)

    • Создание уникального визуального контента: Это ключевая стратегия. Уникальные изображения не будут иметь общих Image Group Identifiers с другими результатами и не будут отфильтрованы как дубликаты.
    • Обеспечение быстрой индексации оригиналов: Поскольку система предпочитает изображение с более ранним timestamp (Claim 7), критически важно обеспечить быстрое обнаружение и индексацию вашего оригинального контента. Используйте Image Sitemaps и следите за технической оптимизацией сканирования, чтобы зафиксировать статус первоисточника.
    • Существенная модификация неуникальных изображений: Если используются стоковые фото или фото от производителя, их следует значительно модифицировать, чтобы изменить визуальные характеристики (feature values). Простого изменения размера или добавления логотипа недостаточно для обхода системы обнаружения near-duplicate images.
    • Дифференциация вариаций товаров (E-commerce): Для товаров с незначительными отличиями (например, цвет) делайте фотографии с разных ракурсов или в разном окружении, чтобы их Image Similarity Score не превышал порог. Это позволит разным вариациям ранжироваться независимо.

    Worst practices (это делать не надо)

    • Использование стандартных стоковых фото или фото от производителя без изменений: Это прямой путь к кластеризации с другими сайтами. Ваше изображение, скорее всего, будет считаться более новым дубликатом (более поздний timestamp) и будет понижено.
    • Копирование изображений конкурентов: Использование чужих изображений гарантирует, что ваша версия будет вторичной и будет понижена при обнаружении дубликатов в выдаче.
    • Массовая генерация страниц с минимальными вариациями изображений: Система объединит их в одну группу и покажет только один вариант. Незначительные изменения (кроп, цветокоррекция) неэффективны против визуального анализа сходства.

    Стратегическое значение

    Патент подтверждает способность Google анализировать и понимать визуальный контент в огромных масштабах. Система вознаграждает создание оригинального контента и наказывает за копирование, явно отдавая предпочтение первоисточникам (более ранним версиям). Для долгосрочной стратегии в Image SEO уникальность самого визуального актива и скорость его попадания в индекс являются ключевыми факторами успеха.

    Практические примеры

    Сценарий: E-commerce магазин и стандартные фото производителя

    1. Ситуация: 50 интернет-магазинов продают кроссовки Модель X и используют стандартное фото от производителя.
    2. Офлайн-процесс Google: Система индексирует эти 50 изображений. Самое первое проиндексированное фото (например, на сайте Производителя в 2023 году) становится эталоном группы. Все последующие копии (проиндексированные в 2024-2025 годах) признаются дубликатами и получают общий Image Group Identifier (IGID-X).
    3. Онлайн-процесс: Пользователь ищет «кроссовки Модель X». В начальном ранжировании 15 из этих магазинов попадают в Топ-20.
    4. Активация фильтрации (RERANKING): Система обнаруживает, что у 15 результатов общий IGID-X. Они помечаются как near-duplicate images.
    5. Корректировка (Claim 7): Система проверяет timestamps. Она оставляет в топе изображение с самой ранней меткой (сайт Производителя, 2023 год). Остальные 14 результатов (2024-2025 годы) понижаются в выдаче (adjusted presentation position).
    6. Действия SEO-специалиста: Чтобы избежать фильтрации, магазину необходимо сделать собственные уникальные фотографии. Это изменит визуальные характеристики и позволит избежать присвоения IGID-X.

    Вопросы и ответы

    Как Google определяет, что изображения являются «почти дубликатами» (near-duplicates)?

    Google использует офлайн-процесс для анализа визуальных характеристик (Feature Values), таких как цвет, текстура и формы (например, с помощью SIFT). На основе этих данных рассчитывается оценка визуального сходства (Image Similarity Score). Если эта оценка превышает порог (Similarity Threshold), изображения считаются почти дубликатами.

    Какой из дубликатов Google понизит в выдаче?

    Патент явно указывает в Claim 7, что понижение применяется к изображению, имеющему самую позднюю временную метку (most recent timestamp). Это означает, что Google отдает предпочтение той версии изображения, которая была проиндексирована первой. Система стремится показать оригинал или самую раннюю версию.

    Означает ли это, что всегда лучше быть первым, кто опубликует изображение?

    Да, это дает значительное преимущество в контексте этого механизма. Поскольку система склонна понижать более новые дубликаты, контроль первой индексации (получение самого раннего timestamp) критически важен для обеспечения видимости оригинального контента в Image Search.

    Что такое «Фиксированный атрибут» (Fixed Attribute) и почему он важен?

    Fixed Attribute — это, как правило, временная метка индексации изображения (timestamp). Он используется для упорядочивания изображений от старых к новым. Это критически важно для эффективности офлайн-процесса, так как позволяет системе сравнивать каждое новое изображение только с более старыми, значительно сокращая количество необходимых вычислений и делая процесс масштабируемым.

    Достаточно ли изменить размер изображения или добавить водяной знак, чтобы оно считалось уникальным?

    Скорее всего, нет. Система использует устойчивые визуальные признаки для расчета Image Similarity Score. Незначительные изменения, такие как масштабирование, легкое кадрирование или добавление небольшого логотипа, могут не повлиять на оценку сходства, и изображение все равно будет классифицировано как дубликат.

    Как это влияет на использование стоковых фотографий?

    Это значительно снижает SEO-ценность использования популярных стоковых изображений без изменений. Поскольку они уже проиндексированы на множестве сайтов, ваша копия, скорее всего, будет иметь более поздний timestamp и будет понижена в пользу более ранних версий или других уникальных изображений в выдаче.

    Почему Google не выполняет анализ визуального сходства прямо во время запроса?

    Анализ визуального сходства — это вычислительно дорогая операция. Выполнение ее в реальном времени значительно замедлило бы поиск. Патент решает эту проблему путем предварительного вычисления сходства офлайн и сохранения результатов в виде компактных Image Group Identifiers, которые можно быстро проверить во время запроса.

    Как работает наследование идентификаторов групп?

    Когда система анализирует новое изображение и обнаруживает сходство с более старым, новое изображение «наследует» Image Group Identifier старого. Это позволяет связать множество похожих изображений в одну группу транзитивно, даже если они не сравнивались напрямую друг с другом (например, если А похожа на Б, а В похожа на Б, то А и В окажутся в одной группе).

    Как ускорить индексацию моих изображений, чтобы получить более ранний Timestamp?

    Для этого необходимо следовать лучшим практикам технического SEO: использовать Image Sitemaps, обеспечить высокую скорость загрузки страниц и изображений, а также использовать семантическую разметку HTML. Это поможет Google быстрее обнаружить и проиндексировать ваш контент и зафиксировать ранний timestamp.

    Как этот патент влияет на SEO для E-commerce сайтов?

    Он критически важен. Магазины, использующие стандартные фотографии товаров от производителя, рискуют потерять видимость в поиске по картинкам, так как их изображения будут отфильтрованы как более новые дубликаты. Преимущество получают магазины, которые инвестируют в создание собственных уникальных фотографий товаров.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.