Анализ патента Google, описывающего гибридную систему поиска по изображению. Система обучается понимать визуальное сходство на основе оценок людей (Similarity Feedback). Она уточняет семантику изображения, анализируя текстовые метки визуально похожих картинок (High Confidence Labels), и применяет сложные фильтры (Co-distance, Dominant Characteristic) для обеспечения визуальной однородности финальных результатов.
Описание
Какую задачу решает
Патент решает несколько ключевых проблем в системах поиска по изображению (Query by Image):
- Неточность текстовых данных: Текст, связанный с изображением (метки, labels), часто бывает шумным, неточным или манипулятивным, что снижает релевантность поиска.
- Разрыв между визуальным и семантическим сходством: Поиск может находить визуально похожие (visual relatedness) изображения, которые семантически (semantic relatedness) не связаны с запросом, и наоборот.
- Субъективность восприятия: Алгоритмическое восприятие сходства часто отличается от человеческого.
- Неоднородность выдачи: В результатах могут появляться визуальные выбросы (outliers), снижающие общее качество SERP.
Что запатентовано
Запатентована система поиска изображений, использующая гибридный подход для нахождения результатов, которые одновременно визуально похожи и семантически связаны с изображением-запросом. Ключевыми компонентами являются: (1) Механизм генерации высоконадежных меток (High Confidence Labels) путем кросс-валидации текста через визуальное сходство. (2) Модель визуального сходства (Image Similarity Model), обученная на основе обратной связи от пользователей (Similarity Feedback Data). (3) Процесс уточнения ранжирования (Ranking Refinement) для обеспечения визуальной однородности выдачи.
Как это работает
Система работает в несколько этапов (часть выполняется офлайн):
- Обучение модели (Офлайн): Модель визуального сходства обучается на основе человеческих оценок сходства (используя «триплеты» изображений), чтобы имитировать человеческое восприятие.
- Уточнение семантики: Для изображения-запроса система генерирует High Confidence Labels. Это делается путем анализа текстовых меток других изображений в индексе, которые визуально похожи на запрос.
- Поиск кандидатов: Эти надежные метки используются как текстовые запросы для поиска семантически связанных кандидатов.
- Визуальное ранжирование: Для кандидатов рассчитываются Visual Similarity Scores с помощью обученной модели. Оценка может быть повышена (boosted), если найдены общие уникальные признаки.
- Уточнение и Фильтрация (Reranking): Применяются фильтры для обеспечения однородности. Удаляются изображения без доминирующей характеристики (Dominant Characteristic) или те, что не похожи на другие топовые результаты (Similarity Condition).
Актуальность для SEO
Высокая. Описанные механизмы лежат в основе современных систем визуального поиска, таких как Google Images и Google Lens. Комбинация семантических сигналов и визуального анализа (мультимодальность), обучение моделей на основе пользовательского фидбека и фокус на качестве и однородности результатов остаются центральными задачами в развитии поиска.
Важность для SEO
Патент имеет критическое значение для стратегий продвижения в Google Images (Image SEO) и визуальном поиске. Он демонстрирует, что система активно использует визуальное сходство для валидации и уточнения текстовых меток, а не слепо доверяет тексту на странице. Это подчеркивает важность сочетания сильных семантических сигналов (точное текстовое окружение и атрибуты) и четких, высококачественных визуальных характеристик изображения.
Детальный разбор
Термины и определения
- Query Image (Изображение-запрос)
- Изображение, используемое в качестве входных данных для поисковой операции (поиска по картинке).
- Visual Relatedness (Визуальная связанность/сходство)
- Мера сходства изображений на основе их визуальных признаков.
- Semantic Relatedness (Семантическая связанность)
- Мера сходства текстовых описаний или меток изображений.
- Image Feature Scores (Оценки признаков изображения)
- Числовые значения визуальных характеристик (например, гистограммы цвета, текстуры, SIFT, geometric blur). Могут рассчитываться в разных масштабах (image scales).
- Visual Similarity Score (VSS) (Оценка визуального сходства)
- Числовая мера, показывающая, насколько изображение визуально похоже на Query Image. Рассчитывается с помощью Image Similarity Model.
- Image Similarity Model (Модель сходства изображений)
- Модель (например, вектор весов признаков), обученная на основе Similarity Feedback Data для предсказания визуального сходства.
- Similarity Feedback Data (Данные обратной связи о сходстве)
- Пользовательские оценки сходства. Собираются с помощью «триплетов» (Query Image + 2 training images), где пользователь указывает, какое изображение более похоже на запрос.
- Label (Метка)
- Текстовые данные, описывающие изображение (из метаданных, окружающего текста, анкоров и т.д.).
- High Confidence Labels (HCL) (Метки высокой достоверности)
- Метки, сгенерированные или подтвержденные на основе анализа меток других изображений, которые визуально похожи на исходное.
- Low Confidence Labels (LCL) / Initial Labels (Исходные метки)
- Первоначальный набор меток до процесса валидации.
- Common Distinct Set of Image Feature Values (Общий уникальный набор значений визуальных признаков)
- Набор значений признаков (например, совпадающие SIFT-дескрипторы), указывающий на наличие одного и того же уникального объекта на двух изображениях. Используется для повышения (boosting) VSS.
- Dominant Image Characteristic (Доминирующая характеристика изображения)
- Признак (например, «черно-белое», «содержит лицо»), который присутствует в пороговом количестве изображений в наборе результатов. Используется для фильтрации.
- Similarity Condition (Условие сходства)
- Правило переранжирования, которое требует от кандидата сходства с Query Image И с другими уже отобранными результатами. Включает Co-distance condition и Nearest neighbor condition.
- Co-distance Condition (Условие совместного расстояния)
- Условие, требующее, чтобы кандидат был визуально близок (в пределах порога) ко всем уже отобранным топовым результатам.
- Nearest Neighbor Condition (Условие ближайшего соседа)
- Условие, требующее, чтобы кандидат разделял пороговое количество ближайших визуальных соседей с Query Image и другими отобранными результатами.
Ключевые утверждения (Анализ Claims)
Патент US9053115B1 является продолжением (Continuation) более ранней заявки и фокусируется на механизмах переранжирования и требованиях к обучению модели сходства.
Claim 1 (Независимый пункт): Описывает метод уточнения ранжирования результатов для обеспечения однородности, используя модель, обученную на человеческих оценках.
- Система получает набор исходных результатов (plurality of images) в ответ на Query Image, удовлетворяющих начальному порогу сходства.
- Ключевое уточнение: Visual similarity score генерируется моделью, обученной на пользовательских оценках (user similarity feedback из триплетов) и расстояниях между признаками (feature distances).
- Система выбирает первый результат (first image), который удовлетворяет более строгому порогу сходства (first similarity threshold).
- Система проверяет второе изображение (second image) на соответствие Similarity Condition. Это условие требует определенной степени сходства как с Query Image, так и с первым изображением.
- Если ДА, второе изображение выбирается как финальный результат.
Ядро изобретения — обеспечение когезии (однородности) выдачи (результаты похожи друг на друга) с использованием модели, настроенной на человеческое восприятие.
Claim 2 (Зависимый от 1): Уточняет Similarity Condition как реализацию Co-distance. Второе изображение должно удовлетворять порогам сходства и с запросом, и с первым изображением.
Claim 4 и 5 (Зависимые от 1): Описывают альтернативную реализацию через Nearest Neighbors. Изображения выбираются, если они имеют пороговое число общих ближайших соседей с Query Image и друг с другом. Это гарантирует, что изображения находятся в одном визуальном кластере.
Claim 7 и 8 (Зависимые от 1): Описывают механизм фильтрации на основе Dominant Image Characteristic. Система определяет характеристику, присутствующую в большинстве результатов, и удаляет изображения, у которых эта характеристика отсутствует.
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры и используется в сценариях поиска по изображению (Google Images, Google Lens).
INDEXING – Индексирование и извлечение признаков
На этом этапе рассчитываются и сохраняются визуальные признаки (Image Feature Scores) и извлекаются исходные текстовые метки (Initial Labels).
(Офлайн-процессы и анализ данных)
Система проводит офлайн-обучение Image Similarity Model, используя собранные пользовательские данные (Similarity Feedback Data).
QUNDERSTANDING – Понимание Запросов
Когда поступает Query Image, система определяет его семантику. Ключевой частью является генерация High Confidence Labels (HCLs) путем анализа меток визуально похожих изображений. Этот процесс уточняет интент запроса.
RANKING – Ранжирование
- Отбор кандидатов (Retrieval): HCLs используются как текстовые запросы для поиска начального набора семантически релевантных кандидатов.
- Расчет оценок: Для кандидатов рассчитываются Visual Similarity Scores относительно Query Image с использованием обученной модели.
RERANKING – Переранжирование
Основной этап применения патента (Claims 1-15). Применяются механизмы уточнения (Ranking Refinement) для обеспечения качества и однородности:
- Применение фильтрации по Dominant Image Characteristic.
- Применение Similarity Condition (Co-distance или Nearest Neighbors) для отбора результатов, которые похожи и на запрос, и друг на друга.
На что влияет
- Специфические запросы: Влияет исключительно на запросы типа Query by Image (обратный поиск картинок, Google Lens).
- Конкретные ниши: Наибольшее влияние в E-commerce (поиск похожих товаров), моде, дизайне, искусстве — нишах, где визуальные характеристики и однородность выдачи критически важны.
Когда применяется
- Триггеры активации: Запуск поиска пользователем с использованием изображения в качестве запроса.
- Условия работы алгоритма уточнения меток (LCL -> HCL): Применяется для определения точной семантики изображения-запроса, особенно если исходные метки шумные или отсутствуют.
- Условия работы правил уточнения ранжирования: Применяются на финальном этапе к набору кандидатов, которые уже прошли первичный отбор по релевантности и базовому визуальному сходству.
Пошаговый алгоритм
Патент описывает несколько взаимосвязанных процессов.
Процесс А: Обучение модели визуального сходства (Офлайн)
- Сбор данных: Получение Similarity Feedback Data (оценки триплетов) от пользователей.
- Извлечение признаков: Получение Image Feature Scores для тренировочного набора.
- Расчет расстояний: Генерация Feature Distances между эталоном и тренировочными изображениями.
- Обучение модели: Тренировка Image Similarity Model (настройка весов признаков) для предсказания человеческого восприятия сходства.
Процесс Б: Генерация High Confidence Labels (HCLs)
- Сбор исходных меток: Выбор Initial Labels (LCL) для Query Image (QI) (на основе метаданных, текста, меток дубликатов и почти дубликатов).
- Поиск по LCL: Использование LCL как текстовых запросов для поиска связанных изображений.
- Визуальная оценка: Расчет Visual Similarity Scores для этих изображений относительно QI (используя модель из Процесса А).
- Отбор похожих: Выбор подмножества изображений, превышающих порог сходства.
- Сбор кандидатов в метки: Извлечение всех меток из отобранного подмножества.
- Ранжирование меток: Расчет Relevance Scores для меток-кандидатов (на основе авторитетности, частоты, визуального сходства источника).
- Выбор HCLs: Выбор топовых меток как High Confidence Labels для QI.
Процесс В: Ранжирование и Уточнение (Онлайн)
- Отбор кандидатов: Использование HCLs (из Процесса Б) как текстовых запросов для поиска финального набора кандидатов.
- Расчет сходства: Генерация Visual Similarity Scores для кандидатов относительно QI.
- (Опционально) Бустинг: Повышение оценки, если обнаружен Common Distinct Set of Image Feature Values.
- Уточнение 1 (Dominant Characteristic): Идентификация доминирующей характеристики в наборе. Удаление изображений, не обладающих ей.
- Уточнение 2 (Similarity Condition): Итеративный отбор результатов.
- Выбор топового результата (удовлетворяющего строгому порогу).
- Выбор следующего результата, только если он удовлетворяет Similarity Condition (Co-distance или Nearest Neighbor) относительно QI И уже выбранных результатов.
- Повторение до заполнения набора.
- Финальное ранжирование: Сортировка набора по итоговым Relevance Scores.
Какие данные и как использует
Данные на входе
- Мультимедиа (Визуальные) факторы: Image Feature Scores. Упоминаются цветовые гистограммы (color histograms), текстуры (texture), края (edges), SIFT (scale-invariant feature transform), corner detection, geometric blur. Признаки извлекаются в разных масштабах (image scales).
- Контентные (Текстовые) факторы: Текст рядом с изображением, метаданные, имена файлов. Используются для генерации Initial Labels и High Confidence Labels.
- Ссылочные факторы: Анкорный текст (anchor text) ссылок на изображение. Меры авторитетности (authority measures) или качества ресурсов используются при расчете надежности меток (Confidence Measure).
- Поведенческие факторы:
- Similarity Feedback Data: Оценки триплетов пользователями для обучения модели сходства.
- Relevance feedback data (например, CTR): Упоминается для ранжирования меток и изображений.
Какие метрики используются и как они считаются
- Feature Distance (Расстояние между признаками): Расстояние между оценками признаков двух изображений (например, Евклидово или Манхэттенское расстояние).
- Visual Similarity Score (VSS): Результат применения Image Similarity Model (вектора весов) к вектору расстояний признаков. Часто рассчитывается как скалярное произведение (dot product).
- Boost Factor (Коэффициент повышения): Множитель, применяемый к VSS, если обнаружен Common Distinct Set of Image Feature Values.
- Confidence Measure (Мера уверенности для меток): Оценка надежности метки. Зависит от авторитетности источников, количества дубликатов и количества различных визуальных кластеров (distinct image clusters) с этой меткой.
- Relevance Score (Оценка релевантности):
- Для меток: Мера для выбора HCLs. Зависит от Confidence Measure, relevance feedback и может быть взвешена по VSS источника метки.
- Для изображений: Финальная оценка для ранжирования. Основана на VSS и может включать другие сигналы (например, authority scores).
- Similarity Conditions (Co-distance, Nearest Neighbor): Пороговые значения, определяющие требуемую степень сходства или количество общих соседей для включения в финальную выдачу.
Выводы
- Гибридный подход к поиску изображений: Google не полагается только на текст или только на визуальный анализ. Семантика (метки) используется для поиска кандидатов, а визуальное сходство — для валидации семантики, ранжирования и фильтрации.
- Визуальное сходство валидирует семантику: Ключевой механизм — генерация High Confidence Labels. Система предполагает: если много визуально похожих изображений имеют общую метку, эта метка достоверна. Это позволяет отсеивать ошибочные или спамные текстовые ассоциации.
- Человеческое восприятие в основе модели сходства: Visual Similarity Score рассчитывается моделью, обученной на человеческих оценках (Similarity Feedback Data). Это позволяет системе улавливать нюансы визуального сходства лучше, чем стандартные алгоритмы.
- Фокус на однородности выдачи (Homogeneity): Патент уделяет большое внимание механизмам уточнения ранжирования. Фильтры Co-distance, Nearest Neighbor и Dominant Characteristic гарантируют, что результаты похожи не только на запрос, но и друг на друга, удаляя визуальные выбросы.
- Бустинг за уникальные совпадения: Наличие совпадающих отчетливых признаков (Common Distinct Set, например, SIFT) может привести к значительному повышению (Boost factor) оценки сходства, что важно для поиска конкретных объектов.
Практика
Best practices (это мы делаем)
- Обеспечение точного семантического контекста: Текстовое окружение (alt-текст, заголовки, подписи, окружающий текст) критически важно для формирования Initial Labels. Необходимо использовать точные и релевантные описания.
- Стимулирование семантической согласованности (Consistency): Создавайте контент так, чтобы изображения одной тематики или одного товара имели консистентные текстовые описания на разных страницах и, по возможности, на внешних сайтах (например, у ритейлеров). Это способствует формированию точных High Confidence Labels.
- Использование качественных и четких изображений: Высокое качество и четкость объектов облегчают извлечение визуальных признаков (Image Feature Scores). Это повышает точность сопоставления и может активировать Boost Factor за счет совпадения отличительных признаков (например, SIFT).
- Поддержание визуальной консистентности (E-commerce): Использование единого стиля съемки (например, стандартный фон, освещение) для товаров помогает вашим изображениям проходить фильтры однородности (Dominant Characteristic, Co-distance) и формировать кластеры в выдаче.
- Анализ выдачи по похожим изображениям (Google Lens): Используйте обратный поиск по вашим ключевым изображениям, чтобы понять, какие метки Google ассоциирует с ними (HCLs) и какие другие изображения считает похожими.
Worst practices (это делать не надо)
- Использование вводящих в заблуждение меток (Кликбейт/Спам): Намеренное использование нерелевантных ключевых слов неэффективно. Механизм High Confidence Labels отфильтрует такие метки, если они не подтверждаются визуальным сходством с другими изображениями, имеющими эти метки.
- Использование изображений низкого качества или с визуальным шумом: Зашумленные или размытые изображения затрудняют извлечение признаков, что снижает точность расчета Visual Similarity Score и может привести к неверной генерации меток.
- Игнорирование визуального контекста ниши: Размещение изображений, сильно отличающихся от доминирующего стиля в нише, может привести к их фильтрации механизмом Dominant Characteristic на этапе уточнения ранжирования.
Стратегическое значение
Патент подтверждает стратегический приоритет Google в развитии визуального поиска. Для SEO это означает, что оптимизация изображений переходит от простого заполнения тегов к обеспечению визуальной и семантической идентифицируемости объектов. Система стремится понять, что изображено на картинке, используя текст как вспомогательный сигнал, который верифицируется через визуальный анализ. Долгосрочная стратегия должна фокусироваться на создании качественного, уникального и точно описанного визуального контента.
Практические примеры
Сценарий: Оптимизация карточки товара (E-commerce)
Задача: Улучшить ранжирование фотографий нового смартфона «Model X» в визуальном поиске.
- Действие (Семантика): Убедиться, что на странице товара, в alt-текстах и обзорах консистентно используются термины «Смартфон Model X», «Model X синий». Это формирует Initial Labels.
- Действие (Визуальные признаки): Загрузить высококачественные фотографии смартфона с разных ракурсов на нейтральном фоне. Это позволит системе извлечь отчетливые Image Feature Scores.
- Ожидаемый результат (Генерация HCLs): Когда другие сайты (обзорщики, ритейлеры) публикуют свои фото «Model X» с аналогичными метками, система сравнивает их визуально. Убедившись в сходстве, она повышает достоверность метки «Смартфон Model X» для всех этих изображений.
- Ожидаемый результат (Ранжирование и Фильтрация): При поиске по картинке одного из фото, система найдет ваши изображения как кандидатов. Если пользователь ищет синюю модель, система может определить «синий цвет» и «нейтральный фон» как Dominant Characteristics и отфильтровать другие цвета или фото в интерьере, повышая релевантность и однородность выдачи.
Вопросы и ответы
Как Google определяет, какие текстовые метки (Labels) использовать для изображения?
Google использует итеративный процесс. Сначала собираются исходные метки (Initial Labels) из окружающего текста, alt-текста и метаданных. Затем система находит визуально похожие изображения и анализирует их метки. Метки, которые часто встречаются у визуально похожих изображений из авторитетных источников, становятся High Confidence Labels (HCLs). Именно HCLs используются для финального поиска кандидатов.
Что такое модель визуального сходства и почему важно, что она обучается на пользовательских отзывах?
Image Similarity Model — это алгоритм, определяющий визуальное сходство. Важность обучения на пользовательских отзывах (Similarity Feedback Data) заключается в том, что восприятие сходства субъективно. Собирая данные о том, какие изображения люди считают похожими (используя «триплеты»), Google настраивает модель так, чтобы она имитировала человеческое восприятие, а не просто сравнивала базовые признаки вроде цвета или формы.
Что такое «Уточнение ранжирования» (Ranking Refinement) и как оно влияет на выдачу?
Это финальный этап переранжирования, цель которого — обеспечить визуальную однородность (Homogeneity) результатов. Даже если изображение похоже на запрос, оно может быть удалено из выдачи, если визуально выбивается из общего ряда. Это достигается с помощью фильтров, таких как Dominant Characteristic и Similarity Conditions (Co-distance, Nearest Neighbor).
Что такое «Dominant Characteristic» и как это использовать в SEO?
Это характеристика, присущая большинству топовых результатов (например, все изображения черно-белые или все имеют белый фон). Система может удалить изображения, которые ей не соответствуют. В SEO (особенно E-commerce) это подчеркивает важность использования консистентного стиля фотографий, чтобы соответствовать ожиданиям системы и формировать однородные кластеры в выдаче.
Что такое условие «Co-distance»?
Co-distance Condition требует, чтобы изображение-кандидат было визуально близко не только к изображению-запросу, но и ко всем другим изображениям, уже отобранным в ТОП выдачи. Это предотвращает включение выбросов и гарантирует, что все результаты в выдаче формируют тесный визуальный кластер.
Влияет ли текстовое окружение моего изображения на моем сайте на визуальный поиск?
Да, оно влияет на формирование начальных меток (Initial Labels). Однако решающее значение имеют High Confidence Labels, которые формируются на основе анализа текстового окружения всех визуально похожих изображений в интернете. Если текст на вашем сайте сильно отличается от общепринятого описания этого визуального контента, он может быть проигнорирован.
Что такое «Boost Factor» и как его добиться?
Это механизм агрессивного повышения Visual Similarity Score. Он активируется, если система обнаруживает точное совпадение «общего набора отличительных признаков» (Common Distinct Set of Image Feature Values) между запросом и кандидатом. Чтобы добиться этого, необходимо использовать высококачественные, четкие изображения с хорошо различимыми объектами, что облегчает извлечение и сопоставление этих признаков (например, SIFT).
Как этот патент связан с Google Lens?
Этот патент описывает фундаментальные механизмы, лежащие в основе Google Lens. Процессы идентификации объекта (генерация HCLs), поиска похожих элементов и финального ранжирования на основе визуального сходства, обученного на человеческих оценках, напрямую применяются в работе Google Lens для предоставления релевантных результатов пользователю.
Стоит ли удалять дубликаты изображений с разных страниц сайта?
С точки зрения этого патента, наличие дубликатов и почти дубликатов (near duplicates) с согласованным текстовым контекстом может быть полезным. Система анализирует эти дубликаты для повышения уверенности (Confidence Measure) при генерации начальных меток. Важно, чтобы текстовый контекст на всех страницах был точным и согласованным.
Какие визуальные признаки наиболее важны согласно патенту?
Патент не отдает приоритет конкретным признакам, но упоминает цвет, текстуру, края, а также сложные дескрипторы, такие как SIFT и geometric blur. Важно то, что веса этих признаков настраиваются динамически в Image Similarity Model на основе пользовательских данных (Similarity Feedback Data), чтобы отразить человеческое восприятие сходства.