Google использует механизм для улучшения результатов поиска по картинкам. Система анализирует набор изображений, найденных по запросу, и сравнивает их визуальные характеристики (цвет, текстуру, формы). Изображения, которые визуально похожи на большинство других в наборе, считаются более репрезентативными. Дополнительно система повышает в ранжировании те изображения, где ключевой объект находится в центре или в фокусе.
Описание
Какую задачу решает
Патент решает проблему низкого качества результатов в поиске по изображениям, когда ранжирование основано преимущественно на тексте, ассоциированном с изображением (например, текст рядом с картинкой или имя файла). Это часто приводит к выдаче изображений, которые либо нерелевантны запросу, либо низкого качества (плохой ракурс, обрезка, объект не в фокусе). Например, по запросу «Эйфелева башня» может быть выдано фото человека на фоне башни, где сама башня едва видна. Изобретение направлено на идентификацию наиболее репрезентативных и визуально качественных изображений в наборе результатов.
Что запатентовано
Запатентована система для ранжирования набора изображений с целью выявления наиболее репрезентативных и качественных. Система сравнивает визуальные характеристики (features) каждого изображения со всеми остальными изображениями в наборе. На основе этого сравнения вычисляется показатель сходства (Ranking Score). Изображения, которые имеют наибольшее сходство с другими в наборе, считаются наиболее репрезентативными. Кроме того, этот показатель модифицируется на основе метрик качества и композиции, таких как расположение ключевого объекта (например, центрирование).
Как это работает
Система работает в несколько этапов:
- Получение набора: Формируется первичный набор изображений (например, результаты стандартного поиска по картинкам).
- Сравнение характеристик: Для каждого изображения используются визуальные характеристики (например, гистограммы цвета, интенсивности, текстуры, SIFT). Каждое изображение сравнивается со всеми остальными в наборе по этим характеристикам.
- Расчет репрезентативности: Вычисляется Ranking Score (или Feature Similarity Metric), который отражает, насколько часто характеристики данного изображения встречаются в других изображениях набора.
- Постобработка (Модификация оценки): Оценка корректируется. Она повышается, если ключевые объекты интереса (objects of interest) центрированы в кадре, если изображение в фокусе, или (как описано в патенте) если наличие/отсутствие лиц соответствует общему тренду набора.
- Финальное ранжирование: Изображения сортируются по итоговому Ranking Score. Наиболее репрезентативные и качественные изображения поднимаются вверх, а выбросы (outliers) опускаются или удаляются.
Актуальность для SEO
Высокая. Понимание визуального контента и оценка его качества являются критически важными для современных поисковых систем (Google Images, Google Lens, Discovery Feed, блоки с товарами и новостями). Описанные методы анализа визуального сходства и метрик качества (фокус, композиция) активно используются для улучшения пользовательского опыта и обеспечения релевантности визуальных результатов.
Важность для SEO
Патент имеет высокое значение (85/100) для Image SEO, а также для E-commerce и новостных сайтов. Он показывает, что Google не просто ищет совпадение текста, но и оценивает само изображение: его визуальную релевантность (репрезентативность) и качество (композиция, фокус). Для попадания в топ Image Search или для выбора в качестве основного изображения товара/новости, картинка должна соответствовать визуальному консенсусу по данному запросу и обладать высокими показателями качества (например, центрированный объект).
Детальный разбор
Термины и определения
- Active Image (Активное изображение)
- Текущее изображение в наборе, которое сравнивается со всеми остальными изображениями в процессе итерации.
- Comparison Function (Функция сравнения)
- Алгоритм, используемый для сравнения двух визуальных характеристик (features) и генерации значения, определяющего их сходство. Например, функция сравнения гистограмм.
- Feature(s) (Характеристика(и))
- Визуальные атрибуты изображения, используемые для сравнения. Примеры включают гистограммы интенсивности, цвета, краев (edge), текстуры, а также характеристики, извлеченные с помощью методов типа SIFT (Scale-Invariant Feature Transform).
- Feature Similarity Metric / Ranking Score (Метрика сходства характеристик / Оценка ранжирования)
- Числовое значение, присваиваемое изображению. Оно количественно определяет, насколько данное изображение репрезентативно для всего набора, основываясь на том, насколько его характеристики схожи с характеристиками других изображений в наборе. Эта оценка может модифицироваться на этапах постобработки.
- Objects of Interest / Particular Object (Объекты интереса / Конкретный объект)
- Ключевые элементы или области внутри изображения, часто определяемые как точки с высокой вариативностью цвета, интенсивности или другими математическими методами (например, с помощью алгоритма SIFT). Используются для оценки композиции (например, центрирования).
- Post-processing (Постобработка)
- Дополнительные этапы анализа после расчета базового Ranking Score, предназначенные для уточнения оценки на основе метрик качества (например, детекция лиц, центрирование объектов, фокус).
- SIFT (Scale-Invariant Feature Transform)
- Алгоритм для извлечения отличительных характеристик из изображений, инвариантных к масштабу и повороту. Упоминается как метод для определения характеристик и объектов интереса.
Ключевые утверждения (Анализ Claims)
Данный патент (US9268795B2) является патентом-продолжением (continuation). В то время как общее описание изобретения охватывает весь процесс сравнения характеристик для определения репрезентативности, конкретные Claims (Формула изобретения) этого патента сфокусированы на этапе модификации оценки ранжирования на основе расположения объекта и качества.
Claim 1 (Независимый пункт): Описывает метод обработки изображений, сфокусированный на расположении объекта.
- Система идентифицирует набор изображений, изображающих конкретный объект (particular object).
- Система сравнивает одно изображение в наборе с другим изображением в наборе.
- На основе сравнения система ассоциирует первую оценку (first score) с изображением.
- Система модифицирует первую оценку на основе расположения (location) конкретного объекта внутри изображения, получая модифицированную первую оценку (modified first score).
- Система сохраняет информацию, связывающую модифицированную оценку с изображением.
Ядро изобретения здесь — это модификация оценки ранжирования на основе геолокации объекта внутри кадра.
Claim 3 (Зависимый от 1): Уточняет механизм модификации.
Первая оценка увеличивается, если конкретный объект расположен в центре или около центра изображения. Это подтверждает использование центрирования объекта как сигнала качества.
Claim 4 (Зависимый от 1): Предлагает альтернативный механизм определения целевого расположения.
- Система определяет желаемое расположение (desired location) объекта на основе среднего расположения (average location) этого объекта на множестве изображений.
- Это желаемое расположение используется в качестве критерия для модификации оценки.
Это важно для объектов, которые обычно не центрированы. Система учится, какая композиция является стандартной для данного объекта, и использует это как эталон.
Claim 7 (Зависимый от 1): Упоминает другие факторы модификации.
Модификация первой оценки также может основываться на метрике, относящейся к тому, какая часть изображения находится в фокусе (in focus), или метрике, относящейся к распределению цветов в изображении. Это подтверждает использование технических показателей качества изображения (резкость, цветопередача) для ранжирования.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, преимущественно связанных с обработкой изображений.
INDEXING – Индексирование и извлечение признаков
На этом этапе система может предварительно вычислять и сохранять визуальные характеристики (features) для изображений в индексе (например, гистограммы, SIFT). Также могут вычисляться метрики качества (фокус, распределение цвета) и определяться objects of interest и их расположение.
RANKING – Ранжирование
На этом этапе генерируется первичный набор кандидатов (initial set of images), например, на основе текстового соответствия запросу и описанию/контексту изображения.
RERANKING – Переранжирование
Основное применение патента. Система получает набор кандидатов и запускает процесс анализа визуального сходства и качества.
- Сравнение: Выполняется сравнение характеристик между всеми изображениями в наборе.
- Расчет репрезентативности: Вычисляется базовый Ranking Score.
- Модификация (Постобработка): Применяются алгоритмы модификации оценки на основе расположения объекта (центрирование или среднее расположение), детекции лиц, фокуса и т.д.
- Финальная сортировка: Набор пересортировывается на основе модифицированных оценок.
METASEARCH – Метапоиск и Смешивание
Система может использовать этот механизм для выбора наилучшего (наиболее репрезентативного и качественного) изображения для отображения в блоках Универсального Поиска, таких как карусели товаров (Product Search) или блоки новостей (News Search).
Входные данные:
- Первичный набор изображений-кандидатов.
- Предварительно вычисленные визуальные характеристики (features) для этих изображений.
- Параметры конфигурации (какие характеристики и функции сравнения использовать).
Выходные данные:
- Отсортированный набор изображений, где порядок основан на визуальной репрезентативности и качестве.
- Или одно наилучшее изображение (например, для сниппета новости или карточки товара).
На что влияет
- Конкретные типы контента: Наибольшее влияние на изображения товаров (E-commerce), новостные иллюстрации, а также изображения объектов, достопримечательностей, людей.
- Специфические запросы: Влияет на запросы, где важна визуальная составляющая и где часто встречается контент низкого качества (например, информационные запросы об объектах, коммерческие запросы о продуктах).
- Форматы контента: Влияет на ранжирование в Google Images, а также на выбор тамбнейлов (thumbnails) в основной выдаче (Web Search), Discovery Feed.
Когда применяется
- Триггеры активации: Алгоритм активируется при обработке поискового запроса, когда необходимо отранжировать набор изображений или выбрать одно наилучшее изображение из нескольких кандидатов.
- Условия применения: Применяется к набору изображений, которые уже были признаны потенциально релевантными запросу (например, на основе текста).
- Оптимизации: Патент упоминает, что для повышения производительности характеристики могут быть вычислены заранее (pre-computed). Для частых запросов даже результаты сравнения и ранжирования могут быть вычислены заранее и сохранены.
Пошаговый алгоритм
Алгоритм состоит из этапа настройки (офлайн) и этапа выполнения (рантайм).
Этап А: Настройка (Офлайн или однократно)
- Выбор характеристик: Определение набора визуальных характеристик (features) для сравнения (например, цвет, интенсивность, SIFT).
- Выбор функций сравнения: Определение Comparison Function для каждой характеристики (например, сравнение гистограмм).
Этап Б: Выполнение (Рантайм)
- Получение набора: Система получает первичный набор результатов поиска.
- Инициализация итерации: Первое изображение устанавливается как Active Image.
- Сравнение характеристик: Active Image сравнивается со всеми другими изображениями в наборе с использованием выбранных характеристик и функций сравнения.
- Расчет базовой оценки: Присваивается базовый Ranking Score активному изображению на основе результатов сравнения. Оценка тем выше, чем больше сходства обнаружено с другими изображениями.
- Повторение: Шаги 3-4 повторяются для всех изображений в наборе.
- Постобработка (Модификация оценок): Применяются дополнительные алгоритмы для корректировки Ranking Scores:
- Анализ расположения объектов (Ядро Claims): Извлекаются общие objects of interest. Оценки повышаются для изображений, где эти объекты центрированы или находятся в «среднем расположении» (average location) для данного набора.
- Анализ качества (Ядро Claims): Оценки повышаются для изображений с лучшим фокусом, контрастом или распределением цвета.
- Детекция лиц (Из Описания): Анализируется процент изображений с лицами. Если он выше порога, оценки изображений с лицами повышаются; если ниже – могут понижаться.
- Финальное ранжирование: Итоговые (модифицированные) Ranking Scores используются для сортировки изображений.
- Выдача результатов: Отсортированный набор или Топ-М изображений возвращается пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на визуальных данных самого изображения.
- Мультимедиа факторы (Визуальные характеристики):
- Интенсивность (Intensity): Гистограммы интенсивности для участков изображения.
- Цвет (Color): Гистограммы цвета (RGB, YIQ и т.д.) для участков изображения.
- Края (Edges): Гистограммы на основе информации о краях объектов.
- Текстура (Texture): Гистограммы на основе информации о текстуре.
- Wavelet-based techniques: Вейвлет-преобразования для участков изображения.
- SIFT (Scale-Invariant Feature Transform): Характеристики, инвариантные к масштабу и повороту.
- Структурные факторы (Композиция):
- Расположение объектов: Координаты objects of interest внутри изображения.
- Детекция лиц: Наличие и расположение человеческих лиц (упоминается в описании).
Текстовые, ссылочные или поведенческие факторы в данном патенте не упоминаются для этого этапа переранжирования.
Какие метрики используются и как они считаются
- Ranking Score (Базовый): Метрика репрезентативности. В одном из вариантов реализации рассчитывается путем подсчета количества совпадений характеристик между данным изображением и всеми остальными изображениями в наборе. Если результат сравнения двух характеристик ниже определенного порога (что указывает на высокую схожесть), счетчик увеличивается.
- Метрика центрирования (Centerness): Количественная оценка того, насколько objects of interest расположены близко к центру изображения или к average location для данного набора.
- Порог детекции лиц: Процент изображений в наборе, содержащих лица. Используется для определения того, ищет ли пользователь людей или объекты.
- Метрики качества (Query Independent): Упоминаются метрики, оценивающие, насколько изображение в фокусе (in focus), распределение цветов, контраст.
- Модифицированный Ranking Score: Итоговая оценка. Может рассчитываться как взвешенная сумма базовой оценки и метрик постобработки. Пример формулы из описания патента: a*image_score + b*in_focus_score (где a и b – весовые коэффициенты).
Выводы
- Визуальное сходство определяет репрезентативность: Ключевой механизм патента — это определение «визуального консенсуса». Изображения, которые выглядят похоже на большинство других изображений, найденных по запросу, считаются более репрезентативными и ранжируются выше. Визуальные выбросы (outliers) пессимизируются.
- Композиция как фактор ранжирования (Object Location): Расположение главного объекта в кадре является фактором ранжирования. Система повышает оценки для изображений, где объект центрирован (Claim 3).
- Адаптивная композиция (Average Location): Система способна определять «стандартную» композицию для объекта, анализируя среднее расположение (average location) объекта на всех изображениях (Claim 4). Это позволяет корректно ранжировать объекты, которые традиционно не центрируются.
- Техническое качество изображения имеет значение: Метрики, не зависящие от запроса, такие как фокус (резкость), контраст и распределение цвета, используются для модификации Ranking Score (Claim 7).
- Контекстная детекция лиц: Система использует детекцию лиц адаптивно (из Описания). Если большинство изображений по запросу содержат лица, изображения с лицами получают бустинг. Если нет — они могут быть пессимизированы.
- Применение в Универсальном Поиске: Описанный механизм критически важен для выбора единственного наилучшего изображения для сниппетов новостей, карточек товаров и других элементов SERP, где требуется одно репрезентативное изображение.
Практика
Best practices (это мы делаем)
- Оптимизация композиции (Центрирование): Размещайте ключевой объект (товар, объект на новостном фото) в центре кадра. Это напрямую соответствует механизму повышения Ranking Score, защищенному в Claim 3.
- Фокус и резкость: Обеспечивайте высокое техническое качество изображений. Изображения должны быть резкими, с хорошим контрастом и цветопередачей. Claim 7 подтверждает, что эти метрики используются для повышения рейтинга.
- Соответствие визуальному интенту (Репрезентативность): Изучайте Топ Google Images по целевым запросам. Ваши изображения должны визуально соответствовать тем, которые Google уже считает репрезентативными (общий стиль, ракурс). Это повышает вероятность высокого Feature Similarity Metric.
- Минимизация визуального шума: Предпочитайте изображения, где главный объект доминирует, а фон содержит мало отвлекающих элементов (clutter, упоминается в описании). Это помогает системе корректно идентифицировать objects of interest и оценить их центрирование.
- Контроль над изображениями товаров (E-commerce): Обеспечьте, чтобы основное изображение товара было чистым, центрированным и репрезентативным. Это критично для выбора вашего изображения в каруселях товаров, так как система ищет наилучшее представление продукта.
- Осторожное использование лиц: Используйте лица на изображениях только тогда, когда это релевантно интенту. Если запрос объектный (например, «Мост Золотые Ворота»), избегайте доминирующих лиц в кадре, так как система может пессимизировать такие изображения в пользу тех, где лиц нет (на основе Описания).
Worst practices (это делать не надо)
- Объект смещен к краю кадра: Плохая композиция, когда главный объект обрезан или сильно смещен от центра (если это не является стандартом для данного типа объекта), приведет к понижению Ranking Score.
- Низкое техническое качество: Размытые, не в фокусе, пересвеченные или недоэкспонированные изображения будут пессимизированы на этапе постобработки (Claim 7).
- Визуальное несоответствие (Outliers): Попытка ранжировать изображения, которые сильно отличаются по стилю, цвету или содержанию от основного набора результатов по запросу. Система определит низкое сходство характеристик.
- Перегруженный фон и «мусор» в кадре: Изображения с большим количеством отвлекающих объектов могут ранжироваться хуже, чем чистые изображения того же объекта.
- Фокус только на тексте вместо изображения: Полагаться только на оптимизацию alt-текста и окружающего контента недостаточно. Визуальные характеристики самого изображения играют ключевую роль в его ранжировании и выборе.
Стратегическое значение
Этот патент подтверждает стратегический приоритет Google на понимание визуального контента на уровне, сравнимом с человеческим восприятием качества. Для SEO это означает, что оптимизация изображений перестает быть чисто технической задачей (сжатие, alt-теги) и становится задачей обеспечения визуальной релевантности и качества. В E-commerce и медиа стратегии должны включать создание высококачественного визуального контента, соответствующего стандартам композиции и репрезентативности, чтобы максимизировать видимость в Image Search и блоках Универсального Поиска.
Практические примеры
Сценарий 1: Выбор основного изображения товара (E-commerce)
- Задача: Google нужно выбрать одно изображение для показа в карусели товаров по запросу «Кроссовки Nike Air Max 270 black».
- Кандидаты: Система собирает изображения с разных сайтов (A, B, C). Сайт А: кроссовок на белом фоне, центрирован. Сайт B: кроссовки на ногах модели, в движении. Сайт C: коробка с кроссовками, кроссовки видны частично.
- Анализ: Система сравнивает характеристики. Большинство изображений этой модели в индексе — это фото на чистом фоне. Изображение с сайта А имеет наибольший Feature Similarity Metric.
- Постобработка: Система определяет кроссовок как particular object. На сайте А он центрирован (Claim 3). На сайте B он смещен.
- Результат: Изображение с сайта А получает наивысший модифицированный Ranking Score и выбирается для показа.
Сценарий 2: Ранжирование в Image Search (Достопримечательности)
- Запрос: «Тадж-Махал».
- Анализ набора: Система анализирует Топ-100 результатов. 90% изображений — это фронтальные виды здания. Менее 10% содержат доминирующие лица (селфи).
- Детекция лиц (Из Описания): Порог наличия лиц низкий. Система решает, что интент — это объект, а не люди. Изображения без лиц могут получить преимущество.
- Центрирование (Claim 3) и Фокус (Claim 7): Тадж-Махал определяется как particular object. Изображения, где он центрирован и находится в фокусе, получают дополнительный бустинг.
- Результат: В топе Google Images будут качественные, центрированные фотографии Тадж-Махала. Селфи и фотографии с необычных ракурсов будут ранжироваться значительно ниже.
Вопросы и ответы
Что такое «репрезентативное изображение» в контексте этого патента?
Это изображение, визуальные характеристики которого (цвет, текстура, формы, SIFT) наиболее схожи с характеристиками большинства других изображений в том же наборе результатов. По сути, это поиск «визуального консенсуса». Если по запросу «яблоко» 99 картинок показывают красное круглое яблоко, то изображение зеленого банана будет считаться нерепрезентативным, даже если у него в alt написано «яблоко».
Насколько важно центрирование объекта на изображении?
Очень важно. Claim 3 патента явно указывает, что Ranking Score изображения увеличивается, если ключевой объект (particular object) расположен в центре или около центра кадра. Для SEO это означает, что основное изображение товара или иллюстрации должно иметь четкую центральную композицию для максимизации шансов на высокое ранжирование.
Что если объект обычно не фотографируют в центре?
Патент предусматривает это в Claim 4. Система может рассчитывать «среднее расположение» (average location) объекта, анализируя весь набор изображений. Если объект (например, мост) обычно фотографируют так, что его опоры смещены от центра, система будет использовать это среднее расположение как эталон для оценки качества композиции, а не строго центр кадра.
Влияет ли техническое качество изображения (резкость, цвет) на ранжирование?
Да, напрямую. В Claim 7 упоминается, что Ranking Score модифицируется на основе метрик качества, таких как фокус (резкость) и распределение цвета. Размытые или плохо экспонированные изображения будут терять позиции в пользу технически более качественных.
Как система относится к лицам на фотографиях?
Отношение адаптивное и зависит от контекста набора (описано в Description). Система определяет, сколько изображений в наборе содержат лица. Если процент высок (пользователь ищет людей), изображения с лицами получают буст. Если процент низок (пользователь ищет объект), изображения с доминирующими лицами (например, селфи) могут быть пессимизированы в пользу изображений самого объекта.
Как этот патент влияет на E-commerce сайты?
Он критически важен для выбора основного изображения товара в Google Покупках и каруселях товаров в SERP. Чтобы Google выбрал изображение с вашего сайта, оно должно быть максимально репрезентативным (соответствовать стандарту для данного продукта), высокого качества и иметь центрированную композицию. Это подчеркивает важность качественных студийных фотографий продукта.
Использует ли этот алгоритм данные из alt-тегов или окружающего текста?
Нет. Данный патент описывает механизм, который работает исключительно с визуальными характеристиками самих изображений. Текстовые данные используются на предыдущем этапе для формирования первичного набора кандидатов, но финальное ранжирование внутри этого набора основано на визуальном анализе, описанном в патенте.
Что такое SIFT и как он используется?
SIFT (Scale-Invariant Feature Transform) — это алгоритм компьютерного зрения для извлечения уникальных характеристик изображения, устойчивых к изменению масштаба и поворота. В патенте SIFT используется для двух целей: как одна из визуальных характеристик для сравнения сходства между изображениями и как метод для идентификации ключевых «объектов интереса» для анализа их расположения в кадре.
Стоит ли создавать много похожих изображений, чтобы повысить репрезентативность?
Нет, это не поможет конкретному изображению ранжироваться лучше. Репрезентативность оценивается относительно всего набора результатов поиска (потенциально с разных сайтов), а не внутри вашего сайта. Ваша задача — сделать так, чтобы ваше изображение соответствовало общему визуальному консенсусу, который уже существует в индексе Google по данному запросу.
Может ли этот механизм удалить изображение из выдачи?
Да. В описании патента упоминается, что низкоранжированные изображения (визуальные выбросы или изображения низкого качества) могут быть удалены (pruned) из набора результатов, предоставляемых пользователю. Это особенно актуально для поиска на мобильных устройствах, где количество результатов ограничено.