Как Google использует машинное зрение для подтверждения текстовых описаний изображений и повышения их в поиске

Google использует систему классификации изображений, чтобы определить, соответствует ли текст, связанный с изображением (например, alt-текст или окружающий контент), его визуальному содержанию. Система обучается распознавать объекты на основе визуальных признаков. Если соответствие подтверждается, изображению присваивается «Метка высокой достоверности» (High Confidence Label). При поиске изображения, имеющие такие метки, получают значительное повышение в ранжировании.

Описание

Какую задачу решает

Патент решает проблему неточности определения релевантности изображений, основанного исключительно на связанном с ними тексте (окружающий текст, метаданные, анкорные тексты). Традиционный подход уязвим, так как текст рядом с изображением может не описывать его содержание (например, текст «свадебный торт и нож» рядом с фотографией только ножа). Это приводит к тому, что изображения ранжируются по запросам, которым они визуально не соответствуют. Изобретение улучшает качество поиска по картинкам, внедряя этап визуальной валидации текстовых описаний.

Что запатентовано

Запатентована система классификации изображений, которая использует машинное обучение для верификации связи между визуальным контентом изображения и связанным с ним текстом. Система обучает отдельные классификационные модели для распознавания различных концепций (n-grams). На основе этой верификации изображению присваиваются High Confidence Labels. Ключевым элементом является использование этих меток для значительного повышения (boost value или boost factor) релевантности изображения в поиске, если метка соответствует запросу пользователя.

Как это работает

Система работает в три основных этапа:

Обучение моделей (Офлайн): Для множества текстовых концепций (n-grams) система обучается распознавать их визуальные признаки. Обучение происходит на наборах положительных и отрицательных примеров изображений (часто определяемых по CTR), используя извлеченные из них векторы визуальных признаков (Feature Vectors).
Классификация и Метки (Индексирование): При обработке нового изображения система анализирует связанный с ним текст и выделяет кандидатов в метки. Затем она использует обученные модели, чтобы проверить, соответствует ли визуальное содержание изображения этим кандидатам. Подтвержденные кандидаты становятся High Confidence Labels.
Ранжирование (Время выполнения запроса): Когда поступает запрос, система идентифицирует изображения, чьи High Confidence Labels соответствуют запросу. Этим изображениям присваивается boost value, который увеличивает их итоговый relevance score, причем сила бустинга зависит от точности совпадения метки и запроса.

Актуальность для SEO

Высокая. Использование машинного зрения (Computer Vision) и глубокого обучения для понимания содержания изображений является фундаментальной частью современных поисковых систем (например, Google Lens). Описанный механизм, связывающий визуальное понимание с текстовыми запросами и использующий это как сильный сигнал ранжирования, полностью соответствует текущему вектору развития поиска.

Важность для SEO

Влияние на SEO для сайтов, зависящих от трафика из поиска по картинкам (e-commerce, контентные проекты), критично. Патент показывает, что недостаточно просто разместить ключевые слова рядом с изображением или в alt-тексте. Необходимо, чтобы визуальное содержание изображения действительно соответствовало этим ключевым словам. Изображения, которые визуально соответствуют своим текстовым описаниям, получают существенное преимущество в ранжировании (boost value) по сравнению с теми, где это соответствие не подтверждено.

Детальный разбор

Термины и определения

Boost Value / Boost Factor (Значение повышения): Коэффициент, применяемый к базовой оценке релевантности (relevance score) изображения. Применяется, если изображение имеет High Confidence Label, соответствующую запросу. Величина бустинга зависит от силы соответствия.
Candidate Label (Кандидат в метки): N-грамма, извлеченная из текста, связанного с изображением. Рассматривается как потенциальное описание содержания изображения.
Classification Score (Оценка классификации): Числовое значение, вычисляемое моделью классификации. Определяет меру визуального соответствия изображения определенной n-грамме.
Feature Vector (Вектор признаков): Математическое представление визуальных характеристик изображения (цвет, текстура, края, формы). Используется как входные данные для моделей классификации. Может быть представлен как bag of visual terms.
High Confidence Label (HCL) (Метка высокой достоверности): Кандидатная метка (n-грамма), которая была верифицирована моделью классификации. Указывает на то, что визуальное содержание изображения соответствует этой текстовой концепции.
Image Classification Model (Модель классификации изображений): Машинно обученная модель, предназначенная для определения, является ли изображение положительным примером для конкретной n-граммы на основе его Feature Vector.
N-gram (N-грамма): Уникальный набор из одного или нескольких терминов. Текстовая концепция, для которой обучается модель.
PAMIR (Passive-Aggressive Model for Image Retrieval): Один из упомянутых вариантов реализации модели обучения. Линейная модель, которая итеративно корректируется на основе ошибок классификации.
Relevance Measure (Мера релевантности): Метрика, используемая для определения обучающих наборов. Пример — частота выбора (selection rate или CTR) изображения в ответ на запрос (relevance feedback).
Training Images (Обучающие изображения): Набор изображений для обучения модели. Включает Positive training images (высокая мера релевантности) и Negative training images (низкая мера релевантности).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает процесс использования результатов классификации во время поиска для ранжирования.

Система получает запрос пользователя.
Идентифицируются изображения, которым модель классификации присвоила текстовую метку (n-грамму), соответствующую запросу. Важно: метка присваивается на основе как связанного текста, так и вектора визуальных признаков (feature vector) изображения.
К оценке релевантности (relevance score) этих изображений применяется значение повышения (boost value) для получения скорректированной оценки.
Величина boost value зависит, по крайней мере частично, от силы соответствия (strength of the match) между запросом и текстовой меткой.
Изображения ранжируются на основе скорректированных оценок.
Результаты выводятся на странице поиска.

Ядро изобретения – это применение бустинга при ранжировании для изображений, чья релевантность запросу подтверждена анализом визуального контента, причем сила бустинга зависит от точности совпадения запроса и подтвержденной метки.

Claim 3 (Зависимый): Уточняет механизм бустинга.

Наибольшая величина (highest magnitude) boost value присваивается, когда запрос пользователя точно соответствует (exactly matches) текстовой метке.

Claim 5 (Зависимый): Описывает основу для обучения классификационной модели.

Модель обучается на основе векторов признаков положительных и отрицательных обучающих изображений. Положительные примеры имеют показатели релевантности (relevance measures) для n-граммы, удовлетворяющие порогу, а отрицательные – нет.

Claim 6 (Зависимый): Детализирует процесс итеративного обучения.

Для обучающего изображения вычисляется оценка классификации. Если изображение классифицировано неверно, модель корректируется путем вычисления аппроксимации минимального ядра (minimum kernel approximation) на основе вектора признаков этого изображения. Это указывает на использование итеративных алгоритмов, таких как PAMIR.

Где и как применяется

Изобретение затрагивает ключевые этапы поисковой архитектуры в контексте поиска по изображениям.

CRAWLING & INDEXING (Сканирование, Индексирование и Извлечение признаков)

Извлечение признаков: Во время индексирования система извлекает и сохраняет Feature Vectors для изображений (анализ цвета, текстур, форм) и извлекает ассоциированный текст.
Классификация и Метки: Текст парсится на Candidate Labels. Система применяет обученные модели классификации, используя Feature Vector изображения, чтобы проверить каждый кандидат. При успешной валидации изображению присваивается High Confidence Label (HCL), которая сохраняется в индексе.

QUNDERSTANDING (Понимание Запросов / Офлайн-процессы)

Обучение моделей: Система анализирует исторические данные (логи запросов и кликов – Historical Data), чтобы определить положительные и отрицательные примеры (на основе Relevance Measures) для обучения моделей распознавания n-грамм.

RANKING & RERANKING (Ранжирование и Переранжирование)

Применение Boost Value: На этапе ранжирования система проверяет, есть ли у изображения HCL, соответствующая запросу. Если да, вычисляется Boost Value на основе strength of the match. Базовый Relevance Score корректируется, что приводит к переранжированию выдачи в пользу визуально подтвержденной релевантности.

На что влияет

Типы контента: В первую очередь влияет на изображения (фотографии, иллюстрации, товары) в Google Images и блоках универсального поиска.
Специфические запросы: Наибольшее влияние на запросы, где важен визуальный аспект – товары, объекты, места, персоналии.
Ниши: Критично для E-commerce, недвижимости, моды, путешествий – везде, где визуальное представление является основным способом оценки релевантности.

Когда применяется

Триггеры активации (Обучение): Активируется офлайн для n-грамм, по которым достаточно исторических данных (запросов и кликов) для формирования обучающей выборки.
Триггеры активации (Классификация): Применяется во время индексирования для любого изображения, у которого есть связанный текст и для n-грамм которого существуют обученные модели классификации.
Триггеры активации (Ранжирование): Применяется при обработке поискового запроса, если в индексе найдены изображения с High Confidence Labels, соответствующими этому запросу.

Пошаговый алгоритм

Алгоритм состоит из трех частей: Обучение, Классификация и Ранжирование.

Процесс А: Обучение Модели (Офлайн)

Выбор N-граммы: Выбирается текстовая концепция (например, из логов запросов).
Формирование обучающей выборки: Идентифицируются положительные и отрицательные примеры изображений на основе Relevance Measures (например, CTR) для этой n-граммы.
Извлечение признаков: Для всех обучающих изображений вычисляются Feature Vectors.
Итеративное обучение (например, PAMIR):
1. Выбирается обучающее изображение.
2. Модель вычисляет текущий Classification Score на основе его Feature Vector.
3. Проверяется корректность классификации.
4. Если неверно, модель корректируется (например, путем добавления опорного вектора и вычисления аппроксимации Min_Kernel).
5. Повторение до достижения стоп-условия.
Валидация: Модель тестируется на отдельном наборе изображений. Если точность достаточна (уровень ошибок низкий), модель сохраняется как обученная.

Процесс Б: Классификация и Метки (Индексирование)

Получение данных: Система получает изображение, его Feature Vector и связанный с ним текст.
Парсинг текста: Текст разбирается на Candidate Labels (n-граммы).
Получение моделей: Для каждой кандидатной метки система проверяет наличие обученной модели классификации.
Вычисление оценок: Feature Vector изображения подается на вход соответствующим моделям. Каждая модель выдает Classification Score.
Присвоение меток: Если Classification Score для n-граммы превышает порог достоверности, эта n-грамма присваивается изображению как High Confidence Label (HCL).

Процесс В: Ранжирование (Время выполнения запроса)

Получение запроса: Поступает запрос от пользователя.
Идентификация HCL: Система ищет изображения, имеющие HCL, соответствующие запросу.
Определение силы соответствия: Оценивается strength of the match между запросом и HCL.
Вычисление Boost Value: На основе силы соответствия определяется величина бустинга. Точное совпадение дает максимальный бустинг.
Корректировка и Ранжирование: Базовый Relevance Score изображения увеличивается на Boost Value. Выдача сортируется по скорректированным оценкам.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Визуальные): Критически важные данные. Сырые пиксельные данные изображения, из которых извлекаются визуальные признаки. Упомянуты: гистограммы цветов (color histograms), определение текстуры (texture detection), обнаружение краев (edge detection), SIFT (scale-invariant feature transform). Эти признаки агрегируются в Feature Vector.
Контентные факторы (Текстовые): Текст, ассоциированный с изображением. Упомянуты: текст на той же странице (в определенной близости), метаданные изображения, имя файла, URL изображения, анкорный текст ссылок на изображение.
Поведенческие факторы: Используются для обучения моделей. Упомянуты relevance feedback score, например, selection rate (click-through-rate) изображения, когда оно показывается в результатах поиска по определенному запросу. Также упомянуты метки, явно указанные пользователями.

Какие метрики используются и как они считаются

Feature Vector (Вектор признаков): Патент описывает преобразование визуальных признаков в Visual Terms (Bag of visual terms). Упоминается использование взвешивания, аналогичного IDF (Inverse Document Frequency) для нормализации векторов, чтобы подчеркнуть редкие визуальные термины.
Classification Score: Вычисляется моделью для определения визуального соответствия. В патенте приводится формула для варианта реализации с использованием Min_Kernel: Score = Σ(αi * Min_Kernel(xi, x)) + b, где αi – скаляры, xi – опорные векторы, x – вектор признаков текущего изображения.
Relevance Measures: Используются для определения положительных/отрицательных обучающих примеров. Основаны на поведенческих данных (например, CTR).
Strength of the Match: Метрика, определяющая степень соответствия между запросом и HCL.
Boost Value: Значение повышения ранжирования. Его величина пропорциональна Strength of the Match.
Алгоритмы машинного обучения: Упоминается использование линейных моделей, таких как PAMIR.

Выводы

Визуальная релевантность стала ключевым фактором: Патент доказывает, что Google активно использует машинное зрение как верификатор текстовых данных. Текстовая оптимизация изображений (alt, подписи, окружающий текст) работает эффективно, только если она подтверждена визуальным содержанием.
Механизм High Confidence Labels (HCL): HCL – это метка, прошедшая визуальную проверку. Наличие HCL является необходимым условием для получения значительного преимущества в ранжировании.
Агрессивный бустинг за подтвержденную релевантность: Изображения с HCL, соответствующими запросу, получают Boost Value. Это ставит их выше изображений, релевантных только по текстовым факторам.
Точность соответствия имеет значение: Чем точнее HCL соответствует запросу (strength of the match), тем выше бустинг. Точное совпадение дает максимальное преимущество.
Модели специфичны для N-грамм и обучаются на поведении пользователей: Система не использует одну общую модель. Обучаются отдельные модели для конкретных терминов (n-grams), и это обучение критически зависит от Relevance Measures, таких как CTR. Система учится тому, что пользователи считают визуально релевантным.

Практика

Best practices (это мы делаем)

Обеспечение точного соответствия текста и визуала: Ключевая практика. Убедитесь, что Alt-текст, заголовки, подписи и окружающий текст точно описывают то, что изображено на картинке. Это увеличивает вероятность присвоения High Confidence Label.
Оптимизация под точные запросы (Exact Match): Поскольку максимальный Boost Value дается за точное соответствие HCL и запроса, используйте точные и специфичные описания. Например, вместо «обувь» используйте «красные кожаные туфли на шпильке», если именно они изображены.
Улучшение качества и четкости изображений: Используйте высококачественные, четкие изображения, на которых легко идентифицировать объекты. Это облегчает системе извлечение корректных Feature Vectors и повышает точность классификации.
Стимулирование положительного поведения пользователей (Image CTR): Поскольку модели обучаются на CTR (Relevance Feedback), создавайте привлекательные и релевантные превью изображений в поиске, чтобы стимулировать клики. Это косвенно подтверждает релевантность и улучшает обучающие данные для ваших тематик.

Worst practices (это делать не надо)

Кликбейт и нерелевантные изображения: Использование изображений, которые не соответствуют окружающему тексту или теме страницы. Система визуальной классификации определит несоответствие, HCL не будет присвоена, и изображение не получит бустинга.
Переспам в Alt-текстах и подписях: Наполнение Alt-текста ключевыми словами, которые не описывают визуальное содержание. Это создает много Candidate Labels, большинство из которых будут отвергнуты визуальной моделью.
Использование стоковых или неоднозначных изображений: Использование общих стоковых фотографий для иллюстрации конкретных концепций. Если визуальная связь слабая, модель может не подтвердить релевантность.
Использование низкокачественных изображений: Изображения с низким разрешением или плохим освещением могут затруднить извлечение признаков и корректную классификацию.

Стратегическое значение

Этот патент подтверждает стратегический переход Google к прямому пониманию контента через Machine Learning, а не только через анализ текстовых сигналов. Для SEO это означает, что качество и точность визуального контента становятся первостепенными факторами ранжирования в поиске по картинкам. Стратегия должна фокусироваться на создании и оптимизации визуальных активов таким образом, чтобы максимизировать синергию между тем, что видит система (визуальный контент), и тем, как это описано текстом.

Практические примеры

Сценарий: Оптимизация карточки товара E-commerce (Кроссовки)

Действие: Размещаем четкое фото белых кроссовок Nike Air Max 90 на нейтральном фоне.
Оптимизация: В Alt-тексте указываем: «Белые кроссовки Nike Air Max 90, вид сбоку». Окружающий текст также описывает эту модель.
Обработка системой:
- Система извлекает Candidate Labels: «Белые кроссовки», «Nike Air Max 90».
- Визуальная модель анализирует Feature Vector (форма, цвет, логотип) и подтверждает, что изображение соответствует этим концепциям.
- Изображению присваиваются High Confidence Labels.
Результат: При запросе пользователя «Белые кроссовки Nike Air Max 90» изображение получает максимальный Boost Value, так как запрос точно соответствует HCL, и занимает высокие позиции в поиске по картинкам.

Сценарий (Антипример): Статья о ремонте iPhone

Действие: В статье о замене экрана iPhone используется стоковое фото улыбающегося человека с телефоном.
Оптимизация: В Alt-тексте указано: «Замена экрана iPhone X».
Обработка системой:
- Система извлекает Candidate Labels: «Замена экрана», «iPhone X».
- Визуальная модель анализирует фото и определяет концепции «Человек», «Улыбка».
- Модели для «Замена экрана» и, возможно, «iPhone X» (если телефон плохо виден) не подтверждают визуальное соответствие с высокой точностью.
Результат: HCL «Замена экрана iPhone X» не присваивается. При поиске по этому запросу изображение не получит бустинга и будет ранжироваться ниже, чем фотографии реального процесса ремонта.

Вопросы и ответы

Что важнее для ранжирования изображений согласно этому патенту: Alt-текст или визуальное содержание?

Оба элемента критичны и должны работать вместе. Alt-текст (и другой связанный текст) генерирует Candidate Labels, то есть сообщает системе, о чем может быть это изображение. Визуальное содержание используется для верификации этих меток. Если визуал не подтверждает текст, изображение не получит значительного бустинга в ранжировании (Boost Value).

Что такое High Confidence Label (HCL) и как ее получить?

HCL – это текстовая метка (n-грамма), которая была подтверждена системой машинного зрения как точно описывающая содержание изображения. Чтобы ее получить, необходимо убедиться, что текст, связанный с изображением (Alt, подпись, окружающий контент), максимально точно соответствует тому, что визуально изображено на картинке, и что само изображение достаточно качественное для анализа.

Как система определяет, что изображение визуально соответствует тексту?

Система использует предварительно обученные модели классификации для разных концепций (n-грамм). Она извлекает из изображения вектор визуальных признаков (Feature Vector – цвет, текстура, формы) и подает его на вход модели. Модель вычисляет Classification Score – оценку вероятности того, что эти признаки соответствуют данной концепции.

Насколько сильно HCL влияет на ранжирование?

Влияние значительно. Патент описывает применение Boost Value к изображениям с HCL, соответствующими запросу. Это повышает их Relevance Score. Причем, если HCL точно соответствует запросу (Exact Match), бустинг будет максимальным, что делает это одним из самых сильных сигналов в Image Search.

Влияет ли качество (разрешение, четкость) изображения на этот процесс?

Да, это критически важно для работы системы. Высокое качество и четкость изображения облегчают извлечение корректных визуальных признаков (Feature Vectors). Если система не сможет четко распознать объекты на изображении из-за низкого качества, она не сможет уверенно присвоить HCL.

Как Google обучает эти модели классификации?

Модели обучаются офлайн на больших наборах данных. В качестве положительных примеров для n-граммы используются изображения, которые имеют высокие показатели релевантности (Relevance Measures) по этому запросу. Патент явно упоминает частоту выбора (CTR) как пример. Это значит, что система учится на том, что пользователи считают релевантным.

Стоит ли использовать структурированные данные (Schema.org/ImageObject) в контексте этого патента?

Патент не упоминает структурированные данные напрямую. Однако они являются еще одним источником текста, связанного с изображением (например, свойство description или name). Этот текст также будет проходить визуальную верификацию как Candidate Labels. Использование точной разметки помогает предоставить системе качественные данные для анализа.

Что такое PAMIR и Min_Kernel, упомянутые в патенте?

Это технические термины из машинного обучения. PAMIR (Passive-Aggressive Model for Image Retrieval) — это конкретный тип алгоритма обучения, который итеративно корректирует модель при обнаружении ошибок. Min_Kernel — это функция для эффективного сравнения векторов признаков. Это указывает на использование сложных математических моделей для классификации изображений.

Работает ли эта система для абстрактных изображений или иллюстраций?

Система работает для любых изображений, для которых можно обучить модель классификации. Она эффективна для распознавания объектов и сцен. Для очень абстрактных концепций, которые сложно визуализировать или по которым нет четких поведенческих данных (CTR), обучение моделей может быть затруднено, и система будет больше полагаться на традиционные сигналы.

Как этот патент влияет на использование уникальных и стоковых изображений?

Стоковые изображения часто используются в нерелевантном контексте. В таких случаях система не присвоит им HCL для ключевых слов статьи, даже если они оптимизированы текстом. Уникальные изображения, созданные специально для контента, с большей вероятностью будут точно соответствовать окружающему тексту и получат HCL, что дает им преимущество.