Как Google использует визуальное сходство (VisualRank) для проверки и ранжирования текстовых меток в поиске по картинкам

Google использует механизм (VisualRank) для улучшения качества поиска по картинкам, анализируя визуальное содержимое изображений. Система не полагается исключительно на окружающий текст. Она сравнивает визуальные характеристики изображения с другими в индексе и использует модель навигации между похожими картинками, чтобы определить, какие текстовые метки наиболее точно описывают изображение, и отфильтровать шум.

Описание

Какую задачу решает

Патент решает проблему зависимости систем поиска изображений от качества текстовых данных, связанных с картинкой (окружающий текст, метаданные, имя файла). Эти данные часто бывают зашумленными, неинформативными (например, слова «круто», «фото») или нерелевантными фактическому содержанию изображения. Это приводит к некорректной индексации изображений (poorly labeled images) и снижению качества поисковой выдачи.

Что запатентовано

Запатентована система для определения релевантности и важности терминов (меток или labels) по отношению к изображению, а также для ранжирования самих изображений относительно термина. Суть изобретения заключается в использовании визуального сходства между изображениями для валидации и ранжирования текстовых меток. Система строит граф сходства изображений и применяет итеративный алгоритм (подобный PageRank, часто называемый VisualRank) для распространения «веса» меток через визуально похожие изображения.

Как это работает

Система работает в несколько этапов:

Извлечение признаков и меток: Для изображений извлекаются визуальные признаки (например, цвет, текстура, SIFT) и начальный набор текстовых терминов из связанного контента.
Расчет сходства: Определяются оценки визуального сходства (similarity scores) для пар изображений путем сравнения их визуальных признаков.
Расчет вероятностей перехода: На основе сходства вычисляются transitional probabilities — вероятность того, что пользователь перейдет от одного изображения к другому. Эта вероятность может снижаться, если изображения слишком похожи (для обеспечения разнообразия).
Итеративное ранжирование меток: Система рассчитывает итеративную оценку (например, TRA или TRB) для пары (Изображение, Термин). Эта оценка отражает релевантность термина изображению, учитывая метки визуально похожих изображений и вероятности перехода между ними. Процесс повторяется до сходимости.
Ассоциация и Индексация: Термины, чьи оценки удовлетворяют определенному критерию (например, наивысший ранг или превышение порога), ассоциируются с изображением для индексации.

Актуальность для SEO

Высокая. Точное понимание содержания изображений остается критически важной задачей для Google, особенно с ростом визуального поиска (Google Lens) и интеграции изображений в основную выдачу. Методы, использующие визуальные признаки для уточнения текстовых данных (VisualRank), лежат в основе современных систем поиска изображений и борьбы с нерелевантным контентом.

Важность для SEO

Патент имеет высокое значение для Image SEO. Он демонстрирует, что Google не просто индексирует текст вокруг изображения, а активно валидирует его с помощью визуального анализа. Если визуальное содержание картинки не соответствует текстовым меткам (Alt text, заголовок), система может понизить релевантность этих меток. Успешная оптимизация требует соответствия между визуальной репрезентативностью изображения и его текстовым описанием.

Детальный разбор

Термины и определения

Term / Label (Термин / Метка): Слово, фраза или другой идентификатор, используемый для описания или индексации изображения. Изначально извлекается из метаданных, имени файла или окружающего текста.
Similarity Score (Оценка сходства): Числовое значение, представляющее степень визуального сходства между двумя изображениями. Рассчитывается путем сравнения визуальных признаков (image features).
Image Features (Признаки изображения): Визуальные характеристики изображения, используемые для сравнения. Могут быть глобальными (например, гистограмма цветов всего изображения) или локальными (например, SIFT-дескрипторы ключевых точек (keypoints)).
Transitional Probability (Вероятность перехода): Вероятность P(A->B), что пользователь перейдет к изображению B, просматривая изображение A. Рассчитывается на основе Similarity Score и, возможно, других факторов (качество изображения, контекстуальное сходство).
Beta Distribution (Бета-распределение): Один из способов моделирования Transitional Probability. В патенте предполагает, что вероятность перехода растет с увеличением сходства до определенной точки, а затем падает, если изображения становятся слишком похожими (почти дубликатами).
TRA(I, Q) (Image Term Ranking Function A): Одна из функций ранжирования. Рассчитывает вероятность выбора изображения I по запросу Q, при условии, что пользователь начинает обход графа с изображений, уже связанных с Q. Инициализация зависит от частоты ассоциации метки с изображением.
TRB(I, Q) (Image Term Ranking Function B): Вторая функция ранжирования. Рассчитывает вероятность выбора изображения I по запросу Q, при условии, что пользователь начинает обход графа случайным образом, но с фактором «телепортации» (damping factor d), который смещает обход к изображениям, связанным с Q (аналогично классическому PageRank).
Image Quality Metric (Метрика качества изображения): Оценка качества изображения, не зависящая от запроса (например, резкость, глубина цвета, насыщенность). Может использоваться для корректировки Transitional Probability.
Structural-context similarity (Структурно-контекстуальное сходство): Метрика сходства, основанная на взаимосвязи между веб-страницами или источниками, где размещены изображения (например, изображения с одного сайта или блога).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ассоциации терминов с изображением.

Система определяет оценку (score) для изображения по отношению к одному или нескольким терминам.
Определение этой оценки включает:
- Определение вероятностей навигации (probabilities of navigating) между изображениями.
- Определение оценки на основе этих вероятностей.
Система идентифицирует термины, для которых оценка удовлетворяет определенному критерию.
Система ассоциирует идентифицированные термины с изображением.

Ядро изобретения — использование вероятностей навигации между изображениями (которые выводятся из визуального сходства) для оценки релевантности текстовых терминов.

Claim 2 (Зависимый от 1): Уточняет, как определяются вероятности навигации.

Определяются степени сходства (degrees of similarity) между парами изображений.
Вероятности навигации определяются на основе этих степеней сходства.

Claim 3 (Зависимый от 2): Уточняет, как определяется степень сходства.

Для пары изображений идентифицируются и сравниваются один или несколько признаков (features) каждого изображения.

Claim 4, 6, 7 (Зависимые): Уточняют, что вероятности навигации могут учитывать дополнительные факторы.

Claim 4: Вероятности могут основываться на метриках качества изображений (quality metrics).
Claim 6: Вероятности могут основываться на метриках взаимосвязи (relationship metrics) между электронными документами, которые включают эти изображения или ссылаются на них.

Claim 8 (Зависимый от 2): Описывает механизм, способствующий разнообразию (соответствует Бета-распределению).

Вероятность перехода для первой пары (P1) выше, чем для второй (P2), если сходство первой пары находится в определенном диапазоне (между порогом 1 и порогом 2), а сходство второй пары превышает порог 2 (слишком похожи).

Где и как применяется

Изобретение применяется в основном на этапе индексирования и влияет на качество данных, используемых при ранжировании.

CRAWLING – Сканирование и Сбор данных
Система собирает изображения и связанный с ними контент (метаданные, окружающий текст), который служит источником начальных текстовых меток.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Происходит глубокий анализ и обработка данных:

Извлечение визуальных признаков: Image Features Module анализирует пиксели для извлечения характеристик (цвет, текстура, SIFT).
Извлечение текстовых меток: Image Terms Module обрабатывает связанный контент для определения начального набора терминов.
Расчет сходства и вероятностей: Image Similarity Module и Probabilities Module вычисляют визуальное сходство и вероятности перехода, строя граф изображений.
Ранжирование меток: Scoring and Ranking Module выполняет итеративный алгоритм (TRA/TRB) для переоценки и ранжирования начальных меток на основе визуального графа.
Индексация: Image Indexing Module сохраняет изображения с уточненными и взвешенными метками в Image Repository/Index.

RANKING – Ранжирование
Хотя сам алгоритм работает на этапе индексации, его результаты напрямую используются на этапе ранжирования в Image Search. Image Search Server использует уточненные метки для более точного сопоставления запросов пользователей с изображениями.

Входные данные:

Набор изображений.
Начальные текстовые термины, ассоциированные с каждым изображением.
Визуальные признаки (Image Features) изображений.

Выходные данные:

Оценки (Scores) для каждой пары (Изображение, Термин), показывающие их релевантность.
Набор уточненных текстовых меток для каждого изображения (термины, удовлетворяющие критерию).

На что влияет

Типы контента: В первую очередь влияет на поиск по изображениям (Image Search).
Специфические запросы: Наибольшее влияние оказывается на запросы, где существует визуальный консенсус (например, «Эйфелева башня», «лабрадор»), и где часто встречается зашумленный текст. Меньше влияет на абстрактные понятия, не имеющие четкого визуального представления.
Фильтрация шума: Эффективно снижает влияние неинформативных или спамных меток, которые не подтверждаются визуальным содержанием.

Когда применяется

Условия работы: Алгоритм применяется в процессе индексации или переиндексации изображений. Это офлайн-процесс, требующий значительных вычислительных ресурсов для расчета сходства и итеративного обновления оценок.
Триггеры активации: Активируется для изображений, имеющих достаточное количество визуально похожих соседей в индексе для построения надежного графа сходства.

Пошаговый алгоритм

Этап 1: Сбор и предварительная обработка

Получение данных: Система получает набор изображений и связанный с ними контент.
Извлечение начальных меток: Для каждого изображения извлекаются начальные текстовые термины (метки).
Извлечение визуальных признаков: Для каждого изображения идентифицируются визуальные признаки (например, гистограммы цвета, текстуры, SIFT-дескрипторы).

Этап 2: Построение графа сходства

Сравнение признаков: Для пар изображений система сравнивает их визуальные признаки.
Расчет оценок сходства: Определяется степень визуального сходства (Similarity Score) для пар изображений.
Расчет вероятностей перехода: Для пар изображений вычисляются Transitional Probabilities P(A->B). Это может включать:
- Применение функции к Similarity Score (например, Бета-распределение, чтобы избежать слишком похожих изображений).
- Корректировку на основе метрик качества изображения (Image Quality Metric) и/или контекстуального сходства (Structural-context similarity).

Этап 3: Итеративное ранжирование меток (на примере функции TRA)

Инициализация оценок: Для каждого изображения M и термина Q начальная оценка TRA(M, Q) устанавливается на основе того, как часто Q ассоциируется с M по сравнению с другими изображениями (Equations I).
Итеративное обновление: Система многократно пересчитывает оценки TRA для всех изображений и терминов до сходимости (Equations II). Новая оценка изображения зависит от оценок его соседей, взвешенных по вероятности перехода от соседа к этому изображению.
(Технически: TRA(M1, Q) = Сумма по всем M_i [ P(M_i -> M1) * TRA(M_i, Q) ] )

Этап 4: Финализация и Индексация

Идентификация лучших меток: Для каждого изображения определяются термины, чьи финальные оценки TRA/TRB удовлетворяют критерию (например, имеют наивысший ранг или превышают порог).
Ассоциация и Индексация: Идентифицированные термины ассоциируются с изображением в поисковом индексе.

Какие данные и как использует

Данные на входе

Система использует комбинацию визуальных, контентных и структурных факторов.

Мультимедиа факторы (Визуальные): Критически важные данные. Используются пиксельные данные изображения для извлечения Image Features:
- Интенсивность, цвет (гистограммы).
- Края, текстура.
- Локальные инвариантные признаки (например, SIFT), включая положение, ориентацию и масштаб ключевых точек (keypoints).
Контентные факторы (Текстовые): Используются для определения начального набора меток.
- Текст веб-страницы, на которой размещено изображение.
- Метаданные изображения (например, EXIF).
- Имя файла изображения.
- Анкорный текст ссылок на изображение.
- Текст веб-страницы, на которую ссылается изображение (если изображение является ссылкой).
Структурные факторы (Контекстуальные): Могут использоваться для корректировки вероятностей перехода.
- Взаимосвязь между источниками изображений (relationship metrics, Structural-context similarity).
Поведенческие факторы (Опционально): Упоминается возможность использования данных о кликах (co-click data) для уточнения оценки Transitional Probability.

Какие метрики используются и как они считаются

Similarity Score: Оценка визуального сходства. Рассчитывается как функция сравнения соответствующих признаков (например, разница гистограмм, количество совпадающих ключевых точек). Может быть линейной комбинацией сравнений разных типов признаков.
Transitional Probability P(A->B): Вероятность навигации. Рассчитывается как функция от Similarity Score. Может использовать Beta Distribution для снижения вероятности перехода к почти дубликатам. Может корректироваться дополнительными факторами: P(A->B) ~ f(Similarity(A,B), Quality(B), StructuralContext(A,B)).
Image Quality Metric: Независимая от запроса оценка качества изображения (резкость, цветность и т.д.).
TRA(I, Q) / TRB(I, Q): Финальная оценка релевантности изображения I термину Q. Рассчитывается итеративно через модель случайного блуждания по графу изображений до сходимости (Equations II и III).
TF-IDF (Опционально): Упоминается возможность использования TF-IDF для фильтрации начальных терминов или нормализации начальных значений TRA/TRB, чтобы снизить влияние часто встречающихся (шумовых) слов.

Выводы

Визуальный консенсус определяет релевантность: Релевантность изображения термину определяется тем, насколько оно визуально похоже на другие изображения, которые уже надежно ассоциированы с этим термином. Система ищет визуальный консенсус, а не полагается слепо на текст.
Итеративное распространение меток (VisualRank): Используется механизм, аналогичный PageRank, где «авторитет» (уверенность в метке) распространяется через связи (визуальное сходство и Transitional Probability). Это позволяет автоматически генерировать или очищать метки.
Определение канонических изображений: Алгоритм позволяет Google идентифицировать наиболее репрезентативные (канонические) изображения для любого термина, основываясь на накопленном «визуальном весе» в ходе итеративного процесса.
Качество изображения как фактор ранжирования: Метрики качества (фокус, насыщенность) могут напрямую влиять на Transitional Probability. Высококачественные изображения имеют преимущество в накоплении VisualRank.
Поощрение разнообразия (Anti-Duplicate): Механизм расчета Transitional Probability (Бета-распределение, Claim 8) явно снижает вероятность перехода к почти идентичным изображениям, отдавая предпочтение уникальному, но схожему контенту.

Практика

Best practices (это мы делаем)

Обеспечение визуальной релевантности и консистентности: Убедитесь, что изображение визуально соответствует целевым ключевым словам. Если вы оптимизируете изображение под запрос «красные кроссовки Nike Air Max», оно должно выглядеть как типичный представитель этой категории в глазах системы (т.е. быть визуально похожим на консенсус).
Точная и честная текстовая оптимизация: Используйте релевантные Alt-тексты, имена файлов и окружающий контент. Эти данные используются для инициализации алгоритма (Image Terms Module). Точные начальные данные повышают вероятность высокой финальной оценки.
Использование высококачественных и четких изображений: Метрики качества изображения (Image Quality Metrics) могут влиять на Transitional Probability. Качественные изображения имеют больше шансов быть включенными в навигационные пути и получить высокие оценки.
Создание репрезентативных изображений: При создании иллюстраций или фотографий для статей стремитесь к тому, чтобы они были хорошими визуальными представителями темы. Такие изображения имеют больше шансов стать «авторитетными» (каноническими) в своей визуальной нише.

Worst practices (это делать не надо)

Использование нерелевантных изображений (Image Mismatch): Размещение изображения, которое визуально не связано с темой статьи или целевыми ключевыми словами. Алгоритм обнаружит это несоответствие, сравнив его с другими изображениями по этой теме, и понизит оценку релевантности.
Keyword Stuffing в Alt-текстах или окружающем тексте: Добавление множества ключевых слов, слабо связанных с изображением. Система отфильтрует эти метки, если они не будут подтверждены визуальным анализом и метками похожих изображений.
Использование исключительно шаблонных стоковых фото: Хотя они могут быть качественными, если они используются на сотнях сайтов для разных тем, их способность ранжироваться по конкретной теме может быть размыта. Кроме того, механизм Beta Distribution может понижать вероятность перехода к слишком похожим (дублирующимся) изображениям.

Стратегическое значение

Этот патент подчеркивает переход Google от анализа изолированных пар (текст-изображение) к анализу на основе графов и визуального консенсуса. Для SEO это означает, что оптимизация изображений должна быть комплексной: недостаточно просто прописать теги. Необходимо учитывать, как изображение выглядит в контексте всей экосистемы интернета. Стратегия должна фокусироваться на создании или подборе изображений, которые визуально подтверждают интент запроса и соответствуют ожиданиям системы относительно того, как этот интент должен выглядеть.

Практические примеры

Сценарий: Оптимизация изображения товара в E-commerce

Задача: Оптимизировать фото нового смартфона «BrandX ModelZ» для Image Search.
Действия (Визуальные): Сделать четкие, высококачественные фотографии товара с разных ракурсов. Убедиться, что товар визуально похож на другие изображения смартфонов (форма, элементы интерфейса), но при этом четко видны уникальные особенности модели. Это гарантирует, что Image Similarity Module корректно свяжет его с кластером «смартфоны».
Действия (Текстовые): Использовать имя файла brandx-modelz-front.jpg. Прописать Alt text: «Передняя панель смартфона BrandX ModelZ». Разместить фото на странице товара с соответствующим описанием. Это обеспечит точную инициализацию меток.
Ожидаемый результат: Система анализирует фото, находит визуальное сходство с другими смартфонами. Итеративный алгоритм (TRA/TRB) подтверждает релевантность меток «смартфон», «BrandX», «ModelZ», так как эти метки присутствуют у визуально похожих изображений и начальные данные были точными. Изображение получает высокие оценки и хорошо ранжируется.

Сценарий: Использование стокового фото для статьи о здоровье

Задача: Подобрать изображение для статьи «Симптомы дефицита витамина B12».
Неправильное действие: Выбрать популярное стоковое фото улыбающегося доктора со стетоскопом.
Анализ системы: Это изображение визуально похоже на тысячи других изображений, которые оптимизированы под общие запросы («доктор», «медицинская помощь», «страховка»). Алгоритм TRA/TRB даст высокие оценки для этих общих терминов, но низкие для специфического термина «дефицит витамина B12», так как визуальный консенсус для этого термина другой (например, инфографика симптомов, фото продуктов, анализы крови).
Правильное действие: Создать уникальную инфографику, перечисляющую симптомы, или использовать изображение, более специфичное для темы (например, микроскоп с клетками крови).
Результат: Изображение более точно соответствует визуальному кластеру темы и получает более высокие оценки для целевых специфических запросов.

Вопросы и ответы

Как именно система определяет, насколько похожи два изображения?

Система извлекает визуальные признаки (Image Features) из обоих изображений. Это могут быть глобальные признаки, такие как гистограммы цвета или текстуры, или локальные признаки, такие как SIFT-дескрипторы для ключевых точек (keypoints). Затем она сравнивает эти признаки с помощью функций сравнения (например, вычисляя разницу гистограмм или количество совпадающих ключевых точек) для определения общей оценки сходства (Similarity Score).

Что такое «Transitional Probability» и почему она важна?

Transitional Probability P(A->B) моделирует вероятность того, что пользователь перейдет от просмотра изображения A к изображению B. Она рассчитывается на основе визуального сходства, но может также учитывать качество изображения B и контекстуальную связь между источниками A и B. Эта вероятность является «весом» связи в графе изображений и используется в итеративном алгоритме (VisualRank) для распространения релевантности меток между похожими изображениями.

В патенте упоминается, что вероятность перехода может снижаться, если изображения слишком похожи. Что это значит для SEO?

Это механизм, способствующий разнообразию (описанный через Beta Distribution). Система может предпочесть показать похожую, но немного отличающуюся картинку, а не точный дубликат. Для SEO это подчеркивает ценность уникальных изображений. Если вы используете то же стоковое фото, что и 100 других сайтов, система может предпочесть альтернативные, визуально схожие, но не идентичные изображения.

Означает ли этот патент, что Alt text и окружающий текст больше не важны для Image SEO?

Нет, они по-прежнему критически важны. В описанном алгоритме (TRA/TRB) текстовые данные используются для инициализации оценок (Equations I и III). Они предоставляют системе начальный набор кандидатов в метки. Однако патент показывает, что эти начальные метки затем проверяются и переранжируются на основе визуального анализа. Точный текст необходим, чтобы попасть в рассмотрение, но визуальное содержание определяет финальный результат.

Как этот алгоритм влияет на ранжирование новых изображений, для которых еще нет визуального консенсуса?

Для совершенно новых или уникальных изображений алгоритму сложнее установить надежные связи в графе сходства. В таких случаях система, вероятно, будет больше полагаться на начальные текстовые метки и другие традиционные сигналы ранжирования. По мере появления похожих изображений и формирования визуального кластера, итеративный алгоритм начнет оказывать большее влияние.

Может ли система ассоциировать с изображением метку, которой вообще не было в тексте на странице?

Да, это возможно в рамках модели. Если изображение A не имеет метки «Яблоко», но оно визуально очень похоже на изображение B, которое имеет сильную ассоциацию с меткой «Яблоко», итеративный процесс может распространить эту метку на изображение A, присвоив ей высокую оценку. Это позволяет системе уточнять и дополнять метки на основе визуального содержания.

Как бороться с ситуацией, когда мое релевантное изображение вытесняется менее релевантным, но визуально популярным?

Нужно усилить сигналы специфичности. Убедитесь, что ваше изображение не только визуально релевантно общему кластеру, но и содержит четкие визуальные признаки, соответствующие вашей узкой теме. Дополните это максимально точной текстовой оптимизацией (Alt text, контекст), чтобы усилить начальные оценки для специфических терминов. Также работайте над качеством изображения, так как Image Quality Metric может влиять на вероятность перехода.

Как этот патент применяется к инфографике или изображениям с текстом?

Алгоритм в первую очередь основан на визуальных признаках (цвет, текстура, формы), а не на распознавании текста (OCR). Инфографика будет кластеризоваться на основе ее визуального стиля, цветов и структуры. Если инфографика визуально уникальна, система будет больше полагаться на окружающий ее текст. Однако, если используется шаблонный дизайн, она может быть связана с другими изображениями, использующими тот же шаблон, независимо от их темы.

Что такое функции TRA и TRB и в чем их разница?

Это две разные модели расчета итоговой оценки, отличающиеся инициализацией и моделью поведения пользователя. TRA предполагает, что пользователь начинает обход графа с изображений, уже релевантных запросу, и инициализируется на основе частоты меток. TRB моделирует случайный обход (как в классическом PageRank) с равномерной инициализацией и включает коэффициент затухания (d) и «телепортацию» к релевантным изображениям.

Влияет ли скорость загрузки или формат изображения (например, WebP) на этот алгоритм?

Патент не упоминает скорость загрузки или конкретные форматы файлов как факторы в этом алгоритме. Однако он упоминает Image Quality Metric (резкость, цветность), которая может косвенно зависеть от формата и степени сжатия. Высококачественные изображения предпочтительнее.