Как Google преобразует изображение в текстовый запрос, анализируя контекст похожих картинок

Google использует механизм для понимания содержания изображения, когда оно используется в качестве запроса (например, в Google Lens). Система находит визуально похожие изображения в индексе и анализирует связанные с ними текстовые данные (n-граммы): запросы, по которым на них кликали, и текст на ссылающихся страницах. Агрегируя эти данные, Google выводит наиболее релевантный текстовый запрос, описывающий исходное изображение, и использует его для поиска результатов.

Описание

Какую задачу решает

Патент решает проблему интерпретации поискового запроса, представленного в виде изображения (Query by Image). Цель — понять семантическое содержание картинки для поиска релевантной информации, минуя необходимость текстового ввода, что особенно актуально для мобильных устройств. Система устраняет разрыв между визуальным вводом и системами текстового поиска.

Что запатентовано

Запатентован метод преобразования входящего изображения-запроса в текстовый запрос (textual query). Система идентифицирует набор визуально похожих изображений (similar images) в индексе, анализирует связанные с ними текстовые данные (n-grams) и на основе агрегированных оценок выбирает наилучшее текстовое описание. Полученный текстовый запрос затем используется для выполнения стандартного поиска.

Как это работает

Система функционирует в два этапа: офлайн-индексирование и онлайн-обработка запроса.

Индексирование (Офлайн):

Система анализирует популярные изображения (фильтруя по количеству кликов), вычисляет их визуальные характеристики (local descriptors) и строит индекс.
Определяется визуальное сходство между изображениями (image affinity).
С каждым изображением ассоциируются n-grams, извлеченные из метаданных: поисковых запросов, приведших к кликам, и текста на ссылающихся страницах (referrers). Оценка n-gram повышается, если этот же текст связан с другими визуально похожими изображениями (консенсус).

Обработка запроса (Онлайн):

Когда поступает изображение-запрос, система находит группу похожих изображений.
Она агрегирует их n-grams и рассчитывает общую оценку (overall score).
Система выбирает наилучший n-gram (предпочитая более длинные и точные фразы) в качестве текстового запроса и выполняет по нему поиск.

Актуальность для SEO

Критически высокая. Описанные механизмы лежат в основе технологий визуального поиска, таких как Google Lens и Reverse Image Search. Способность извлекать семантику из визуальных данных путем анализа контекста и поведения пользователей остается фундаментальной для современного мультимодального поиска.

Важность для SEO

Влияние на SEO высокое (85/100). Патент раскрывает, как именно Google формирует понимание содержания изображения. Ключевой инсайт: семантика изображения определяется не столько его пикселями, сколько агрегированным текстовым контекстом (запросы, по которым кликают, окружающий текст) визуально похожих изображений. Это подчеркивает стратегическую важность управления контекстом, в котором размещается изображение, для контроля его интерпретации поисковой системой.

Детальный разбор

Термины и определения

Clicks (Клики/Выборы): Количество выборов изображения пользователем в результатах поиска в ответ на текстовую фразу (query phrase). Используется как фильтр для индексации и как источник метаданных.
Image Affinity (Визуальное сходство/Аффинность): Метрика степени визуального сходства между двумя изображениями. Рассчитывается как произведение весов ребер (оценок совпадения) на максимальном пути сходства между изображениями в графе.
Kd-tree (Distributed): Структура данных для индексации local descriptors. Используется для быстрого поиска ближайших соседей (визуально похожих изображений). Распределенная версия используется для масштабирования.
Local Descriptors (Локальные дескрипторы): Математическое описание (вектор) визуальных характеристик локальной области изображения. Используются для определения визуального сходства.
N-gram: Последовательность из N токенов (слов). Текстовые фразы, связанные с изображением.
N-gram Score (Image-specific score): Оценка релевантности n-gram для конкретного изображения в индексе. Рассчитывается на основе того, сколько визуально похожих изображений (соседей по Image Affinity) также связаны с этой n-gram.
Overall Score (Общая оценка): Агрегированная оценка n-gram, рассчитанная во время запроса на основе image-specific scores всех найденных похожих изображений. Используется для выбора лучшего текстового описания.
Query Phrase (Поисковая фраза): Текстовый запрос, в ответ на который изображение было показано и получило клик.
Referrers (Ссылающиеся страницы): URL-адреса веб-страниц, которые содержат изображение или ссылаются на него.
Text Snippets (Текстовые фрагменты): Текст со ссылающихся страниц: физически близкий к изображению, анкорный текст ссылок на изображение.
Yield (Выход/Эффективность): Метрика, используемая при построении индекса для выбора наиболее репрезентативного набора изображений и минимизации визуального дублирования.

Ключевые утверждения (Анализ Claims)

Патент US9792304B1 фокусируется на процессе обработки запроса по изображению.

Claim 1 (Независимый пункт): Описывает основной метод обработки запроса по изображению.

Система получает изображение в качестве запроса.
Система выводит (deriving) соответствующий текстовый запрос. Это включает:
- Определение группы похожих изображений (similar images).
- Идентификацию связанных с ними n-grams.
- Выбор одной или нескольких n-grams в качестве текстового запроса.
Система получает результаты поиска, отвечающие этому текстовому запросу.
Система предоставляет результаты пользователю.

Claim 4 (Зависимый от 1): Уточняет механизм выбора текстового запроса.

Выбор основывается на определении общей оценки (overall score) для каждой n-gram и выборе наилучшей.

Claim 5 (Зависимый от 1): Уточняет механизм поиска похожих изображений.

Поиск осуществляется путем запроса к индексу дескрипторов с использованием векторов local descriptors изображения-запроса.

Claim 7 (Зависимый от 1): Уточняет возможность комбинирования результатов.

Система может предоставлять как результаты по выведенному текстовому запросу, так и результаты, которые визуально похожи на изображение-запрос.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, обеспечивая мост между визуальным вводом и текстовым поиском.

CRAWLING & INDEXING (Сканирование и Индексирование)
На этих этапах происходит ключевая офлайн-подготовка:

Сбор изображений и их контекста (referrers, text snippets).
Сбор поведенческих данных: связь текстовых query phrases и clicks на изображения.
Фильтрация популярных изображений (по порогу кликов).
Вычисление local descriptors и построение визуального индекса (kd-tree).
Расчет image affinity и построение графа сходства.
Ассоциация n-grams с изображениями и расчет image-specific scores на основе консенсуса с соседями.
Оптимизация индекса путем максимизации Yield.

QUNDERSTANDING (Понимание Запросов)
Основная область применения в онлайн-режиме. Когда входящий запрос является изображением, система интерпретирует его:

Находит визуально похожие изображения.
Агрегирует их n-grams и вычисляет overall scores.
Выбирает наилучший текстовый эквивалент. Визуальный запрос преобразуется в семантическое представление.

RANKING & METASEARCH (Ранжирование и Метапоиск)
Выведенный текстовый запрос обрабатывается стандартными системами ранжирования. Результаты могут смешиваться (blending) с результатами чисто визуального поиска (Claim 7).

На что влияет

Типы контента: В первую очередь влияет на интерпретацию изображений. Косвенно влияет на любой контент, который ранжируется в ответ на выведенный текстовый запрос.
Специфические запросы: Влияет на все сценарии визуального поиска (Google Lens, Reverse Image Search).
Ниши: Критическое влияние в E-commerce (идентификация товаров по фото), локальном поиске (идентификация мест) и путешествиях.

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь отправляет изображение в качестве запроса.
Условия работы (Индексирование): Офлайн-процесс применяется только к изображениям, которые превысили пороговое значение кликов (threshold number of clicks).
Условия работы (Онлайн): Эффективность зависит от наличия в индексе достаточного количества визуально похожих изображений с богатыми текстовыми данными.

Пошаговый алгоритм

Алгоритм состоит из двух частей: Офлайн-индексирование и Онлайн-обработка запроса.

Процесс А: Офлайн-индексирование и генерация N-grams

Сбор данных и Фильтрация: Сбор изображений, метаданных (query phrases, clicks, referrers). Отбор изображений, превысивших порог кликов.
Вычисление дескрипторов: Расчет local descriptors для отобранных изображений.
Построение первичного индекса: Генерация индекса (kd-tree) по дескрипторам.
Поиск совпадений и Построение графа: Идентификация похожих изображений (matches) и построение графа, где ребра взвешены по оценке сходства.
Расчет сходства (Affinity) и Отбор: Определение image affinity (максимальный путь в графе). Оптимизация набора изображений для финального индекса (максимизация Yield).
Расчет N-grams и Оценок: Извлечение n-grams из метаданных. Расчет image-specific score для каждой n-gram. Оценка повышается, если n-gram присутствует у других изображений с высоким image affinity (механизм подтверждения/консенсуса).
Генерация финального индекса: Создание индекса с дескрипторами и ассоциированными n-grams.

Процесс Б: Онлайн-обработка запроса по изображению

Получение запроса: Система получает изображение.
Поиск похожих изображений: Запрос к индексу для поиска группы визуально похожих изображений.
Извлечение и Агрегация N-grams: Извлечение n-grams и их image-specific scores из найденной группы.
Расчет общей оценки (Overall Score): Агрегация оценок для каждой n-gram. Формула может включать бустинг для более длинных n-grams.
Фильтрация N-grams: Удаление n-grams со стоп-словами или из черного списка.
Выбор лучшей N-gram (Deriving Textual Query): Итеративный выбор лучшего описания:
1. Выбирается 1-gram с наивысшей общей оценкой как текущий лучший вариант.
2. Рассматриваются n-grams более высокого порядка (N=2, 3…).
3. Текущий лучший вариант обновляется, если:
  - N-gram более высокого порядка имеет более высокую оценку.
  - ИЛИ N-gram является надстрокой (superstring) текущего лучшего варианта и ее оценка превышает порог принятия (acceptance threshold).
Выполнение поиска: Поиск результатов по выбранному текстовому запросу.

Какие данные и как использует

Данные на входе

Система использует комбинацию визуальных, контентных и поведенческих факторов.

Мультимедиа факторы (Визуальные данные): Пиксельные данные изображений. Используются для вычисления Local descriptors.
Поведенческие факторы (Критические данные):
- Clicks: Количество кликов на изображение. Используется для фильтрации индекса.
- Query Phrases: Текстовые запросы, которые привели к кликам. Основной источник n-grams.
Контентные/Ссылочные факторы (Контекст):
- Referrers: URL страниц, содержащих изображение.
- Text Snippets: Текст, физически близкий к изображению на странице, и анкорный текст ссылок на изображение. Дополнительный источник n-grams.

Какие метрики используются и как они считаются

Match Score (Оценка совпадения): Оценка визуального сходства между двумя изображениями (например, [0, 1]). Вес ребер в графе.
Image Affinity (a_{ij}): Произведение Match Scores вдоль максимального пути аффинности между изображениями i и j в графе.
Yield (Y): Метрика для оптимизации финального набора изображений в индексе путем балансировки покрытия и стоимости включения изображения.
Image-specific N-gram Score (w_{ik}): Оценка n-граммы k для изображения i. Рассчитывается на основе доли похожих изображений в окрестности, которые также имеют эту n-грамму. Формула из описания: w_ik := max(0, (C_ik — 1)/C_i). Требует подтверждения как минимум от двух изображений.
Overall N-gram Score: Общая оценка n-граммы k во время запроса. Агрегирует image-specific scores. Может использовать формулу с бустингом для длины (N) с помощью константы ‘c’ (например, c^N или N^c), суммированием оценок выше порога и делением на количество изображений.
Acceptance Threshold (Порог принятия): Используется при выборе лучшей n-gram. Позволяет выбрать более длинную фразу (superstring), даже если ее оценка ниже, при условии, что она выше этого порога.

Выводы

Семантика изображения определяется внешним контекстом и поведением: Google определяет, что изображено на картинке, анализируя текст, связанный с ней и с визуально похожими изображениями. Визуальный анализ используется для поиска сходства, а семантика извлекается из агрегированного текстового контекста (query phrases, text snippets).
Важность кликов для индексации: Изображения, которые не получают достаточно кликов в поиске, могут быть исключены из индекса, используемого для Query by Image (фильтрация по threshold clicks).
Консенсус и защита от спама (Image Affinity): Система использует механизм подтверждения для оценки n-grams. Текст получает высокую оценку, только если он согласованно встречается у нескольких визуально похожих изображений. Это фильтрует случайный контекст и затрудняет манипуляции.
Предпочтение точности и специфичности: Алгоритм выбора текстового запроса стремится найти наиболее длинное и точное описание, итеративно улучшая короткие фразы до более длинных (superstrings), если уровень уверенности достаточен (acceptance threshold).
Визуальный поиск как гибридная система: Патент описывает систему, где визуальный анализ (Computer Vision) используется для генерации текстового запроса, который затем обрабатывается стандартной системой текстового поиска (NLP/IR).

Практика

Best practices (это мы делаем)

Оптимизация текстового контекста (Text Snippets): Обеспечьте плотное, релевантное текстовое окружение для изображений. Текст, физически близкий к изображению (подписи, описания, заголовки), должен точно описывать его содержание. Это напрямую формирует n-grams, извлекаемые из referrers.
Стимулирование релевантного трафика из Image Search (Query Phrases/Clicks): Критически важно, чтобы изображение ранжировалось и получало клики по целевым текстовым запросам. Это основной источник высококачественных n-grams и условие для попадания в индекс (threshold clicks). Используйте стандартные методы Image SEO (alt, имена файлов).
Обеспечение консистентности контекста (Image Affinity): Если публикуется серия похожих изображений (например, разные ракурсы товара), их текстовый контекст должен быть согласован. Это усиливает image-specific score для целевых n-grams за счет механизма подтверждения от похожих изображений.
Использование уникальных и качественных изображений: Качество необходимо для точного расчета Local Descriptors. Уникальность помогает изображению не быть отфильтрованным на этапе оптимизации индекса (Yield) и стать авторитетным источником контекста для своего визуального кластера.

Worst practices (это делать не надо)

Размещение изображений в нерелевантном контексте: Вставка картинок, не соответствующих теме страницы, приводит к ассоциации нерелевантных n-grams. Это ухудшает интерпретацию изображения при визуальном поиске.
Использование популярных стоковых фото без адаптации: Стоковые фото могут иметь размытый набор n-grams из-за их использования в разных контекстах на тысячах сайтов. Система может испытывать трудности с определением вашего специфического интента.
Манипуляции и спам контекста: Попытки связать нерелевантные n-grams с изображением будут неэффективны из-за механизма консенсуса. N-gram получает высокую оценку, только если она подтверждается контекстом других визуально похожих изображений.
Игнорирование Image SEO: Пренебрежение поиском по картинкам означает потерю критически важных поведенческих данных (query phrases и clicks), необходимых для понимания содержания изображения и его индексации.

Стратегическое значение

Патент подтверждает, что для Google визуальный анализ неразрывно связан с текстовым контекстом и поведением пользователей. Визуальное и текстовое SEO конвергируют. Стратегически это означает, что оптимизация изображений — это управление средой, в которой они существуют. С развитием Google Lens, способность контролировать, какой именно текстовый запрос (Textual Query) Google выведет из вашего изображения, становится критически важным конкурентным преимуществом, особенно в E-commerce и локальном поиске.

Практические примеры

Сценарий: Оптимизация карточки товара E-commerce (Кроссовки) для Google Lens

Задача: Гарантировать, что при поиске по фото кроссовка система выведет точное название модели и направит пользователя на релевантные страницы.

Действия:
- Разместить несколько уникальных фотографий кроссовка (разные ракурсы).
- На странице товара (referrer) в непосредственной близости от фото (text snippets) использовать точное название: «Nike Air Max 90 Black Leather».
- Оптимизировать alt-текст и имена файлов консистентно.
- Продвигать страницу так, чтобы изображение получало клики в Image Search по запросу «Nike Air Max 90 Black Leather» (сбор Query Phrases).
Как это работает по патенту:
- Google индексирует изображения и отмечает их высокое визуальное сходство (image affinity между ракурсами).
- Система извлекает n-gram «Nike Air Max 90 Black Leather» из контекста и логов запросов.
- Поскольку все похожие изображения (ракурсы) имеют этот n-gram, он получает высокий image-specific score (контекст подтвержден).
Результат: Когда пользователь сканирует кроссовок (Query by Image), система находит эти изображения. N-gram «Nike Air Max 90 Black Leather» получает наивысший Overall Score (благодаря длине и высокой оценке). Google использует его как Textual Query и показывает релевантные результаты покупки.

Вопросы и ответы

Как Google определяет, какой текст (n-grams) связать с изображением?

Патент указывает на два основных источника. Первый — это поведенческие данные: текстовые поисковые запросы (query phrases), по которым пользователи кликали на это изображение в результатах поиска. Второй — это контекст размещения: текст на страницах, где размещено изображение (referrers), включая текст рядом с картинкой (text snippets) и анкорный текст ссылок на нее.

Как система защищается от спама или неверного контекста?

Ключевой механизм защиты — это расчет Image-specific score на основе консенсуса (Image Affinity). Чтобы n-gram получила высокую оценку, она должна быть подтверждена: другие визуально похожие изображения также должны быть связаны с этой n-gram. Изолированный спамный контекст на одной странице будет иметь низкий вес, если он не подтверждается соседями.

Как система решает, какое из множества текстовых описаний является лучшим?

Система использует итеративный алгоритм выбора лучшей n-gram. Она начинает с самого надежного короткого описания (1-gram) и ищет более длинные фразы. Она предпочтет более длинную фразу, если та имеет более высокую общую оценку (Overall Score) ИЛИ если она является уточнением (superstring) текущей лучшей фразы и ее оценка превышает порог надежности (acceptance threshold).

Влияет ли атрибут ALT на этот процесс?

Патент явно не упоминает ALT, но он влияет косвенно. ALT является частью контекста страницы (text snippets). Кроме того, оптимизация ALT помогает изображению ранжироваться в поиске по картинкам, что критически важно для сбора clicks и query phrases, которые напрямую используются в описанном механизме.

Почему мое изображение может не попасть в этот индекс?

В патенте указаны две возможные причины. Во-первых, изображение могло не набрать порогового количества кликов (threshold number of clicks) в обычном поиске. Во-вторых, оно могло быть отфильтровано на этапе оптимизации индекса (максимизация Yield), если существует слишком много визуально идентичных копий, и система выбрала другую копию как репрезентативную.

Что такое «Local Descriptors» и как они используются?

Local Descriptors — это математическое представление визуальных характеристик ключевых областей изображения (текстуры, формы). Они используются для определения визуального сходства между изображениями без сравнения всех пикселей. В этом патенте они являются основой для поиска группы похожих картинок в индексе.

Использует ли Google распознавание объектов (Object Detection) для генерации этого текста?

Этот конкретный патент не описывает использование моделей распознавания объектов для генерации текста. Он полагается исключительно на анализ существующих текстовых данных (n-grams), связанных с визуально похожими изображениями. Это подход, основанный на контексте и поведении, а не на прямом машинном зрении для семантической интерпретации.

Как этот патент связан с Google Lens?

Этот патент описывает базовую технологию, лежащую в основе Google Lens. Google Lens принимает изображение с камеры (Query by Image), идентифицирует его содержание, находя похожие изображения в индексе, и переводит его в текстовый запрос (Textual Query), чтобы предоставить пользователю релевантную информацию.

Что делать, если мое изображение используется другими сайтами в неправильном контексте?

Это сложная ситуация, так как система ищет консенсус. Если большинство визуально похожих изображений имеют нерелевантный контекст, он может доминировать. Необходимо сосредоточиться на создании сильного, релевантного контекста на вашем сайте и стимулировании кликов на изображение по целевым запросам, чтобы повлиять на агрегированные данные и повысить вес ваших n-grams.

Что означает «Image Affinity» для SEO?

Image Affinity — это мера визуального сходства. Для SEO это означает, что семантика может наследоваться. Если ваше изображение визуально похоже на авторитетные изображения с хорошим контекстом, оно может унаследовать их релевантные n-grams. Это подчеркивает важность создания качественного визуального контента, соответствующего стандартам ниши.