
Google использует систему визуального поиска, которая позволяет пользователям отправлять изображение в качестве запроса. Для этого система создает индекс визуальных признаков и анализирует метаданные (запросы, по которым кликали на картинку, и текст на ссылающихся страницах). При получении изображения система находит визуально похожие картинки в индексе, анализирует связанные с ними текстовые фразы (n-граммы) и выбирает наилучшее описание. Затем выполняется стандартный поиск по этому текстовому описанию.
Патент решает задачу обработки поисковых запросов, состоящих из изображений (Query by Image или визуальный поиск). Основная цель — позволить пользователям выполнять поиск, используя картинку вместо текста, что особенно актуально, когда пользователь не знает, как описать объект, или когда ввод текста затруднен (например, на мобильных устройствах). Система стремится понять семантическое значение изображения, чтобы предоставить релевантные результаты поиска.
Запатентована система для индексации изображений и обработки визуальных запросов. Система создает индекс на основе визуальных признаков (local descriptors) и метаданных (клики, связанные запросы). Ключевым механизмом является процесс преобразования входящего изображения в текстовый запрос (derived textual query). Это достигается путем поиска визуально похожих изображений в индексе, анализа связанных с ними текстовых фраз (n-grams) и выбора наиболее точного описания. Поиск затем выполняется по этому сгенерированному тексту.
Система работает в две фазы:
Image Affinity). На основе этого графа и метаданных система определяет, какие текстовые фразы (n-grams) лучше всего описывают кластеры похожих изображений. Создается финальный индекс.n-grams, связанные с этими похожими изображениями. Выбирается n-gram с наивысшей оценкой в качестве текстового описания. Система выполняет поиск по этому тексту и возвращает результаты.Высокая. Визуальный поиск (например, Google Lens) является критически важным компонентом современного поиска, особенно в мобильных устройствах и e-commerce. Описанные в патенте методы определения текстового значения изображения путем анализа метаданных визуально похожих картинок лежат в основе того, как поисковые системы понимают неразмеченный графический контент.
Патент имеет высокое значение (8/10) для Image SEO и продвижения сайтов с большим количеством визуального контента (e-commerce, медиа). Он раскрывает механизмы, с помощью которых Google ассоциирует изображения с текстовыми запросами. Это напрямую влияет на ранжирование изображений и подчеркивает критическую важность контекста: текста, окружающего изображение на странице, и запросов, по которым пользователи находят и кликают на это изображение.
maximum affinity path) между двумя изображениями.query phrases, по которым кликали на изображение, и текст из referrers (страниц, содержащих изображение).Yield направлена на выбор наиболее репрезентативных изображений с максимальной разрешающей способностью для поиска, минимизируя при этом избыточность (например, удаляя дубликаты).Yield при выборе изображения для включения в финальный индекс. Используется для контроля размера индекса.n-gram), которое система генерирует для входного изображения-запроса путем анализа n-грамм визуально похожих изображений.Image-specific Scores всех визуально похожих изображений, найденных по запросу.Патент содержит несколько групп утверждений, описывающих процесс индексации (Claim 1 и зависимые) и процесс обработки запроса (описан в Summary/Detailed Description).
Claim 1 (Независимый пункт, Фокус на индексации): Описывает метод создания поискового индекса изображений.
matching images) для каждого изображения с помощью индекса. Совпадение основано на match score (визуальное сходство).final image selection). Это включает: pairwise image affinity) на основе весов ребер вдоль пути в графе.Claim 4, 11 (Зависимые): Детализируют расчет аффинности.
Pairwise image affinity определяется путем нахождения maximum affinity path (пути максимальной аффинности) между двумя изображениями в графе и рассчитывается как произведение весов ребер вдоль этого пути.
Claim 5, 12 (Зависимые): Определяют метод выбора финального набора изображений.
Выбор изображений осуществляется путем максимизации функции Yield (Выход) по всему графу. Формула Yield: Y:=Sumi(maxj(sj)(wij))−(selection cost)(si). Она балансирует выгоду от охвата изображения и затраты на его включение в индекс (selection cost).
Изобретение в основном применяется на этапах индексирования и понимания запросов в системе визуального поиска.
INDEXING – Индексирование и извлечение признаков
Это основной этап для создания инфраструктуры визуального поиска.
Local Descriptors (визуальных признаков) для изображений.query phrases, click counts, referrers, text snippets.Distributed kd-tree), построение графа визуального сходства, расчет Image Affinity и использование этой информации для ассоциации изображений с релевантными n-grams (семантическими описаниями).Yield.QUNDERSTANDING – Понимание Запросов
Когда пользователь отправляет изображение в качестве запроса, система должна интерпретировать его.
n-grams, связанные с этими похожими изображениями.n-gram, чтобы сгенерировать Derived Textual Query. Это и есть процесс понимания семантики изображения.RANKING – Ранжирование
После того как Derived Textual Query сгенерирован, он передается в стандартную систему ранжирования для поиска результатов (веб-страниц, других изображений и т.д.).
Query by Image, Google Lens). Также косвенно влияет на текстовый поиск изображений, так как определяет, какие n-grams ассоциируются с какими изображениями.threshold number of clicks) в ответ на текстовые запросы. Это используется как фильтр популярности и релевантности.Процесс А: Индексация изображений и генерация N-грамм (Офлайн)
query phrases, количество кликов, URL-адреса рефереров и текстовые сниппеты из них.local descriptors (например, с использованием вейвлетов для областей интереса).kd-tree) с использованием local descriptors.matching set) с использованием индекса. Сходство оценивается с помощью Match Score.Match Score.pairwise image affinity (aij) путем нахождения пути максимальной аффинности. Затем определяется финальный набор изображений путем максимизации метрики Yield (Y) по всему графу.Image-specific Scores (wik). N-грамма подтверждается, если она есть у нескольких похожих изображений.Процесс Б: Обработка Запроса по Изображению (Онлайн)
Overall Score для каждой n-граммы путем агрегации Image-specific Scores от всех похожих изображений. Применяется фильтрация (стоп-слова, черные списки).Derived Textual Query. Процесс итеративно ищет лучшую n-грамму, начиная с коротких (N=1) и переходя к более длинным, обновляя выбор, если более длинная n-грамма имеет более высокую оценку или является надстрокой (superstring) текущего лучшего варианта и превышает порог принятия.Local Descriptors и определения визуального сходства (с помощью вейвлетов Gabor wavelets).Query phrases (текстовые запросы, по которым изображение показывалось в поиске). Clicks (количество выборов изображения для данной Query Phrase).Referrers (URL страниц, содержащих изображение или ссылку на него). Используются text snippets с этих страниц (текст, физически близкий к изображению) и anchor text ссылок на изображение.local descriptors.Match Scores вдоль пути максимальной аффинности между двумя изображениями в графе.text snippets из referrers) является прямым источником n-grams для системы.Local Descriptors и Image Affinity, изображения должны быть высокого качества, а ключевые объекты на них — четко различимы. Это поможет системе правильно кластеризовать изображение с другими похожими объектами и ассоциировать его с правильными n-grams.query phrases и clicks напрямую используются для ассоциации n-grams и для прохождения порога популярности при индексации.text snippets и anchor text. Alt-текст функционирует аналогично, предоставляя системе кандидатов для n-grams.n-grams ассоциируются эти изображения, поможет скорректировать вашу стратегию оптимизации контекста.n-grams из referrers.Yield. Кроме того, его текстовое описание будет определяться агрегированными данными от всех сайтов, что может не соответствовать вашему контексту.n-grams через кластеры похожих изображений. Если другие похожие изображения не подтверждают спамные термины, эти n-grams получат низкий Image-specific Score.threshold number of clicks.Патент подтверждает, что для Google изображения являются не просто визуальными объектами, а семантическими единицами, которые можно преобразовать в текст. Стратегическое значение для SEO заключается в интеграции оптимизации изображений в общую контент-стратегию. Необходимо обеспечивать синергию между визуальным контентом и его текстовым контекстом, чтобы помочь Google сформировать правильные ассоциации (n-grams). Это особенно критично в E-commerce, где визуальный поиск напрямую ведет к конверсиям.
Сценарий: Оптимизация карточки товара (Кроссовки) для визуального поиска
Derived Textual Query, например, "Nike Air Max 270 Black White".Local Descriptors и Image Affinity с другими фотографиями этой же модели.text snippets.query phrase и clicks с изображением.Image Affinity). Он видит, что большинство этих изображений имеют n-gram "Nike Air Max 270 Black White" в метаданных. Система присваивает этой n-gram высокий Image-specific Score для вашего изображения. При визуальном поиске эта фраза будет выбрана как лучшее описание.Как Google определяет, какой текст использовать для описания изображения, согласно этому патенту?
Google не анализирует само изображение для генерации текста напрямую. Вместо этого он анализирует метаданные, связанные с этим изображением и визуально похожими на него изображениями. Основными источниками являются текстовые запросы (Query Phrases), по которым пользователи кликали на изображение в поиске, а также текст со ссылающихся страниц (рефереров). Эти текстовые данные (n-граммы) затем валидируются через визуальное сходство (Image Affinity).
Является ли визуальный поиск (Query by Image) поиском похожих картинок?
Не совсем. Поиск похожих картинок — это только первый шаг. Основная цель системы, описанной в патенте, — использовать эти похожие картинки для генерации текстового описания (Derived Textual Query) входного изображения. Финальные результаты поиска — это результаты, релевантные этому сгенерированному тексту, а не обязательно визуально похожие на оригинал.
Насколько важна популярность (клики) изображения для его участия в визуальном поиске?
Она очень важна на этапе индексации. Патент описывает, что система фильтрует изображения и включает в индекс только те, которые преодолели определенный порог кликов (threshold number of clicks) в результатах стандартного поиска изображений. Если изображение непопулярно и не получает кликов, оно может быть исключено из индекса визуального поиска.
Что такое Image Affinity и как она влияет на SEO?
Image Affinity — это мера визуального сходства между двумя изображениями, рассчитанная на основе графа связей. Для SEO это важно, потому что система использует Image Affinity для кластеризации изображений. Если ваше изображение имеет высокую аффинность с изображениями, которые уже имеют сильные текстовые ассоциации (n-grams), ваше изображение унаследует эти ассоциации.
Может ли мое изображение ранжироваться по запросу, которого нет на странице?
Да. Если ваше изображение визуально очень похоже на кластер других изображений, которые сильно ассоциированы с определенной n-gram (например, названием бренда или модели), ваше изображение может унаследовать эту ассоциацию и получить соответствующий Image-specific Score, даже если текст отсутствует в ваших собственных метаданных.
Как система выбирает между коротким и длинным описанием изображения?
Система использует итеративный алгоритм выбора лучшей n-gram. Она начинает с коротких фраз и переходит к более длинным. Предпочтение отдается более длинной фразе, если ее общая оценка выше, ИЛИ если она является суперстрокой (включает в себя) текущего лучшего описания и ее оценка превышает порог принятия. Это означает стремление к максимальной специфичности.
Влияет ли качество и разрешение изображения на этот процесс?
Патент не указывает это напрямую, но для точного вычисления Local Descriptors и надежного определения Image Affinity требуется достаточное качество изображения. Размытые, слишком маленькие или нечеткие изображения могут быть неправильно обработаны, что приведет к неверной кластеризации и ассоциации с неправильными n-grams.
Что такое максимизация Yield при индексации и как это влияет на мои изображения?
Максимизация Yield — это процесс оптимизации индекса для удаления избыточности. Если у вас есть 10 почти идентичных фотографий одного и того же объекта, система, скорее всего, выберет только одну или две наиболее репрезентативные для включения в финальный индекс, чтобы сэкономить ресурсы. SEO-специалистам следует фокусироваться на качестве и разнообразии ракурсов, а не на количестве одинаковых изображений.
Использует ли система машинное обучение для распознавания объектов на изображении?
Этот конкретный патент (подан в 2010 году) не фокусируется на глубоком обучении или нейронных сетях для распознавания объектов. Он полагается на традиционные методы компьютерного зрения (Local Descriptors, например, вейвлеты) для нахождения визуального сходства и статистический анализ метаданных (n-grams) для определения семантики. Современные системы (например, Google Lens) комбинируют эти подходы с глубоким обучением.
Как оптимизировать изображения для этого алгоритма в E-commerce?
Ключевым является обеспечение сильной связи между изображением товара и его точным названием/моделью. Размещайте название модели близко к изображению. Делайте четкие фотографии, чтобы система могла легко сопоставить ваш товар с другими аналогичными товарами в интернете. Обеспечьте получение кликов на изображение в поиске по названию модели, так как это напрямую связывает query phrase с изображением.

Семантика и интент
Мультимедиа
SERP

Мультимедиа
SERP

Мультимедиа
Семантика и интент
SERP

Индексация
Мультимедиа
Семантика и интент

Мультимедиа
SERP
Семантика и интент

Ссылки
Антиспам
Краулинг

Local SEO
Поведенческие сигналы
Семантика и интент

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Персонализация
Поведенческие сигналы
SERP

Ссылки
Семантика и интент
Техническое SEO

Поведенческие сигналы
SERP
