
Google использует этот механизм для повышения точности поиска изображений, когда запрос содержит визуальные ограничения (например, ракурс или контекст). Система генерирует более общий запрос (например, «автомобиль вид сбоку» вместо «Subaru вид сбоку»), чтобы понять, как выглядит это ограничение в данной категории. Затем эти знания используются для фильтрации или переранжирования результатов исходного запроса, отдавая предпочтение изображениям, которые визуально соответствуют намерению пользователя.
Патент решает проблему низкой точности (наличия false positives) в поиске изображений, когда запрос содержит как идентификатор объекта, так и специфическое визуальное ограничение (например, ракурс, контекст, время суток). Стандартные алгоритмы могут ошибочно ранжировать изображения, которые соответствуют объекту по текстовым сигналам, но не соответствуют визуальному ограничению (например, показывать вид спереди по запросу «вид сбоку»). Изобретение направлено на улучшение визуальной релевантности выдачи.
Запатентована система для обработки поисковых запросов изображений, содержащих семантическую (объект) и визуальную (ограничение) части. Суть изобретения заключается в генерации второго, обобщенного запроса, в котором конкретный объект заменяется на его более широкую категорию, а визуальное ограничение сохраняется. Результаты этого обобщенного поиска используются как эталонный набор данных для валидации, фильтрации или переранжирования результатов исходного, специфического запроса.
Система работает следующим образом:
Image Classifier на S2 для распознавания визуального признака и применение его к S1; 2) Прямое вычисление визуального сходства (Measure of Similarity) между S1 и S2.Высокая. Визуальный поиск и интеграция технологий компьютерного зрения (Computer Vision) в ранжирование являются ключевыми направлениями развития Google (включая Google Lens и мультимодальные модели). Этот патент описывает фундаментальный механизм для обеспечения визуальной релевантности, когда текстовые сигналы оказываются шумными или недостаточными. Точное понимание визуального контекста и ракурса критически важно для качества поиска изображений.
Патент имеет значительное влияние на SEO-стратегии в поиске по картинкам (Image SEO). Он демонстрирует, что текстовой оптимизации метаданных изображения (alt text, заголовок) недостаточно. Визуальное содержимое изображения должно явно соответствовать визуальным ограничениям в запросе. Система способна идентифицировать и понизить в ранжировании изображения, которые текстуально релевантны, но визуально не соответствуют интенту пользователя.
orthographic projection).Relevance Score.bag of visterms, гистограммы цвета/текстуры, GIST features.Claim 1 (Независимый пункт): Описывает основной метод улучшения поиска изображений.
initial search query), включающий (i) термины объекта и (ii) термины контекста (визуального ограничения).generalized search query), включающий (i) термины категории и (ii) термины контекста.indication of similarity) между выбранными изображениями из S1 и изображениями из S2.Claim 5 (Зависимый от 1): Уточняет, как генерируется индикация сходства с помощью машинного обучения (Вариант А).
Image Classifier обучается с использованием изображений из обобщенного набора (S2).Claim 6 (Зависимый от 1): Уточняет, как генерируется индикация сходства с помощью прямого сравнения (Вариант Б).
Image Representations) для изображений из S1.Изобретение применяется исключительно в рамках вертикали Поиска по Картинкам (Image Search) и затрагивает несколько этапов поисковой архитектуры.
INDEXING – Индексирование и извлечение признаков
Для работы алгоритма необходимо, чтобы на этапе индексирования для изображений были вычислены и сохранены их визуальные представления (Image Representations, например, GIST features, векторы признаков).
QUNDERSTANDING – Понимание Запросов
На этом этапе система анализирует запрос Q1, чтобы разделить его на семантическую (P1) и визуальную (P2) части. Также здесь происходит процесс генерализации P1 в P3, что требует доступа к Category Database, Lexical Database или Query Refinement Logs.
RANKING – Ранжирование
Система выполняет два параллельных процесса поиска: для исходного запроса Q1 и для обобщенного запроса Q2.
RERANKING – Переранжирование
Основное применение патента. После получения двух наборов результатов (S1 и S2) система использует S2 для валидации и корректировки S1. Это этап, на котором применяются технологии компьютерного зрения для фильтрации или перевзвешивания результатов.
Алгоритм активируется при обнаружении в запросе комбинации идентифицируемого объекта (Semantic Portion) и визуального ограничения (Visual Portion). Система также должна быть способна успешно обобщить семантическую часть до категории, чтобы механизм сработал.
Патент описывает два основных варианта реализации.
Общие шаги (для обоих вариантов):
Category Database, Query Refinement Logs или лексическую базу.Вариант А: Использование классификатора
Image Classifier (определить функцию F(q,p)), используя изображения из S2 как обучающие данные.Relevance Scores изображениям в S1, используя обученный классификатор.Вариант Б: Прямое сравнение сходства
Image Representation для изображения из S1 и представление одного или нескольких изображений из S2 (например, центроид).Measure of Similarity (например, вычислив расстояние между представлениями).Патент фокусируется на механизме обработки запроса и визуальных данных.
Image Representations (визуальные признаки) из изображений. Упоминаются конкретные типы представлений: bag of visterms, гистограммы цвета и текстуры, GIST features. Эти данные используются для обучения классификаторов или расчета визуального сходства.Query Refinement Logs используются для анализа сессий пользователей и определения статистических связей между запросами для выявления обобщений (например, что «car» является обобщением «Subaru»).Category Database: Сопоставляет ключевые слова с категориями.Lexical Database (например, WordNet): Использует лексические отношения (genus-species) для определения категорий.distance) или разницы (difference) между Image Representations из S1 и S2.Relevance Score или Measure of Similarity превышает заданный порог.Image Classifier), так и более прямые методы компьютерного зрения (сравнение визуального сходства), что обеспечивает гибкость в выборе метода.alt text, подписях или окружающем тексте).Measure of Similarity.Патент подчеркивает переход от чисто текстовых моделей поиска изображений к гибридным моделям, глубоко интегрирующим компьютерное зрение. Для SEO-специалистов это означает, что анализ визуального контента становится неотъемлемой частью оптимизации. Стратегия должна включать не только работу с текстом, но и управление визуальными активами, гарантируя их качество, четкость и соответствие интенту пользователя на визуальном уровне.
Сценарий: Оптимизация карточки товара в E-commerce (Кроссовки)
Measure of Similarity) и точным метаданным, изображение получит высокий рейтинг в поиске по картинкам по запросу Q1. Если бы использовалось фото под углом, оно было бы понижено.Как система определяет, какая часть запроса является семантической (объект), а какая — визуальной (контекст)?
Патент предполагает, что система способна выполнить эту декомпозицию. Визуальная часть определяется как содержащая ключевые слова, которые нейтральны по отношению к идентичности объекта. Это могут быть указания на ракурс ("side view", "top view"), время суток или положение камеры. На практике это реализуется через алгоритмы понимания запросов (Query Understanding), которые распознают стандартные визуальные модификаторы.
Как именно система обобщает объект до категории?
Патент описывает три метода. Первый — использование заранее подготовленной Category Database. Второй — анализ журналов уточнений запросов (Query Refinement Logs) для поиска статистических связей (если "Subaru" часто встречается в сессиях, где есть "Car", но не наоборот). Третий — использование лексических баз данных, таких как WordNet, для определения таксономических связей.
Что такое Image Representation и почему это важно для SEO?
Image Representation — это способ представления визуального контента в виде числового вектора признаков (например, GIST features, гистограммы, bag of visterms). Это "язык", на котором алгоритмы компьютерного зрения анализируют и сравнивают изображения. Для SEO это важно, потому что именно на основе сравнения этих векторов (а не пикселей или текста) система определяет визуальное сходство и релевантность изображения запросу.
В патенте описано два метода валидации: классификатор и прямое сравнение. Какой из них используется Google?
Патент описывает оба метода как возможные варианты реализации (embodiments). На практике поисковые системы часто используют комбинацию подходов. Обучение классификатора (Метод А) может быть более точным для определения релевантности запросу, тогда как прямое сравнение визуального сходства (Метод Б) может использоваться для быстрой фильтрации. Оба метода служат одной цели: гарантировать визуальное соответствие.
Если я использую очень качественное, но нестандартное (художественное) фото товара, повредит ли это ранжированию?
Да, это может повредить, если целевой запрос предполагает утилитарный интент с визуальными ограничениями (например, "товар X вид сбоку"). Система будет сравнивать ваше фото с обобщенным набором результатов, который, вероятно, состоит из стандартных изображений этого ракурса. Если ваше нестандартное фото будет иметь низкое визуальное сходство с этим эталонным набором, оно может быть расценено как менее релевантное.
Означает ли этот патент, что alt-текст больше не важен для Image SEO?
Нет, ALT-текст и окружающий текст по-прежнему важны для базового ранжирования и определения релевантности семантической части запроса (объекта). Однако этот патент показывает, что для запросов с визуальными ограничениями Google применяет дополнительный слой валидации, основанный на анализе пикселей. Если визуальное содержание не соответствует текстовому описанию, изображение может быть пессимизировано.
Как этот механизм работает с новыми или редкими объектами, для которых сложно определить категорию?
Если система не может надежно определить обобщенную категорию (P3) для объекта (P1), весь механизм, вероятно, не будет активирован. В таких случаях система будет полагаться на стандартные алгоритмы ранжирования изображений, которые могут быть менее точными в интерпретации визуальных ограничений.
Применяется ли этот механизм только к ракурсам?
Нет. Патент определяет визуальную часть (контекст) широко. Она может относиться ко времени суток (например, «Эйфелева башня ночью»), ракурсу («вид сбоку»), а также к контексту, например, «Джон Смит в кожаной куртке». Во всех этих случаях, если ограничение нейтрально к объекту, система может использовать обобщение для проверки.
Нужно ли мне оптимизировать изображения под обобщенные запросы (например, "автомобиль вид сбоку")?
Напрямую оптимизировать под них не обязательно, но ваше изображение должно быть визуально сильным представителем этой категории. Если ваше изображение "Subaru вид сбоку" выглядит странно или нетипично по сравнению с другими изображениями "автомобилей вид сбоку" (эталонным набором S2), система может понизить его в выдаче по исходному запросу.
Как проверить, соответствует ли мое изображение визуальным ожиданиям Google?
Хорошей практикой является ручной анализ выдачи по обобщенному запросу, соответствующему вашему объекту и ракурсу (например, поиск "куртка вид спереди"). Это даст представление об эталонном наборе изображений (S2), с которым Google, вероятно, будет сравнивать ваш контент. Ваше изображение должно визуально вписываться в этот набор.

Семантика и интент
Мультимедиа
SERP

Мультимедиа
SERP
Поведенческие сигналы

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент

Семантика и интент
Мультимедиа
SERP

Knowledge Graph
Ссылки
EEAT и качество

Поведенческие сигналы
SERP

Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
EEAT и качество

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP
EEAT и качество

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
SERP
Персонализация

SERP
Поведенческие сигналы

Поведенческие сигналы
Индексация
SERP
