
Google использует механизм для понимания содержания изображений путем анализа их визуальных характеристик (цвет, текстура, края). Система сопоставляет эти характеристики с текстовыми терминами, используя модели машинного обучения, обученные на истории поиска картинок. Это позволяет Google генерировать релевантные текстовые запросы для любого изображения, что является основой работы визуального поиска (например, Google Lens).
Патент решает проблему «семантического разрыва» между визуальным восприятием и текстовым поиском. Пользователи часто сталкиваются с ситуацией, когда у них есть изображение (visual query), но они не знают, какие текстовые термины использовать для поиска информации о нем. Изобретение позволяет системе автоматически переводить визуальную информацию в релевантные текстовые концепции.
Запатентована система и метод для преобразования визуального запроса (изображения) в набор ранжированных текстовых терминов (textual terms). Суть изобретения заключается в использовании предварительно обученных моделей машинного обучения, называемых Image Relevance Models (Модели релевантности изображений). Эти модели позволяют сопоставлять извлеченные визуальные признаки изображения с предопределенным набором текстовых запросов и определять их релевантность.
Ключевой механизм работает в два этапа:
Image Relevance Model, и они объединяются в матрицу.Image Features Vector). Этот вектор умножается на матрицу обученных моделей. В результате вычисляются веса релевантности для тысяч текстовых терминов. Лучшие термины возвращаются пользователю.Высокая. Визуальный поиск (Google Lens, Поиск по картинкам) является стратегическим направлением. Этот патент описывает фундаментальную технологию, позволяющую поисковой системе понимать содержание изображения на основе его пикселей и связывать его с текстовыми сущностями. Это критически важно для современных мультимодальных систем поиска.
Патент имеет высокое значение для SEO (8/10), особенно для Image SEO и E-commerce. Он раскрывает механизм, с помощью которого Google интерпретирует визуальный контент независимо от окружающего текста или ALT-тегов. Это напрямую влияет на то, как изображения ранжируются и как они способствуют пониманию тематики страницы. Понимание этого механизма требует от SEO-специалистов фокусироваться на визуальной четкости и релевантности изображений.
color histogram values (значения цветовой гистограммы), intensity values (значения интенсивности), edge statistic (статистика границ) и texture values (текстурные значения).Image Feature Values, представляющий изображение в числовом формате для анализа.Image Features для этого термина.Image Relevance Models для большого количества предопределенных текстовых терминов (например, Топ N популярных запросов). Используется для эффективного сопоставления входного изображения с множеством терминов.Image Relevance Models.Claim 1 (Независимый пункт): Описывает основной метод идентификации текстовых терминов по изображению.
query image).vector of image feature values).set of query terms).image relevance vector) этого запроса.image relevance vector указывает на относительную важность соответствующего компонента в векторе признаков изображения для определения релевантности запроса.Ядром изобретения является использование предопределенных Image Relevance Vectors, которые специфичны для каждого текстового термина и определяют, какие визуальные признаки важны для этого термина. Это позволяет системе оценить, насколько хорошо визуальные характеристики входного изображения соответствуют ожиданиям для данного термина.
Claim 4 (Зависимый от 1): Детализирует механизм сопоставления.
matrix of the image relevance vectors).Это определяет математическую операцию для эффективной реализации. Вместо последовательного сравнения изображения с каждой моделью, используется матричное умножение для одновременного сравнения признаков входного изображения с тысячами моделей релевантности, что обеспечивает высокую скорость работы.
Изобретение затрагивает несколько этапов поиска, разделяясь на офлайн-обучение и онлайн-обработку запросов.
INDEXING – Индексирование и извлечение признаков (Офлайн-обучение и подготовка данных)
На этом этапе происходит построение Matrix of Image Relevance Models. Система анализирует логи поисковых запросов изображений (logs of textual queries), определяет популярные запросы (Топ N), находит для них репрезентативные изображения (на основе кликов пользователей) и обучает Image Relevance Models (IRM).
QUNDERSTANDING – Понимание Запросов (Онлайн-обработка визуального запроса)
Это основное применение патента в реальном времени. Когда пользователь отправляет визуальный запрос (например, через Google Lens):
Image Feature Values и формируется вектор.Textual Terms.RANKING / METASEARCH (Онлайн)
Полученные Textual Terms могут быть использованы для запуска стандартных текстовых поисковых процессов. Результаты этих поисков затем ранжируются и смешиваются для формирования ответа на исходный визуальный запрос.
Входные данные (Онлайн):
Matrix of Image Relevance Models (предварительно рассчитанная).Выходные данные (Онлайн):
Алгоритм применяется каждый раз, когда система обрабатывает визуальный запрос. Это базовый механизм для понимания содержания изображения и его перевода в текстовый формат, понятный остальной поисковой инфраструктуре.
Процесс А: Обработка визуального запроса в реальном времени
Image Feature Values (гистограммы цветов, интенсивность, статистика краев).Image Features Vector.Matrix of Image Relevance Models.Процесс Б: Офлайн-обучение моделей (Подготовка данных)
Image Feature Values для каждого репрезентативного изображения.PAMIR) для генерации Image Relevance Model (вектора весов) для каждого из Топ N запросов. Модель учится определять важность признаков для запроса.Image Relevance Models в единую матрицу для использования в Процессе А.Image Feature Values. В патенте явно упомянуты: Color histogram values (Значения гистограммы цветов).Intensity values (Значения интенсивности).Edge statistic (Статистика краев).Texture values (Текстурные значения).logs of textual searches for images). Критически важны данные о том, какие изображения пользователи выбирали (images that were selected by the users) в ответ на конкретные текстовые запросы.Image Features Vector (входного изображения) умножается на Matrix of Image Relevance Models. Результатом является набор весов для текстовых терминов.PAMIR (Passive-Aggressive Model for Image Retrieval).Image Feature Vector) в семантику (Textual Terms) через посредничество Image Relevance Models.Image Feature Values и корректное сопоставление с IRM.Textual Terms Google извлекает из ваших изображений. Если интерпретация неверна, рассмотрите возможность замены изображения на более репрезентативное.Image Feature Values, улучшая идентификацию товара.edge statistic и текстуры) и может привести к неправильной идентификации.Этот патент подтверждает стратегический приоритет Google в области распознавания объектов и сущностей, выходя за рамки анализа ключевых слов. Для SEO это означает, что визуальное представление контента является самостоятельным и важным сигналом, особенно с ростом популярности визуального поиска. Долгосрочная стратегия должна включать оптимизацию самих визуальных активов (изображений продуктов, логотипов, инфографики), а не только их метаданных.
Сценарий: Оптимизация изображения товара в интернет-магазине (Кроссовки)
Image Feature Vector будет максимально соответствовать Image Relevance Model конкретной модели кроссовок.Image Feature Vector нового изображения получает высокий вес при сопоставлении с IRM для точного названия модели (например, "Adidas Ultraboost 21"), обеспечивая правильную идентификацию и повышая видимость в визуальном поиске по этому товару.Означает ли этот патент, что ALT-текст больше не нужен?
Нет, ALT-текст остается критически важным для доступности (accessibility) и продолжает служить сильным сигналом контекста для традиционного поиска. Однако этот патент показывает, что Google обладает мощным механизмом для понимания изображения напрямую через анализ пикселей (Image Feature Values). Лучшая стратегия — убедиться, что ALT-текст и визуальное содержание изображения согласованы и дополняют друг друга.
Как Google обучает эти "Модели релевантности изображений" (Image Relevance Models)?
Обучение происходит офлайн. Google анализирует логи поиска по картинкам, определяет самые популярные текстовые запросы (Топ N) и смотрит, какие изображения пользователи чаще всего выбирали для этих запросов. Затем система анализирует визуальные признаки этих популярных изображений и с помощью машинного обучения (например, PAMIR) создает модель (вектор весов), которая определяет, какие признаки наиболее важны для каждого конкретного запроса.
Что конкретно подразумевается под "Image Feature Values"?
Это числовые данные, описывающие визуальные характеристики изображения. В патенте явно упоминаются гистограммы цветов (распределение цветов), значения интенсивности (яркость), статистика краев (наличие и ориентация линий и форм) и текстура. Вместе эти значения формируют уникальный "визуальный отпечаток" изображения — Image Features Vector.
Как этот патент связан с Google Lens?
Этот патент описывает фундаментальную технологию, которая лежит в основе работы систем типа Google Lens. Когда Google Lens анализирует изображение, он использует подобный механизм для перевода визуального ввода в текстовые термины. Эти термины затем используются для поиска информации об объектах, распознанных на изображении.
Как SEO-специалист может проверить, какие текстовые термины Google ассоциирует с изображениями сайта?
Самый прямой способ — использовать Google Lens для анализа ключевых изображений на вашем сайте. Результаты, которые предлагает Lens (например, связанные поисковые запросы или похожие товары), основаны на текстовых терминах, которые система извлекла из изображения с помощью механизма, описанного в патенте. Также можно использовать Google Vision AI API для более технического анализа.
Влияет ли качество или разрешение изображения на этот процесс?
Да, безусловно. Высокое качество и четкость изображения критически важны для точного извлечения Image Feature Values (особенно статистики краев и текстуры). Размытые, плохо освещенные или слишком маленькие изображения могут привести к неточному формированию вектора признаков и, как следствие, к неправильной идентификации текстовых терминов.
Как этот механизм влияет на SEO для E-commerce?
Влияние огромное. Правильная идентификация товара по изображению критична для видимости в Google Shopping и визуальном поиске. Если система правильно ассоциирует изображение вашего товара с точным названием модели, вы получаете более релевантный трафик. Это подчеркивает необходимость использования чистых, профессиональных фотографий товаров для облегчения распознавания.
Что такое "Матрица моделей релевантности изображений" и зачем она нужна?
Это способ организации обученных моделей (IRM) для эффективной обработки. Представьте себе огромную таблицу, где каждая строка — это IRM для одного популярного запроса (например, "Эйфелева башня"), а каждый столбец — это определенный визуальный признак. Использование матрицы позволяет системе быстро (через матричное умножение) сравнить вектор признаков входного изображения со всеми моделями одновременно, вместо того чтобы проверять их по одной.
Сколько ключевых слов Google проверяет на соответствие изображению?
Система предназначена для масштабирования на большое количество терминов. В описании патента упоминается, что N (количество популярных запросов, для которых обучаются модели) может составлять от 5000 до 30000. Это позволяет системе быстро сопоставлять изображение с тысячами потенциальных ключевых слов.
Применяется ли этот механизм к распознаванию лиц или текста (OCR)?
Патент описывает это как одну из параллельных систем поиска (Image-to-Terms Search System). В общей архитектуре визуального поиска, представленной в патенте, указано, что распознавание лиц (Face Recognition) и OCR являются отдельными специализированными системами, которые работают параллельно с описанным механизмом сопоставления признаков и терминов.

Мультимедиа
Семантика и интент
Индексация

Мультимедиа
SERP
Поведенческие сигналы

Мультимедиа
Семантика и интент

Семантика и интент
Мультимедиа
SERP

Индексация
Мультимедиа
Семантика и интент

Поведенческие сигналы
SERP
Антиспам

Персонализация
EEAT и качество
Поведенческие сигналы

Поведенческие сигналы

Поведенческие сигналы
Персонализация
Local SEO

Knowledge Graph
SERP
Семантика и интент

Семантика и интент
Ссылки
Knowledge Graph

Поведенческие сигналы
SERP
Семантика и интент

Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы
