
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
Патент решает проблему повышения релевантности в поиске по изображениям, когда традиционных текстовых сигналов (например, alt-текста, окружающего текста) недостаточно или они могут вводить в заблуждение. Изобретение позволяет системе понять визуальный интент текстового запроса и находить изображения, которые визуально соответствуют этому интенту, преодолевая разрыв между текстом и визуальным контентом.
Запатентована система для ранжирования изображений в ответ на текстовый запрос. Система определяет набор Content Labels (меток контента) для запроса, анализируя сущности, изображенные на картинках, которые ранее показывались и выбирались пользователями (Historical Images). Параллельно система определяет Content Labels для изображений-кандидатов с помощью модели распознавания сущностей (Entity Detection Model). Релевантность рассчитывается путем сравнения меток запроса и меток изображения.
Система работает в несколько этапов:
Historical Query Log, чтобы найти изображения, которые ранее были выбраны пользователями (учитывая user selection rates) по этому запросу, его подзапросам или связанным запросам.Content Labels с помощью Entity Detection Model (например, нейросети). Агрегация этих меток формирует визуальный профиль запроса.Content Labels.cosine similarity) между набором меток запроса и набором меток кандидата. Это формирует Relevance Score.Relevance Score используется как часть общего ранжирования изображений, возможно, в сочетании с другими сигналами (Additional Scores).Высокая. Патент соответствует современному вектору развития Google в области применения машинного зрения (ML) и глубокого обучения для понимания мультимедийного контента (например, Google Lens, MUM). Использование распознавания объектов и интеграция поведенческих сигналов для уточнения интента являются ключевыми направлениями развития поиска изображений.
Патент имеет критическое значение (85/100) для стратегий SEO в поиске по изображениям (Image SEO). Он демонстрирует механизм, при котором релевантность определяется не только текстовым описанием, но и тем, насколько его визуальное содержание (распознанные объекты) соответствует коллективному визуальному интенту пользователей, сформированному историческими кликами. Это подчеркивает необходимость оптимизации самих изображений для машинного восприятия.
entities), изображенные на картинке. Могут включать объекты (например, «автомобиль», «Ford Mustang»), характеристики объектов (цвет, действие) или глобальные характеристики изображения (погода, местоположение).Content Labels. В патенте упоминается как object detection neural network (нейронная сеть для обнаружения объектов).hover data).Likelihood по сравнению с частыми (например, «автомобиль»). Используется для взвешивания при расчете сходства.Content Labels запроса и Content Labels изображения.cosine similarity measure (косинусное сходство).Claim 1 (Независимый пункт): Описывает основной метод ранжирования изображений по текстовому запросу.
Content Labels для этого запроса. Эти метки представляют сущности, изображенные на картинках, которые были идентифицированы в результатах поиска, ранее сгенерированных системой при обработке запросов, включающих термины из текущего запроса.Content Labels для изображения (сущности, изображенные на нем).Relevance Score на основе меры сходства между метками запроса и метками изображения.Relevance Scores.Ядро изобретения — сравнение ожидаемого визуального контента (исторические данные по запросу) и фактического визуального контента (анализ кандидата).
Claim 5 (Зависимый): Уточняет формирование меток для запроса.
Content Labels для запроса определяются на основе соответствующих user selection rates исторических результатов поиска. Объекты на изображениях, которые пользователи чаще выбирали, имеют больший вес при формировании визуального профиля запроса.
Claim 6 и 7 (Зависимые): Уточняют технологию генерации меток.
Content Labels генерируются путем обработки изображений (как исторических, так и кандидатов) с использованием Entity Detection Model (Claim 6), которая может включать object detection neural network (Claim 7).
Claims 2, 3, 4 (Зависимые): Определяют источники исторических данных.
Метки запроса могут быть получены из анализа изображений, ранее показанных для:
Sub-query) (Claim 3).Related Query) (Claim 4).Это позволяет системе формировать визуальный профиль даже для редких или новых запросов.
Claim 9 и 10 (Зависимые): Уточняют метод расчета сходства.
Relevance Score может определяться с использованием меры косинусного сходства (cosine similarity) между векторными представлениями наборов меток (Claim 9). Мера сходства может основываться на соответствующей Likelihood (частотности/редкости) меток (Claim 10), придавая больший вес редким совпадающим меткам.
Изобретение связывает индексирование, понимание запросов и ранжирование в контексте поиска изображений.
INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует изображения с помощью Entity Detection Model и генерирует Content Labels для каждого изображения. Эти метки сохраняются в индексе (Search Index). Это предварительная обработка (pre-computed) для снижения задержек.
QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Система анализирует Historical Query Log для определения взаимосвязей между текстовыми запросами и визуальными сущностями на основе user selection rates. Для частых запросов Content Labels могут быть предварительно рассчитаны и сохранены офлайн. Это процесс определения «визуального интента» запросов.
RANKING – Ранжирование
Основное применение патента (возможно, на стадиях L2/L3).
Content Labels для входящего запроса путем агрегации меток из исторических изображений (связанных с запросом, его подзапросами и связанными запросами).Relevance Score.Relevance Score комбинируется с другими сигналами (Additional Scores) для определения итогового рейтинга (Overall Score).Входные данные:
Historical Query Log (включая данные о кликах).Content Labels из Search Index.Выходные данные:
Relevance Score для каждого изображения-кандидата, основанный на визуальном сходстве с интентом запроса.Алгоритм применяется при обработке запросов в поиске по картинкам.
Historical Query Log для определения визуального интента (для самого запроса или его вариаций) и наличие проиндексированных изображений с распознанными Content Labels.Relevance Score происходит в реальном времени во время ранжирования, но полагается на данные, вычисленные предварительно (офлайн).Процесс А: Ранжирование в реальном времени
Content Labels для запроса (См. Процесс Б).Content Labels из индекса.Relevance Score путем сравнения его меток с метками запроса. Используется мера сходства, например, cosinesimilarity. Сходство может быть взвешенным на основе Likelihood меток.Additional Scores), такие как визуальное качество, совпадение метаданных, исторический CTR изображения.Relevance Score и Additional Scores комбинируются в Overall Score, на основе которого формируется итоговый рейтинг.Процесс Б: Генерация меток контента для запроса (Офлайн/Кэш)
user selection rates – метки из более кликабельных изображений имеют больший вес.sub-queries.related search queries.Content Labels для запроса.Historical Query Log. Используются user selection rates (клики) и hover data (данные о наведении курсора). Эти данные определяют визуальный интент запроса.Entity Detection Model для извлечения Content Labels.Additional Scores.Additional Scores.Entity Detection Model (например, нейронной сети). Представляют собой список сущностей, обнаруженных на изображении.cosine similarity measure между векторными представлениями меток.Object detection neural network используется для анализа содержания изображений.Content Labels) соответствуют ожидаемому визуальному содержанию, а не только тексту.user selection rates). Поведение пользователей напрямую формирует «визуальный профиль» текстового запроса.sub-queries) и связанных запросов (related queries).Entity Detection Model. Избегайте абстрактных или перегруженных композиций. Ключевой объект должен быть в фокусе.Content Labels), которые доминируют в топе, так как они отражают ожидания пользователей.user selection rates используются для определения визуального интента, критически важно создавать привлекательные изображения, которые мотивируют пользователей кликать. Высокий CTR поможет закрепить связь между вашим визуальным контентом и запросом.Likelihood) даст больший буст к Relevance Score, чем общие объекты.Content Labels не совпадают с профилем запроса.Content Labels и низкому Relevance Score.Этот патент подчеркивает стратегический сдвиг в поиске изображений от анализа текста к прямому анализу визуального контента на основе сущностей. Для SEO-специалистов это означает необходимость интеграции визуального анализа в процесс оптимизации. Понимание того, как Google «видит» изображения (например, с помощью инструментов типа Google Vision API или Lens), становится необходимым навыком. Стратегия должна быть направлена на создание качественного, привлекательного и визуально релевантного контента.
Сценарий: Оптимизация карточки товара для E-commerce (Кроссовки)
Content Labels (кроссовок, логотип Nike, черный цвет, человек).Entity Detection Model точно распознает объекты на изображении.Relevance Score будет высоким, так как Content Labels изображения совпадают с визуальным профилем запроса, сформированным историческими кликами.User Selection Rate), что усилит связь этого типа изображения с запросом.Как Google определяет, какие объекты находятся на моем изображении?
Система использует Entity Detection Model, которая, как указано в патенте, часто является нейронной сетью для обнаружения объектов (object detection neural network). Эта модель анализирует пиксели изображения, чтобы идентифицировать известные ей сущности, такие как объекты, сцены, действия и цвета. Результатом являются Content Labels (метки контента).
Что такое «визуальный профиль» (Content Labels) запроса и как он формируется?
Это набор Content Labels, ассоциированный с текстовым запросом, определяющий визуальные ожидания. Он формируется путем анализа изображений, которые пользователи исторически выбирали (кликали) по этому запросу. Если пользователи часто кликают на изображения с кошками по запросу «милые животные», метка «кошка» станет важной частью визуального профиля этого запроса.
Как поведение пользователей (CTR) влияет на ранжирование изображений согласно этому патенту?
Влияние значительно. User selection rates (CTR) определяют, какие исторические изображения используются для формирования визуального профиля запроса. Это создает петлю обратной связи: клики формируют ожидания системы для будущих поисков. Высокий CTR критически важен для закрепления вашего визуального стиля как релевантного.
Отменяет ли этот патент необходимость в оптимизации Alt-текста?
Нет, не отменяет. Патент указывает, что рассчитываемый Relevance Score (на основе визуального сходства) комбинируется с Additional Scores. Совпадение метаданных (включая Alt-текст) явно упоминается как один из возможных дополнительных сигналов. Текстовая оптимизация остается важной, но ее недостаточно без визуального соответствия.
Как система обрабатывает новые или редкие запросы, по которым нет исторических данных?
Патент описывает механизм агрегации данных. Если данных по точному запросу нет, система анализирует исторические данные по его подзапросам (sub-queries) и связанным запросам (related queries). Например, для нового сложного продуктового запроса система может использовать данные из более общих запросов о категории продукта.
Как я могу оптимизировать свои изображения, чтобы они лучше распознавались системой?
Используйте высококачественные, четкие, хорошо освещенные изображения. Ключевые объекты должны быть в фокусе и занимать значительную часть кадра. Избегайте визуального шума, который может помешать Entity Detection Model корректно идентифицировать содержание и сгенерировать правильные Content Labels.
Как измеряется сходство между метками запроса и изображения?
Патент предлагает использовать cosine similarity (косинусное сходство). Метки запроса и изображения представляются в виде векторов, и система измеряет «угол» между ними. Также может применяться взвешивание (Likelihood), чтобы более редкие и специфичные метки имели больший вес при расчете сходства.
Как я могу узнать, какие Content Labels Google видит на моем изображении?
Вы можете использовать инструменты, основанные на Google Cloud Vision API (например, демо-версию на их сайте), или протестировать изображение в Google Lens. Эти инструменты используют схожие модели машинного зрения и дадут хорошее представление о том, какие Content Labels генерируются для вашего контента.
Что важнее: качество самого изображения (разрешение) или то, что на нем изображено?
То, что изображено (релевантность), является основой для Relevance Score. Однако качество изображения (визуальная четкость) необходимо для точного распознавания объектов. Кроме того, патент упоминает, что визуальное качество может использоваться как Additional Score при финальном ранжировании. Оба аспекта важны.
Может ли этот механизм привести к тому, что в выдаче будут доминировать однотипные изображения?
Да, это потенциальный риск. Поскольку система стремится соответствовать устоявшемуся визуальному консенсусу, основанному на прошлых кликах, это может привести к снижению разнообразия, где нестандартные визуальные интерпретации запроса будут ранжироваться хуже. Однако Google обычно использует дополнительные алгоритмы (Twiddlers) на этапе RERANKING для обеспечения разнообразия выдачи.

Семантика и интент
Мультимедиа
SERP

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

Семантика и интент
Поведенческие сигналы
SERP

Индексация
Поведенческие сигналы
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Ссылки
EEAT и качество
SERP

Ссылки
Мультиязычность
Семантика и интент

Knowledge Graph
Семантика и интент
Ссылки

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Антиспам

Поведенческие сигналы
SERP
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Ссылки
SERP
