Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

Описание

Какую задачу решает

Патент решает проблему повышения релевантности в поиске по изображениям, когда традиционных текстовых сигналов (например, alt-текста, окружающего текста) недостаточно или они могут вводить в заблуждение. Изобретение позволяет системе понять визуальный интент текстового запроса и находить изображения, которые визуально соответствуют этому интенту, преодолевая разрыв между текстом и визуальным контентом.

Что запатентовано

Запатентована система для ранжирования изображений в ответ на текстовый запрос. Система определяет набор Content Labels (меток контента) для запроса, анализируя сущности, изображенные на картинках, которые ранее показывались и выбирались пользователями (Historical Images). Параллельно система определяет Content Labels для изображений-кандидатов с помощью модели распознавания сущностей (Entity Detection Model). Релевантность рассчитывается путем сравнения меток запроса и меток изображения.

Как это работает

Система работает в несколько этапов:

Определение визуального профиля запроса: Система анализирует Historical Query Log, чтобы найти изображения, которые ранее были выбраны пользователями (учитывая user selection rates) по этому запросу, его подзапросам или связанным запросам.
Генерация меток запроса: Из этих исторических изображений извлекаются Content Labels с помощью Entity Detection Model (например, нейросети). Агрегация этих меток формирует визуальный профиль запроса.
Генерация меток кандидатов: Изображения-кандидаты также обрабатываются (обычно на этапе индексирования) для определения их собственных Content Labels.
Расчет релевантности: Вычисляется мера сходства (например, cosine similarity) между набором меток запроса и набором меток кандидата. Это формирует Relevance Score.
Ранжирование: Relevance Score используется как часть общего ранжирования изображений, возможно, в сочетании с другими сигналами (Additional Scores).

Актуальность для SEO

Высокая. Патент соответствует современному вектору развития Google в области применения машинного зрения (ML) и глубокого обучения для понимания мультимедийного контента (например, Google Lens, MUM). Использование распознавания объектов и интеграция поведенческих сигналов для уточнения интента являются ключевыми направлениями развития поиска изображений.

Важность для SEO

Патент имеет критическое значение (85/100) для стратегий SEO в поиске по изображениям (Image SEO). Он демонстрирует механизм, при котором релевантность определяется не только текстовым описанием, но и тем, насколько его визуальное содержание (распознанные объекты) соответствует коллективному визуальному интенту пользователей, сформированному историческими кликами. Это подчеркивает необходимость оптимизации самих изображений для машинного восприятия.

Детальный разбор

Термины и определения

Content Labels (Метки контента): Термины, представляющие сущности (entities), изображенные на картинке. Могут включать объекты (например, «автомобиль», «Ford Mustang»), характеристики объектов (цвет, действие) или глобальные характеристики изображения (погода, местоположение).
Entity Detection Model (Модель обнаружения сущностей): Система машинного обучения, используемая для анализа изображения и генерации Content Labels. В патенте упоминается как object detection neural network (нейронная сеть для обнаружения объектов).
Historical Images (Исторические изображения): Изображения, которые ранее были показаны в результатах поиска по данному запросу, его подзапросам или связанным запросам.
Historical Query Log (Журнал исторических запросов): База данных, хранящая информацию о предыдущих запросах, показанных результатах и действиях пользователей (клики, hover data).
Likelihood (Вероятность/Частотность метки): Метрика, характеризующая, насколько часто метка встречается. Редкие метки (например, «Ford Mustang») имеют низкую Likelihood по сравнению с частыми (например, «автомобиль»). Используется для взвешивания при расчете сходства.
Relevance Score (Оценка релевантности): Метрика, рассчитываемая на основе меры сходства между Content Labels запроса и Content Labels изображения.
Related Query (Связанный запрос): Запрос, который содержит ту же подпоследовательность терминов (подзапрос), что и исходный запрос. Например, «Apollo moon landing» и «American moon landing» связаны через «moon landing».
Similarity Measure (Мера сходства): Метод измерения сходства между наборами меток контента. В патенте упоминается cosine similarity measure (косинусное сходство).
Sub-query (Подзапрос): Последовательность одного или нескольких терминов, включенных в исходный запрос. Например, «moon landing» является подзапросом для «Apollo moon landing».
User Selection Rate (Частота выбора пользователем): Метрика (например, CTR), показывающая, как часто пользователи взаимодействовали с определенным результатом поиска.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования изображений по текстовому запросу.

Система получает запрос на изображения в ответ на текстовый поисковый запрос.
Система получает Content Labels для этого запроса. Эти метки представляют сущности, изображенные на картинках, которые были идентифицированы в результатах поиска, ранее сгенерированных системой при обработке запросов, включающих термины из текущего запроса.
Для каждого изображения-кандидата:
- Получаются Content Labels для изображения (сущности, изображенные на нем).
- Определяется Relevance Score на основе меры сходства между метками запроса и метками изображения.
Определяется ранжирование кандидатов на основе Relevance Scores.
Предоставляются результаты поиска.

Ядро изобретения — сравнение ожидаемого визуального контента (исторические данные по запросу) и фактического визуального контента (анализ кандидата).

Claim 5 (Зависимый): Уточняет формирование меток для запроса.

Content Labels для запроса определяются на основе соответствующих user selection rates исторических результатов поиска. Объекты на изображениях, которые пользователи чаще выбирали, имеют больший вес при формировании визуального профиля запроса.

Claim 6 и 7 (Зависимые): Уточняют технологию генерации меток.

Content Labels генерируются путем обработки изображений (как исторических, так и кандидатов) с использованием Entity Detection Model (Claim 6), которая может включать object detection neural network (Claim 7).

Claims 2, 3, 4 (Зависимые): Определяют источники исторических данных.

Метки запроса могут быть получены из анализа изображений, ранее показанных для:

Точно такого же запроса (Claim 2).
Подзапроса (Sub-query) (Claim 3).
Связанного запроса (Related Query) (Claim 4).

Это позволяет системе формировать визуальный профиль даже для редких или новых запросов.

Claim 9 и 10 (Зависимые): Уточняют метод расчета сходства.

Relevance Score может определяться с использованием меры косинусного сходства (cosine similarity) между векторными представлениями наборов меток (Claim 9). Мера сходства может основываться на соответствующей Likelihood (частотности/редкости) меток (Claim 10), придавая больший вес редким совпадающим меткам.

Где и как применяется

Изобретение связывает индексирование, понимание запросов и ранжирование в контексте поиска изображений.

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует изображения с помощью Entity Detection Model и генерирует Content Labels для каждого изображения. Эти метки сохраняются в индексе (Search Index). Это предварительная обработка (pre-computed) для снижения задержек.

QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Система анализирует Historical Query Log для определения взаимосвязей между текстовыми запросами и визуальными сущностями на основе user selection rates. Для частых запросов Content Labels могут быть предварительно рассчитаны и сохранены офлайн. Это процесс определения «визуального интента» запросов.

RANKING – Ранжирование
Основное применение патента (возможно, на стадиях L2/L3).

Получение меток запроса: Система извлекает (или генерирует на лету) набор Content Labels для входящего запроса путем агрегации меток из исторических изображений (связанных с запросом, его подзапросами и связанными запросами).
Расчет сходства: Система сравнивает метки запроса с метками изображений-кандидатов (полученными из индекса) для расчета Relevance Score.
Финальное ранжирование: Relevance Score комбинируется с другими сигналами (Additional Scores) для определения итогового рейтинга (Overall Score).

Входные данные:

Текстовый поисковый запрос.
Historical Query Log (включая данные о кликах).
Изображения-кандидаты и их предварительно рассчитанные Content Labels из Search Index.

Выходные данные:

Relevance Score для каждого изображения-кандидата, основанный на визуальном сходстве с интентом запроса.
Итоговый ранжированный список изображений.

На что влияет

Типы контента: В первую очередь влияет на вертикаль Поиска по Картинкам (Image Search) и блоки с изображениями в универсальном поиске.
Специфические запросы: Наибольшее влияние на запросы с четким визуальным интентом (товары, места, объекты), где текстовые сигналы могут быть неоднозначными (например, запрос «jaguar» – животное или автомобиль).
Ниши и тематики: Критично для e-commerce, дизайна, туризма, где точное визуальное соответствие имеет первостепенное значение.

Когда применяется

Алгоритм применяется при обработке запросов в поиске по картинкам.

Условия работы: Наличие достаточных данных в Historical Query Log для определения визуального интента (для самого запроса или его вариаций) и наличие проиндексированных изображений с распознанными Content Labels.
Временные рамки: Расчет Relevance Score происходит в реальном времени во время ранжирования, но полагается на данные, вычисленные предварительно (офлайн).

Пошаговый алгоритм

Процесс А: Ранжирование в реальном времени

Получение запроса: Система получает текстовый поисковый запрос.
Получение меток запроса: Система определяет набор Content Labels для запроса (См. Процесс Б).
Получение меток кандидатов: Для набора изображений-кандидатов извлекаются их предварительно рассчитанные Content Labels из индекса.
Расчет релевантности: Для каждого кандидата вычисляется Relevance Score путем сравнения его меток с метками запроса. Используется мера сходства, например, $cosine similarity$ . Сходство может быть взвешенным на основе Likelihood меток.
Расчет дополнительных оценок (Опционально): Вычисляются другие факторы ранжирования (Additional Scores), такие как визуальное качество, совпадение метаданных, исторический CTR изображения.
Определение ранжирования: Relevance Score и Additional Scores комбинируются в Overall Score, на основе которого формируется итоговый рейтинг.
Генерация результатов: Формируется страница поисковой выдачи.

Процесс Б: Генерация меток контента для запроса (Офлайн/Кэш)

Идентификация меток из прямых совпадений: Система идентифицирует метки из изображений, которые ранее были результатами для данного запроса. Учитываются user selection rates – метки из более кликабельных изображений имеют больший вес.
Идентификация меток из подзапросов: Система идентифицирует метки из изображений, которые ранее были результатами для sub-queries.
Идентификация меток из связанных запросов: Система идентифицирует метки из изображений, которые ранее были результатами для related search queries.
Агрегация меток: Система агрегирует все идентифицированные метки для формирования финального набора Content Labels для запроса.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные из Historical Query Log. Используются user selection rates (клики) и hover data (данные о наведении курсора). Эти данные определяют визуальный интент запроса.
Мультимедиа факторы (Визуальные данные): Пиксельные данные изображений (исторические и кандидаты), которые обрабатываются Entity Detection Model для извлечения Content Labels.
Технические факторы: Упоминается возможность использования визуального качества изображения (например, разрешения) в качестве Additional Scores.
Контентные факторы (Текстовые): Упоминается возможность использования совпадения терминов запроса в метаданных изображения в качестве Additional Scores.

Какие метрики используются и как они считаются

Content Labels (Метки контента): Генерируются с помощью Entity Detection Model (например, нейронной сети). Представляют собой список сущностей, обнаруженных на изображении.
Relevance Score (Оценка релевантности): Рассчитывается как мера сходства между наборами меток.
- Метод расчета: Упоминается cosine similarity measure между векторными представлениями меток.
- Взвешивание (Likelihood): При расчете может учитываться частотность метки. Редкие совпадающие метки могут иметь больший вес, чем частые (используя взвешенное косинусное сходство).
User Selection Rate (Частота выбора): Используется для взвешивания влияния исторических изображений при формировании набора меток запроса.
Алгоритмы машинного обучения: Object detection neural network используется для анализа содержания изображений.

Выводы

Визуальная релевантность как ключевой фактор в Image SEO: Патент подтверждает, что Google активно использует машинное зрение для ранжирования. Релевантность определяется тем, насколько объекты на изображении (Content Labels) соответствуют ожидаемому визуальному содержанию, а не только тексту.
Исторические клики определяют визуальный интент: Система учится тому, что пользователи хотят видеть, анализируя, на какие изображения они кликали ранее (user selection rates). Поведение пользователей напрямую формирует «визуальный профиль» текстового запроса.
Машинное распознавание объектов (Entity Detection): Основой механизма является способность системы точно распознавать объекты, характеристики и сцены с помощью нейронных сетей. Изображения должны быть оптимизированы для машинного восприятия.
Важность специфичности (Likelihood): Система придает больший вес редким и специфичным объектам при расчете релевантности. Совпадение по уникальной метке дает преимущество.
Обработка длинного хвоста запросов: Система может определять визуальный интент даже для новых или редких запросов путем агрегации данных из подзапросов (sub-queries) и связанных запросов (related queries).

Практика

Best practices (это мы делаем)

Оптимизация под машинное зрение (Четкость): Убедитесь, что ключевые объекты на изображении четкие, хорошо освещенные и легко распознаваемые Entity Detection Model. Избегайте абстрактных или перегруженных композиций. Ключевой объект должен быть в фокусе.
Соответствие визуальному интенту (Анализ SERP): Анализируйте текущую выдачу по изображениям для целевых запросов, чтобы понять коллективный визуальный интент. Ваши изображения должны содержать те объекты (Content Labels), которые доминируют в топе, так как они отражают ожидания пользователей.
Повышение кликабельности (CTR) изображений: Поскольку user selection rates используются для определения визуального интента, критически важно создавать привлекательные изображения, которые мотивируют пользователей кликать. Высокий CTR поможет закрепить связь между вашим визуальным контентом и запросом.
Фокус на специфичных сущностях: Если возможно, используйте изображения, содержащие специфичные объекты. Распознавание редкой, но релевантной сущности (низкая Likelihood) даст больший буст к Relevance Score, чем общие объекты.

Worst practices (это делать не надо)

Использование нерелевантных изображений (Кликбейт/Mismatch): Размещение изображений, которые не соответствуют визуальному интенту запроса, даже если они оптимизированы по тексту. Система распознает объекты и понизит изображение, если его Content Labels не совпадают с профилем запроса.
Игнорирование качества и четкости объектов: Использование размытых, темных или слишком стилизованных изображений, на которых алгоритмам сложно распознать ключевые сущности. Это приведет к неполному набору Content Labels и низкому Relevance Score.
Фокус исключительно на тексте: Полагаться только на Alt-text и окружающий текст. Без соответствующего визуального содержания изображение не будет считаться релевантным в рамках этого механизма.
Перекрытие контента: Размещение крупных водяных знаков или текста поверх ключевых объектов может помешать модели правильно их идентифицировать.

Стратегическое значение

Этот патент подчеркивает стратегический сдвиг в поиске изображений от анализа текста к прямому анализу визуального контента на основе сущностей. Для SEO-специалистов это означает необходимость интеграции визуального анализа в процесс оптимизации. Понимание того, как Google «видит» изображения (например, с помощью инструментов типа Google Vision API или Lens), становится необходимым навыком. Стратегия должна быть направлена на создание качественного, привлекательного и визуально релевантного контента.

Практические примеры

Сценарий: Оптимизация карточки товара для E-commerce (Кроссовки)

Анализ интента: SEO-специалист анализирует выдачу по запросу «Nike Air Max 270 black». Он замечает, что в топе преобладают изображения кроссовок крупным планом, сбоку, а также lifestyle-фото на ногах. Это формирует ожидаемый набор Content Labels (кроссовок, логотип Nike, черный цвет, человек).
Создание контента: Создаются высококачественные фотографии товара, соответствующие этому интенту. Особое внимание уделяется тому, чтобы модель кроссовка и логотип были четко видны и легко распознаваемы.
Ожидаемый результат:
- Entity Detection Model точно распознает объекты на изображении.
- Relevance Score будет высоким, так как Content Labels изображения совпадают с визуальным профилем запроса, сформированным историческими кликами.
- Высокое качество изображения привлечет клики (высокий User Selection Rate), что усилит связь этого типа изображения с запросом.

Вопросы и ответы

Как Google определяет, какие объекты находятся на моем изображении?

Система использует Entity Detection Model, которая, как указано в патенте, часто является нейронной сетью для обнаружения объектов (object detection neural network). Эта модель анализирует пиксели изображения, чтобы идентифицировать известные ей сущности, такие как объекты, сцены, действия и цвета. Результатом являются Content Labels (метки контента).

Что такое «визуальный профиль» (Content Labels) запроса и как он формируется?

Это набор Content Labels, ассоциированный с текстовым запросом, определяющий визуальные ожидания. Он формируется путем анализа изображений, которые пользователи исторически выбирали (кликали) по этому запросу. Если пользователи часто кликают на изображения с кошками по запросу «милые животные», метка «кошка» станет важной частью визуального профиля этого запроса.

Как поведение пользователей (CTR) влияет на ранжирование изображений согласно этому патенту?

Влияние значительно. User selection rates (CTR) определяют, какие исторические изображения используются для формирования визуального профиля запроса. Это создает петлю обратной связи: клики формируют ожидания системы для будущих поисков. Высокий CTR критически важен для закрепления вашего визуального стиля как релевантного.

Отменяет ли этот патент необходимость в оптимизации Alt-текста?

Нет, не отменяет. Патент указывает, что рассчитываемый Relevance Score (на основе визуального сходства) комбинируется с Additional Scores. Совпадение метаданных (включая Alt-текст) явно упоминается как один из возможных дополнительных сигналов. Текстовая оптимизация остается важной, но ее недостаточно без визуального соответствия.

Как система обрабатывает новые или редкие запросы, по которым нет исторических данных?

Патент описывает механизм агрегации данных. Если данных по точному запросу нет, система анализирует исторические данные по его подзапросам (sub-queries) и связанным запросам (related queries). Например, для нового сложного продуктового запроса система может использовать данные из более общих запросов о категории продукта.

Как я могу оптимизировать свои изображения, чтобы они лучше распознавались системой?

Используйте высококачественные, четкие, хорошо освещенные изображения. Ключевые объекты должны быть в фокусе и занимать значительную часть кадра. Избегайте визуального шума, который может помешать Entity Detection Model корректно идентифицировать содержание и сгенерировать правильные Content Labels.

Как измеряется сходство между метками запроса и изображения?

Патент предлагает использовать cosine similarity (косинусное сходство). Метки запроса и изображения представляются в виде векторов, и система измеряет «угол» между ними. Также может применяться взвешивание (Likelihood), чтобы более редкие и специфичные метки имели больший вес при расчете сходства.

Как я могу узнать, какие Content Labels Google видит на моем изображении?

Вы можете использовать инструменты, основанные на Google Cloud Vision API (например, демо-версию на их сайте), или протестировать изображение в Google Lens. Эти инструменты используют схожие модели машинного зрения и дадут хорошее представление о том, какие Content Labels генерируются для вашего контента.

Что важнее: качество самого изображения (разрешение) или то, что на нем изображено?

То, что изображено (релевантность), является основой для Relevance Score. Однако качество изображения (визуальная четкость) необходимо для точного распознавания объектов. Кроме того, патент упоминает, что визуальное качество может использоваться как Additional Score при финальном ранжировании. Оба аспекта важны.

Может ли этот механизм привести к тому, что в выдаче будут доминировать однотипные изображения?

Да, это потенциальный риск. Поскольку система стремится соответствовать устоявшемуся визуальному консенсусу, основанному на прошлых кликах, это может привести к снижению разнообразия, где нестандартные визуальные интерпретации запроса будут ранжироваться хуже. Однако Google обычно использует дополнительные алгоритмы (Twiddlers) на этапе RERANKING для обеспечения разнообразия выдачи.