Как Google использует клики пользователей для обучения ИИ понимать и ранжировать изображения в поиске и Google Lens

Google использует данные о поведении пользователей из логов поиска для обучения моделей эмбеддингов изображений и текста. Система анализирует, какие изображения пользователи кликают по определенным запросам (Query-Image) и какие изображения кликают вместе (Image-Image Co-clicks). Это позволяет ИИ изучить семантическую связь между текстом и визуальным контентом, формируя основу для ранжирования в Google Images и работы визуального поиска Google Lens.

Описание

Какую задачу решает

Патент решает фундаментальную задачу в области мультимодального поиска: создание эффективных и масштабируемых методов для обучения моделей машинного обучения, способных понимать семантическое содержание как изображений, так и текста в едином пространстве. Он устраняет зависимость от ручной разметки данных, которая медленна и плохо масштабируется, и предлагает использовать массовые объемы поведенческих данных (кликов) из логов поисковой системы в качестве основного обучающего сигнала. Это улучшает качество и релевантность image-поиска и позволяет реализовать функциональность визуального поиска (например, Google Lens).

Что запатентовано

Запатентована система обучения и применения моделей эмбеддингов изображений (Image Embedding Model) и текста (Text Embedding Model). Ключевым элементом является метод обучения этих моделей с использованием данных из Historical Query Log. Обучение базируется на анализе поведения пользователей: ассоциации между текстовыми запросами и кликнутыми изображениями (Query-Image), а также ассоциации между парами изображений на основе совместных кликов (Co-click rate) и кликов при визуальном поиске (Similar-image click rate). Цель — добиться того, чтобы семантически связанные текст и изображения имели близкие векторные представления (эмбеддинги).

Как это работает

Система работает в двух основных режимах: Обучение и Применение.

Обучение (Offline):

Сбор данных: Анализируются логи поисковой системы для выявления паттернов кликов.
Генерация примеров: Создаются обучающие примеры типа Query-Image (запрос + кликнутое изображение) и Image-Image (пара изображений + данные о совместных кликах).
Совместное обучение: Модели изображения и текста обучаются одновременно. Система стремится минимизировать расстояние между эмбеддингами связанной пары (например, запроса и кликнутого изображения), используя функцию потерь, которая учитывает частоту кликов (selection data).

Применение (Online Search):

Индексирование: Изображения в индексе заранее обрабатываются Image Embedding Model для генерации и хранения их эмбеддингов.
Обработка запроса: При текстовом запросе Text Embedding Model генерирует эмбеддинг текста. При визуальном запросе Image Embedding Model генерирует эмбеддинг изображения.
Ранжирование: Система сравнивает эмбеддинг запроса с эмбеддингами изображений в индексе. Ранжирование основывается на близости этих эмбеддингов (Relevance Score).

Актуальность для SEO

Критически высокая. Описанные технологии являются фундаментом современных систем мультимодального поиска Google (Google Images, Google Lens) и напрямую связаны с моделями типа CLIP (Contrastive Language-Image Pre-training), которые доминируют в 2025 году. Использование поведенческих сигналов для обучения векторных представлений контента является стандартом индустрии.

Важность для SEO

Патент имеет критическое значение (95/100) для SEO, особенно в области оптимизации изображений и e-commerce. Он раскрывает, что понимание и ранжирование изображений Google в значительной степени зависит не от окружающего текста, а от векторных представлений (эмбеддингов), которые обучаются напрямую на поведении пользователей (кликах). Это подчеркивает важность оптимизации визуального контента для привлечения кликов и обеспечения его четкой семантической связи с целевыми запросами.

Детальный разбор

Термины и определения

Co-click rate (Частота совместных кликов): Метрика, характеризующая, как часто пользователи выбирают (кликают) два изображения (Image A и Image B) в рамках одной поисковой сессии, когда оба изображения были показаны в результатах поиска по одному запросу.
Embedding (Эмбеддинг / Векторное представление): Представление данных (изображения или текста) в виде упорядоченного набора числовых значений (вектора или матрицы) в многомерном пространстве. Семантически схожие объекты имеют близкие эмбеддинги.
Historical Query Log (Лог истории запросов): База данных, индексирующая прошлые поисковые запросы, показанные результаты и действия пользователей (клики) по этим результатам.
Image Embedding Model (Модель эмбеддингов изображений): Модель машинного обучения (часто сверточная нейронная сеть, CNN), обученная преобразовывать изображение в эмбеддинг, отражающий его семантическое содержание.
Image-Image Training Example (Обучающий пример Изображение-Изображение): Набор данных для обучения, включающий пару изображений и связанные с ними поведенческие данные (Co-click rate и/или Similar-image click rate).
Query-Image Training Example (Обучающий пример Запрос-Изображение): Набор данных для обучения, включающий текстовый запрос, изображение и данные о том, как часто это изображение выбиралось пользователями по этому запросу.
Selection Data (Данные о выборе): Поведенческие данные из логов, указывающие на частоту выбора пользователями определенных результатов (клики).
Similar-image click rate (Частота кликов по похожим изображениям): Метрика, характеризующая, как часто пользователи выбирают Изображение A, когда оно показано в результатах поиска по запросу, включающему Изображение B (визуальный поиск), и наоборот.
Text Embedding Model (Модель эмбеддингов текста): Модель машинного обучения (например, CNN, RNN или Трансформер), обученная преобразовывать последовательность слов (запрос) в эмбеддинг.

Ключевые утверждения (Анализ Claims)

Данная публикация (A1) является продолжением (continuation) предыдущих патентов и фокусируется на применении обученных моделей в поиске.

Claim 1 (Независимый пункт, Система): Описывает систему для визуального поиска (Image Search / Google Lens).

Система получает поисковый запрос, включающий query image.
Изображение обрабатывается с помощью image embedding model для генерации query image embedding.
Критический момент: Уточняется, что эта модель была обучена на наборе данных image-image training examples (пары изображений и связанные с ними selection data).
Система получает множество других эмбеддингов (предварительно рассчитанных для изображений в индексе).
Определяются результаты поиска на основе сравнения query image embedding и других эмбеддингов. Ранжирование основано на relevance score, вычисленном по этим эмбеддингам.
Результаты предоставляются пользователю.

Claim 11 (Независимый пункт, Метод): Описывает метод для поиска изображений по текстовому запросу.

Система получает поисковый запрос (текстовый).
Запрос обрабатывается с помощью text embedding model для генерации query embedding.
Система получает множество image embeddings, сгенерированных image embedding model (который также обучен на image-image training examples).
Определяются результаты поиска на основе сравнения query embedding (текст) и image embeddings (изображения). Ранжирование основано на relevance score.
Результаты предоставляются пользователю.

Интерпретация Claims 1 и 11: Ядро изобретения в этой публикации — это использование моделей, обученных на поведенческих данных (кликах по парам изображений), для реализации как визуального, так и текстового поиска изображений. Это подтверждает, что ранжирование в современном поиске по картинкам основано на сравнении векторных представлений (эмбеддингов), а не только на анализе текста вокруг изображения.

Где и как применяется

Это изобретение является кросс-функциональным и затрагивает несколько ключевых этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная обработка визуального контента. Обученная Image Embedding Model используется для анализа всех изображений в индексе и генерации их векторных представлений (Image Embeddings). Эти эмбеддинги сохраняются в индексе как ключевые признаки семантического содержания изображения.

QUNDERSTANDING – Понимание Запросов
При получении текстового запроса обученная Text Embedding Model используется в реальном времени для преобразования текста в Query Embedding. При получении визуального запроса (например, в Google Lens) Image Embedding Model используется для генерации эмбеддинга запросного изображения.

RANKING – Ранжирование (особенно L1 Retrieval)
Это основной этап применения технологии. Вместо традиционного поиска по ключевым словам система выполняет векторный поиск (Vector Search). Query Embedding (текстовый или визуальный) сравнивается с миллионами Image Embeddings в индексе для быстрого поиска ближайших соседей (наиболее семантически близких изображений). Relevance Score рассчитывается на основе близости векторов.

Оффлайн-процессы (Обучение моделей)
Система постоянно анализирует данные из Historical Query Log для дообучения и обновления моделей эмбеддингов. Это не является частью онлайн-обработки запроса, но критически важно для поддержания качества поиска.

Входные данные (Обучение):

Логи поисковой системы (запросы, показы, клики).
Изображения и тексты запросов.

Выходные данные (Обучение):

Параметры обученных Image Embedding Model и Text Embedding Model.

Входные данные (Поиск):

Запрос пользователя (текст или изображение).
Индекс, содержащий Image Embeddings.

Выходные данные (Поиск):

Ранжированный список релевантных изображений (Search Results).

На что влияет

Конкретные типы контента: В первую очередь влияет на ранжирование изображений (Google Images) и работу систем визуального поиска (Google Lens). Особенно сильно влияет на контент, где визуальная составляющая является основной (товары, рецепты, мода, достопримечательности).
Специфические запросы: Влияет на все типы запросов, по которым предполагается выдача изображений. Особенно эффективно для длинных и специфичных запросов (например, «красный Ford Mustang 2014 года»), так как обучение на таких запросах позволяет моделям улавливать мелкие детали.
Языковые ограничения: Патент упоминает, что обучение на мультиязычных запросах позволяет моделям понимать семантику независимо от языка. Например, эмбеддинги для «young Queen Elizabeth» и «jeune Reine Elizabeth» будут близки, если они ведут к похожим изображениям.

Когда применяется

При каких условиях работает алгоритм: Алгоритмы обучения работают постоянно в оффлайн-режиме, обрабатывая новые данные из логов. Алгоритмы применения (генерация эмбеддингов и ранжирование) используются при каждом запросе в Google Images или при использовании Google Lens.
Триггеры активации: Наличие достаточного объема поведенческих данных (кликов) для формирования надежных обучающих примеров Query-Image и Image-Image.

Пошаговый алгоритм

Процесс А: Обучение моделей (Offline)

Сбор и обработка данных: Система обрабатывает Historical Query Log поисковой системы.
Генерация Query-Image примеров: Идентифицируются пары (Текстовый Запрос, Изображение), где изображение часто кликалось по этому запросу. Фиксируется частота кликов (Selection Data).
Генерация Image-Image примеров: Идентифицируются пары изображений (Image A, Image B). Рассчитываются метрики:
- Co-click rate: Как часто A и B кликают вместе в одной выдаче.
- Similar-image click rate: Как часто кликают A при поиске по B (и наоборот).
Совместное обучение (Joint Training):
- Изображения обрабатываются Image Embedding Model.
- Тексты обрабатываются Text Embedding Model.
- Вычисляется сходство (например, Евклидово расстояние) между эмбеддингами в парах.
Оптимизация (Минимизация потерь): Параметры моделей корректируются для минимизации функции потерь. Цель — сблизить эмбеддинги связанных пар. Функция потерь может включать масштабирующий фактор (multiplicative scaling factor), основанный на силе поведенческого сигнала (частоте кликов).
(Опционально) Graph Regularization: Обучение может использовать графовую структуру, где узлы — это изображения/запросы, а ребра взвешены по данным о кликах, для более эффективного распространения информации о сходстве.

Процесс Б: Применение в поиске (Online)

Получение запроса: Система получает запрос от пользователя.
Генерация эмбеддинга запроса:
- Если запрос текстовый: Text Embedding Model генерирует Query Embedding.
- Если запрос визуальный: Image Embedding Model генерирует Query Image Embedding.
Векторный поиск (Retrieval): Система сравнивает эмбеддинг запроса с заранее рассчитанными Image Embeddings в индексе.
Расчет релевантности: Вычисляется Relevance Score на основе близости (similarity) векторов.
Ранжирование и выдача: Изображения сортируются по Relevance Score и предоставляются пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании следующих типов данных для обучения моделей:

Поведенческие факторы (Критически важно): Это основа изобретения. Используются логи истории запросов (Historical Query Log) для извлечения данных о кликах (Selection Data). Конкретно анализируется, какие изображения были показаны и какие выбраны пользователем.
Контентные факторы (Визуальные): Пиксельные данные изображений (например, в формате RGB) или их признаковые представления (HOG, SIFT, SURF) подаются на вход Image Embedding Model.
Контентные факторы (Текстовые): Тексты поисковых запросов (представленные, например, как one-hot векторы или Word2vec) подаются на вход Text Embedding Model.

Другие факторы (ссылочные, технические, временные) в контексте обучения этих моделей в патенте не упоминаются.

Какие метрики используются и как они считаются

Система вычисляет следующие ключевые метрики для обучения:

Co-click rate: Рассчитывается как доля случаев, когда пользователи выбрали оба изображения из пары, при условии, что оба они были показаны в результатах поиска по одному запросу.
Similar-image click rate: Рассчитывается как доля случаев, когда пользователи выбрали первое изображение, если оно было показано в результатах визуального поиска по второму изображению (и наоборот).
Embedding Similarity (Сходство эмбеддингов): Метрика расстояния между двумя векторными представлениями (например, Euclidean distance или cosine similarity).
Loss Function (Функция потерь): Используется для оценки ошибки модели и корректировки параметров. Зависит от сходства эмбеддингов и Selection Data. Патент упоминает использование классификационных функций потерь (например, cross-entropy с soft-max) или триплетных функций потерь (triplet loss).
Multiplicative Scaling Factor (w): Весовой коэффициент в функции потерь, который усиливает влияние обучающего примера в зависимости от силы поведенческого сигнала. Может рассчитываться как линейная комбинация Co-click rate и Similar-image click rate.

Выводы

Поведенческие сигналы — основа обучения ИИ для Image Search: Патент подтверждает, что Google в значительной степени полагается на агрегированные данные о кликах пользователей для обучения своих моделей пониманию визуального контента и его связи с текстовыми запросами. Это предпочтительный метод по сравнению с ручной разметкой или анализом текста вокруг изображения.
Мультимодальное понимание контента: Ключевая цель — совместное обучение моделей текста и изображений для создания общего пространства эмбеддингов. Это позволяет системе находить релевантные изображения по текстовым запросам и наоборот, формируя основу для мультимодального поиска (Google Images, Google Lens).
Векторный поиск как механизм ранжирования: Ранжирование в поиске по картинкам осуществляется путем сравнения близости векторов (эмбеддингов) запроса и изображений в индексе. Relevance Score напрямую зависит от этой близости.
Важность Co-Clicks и Visual Search Clicks: Помимо связи «запрос-изображение», система активно использует данные о том, какие изображения пользователи считают похожими или взаимозаменяемыми (Co-click rate, Similar-image click rate). Это позволяет улучшить качество эмбеддингов изображений, даже если для них нет прямых текстовых ассоциаций.
Специфичность и детализация: Обучение на конкретных, детализированных запросах позволяет моделям улавливать тонкие нюансы в изображениях (например, цвет, модель, год выпуска объекта), что значительно повышает точность поиска.

Практика

Best practices (это мы делаем)

Оптимизация под Интент и Привлечение Кликов: Обеспечьте максимальное соответствие изображения поисковому намерению пользователя. Изображение должно быть привлекательным и релевантным, чтобы стимулировать клики в Google Images. Эти клики являются прямым сигналом для обучения моделей, укрепляя связь между вашим изображением и запросом.
Высокое качество и Четкость Изображений: Используйте высококачественные, четкие и незашумленные изображения. Это помогает Image Embedding Model корректно извлекать визуальные признаки и формировать точный эмбеддинг, что критично для распознавания объекта, в том числе через Google Lens (визуальный поиск).
Разнообразие Визуального Контента (для E-commerce): Предоставляйте несколько изображений продукта с разных ракурсов и в контексте использования. Это увеличивает вероятность того, что одно из изображений будет соответствовать специфическому интенту пользователя, а также улучшает понимание объекта системой через анализ взаимосвязей между этими изображениями.
Семантическая Оптимизация Окружающего Контента: Хотя эмбеддинги обучаются на кликах, традиционные SEO-факторы (Title, Alt-текст, окружающий текст) по-прежнему важны для первичного попадания в выдачу и обеспечения контекста. Убедитесь, что текст семантически связан с изображением, чтобы поддержать ассоциации, формируемые через поведенческие сигналы.
Анализ Визуальных Конкурентов: Изучайте, какие типы изображений ранжируются в топе по вашим запросам. Понимание визуальных паттернов, которые Google уже ассоциирует с запросом (через обученные эмбеддинги), поможет скорректировать вашу контент-стратегию.

Worst practices (это делать не надо)

Кликбейт и Несоответствие Интенту: Использование изображений, которые привлекают клик, но не соответствуют запросу или содержанию страницы. Хотя это может дать краткосрочный трафик, в долгосрочной перспективе это приведет к ухудшению поведенческих сигналов (например, быстрый возврат к выдаче), что негативно скажется на обучении моделей в отношении вашего контента.
Игнорирование Качества Изображений: Использование стоковых, слишком общих или низкокачественных изображений. Такие изображения формируют слабые или неточные эмбеддинги, что затрудняет их ранжирование по специфическим запросам и делает их неэффективными для визуального поиска.
Фокус только на Alt-тегах: Полагаться исключительно на текстовую оптимизацию (alt, title) и игнорировать визуальную составляющую. Если визуальный контент семантически далек от текста, система предпочтет изображения конкурентов, чьи эмбеддинги ближе к эмбеддингу запроса.

Стратегическое значение

Этот патент подчеркивает стратегический переход Google к мультимодальному и векторному поиску. Для SEO это означает, что оптимизация контента должна выходить за рамки ключевых слов. Понимание того, как ИИ интерпретирует визуальную информацию через призму пользовательского поведения, становится критически важным навыком. Стратегии должны быть направлены на создание сильных семантических связей между текстовым и визуальным контентом, подтвержденных реальным пользовательским взаимодействием. Также это подтверждает важность оптимизации под Google Lens, особенно для e-commerce и локального поиска.

Практические примеры

Сценарий: Оптимизация карточки товара (Кроссовки)

Действие: Вместо одной фотографии кроссовка на белом фоне добавьте 5-7 высококачественных фотографий: детальные снимки текстуры, вид сверху, вид сбоку, фото на ноге модели в движении.
Обоснование по патенту: Image Embedding Model обработает все эти изображения. Пользователи будут кликать на разные фото в зависимости от их специфического интента (например, «как выглядят кроссовки X на ноге» vs «текстура материала кроссовок X»). Эти клики (Query-Image) обучат модель ассоциировать разные визуальные аспекты товара с разными запросами. Кроме того, система может анализировать связь между этими изображениями (Image-Image).
Ожидаемый результат: Улучшение ранжирования товара в Google Images по широкому спектру запросов (от общих до специфических) и повышение видимости товара при визуальном поиске через Google Lens.

Сценарий: Улучшение ранжирования изображения в информационной статье

Действие: Заменить общее стоковое фото в статье (например, «здоровое питание») на уникальную, четкую и привлекательную инфографику или реальное фото блюда, которое точно соответствует основному интенту статьи. Разместить это изображение на видном месте.
Обоснование по патенту: Привлекательное и релевантное изображение с большей вероятностью получит клики в Google Images. Система зафиксирует высокую частоту кликов (Selection Data) для этого изображения по целевому запросу и скорректирует параметры моделей так, чтобы эмбеддинг изображения стал ближе к эмбеддингу запроса.
Ожидаемый результат: Повышение позиций изображения в Google Images, увеличение трафика на статью через поиск по картинкам.

Вопросы и ответы

Как Google определяет, какие изображения похожи друг на друга?

Google использует два основных механизма, описанных в патенте. Во-первых, это анализ визуальных признаков с помощью Image Embedding Model: если эмбеддинги двух изображений близки в векторном пространстве, они считаются похожими. Во-вторых, что более важно, эта модель обучается на поведенческих данных: если пользователи часто кликают на оба изображения в одной выдаче (Co-click rate) или находят одно изображение при визуальном поиске по другому (Similar-image click rate), система учится считать их похожими или семантически связанными.

Что важнее для ранжирования в Google Images: текст вокруг картинки или сама картинка?

Оба элемента важны, но патент подчеркивает возрастающую роль самого визуального контента. Ранжирование происходит путем сравнения эмбеддинга запроса и эмбеддинга изображения. Текст помогает Google понять контекст страницы и может влиять на первичное попадание в выдачу, но финальная релевантность определяется тем, насколько точно визуальное содержание изображения, выраженное через его эмбеддинг, соответствует запросу.

Как этот патент связан с Google Lens?

Патент напрямую описывает технологии, лежащие в основе Google Lens (визуальный поиск). Claim 1 описывает процесс: пользователь загружает изображение (query image), система генерирует его эмбеддинг с помощью Image Embedding Model и ищет в индексе изображения с похожими эмбеддингами. Качество работы Google Lens зависит от того, насколько хорошо обучена эта модель на данных о кликах.

Влияют ли клики на ранжирование изображений?

Да, но не напрямую как фактор ранжирования в реальном времени. Клики (Selection Data) используются как основной обучающий сигнал для Image Embedding Model и Text Embedding Model. Если изображение постоянно получает много кликов по определенному запросу, модели обучаются ассоциировать их сильнее, что приводит к сближению их эмбеддингов и, как следствие, к более высокому ранжированию этого изображения по этому запросу в будущем.

Как оптимизировать изображения для лучшего понимания моделями эмбеддингов?

Необходимо использовать высококачественные, четкие изображения с ясно различимыми объектами. Избегайте визуального шума, водяных знаков, мешающих распознаванию основного объекта, и сильного сжатия. Чем чище визуальный сигнал, тем точнее будет сгенерированный эмбеддинг и тем выше вероятность корректного распознавания и ранжирования.

Имеет ли значение уникальность изображения?

Хотя патент не фокусируется на уникальности напрямую, уникальные изображения, которые точно отвечают на специфические запросы пользователей, имеют больше шансов собрать сильные поведенческие сигналы (клики). Если одно и то же стоковое изображение используется на сотнях сайтов, сигналы могут быть размыты, что затрудняет установление четкой связи с конкретным интентом или сайтом.

Что такое Co-click rate и почему он важен?

Co-click rate — это частота, с которой два разных изображения кликаются пользователями в рамках одной поисковой сессии. Это сильный сигнал для Google о том, что эти изображения семантически связаны, взаимозаменяемы или дополняют друг друга. Система использует эти данные для обучения Image Embedding Model, сближая эмбеддинги таких изображений.

Работает ли эта система одинаково для всех языков?

Да, патент упоминает, что система может обучаться на мультиязычных данных. Если пользователи на разных языках ищут один и тот же концепт и кликают на одни и те же изображения, Text Embedding Model учится генерировать похожие эмбеддинги для этих запросов независимо от языка. Это обеспечивает универсальное понимание интента.

Как эта технология влияет на E-commerce SEO?

Влияние огромно. Для E-commerce критически важно, чтобы изображения товаров точно распознавались и ранжировались по коммерческим запросам. Оптимизация качества и разнообразия фотографий товаров напрямую влияет на то, как Image Embedding Model поймет продукт, что улучшает видимость как в Google Images, так и при поиске через Google Lens, привлекая целевой трафик.

Нужно ли по-прежнему прописывать Alt-тексты для изображений?

Да, обязательно. Alt-тексты остаются важными для доступности (accessibility) и служат дополнительным источником контекста для поисковой системы. Хотя ранжирование основано на эмбеддингах, текстовые сигналы помогают системе на начальных этапах индексирования и могут использоваться для валидации или дополнения информации, полученной из визуального анализа и поведенческих данных.