Как Google использует нейросетевые эмбеддинги (Embedding-Based Retrieval) для семантического поиска изображений

Google применяет архитектуру нейронных сетей («Two-Tower Model») для поиска изображений. Система создает семантические векторы (эмбеддинги) отдельно для запроса и для пары «изображение + посадочная страница» в общем пространстве. Это позволяет находить релевантные изображения на основе семантической близости, а не только по ключевым словам, улучшая понимание контента и контекста.

Описание

Какую задачу решает

Патент решает ограничения традиционных систем поиска изображений. Существующие методы часто полагаются на поиск по ключевым терминам (term-based retrieval), что неэффективно для длинных, сложных или неоднозначных запросов. Кроме того, традиционные подходы часто оценивают сигналы изображения и сигналы посадочной страницы раздельно, а затем объединяют их с использованием фиксированных весов. Это не позволяет уловить сложные семантические взаимосвязи между контентом изображения и его контекстом на странице.

Что запатентовано

Запатентована система поиска изображений, основанная на эмбеддингах (Embedding-Based Retrieval или EBR). Используется архитектура нейронной сети, состоящая из двух отдельных моделей (часто называемая «Two-Tower Model»). Одна модель (Image Search Query Embedding Neural Network) обрабатывает запрос, а другая (Pair Embedding Neural Network) обрабатывает пару «изображение-посадочная страница» (image-landing page pair). Обе модели проецируют свои входные данные в общее семантическое пространство (Embedding Space), где релевантность определяется близостью этих векторов.

Как это работает

Система функционирует следующим образом:

Офлайн-обработка (Индексирование): Для пар «изображение-посадочная страница» заранее вычисляются эмбеддинги (Pair Numeric Embedding). Нейронная сеть анализирует как признаки изображения (визуальный контент), так и признаки страницы (текст, заголовок, контекст вокруг изображения).
Обработка запроса (Онлайн): При получении запроса вторая нейронная сеть вычисляет его эмбеддинг (Query Numeric Embedding) в том же векторном пространстве.
Поиск (Retrieval): Система выполняет быстрый поиск ближайших соседей (nearest neighbors), находя пары, чьи эмбеддинги наиболее близки к эмбеддингу запроса.
Кандидаты: Найденные пары становятся кандидатами для последующего ранжирования.

Актуальность для SEO

Крайне высокая. Embedding-Based Retrieval (EBR) является современным стандартом в информационном поиске, активно вытесняя или дополняя традиционные методы. Этот патент описывает фундаментальную архитектуру применения EBR к поиску изображений, что критически важно для понимания того, как Google интерпретирует изображения и их контекст в 2025 году.

Важность для SEO

Влияние на SEO изображений критическое (85/100). Патент описывает механизм перехода от поиска по ключевым словам к глубокому семантическому пониманию изображений. Он четко указывает, что Google не рассматривает изображение изолированно, а оценивает пару «изображение + страница» как единое целое. Это требует от SEO-специалистов комплексной оптимизации всех сигналов — визуального контента, его технической реализации и текстового контекста на странице — для обеспечения их семантического соответствия.

Детальный разбор

Термины и определения

Embedding Space (Пространство эмбеддингов): Многомерное векторное пространство, в котором семантически схожие элементы (запросы, изображения, страницы) расположены близко друг к другу.
Embedding-Based Retrieval (EBR) (Поиск на основе эмбеддингов): Метод информационного поиска, при котором кандидаты отбираются на основе близости их векторных представлений (эмбеддингов) к векторному представлению запроса.
Image-Landing Page Pair (Пара изображение-посадочная страница): Единица индексации в данной системе, состоящая из изображения и веб-страницы (landing page), на которой оно размещено.
Image Search Query Embedding Neural Network: Нейронная сеть («башня»), отвечающая за преобразование признаков запроса в Query Numeric Embedding.
Joint Training (Совместное обучение): Процесс одновременного обучения двух нейронных сетей для оптимизации общей целевой функции, гарантирующий, что они генерируют эмбеддинги в одном и том же Embedding Space.
Pair Embedding Neural Network: Нейронная сеть («башня»), отвечающая за преобразование признаков пары (изображение + страница) в Pair Numeric Embedding.
Prominence (Значимость/Заметность): Признак, характеризующий визуальную важность изображения на странице, например, его относительный размер при отображении.
Salient Terms (Значимые термины): Ключевые термины или сущности, извлеченные из контента посадочной страницы, которые лучше всего описывают ее тематику.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод поиска изображений.

Система получает запрос на поиск изображений.
Система генерирует (или получает доступ к ранее сгенерированным) Pair Numeric Embedding для множества пар «изображение-посадочная страница». Каждый эмбеддинг создается с помощью Pair Embedding Neural Network на основе признаков изображения И признаков посадочной страницы.
Система обрабатывает признаки запроса с помощью Image Search Query Embedding Neural Network для генерации Query Numeric Embedding в том же Embedding Space.
Ключевое условие: Обе нейронные сети были обучены СОВМЕСТНО (jointly trained) на обучающем наборе данных.
Система идентифицирует кандидатов (first candidate image search results), находя подмножество пар, чьи эмбеддинги НАИБОЛЕЕ БЛИЗКИ (closest) к эмбеддингу запроса в Embedding Space.
Система предоставляет результаты для отображения.

Ядром изобретения является применение архитектуры «двух башен» для мультимодального поиска, где отбор кандидатов основан на семантической близости в векторном пространстве, а не на совпадении ключевых слов.

Claim 3 (Зависимый): Уточняет механизм идентификации кандидатов.

Идентификация кандидатов включает определение расстояния в Embedding Space между эмбеддингом запроса и каждым из эмбеддингов пар.

Claims 8 и 9 (Зависимые): Уточняют интеграцию с другими системами.

Система может также использовать Term-based Retrieval System для получения дополнительного набора пар на основе ключевых терминов и объединять (merge) результаты из обеих систем (EBR и Term-based) перед предоставлением пользователю. Это указывает на гибридный подход к поиску.

Где и как применяется

Изобретение является фундаментальным изменением в архитектуре поиска изображений и затрагивает этапы индексирования и ранжирования (в части отбора кандидатов).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная офлайн-работа системы:

Извлечение признаков изображения (Image Features) и посадочной страницы (Landing Page Features).
Обработка этих признаков с помощью Pair Embedding Neural Network для генерации Pair Numeric Embedding.
Сохранение этих эмбеддингов в индексной базе данных (Index Database), оптимизированной для быстрого векторного поиска.

RANKING – Ранжирование (L1 — Retrieval / Отбор кандидатов)
Это основное применение патента в реальном времени. Вместо (или в дополнение к) традиционному поиску по инвертированному индексу, система использует EBR:

Запрос обрабатывается Image Search Query Embedding Neural Network для получения Query Numeric Embedding.
Система выполняет поиск ближайших соседей в Embedding Space, сравнивая эмбеддинг запроса с сохраненными эмбеддингами пар.
Этот процесс позволяет быстро сократить миллионы потенциальных результатов до небольшого набора семантически релевантных кандидатов (first candidate image search results).

Входные данные:

Признаки запроса (текст, локация).
Предварительно вычисленные Pair Numeric Embeddings из индекса.

Выходные данные:

Набор кандидатов (first candidate image search results), отобранных на основе семантической близости.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на длинные (long-tail), сложные или неоднозначные запросы, где прямое совпадение ключевых слов отсутствует или не отражает интент пользователя. EBR позволяет лучше понять семантику запроса.
Типы контента: Влияет на все типы изображений (продукты, иллюстрации, фотографии и т.д.).
Языковые ограничения: Патент упоминает потенциальное преимущество: возможность одновременного обучения пространства эмбеддингов для запросов и пар на разных языках. Изображения могут служить «мостом» между языками, позволяя системе находить релевантный контент кросс-лингвально, используя визуальное сходство.

Когда применяется

Алгоритм применяется при обработке запросов в системе поиска изображений. Он может использоваться как основной механизм отбора кандидатов или работать параллельно с Term-based Retrieval System для обеспечения большего охвата (Recall). Система объединяет результаты из разных источников поиска для формирования финального набора кандидатов для ранжирования.

Пошаговый алгоритм

Процесс А: Офлайн-индексирование (Предварительная обработка)

Сбор данных: Идентификация пар «изображение-посадочная страница».
Извлечение признаков: Извлечение Image Features (визуальный контент, URL) и Landing Page Features (текст, заголовок, контекст изображения, структура).
Генерация эмбеддингов пар: Обработка признаков с помощью обученной Pair Embedding Neural Network для создания Pair Numeric Embedding.
Индексирование: Сохранение эмбеддингов в базе данных, оптимизированной для быстрого поиска ближайших соседей (например, ANN).

Процесс Б: Обработка запроса в реальном времени (Retrieval)

Получение запроса: Получение запроса на поиск изображений от пользователя.
Извлечение признаков запроса: Извлечение Query Features (текст, локация).
Генерация эмбеддинга запроса: Обработка признаков запроса с помощью обученной Image Search Query Embedding Neural Network для создания Query Numeric Embedding.
Поиск ближайших соседей (Nearest Neighbor Search): Сравнение эмбеддинга запроса с предварительно вычисленными эмбеддингами пар в Embedding Space.
Отбор кандидатов: Идентификация Топ-K пар, чьи эмбеддинги наиболее близки к эмбеддингу запроса (first candidate image search results).
Ранжирование: Передача кандидатов (возможно, объединенных с результатами из Term-based retrieval) в систему ранжирования для финальной сортировки.
Предоставление результатов: Формирование выдачи изображений.

Какие данные и как использует

Данные на входе

Система использует широкий спектр признаков для генерации эмбеддингов. Это критически важно, так как нейронная сеть обучается комбинировать эти сигналы оптимальным образом.

Признаки Запроса (Query Features):

Контентные/Текстовые факторы: Текст запроса (упоминаются униграммы и биграммы).
Пользовательские/Географические факторы: Данные о местоположении, откуда был отправлен запрос.

Признаки Изображения (Image Features):

Мультимедиа факторы: Пиксельные данные изображения (pixel data) или предварительно вычисленный эмбеддинг контента изображения.
Технические факторы: Домен изображения, текст из URL изображения (униграммы/биграммы).

Признаки Посадочной Страницы (Landing Page Features):

Контентные/Текстовые факторы: Текст заголовка (Title) страницы, «значимые термины» (salient terms), появляющиеся на странице, текст, окружающий изображение, текстовые описания изображения (например, alt-text).
Технические факторы: Текст из URL страницы, домен страницы, язык страницы.
Структурные факторы (Контекст изображения): Местоположение изображения на странице (например, с использованием пиксельных координат, XPATH или CSS-селектора). Заметность (prominence) изображения на странице (например, относительный размер).
Факторы E-E-A-T: Данные, характеризующие автора посадочной страницы.

Какие метрики используются и как они считаются

Closeness/Distance in Embedding Space (Близость/Расстояние в пространстве эмбеддингов): Основная метрика для отбора кандидатов. Определяет, насколько близки Pair Numeric Embedding и Query Numeric Embedding. В патенте упоминается использование скалярного произведения (dot product) как меры близости в Prediction Layer.
Joint Training и Loss Function (Совместное обучение и Функция потерь): Система совместно обучает обе нейронные сети для минимизации функции потерь. Цель обучения — сделать скалярное произведение выше для позитивных примеров и ниже для негативных.
Позитивные примеры: Определяются как пара (запрос, результат), с которой пользователь взаимодействовал (user interacted).
Типы функций потерь: Упоминаются softmax with cross-entropy loss, sampled softmax loss, contrastive loss functions.

Выводы

Семантический поиск как основа Image Search: Патент подтверждает переход Google к Embedding-Based Retrieval (EBR) для поиска изображений. Это означает, что семантическое соответствие становится важнее точного совпадения ключевых слов. Система стремится понять смысл запроса и смысл контента.
«Изображение + Страница» как единое целое: Ключевым аспектом является то, что система индексирует и ищет не просто изображения, а Image-Landing Page Pairs. Эмбеддинг генерируется на основе комбинации визуального контента и всего контекста страницы (текст, структура, URL). Изображение не может быть релевантным без релевантного контекста.
Раннее слияние сигналов (Early Fusion): В отличие от старых систем, эта модель использует нейронную сеть для слияния всех признаков (визуальных, текстовых, структурных) на раннем этапе генерации эмбеддинга. Это позволяет модели изучать сложные нелинейные взаимодействия между различными факторами.
Обучение на основе поведения пользователей: Совместное обучение моделей основано на пользовательских взаимодействиях (кликах). Это означает, что система обучается приводить в соответствие запросы и результаты, которые пользователи считают релевантными.
Критическая важность контекстуальных сигналов: Патент явно перечисляет контекстуальные сигналы, такие как расположение изображения на странице (location), его заметность (prominence), окружающий текст и salient terms страницы. Эти факторы напрямую влияют на генерацию эмбеддинга пары.

Практика

Best practices (это мы делаем)

Обеспечение сильной семантической связи (Image-Context Alignment): Критически важно, чтобы контент изображения строго соответствовал теме посадочной страницы. Все элементы контекста — заголовок страницы (Title), окружающий текст, salient terms страницы — должны быть семантически связаны с изображением. Это напрямую влияет на качество Pair Numeric Embedding.
Оптимизация всех текстовых элементов, связанных с изображением: Необходимо оптимизировать alt-text, подписи, URL изображения (filename) и окружающий текст. Эти элементы являются входными признаками для Pair Embedding Neural Network и должны точно и семантически описывать изображение.
Стратегическое размещение изображений (Image Placement and Prominence): Поскольку система учитывает местоположение (location) и заметность (prominence) изображения на странице, размещайте наиболее важные изображения на видных местах (например, в первом экране) и в релевантном текстовом окружении.
Использование оригинального и качественного визуального контента: Хотя система сильно зависит от контекста, визуальные признаки (пиксели или эмбеддинг контента изображения) также являются частью входа. Качественные и уникальные изображения, лучше отвечающие на запрос, будут генерировать более релевантные эмбеддинги.

Worst practices (это делать не надо)

Несоответствие изображения и контекста (Image Mismatch): Размещение изображений, которые не соответствуют теме страницы (например, использование общих стоковых фото). Система, анализируя пару целиком, определит семантическое расхождение.
Оптимизация только Alt-text: Полагаться только на оптимизацию атрибута alt без учета остального контента страницы неэффективно, так как Pair Embedding Neural Network анализирует гораздо более широкий набор признаков.
Игнорирование технических аспектов URL и домена: Использование неинформативных URL изображений (например, img12345.jpg) упускает возможность предоставить дополнительный текстовый сигнал (unigrams/bigrams из URL) для генерации эмбеддинга.
Манипуляции с ключевыми словами (Keyword Stuffing): Перенасыщение окружающего текста или alt-text ключевыми словами. Поскольку система использует EBR, она ищет семантическое соответствие, а не плотность терминов.

Стратегическое значение

Этот патент демонстрирует, что поиск изображений Google функционирует на основе передовых принципов машинного обучения (глубокие нейронные сети, EBR). Стратегия SEO для изображений должна быть интегрирована в общую контент-стратегию сайта. Для успешного ранжирования в Image Search необходимо не просто иметь картинку с правильным alt-текстом, а иметь авторитетную страницу, на которой эта картинка размещена в максимально релевантном контексте.

Практические примеры

Сценарий: Оптимизация карточки товара в E-commerce

Цель: Улучшить ранжирование главного изображения товара «Красное бархатное платье миди» в поиске по картинкам.

Анализ Визуального Контента (Image Feature): Убедиться, что изображение качественное, четко показывает товар. Нейросеть проанализирует пиксели или визуальный эмбеддинг.
Оптимизация Технических Признаков (Image Feature): Использовать URL: /images/krasnoe-barhatnoe-platie-midi.jpg.
Оптимизация Контекста (Landing Page Feature):
- Заголовок страницы (H1/Title): «Красное бархатное платье миди [Бренд]».
- Alt-text: «Девушка в красном бархатном платье миди от [Бренд], вид спереди».
- Размещение и Значимость: Изображение должно быть главным (высокая prominence), расположено вверху страницы (приоритетный location/XPATH).
- Окружающий текст (Описание): Текст рядом с изображением должен содержать семантически связанные термины (salient terms): «вечернее платье», «бархат», «длина миди», «насыщенный красный цвет».
Результат: Pair Embedding Neural Network обработает все эти сигналы вместе. Сильная семантическая согласованность между всеми элементами приведет к генерации точного Pair Numeric Embedding, который будет близок к Query Numeric Embedding для соответствующих запросов.

Вопросы и ответы

Что такое Embedding-Based Retrieval (EBR) и почему Google его использует в поиске изображений?

EBR — это метод поиска, при котором запросы и документы (в данном случае пары изображение+страница) преобразуются в числовые векторы (эмбеддинги) в общем семантическом пространстве. Поиск сводится к нахождению ближайших векторов. Google использует EBR, потому что он позволяет находить результаты на основе семантического смысла, а не только по совпадению ключевых слов, что значительно улучшает понимание сложных и неоднозначных запросов в контексте изображений.

Что означает «Image-Landing Page Pair» и почему это важно?

Это ключевая концепция, означающая, что Google не оценивает изображение изолированно. Система рассматривает изображение и страницу, на которой оно размещено, как единое целое. Это важно, потому что релевантность изображения критически зависит от его контекста на странице (текст, заголовки, структура, расположение). Одно и то же изображение на разных страницах будет иметь разные эмбеддинги.

Какие факторы наиболее важны для оптимизации изображений согласно этому патенту?

Важна комбинация факторов. Ключевыми являются: визуальный контент изображения, текст заголовка страницы, значимые термины (salient terms) на странице, окружающий текст, alt-text, а также структурные факторы, такие как расположение (location) и заметность (prominence) изображения на странице.

Что такое «Two-Tower Model» и как она здесь применяется?

Это архитектура нейронной сети, где есть две отдельные «башни». Одна башня (Query Embedding NN) обрабатывает запрос, другая (Pair Embedding NN) — документ (пару изображение-страница). Каждая башня генерирует эмбеддинг. Эта архитектура эффективна для поиска, так как позволяет заранее рассчитать эмбеддинги всех документов офлайн, обеспечивая быстрый поиск в реальном времени.

Означает ли этот патент, что традиционная оптимизация (например, alt-text) больше не работает?

Нет, она по-прежнему важна, но ее недостаточно. Alt-text является лишь одним из многих сигналов, которые подаются на вход Pair Embedding Neural Network. Система оценивает его в совокупности с остальным контекстом страницы. Оптимизация должна быть комплексной, чтобы все сигналы были семантически согласованы.

Как система определяет «значимость» (Prominence) изображения на странице?

Согласно патенту, значимость (prominence) может измеряться с использованием относительного размера изображения при его отображении на устройстве. На практике это означает, что более крупные изображения, расположенные на видных местах, считаются более значимыми и могут сильнее влиять на формирование эмбеддинга пары.

Влияет ли расположение изображения на странице на его ранжирование?

Да, патент явно указывает, что признаки, описывающие контекст изображения, включают данные о его местоположении (location) на странице (например, пиксельные координаты, XPATH, CSS-селектор). Эти данные используются при генерации эмбеддинга пары, следовательно, влияют на релевантность.

Как поведенческие факторы влияют на этот алгоритм?

Поведенческие факторы критически важны для обучения модели. Патент указывает, что совместное обучение (joint training) использует положительные примеры, которые определяются как пара «запрос + результат, с которым взаимодействовал пользователь» (клик). Система учится сближать векторы таких пар в семантическом пространстве.

Что означает «совместное обучение» (Joint Training) двух нейронных сетей?

Это означает, что обе сети (для запросов и для пар) обучаются одновременно с общей целью — минимизировать функцию потерь. Эта функция потерь настроена так, чтобы приближать эмбеддинги для релевантных пар (запрос-результат) и отдалять для нерелевантных. Это позволяет создать общее, согласованное Embedding Space.

Может ли эта система находить изображения по запросам на другом языке?

Патент предполагает такую возможность. Поскольку изображения часто не зависят от языка, они могут служить связующим звеном. Если одно и то же изображение присутствует на страницах на разных языках, система может научиться связывать эти страницы и соответствующие запросы в Embedding Space через визуальное сходство, улучшая кросс-лингвальный поиск.