
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
Патент решает ограничения традиционных систем поиска изображений (Term-based retrieval systems), которые полагаются на совпадение ключевых слов и часто используют фиксированные схемы взвешивания для объединения сигналов от изображения и его посадочной страницы. Эти методы неэффективны для длинных, редких или семантически сложных запросов и не могут полноценно уловить смысловую связь между визуальным контентом и его контекстом на странице.
Запатентована система поиска изображений на основе эмбеддингов (Embedding-based retrieval), использующая архитектуру нейронной сети, известную как модель "Две Башни" (Two-Tower Model). Одна "башня" (Image Search Query Embedding Neural Network) обрабатывает запрос, а вторая (Pair Embedding Neural Network) обрабатывает пару "изображение + посадочная страница". Обе генерируют числовые векторы (эмбеддинги) в общем пространстве, позволяя измерять семантическую релевантность через векторную близость.
Система функционирует в два этапа:
Pair Embedding Neural Network для совместной обработки признаков изображения и его посадочной страницы (включая контекст размещения). Результатом является Pair Numeric Embedding — векторное представление этой пары. Эти эмбеддинги сохраняются в индексной базе.Image Search Query Embedding Neural Network генерирует Query Numeric Embedding. Система выполняет поиск ближайших соседей (Nearest Neighbor Search) в индексной базе, находя Pair Numeric Embeddings, наиболее близкие к Query Numeric Embedding в векторном пространстве.Ключевой аспект — обе нейронные сети обучаются совместно (trained jointly) на данных о взаимодействии пользователей, чтобы максимизировать близость (например, скалярное произведение — Dot Product) векторов для релевантных пар.
Высокая. Векторный поиск (Vector Search) и нейросетевой поиск информации (Neural Information Retrieval) являются передовыми направлениями в современных поисковых системах. Использование моделей Two-Tower для задач поиска (Retrieval) — это стандартная практика в индустрии для обеспечения баланса между качеством семантического понимания и скоростью работы системы.
Патент имеет высокое значение (8/10) для стратегий продвижения в Google Images. Он формализует переход от поиска по ключевым словам к семантическому поиску изображений. Для ранжирования критически важным становится не просто наличие ключевых слов в alt-тексте или заголовке, а общая семантическая согласованность между содержимым изображения, его непосредственным контекстом (окружающий текст, расположение на странице) и общей тематикой посадочной страницы. Оптимизация должна фокусироваться на качестве и релевантности всей пары "изображение + страница".
Query Numeric Embedding и Pair Numeric Embedding. Более высокое значение указывает на большую релевантность.Query Numeric Embedding.sampled softmax loss, contrastive loss), используемая при обучении модели. Цель обучения — минимизировать её значение, тем самым улучшая качество эмбеддингов.Pair Numeric Embedding.Embedding Space.Embedding Space.Claim 1 (Независимый пункт): Описывает основной метод поиска изображений.
Pair Numeric Embeddings) для множества пар "изображение + страница". Ключевой момент: эти эмбеддинги получаются путем доступа к индексной базе (accessing an index database), где они уже были предварительно сгенерированы с помощью Pair Embedding Neural Network.Image Search Query Embedding Neural Network для генерации Query Numeric Embedding в том же пространстве.Критическое уточнение в Claim 1: Определяет метод обучения. Pair Embedding Neural Network и Image Search Query Embedding Neural Network обучаются совместно (trained jointly) для минимизации функции потерь (loss function), которая зависит от скалярного произведения (dot product) между эмбеддингами тренировочного запроса и тренировочной пары.
Claim 3 и 4 (Зависимые от 1): Уточняют цель обучения и источник данных.
Обучение настраивает параметры сетей так, чтобы скалярное произведение было выше для положительных примеров, чем для отрицательных. Положительный пример идентифицируется, когда пользователь взаимодействовал (interacted with) с результатом поиска (т.е. клики).
Claim 5 и 6 (Зависимые от 1): Описывают совместное использование параметров.
Две нейронные сети могут разделять (использовать общие) параметры (share at least some parameters). Это особенно актуально для признаков, взятых из одного словаря (например, текстовые признаки в запросе и текстовые признаки на странице).
Claim 9-12 (Зависимые от 1): Определяют основные признаки, используемые для генерации эмбеддинга пары.
Признаки пары являются комбинацией признаков страницы и признаков изображения.
salient terms) на странице, текст URL, домен страницы.pixel data) или эмбеддинг изображения (embedding of the image), текст URL изображения, домен изображения.Claim 13-16 (Зависимые от 1): Определяют дополнительные признаки пары.
Упоминаются критически важные дополнительные признаки:
date the respective landing page was updated) (Claim 14).context of the respective image) (Claim 15).location of the respective image within the respective landing page) (Claim 16).Изобретение затрагивает этапы индексирования и ранжирования (на стадии отбора кандидатов).
INDEXING – Индексирование и извлечение признаков
Основная часть работы происходит на этом этапе офлайн. Система извлекает признаки из изображений и посадочных страниц (текст, URL, дата обновления, контекст размещения изображения). Затем Pair Embedding Neural Network используется для генерации Pair Numeric Embedding для каждой пары. Эти эмбеддинги сохраняются в индексной базе данных, готовые для быстрого поиска.
QUNDERSTANDING – Понимание Запросов
При получении запроса система извлекает его признаки (текст, местоположение и т.д.). Затем Image Search Query Embedding Neural Network в реальном времени генерирует Query Numeric Embedding.
RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Это основное применение патента в реальном времени. Вместо традиционного поиска по инвертированному индексу (по ключевым словам), система выполняет быстрый поиск ближайших соседей (часто Approximate Nearest Neighbor, ANN) в пространстве эмбеддингов. Это позволяет эффективно сократить миллионы потенциальных изображений до небольшого набора семантически релевантных кандидатов.
Входные данные (Онлайн):
Pair Numeric Embeddings.Выходные данные (Онлайн):
First candidate image search results), отобранных на основе векторной близости.Алгоритм применяется при обработке запросов в системе поиска изображений. Он используется на начальном этапе поиска (Retrieval) для быстрого отбора кандидатов. Патент указывает, что эта система (embedding-based retrieval) может использоваться совместно с традиционной системой Term-based retrieval для обеспечения максимального охвата (Recall).
Процесс А: Обучение модели (Офлайн)
Image Search Query Embedding Neural Network и Pair Embedding Neural Network одновременно. Цель — минимизировать функцию потерь (например, sampled softmax loss), чтобы скалярное произведение эмбеддингов для положительных пар было высоким, а для отрицательных — низким (Claim 3).Процесс Б: Индексирование (Офлайн)
Pair Embedding Neural Network обрабатывает признаки и генерирует Pair Numeric Embedding.Процесс В: Обработка запроса и поиск (Онлайн)
Image Search Query Embedding Neural Network обрабатывает признаки запроса и генерирует Query Numeric Embedding.Query Numeric Embedding с сохраненными Pair Numeric Embeddings.Система использует широкий спектр признаков для генерации эмбеддингов.
Признаки запроса (Query Features):
location features).Признаки пары (Pair Features) - Изображение:
pixel data) или предварительно вычисленный эмбеддинг контента изображения.Признаки пары (Pair Features) - Посадочная страница:
title), важные термины на странице (salient terms). Также упоминаются ключевые слова, характеризующие контент, и язык страницы.date the page was first crawled or updated) (Claim 14).Признаки пары (Pair Features) - Контекст изображения на странице:
prominence) изображения на странице, измеряемая через относительный размер отображения.alt-text labels) и текст, окружающий изображение (text surrounding the image).Поведенческие факторы (Для обучения):
Embedding Space. Конкретно упоминается Dot Product (скалярное произведение) между Query Numeric Embedding и Pair Numeric Embedding.softmax with cross-entropy loss, sampled softmax loss и contrastive loss functions.embedding subnetworks) или таблиц поиска (look-up table).Pair Numeric Embedding), объединяя признаки изображения и его контекста на странице (тема страницы, окружающий текст, расположение, заметность). Это подчеркивает важность сильной тематической связи между визуальным и текстовым контентом.Embedding-based retrieval). Система стремится понять смысл запроса и контента с помощью векторных представлений.trained jointly) на основе реальных пользовательских взаимодействий (кликов). Система адаптируется к тому, что пользователи считают полезным.prominence). Это говорит о важности технической оптимизации и UX для интерпретации контекста изображения.prominence) и в релевантном текстовом окружении. Патент учитывает расположение (location) и окружающий текст как признаки для эмбеддинга.Pair Numeric Embedding.location и prominence.Этот патент подтверждает, что Google Images функционирует как полноценная семантическая (векторная) поисковая система. Стратегия SEO должна рассматривать пару "изображение + посадочная страница" как единое целое. Успех зависит от способности создавать контент, где визуальные и текстовые элементы дополняют друг друга, формируя четкий семантический сигнал. Развитие тематического авторитета (Topical Authority) сайта положительно влияет на поиск изображений, так как авторитетная страница обеспечивает более сильный контекстуальный сигнал для размещенных на ней изображений.
Сценарий: Оптимизация карточки товара E-commerce
Задача: Улучшить ранжирование основного изображения товара "Кроссовки Nike Air Max 270 Black" в Google Images.
Pair Numeric Embedding, учитывая: pixel data/визуальный эмбеддинг).prominence, location).salient terms) — "амортизация Air", "черный цвет", "мужская обувь". Дата обновления страницы актуальна (date updated).Pair Embedding Neural Network генерирует более сильный и точный эмбеддинг для этой пары. Когда пользователь ищет "Nike Air Max 270 Black", Query Numeric Embedding будет иметь высокую близость (Dot Product) к эмбеддингу этой пары, улучшая её позиции на этапе Retrieval.Что такое модель "Две Башни" (Two-Tower Model) и почему Google её использует?
Это архитектура нейронной сети, состоящая из двух отдельных сетей (башен). Одна обрабатывает запрос, другая — документ (в данном случае пару изображение+страница). Они работают независимо, но проецируют результаты в общее векторное пространство. Google использует эту модель для обеспечения высокой скорости поиска: эмбеддинги всех изображений можно вычислить заранее офлайн, и только эмбеддинг запроса вычисляется в реальном времени.
Чем этот подход отличается от традиционного поиска изображений?
Традиционный поиск (Term-based retrieval) в основном ищет совпадения ключевых слов из запроса в метаданных изображения (alt-текст) и тексте страницы. Описанный подход (Embedding-based retrieval) основан на семантическом понимании. Он сравнивает смысл запроса со смыслом пары "изображение + контекст", используя векторную близость. Это позволяет находить релевантные результаты, даже если в них нет точного совпадения ключевых слов.
Насколько важен Alt-текст в этой модели?
Alt-текст остается важным признаком, но теперь он является лишь одним из многих элементов контекста, используемых для генерации Pair Numeric Embedding. Система также анализирует окружающий текст, заголовок страницы, важные термины на странице, и даже расположение и размер изображения. Важнее всего общая семантическая согласованность всех этих элементов, а не просто наличие ключей в alt.
Учитывает ли система качество самого изображения?
Да. Патент указывает, что признаки изображения включают пиксельные данные (pixel data) или эмбеддинг контента изображения. Это означает, что визуальные характеристики, качество, уникальность и информативность изображения напрямую влияют на итоговый Pair Numeric Embedding и, следовательно, на его способность ранжироваться.
Как расположение изображения на странице влияет на поиск?
Патент (Claim 15 и 16) явно упоминает использование локации (location) и заметности (prominence) изображения как признаков. Изображения, расположенные на видном месте, в основном контенте и имеющие достаточный размер, вероятно, получат больший вес при формировании эмбеддинга пары, чем изображения в футере или на боковой панели.
Влияет ли свежесть контента на поиск изображений согласно этому патенту?
Да, влияет. В патенте (Claim 14) явно указано, что дата обновления посадочной страницы (date the respective landing page was updated) является одним из признаков, используемых для генерации Pair Numeric Embedding. Это подчеркивает важность поддержания актуальности страниц, на которых размещены изображения.
Как система определяет, какие пары релевантны запросу?
Релевантность определяется путем измерения близости между вектором запроса (Query Numeric Embedding) и вектором пары (Pair Numeric Embedding) в общем векторном пространстве. Конкретно упоминается использование скалярного произведения (Dot Product). Чем ближе векторы, тем релевантнее результат.
На основе чего обучается эта модель?
Модель обучается на основе данных о взаимодействии пользователей (Claim 3 и 4). Если пользователь кликнул на результат поиска по запросу, это считается положительным примером. Система обучается так, чтобы максимизировать близость векторов для положительных примеров и минимизировать для отрицательных.
Может ли эта система помочь в мультиязычном поиске?
Да. В описании патента упоминается, что размещение запросов и пар в общем пространстве эмбеддингов может помочь выявить связи между контентом на разных языках. Поскольку изображения часто являются язык-независимыми, модель может использовать визуальное сходство для связывания страниц с похожим контентом, но на разных языках.
Что важнее для SEO: оптимизация изображения или оптимизация страницы?
Они неразделимы. Система генерирует эмбеддинг для ПАРЫ (Image-Landing Page Pair). Невозможно добиться успеха, оптимизируя только изображение (например, качественная картинка на нерелевантной странице) или только страницу (например, релевантный текст с низкокачественным или несоответствующим изображением). Ключ к успеху — синергия и семантическая согласованность обоих элементов.

Семантика и интент
Индексация

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент

Семантика и интент

Индексация
Поведенческие сигналы

Мультиязычность
Семантика и интент
Ссылки

Local SEO
Поведенческие сигналы

Антиспам
SERP
Поведенческие сигналы

Поведенческие сигналы
Антиспам
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
Семантика и интент
Ссылки

Персонализация
SERP
Семантика и интент
