
Google использует модель машинного обучения для улучшения ранжирования в поиске по картинкам. Система определяет различные смыслы (senses) неоднозначного запроса (например, "Jaguar" как автомобиль и как животное), проецирует изображения в многомерное пространство признаков и строит гиперплоскости (hyperplanes) для разделения этих смыслов. Итоговый ранг изображения определяется его близостью к любому из релевантных смыслов.
Патент решает проблему ранжирования изображений для неоднозначных запросов, имеющих несколько смыслов (senses). Традиционный поиск по изображениям часто полагается на текст, окружающий картинку, который может быть зашумленным или нерелевантным визуальному контенту. Изобретение предлагает метод, который позволяет эффективно ранжировать изображения, гарантируя, что картинки, релевантные любому из действительных смыслов запроса, получат высокие позиции, одновременно отфильтровывая нерелевантный визуальный шум.
Запатентована система ранжирования изображений, которая явно моделирует множественные смыслы (senses) поискового запроса. Система использует модель машинного обучения (называемую в описании IMAX), которая совместно оптимизирует ранжирование по всем обнаруженным смыслам. Изображения проецируются в пространство признаков, где определяются гиперплоскости (hyperplanes) для отделения релевантных изображений (принадлежащих к определенному смыслу) от нерелевантных.
Механизм работает следующим образом:
D-dimensional space).hyperplanes). Эти гиперплоскости разделяют пространство так, чтобы сгруппировать изображения, относящиеся к одному смыслу.Средняя/Высокая. Проблема неоднозначности запросов (query ambiguity) остается одной из центральных задач в поиске, особенно в визуальном поиске. Хотя конкретные методы машинного обучения, упомянутые в патенте (например, Kernel PCA, textons), могли эволюционировать в сторону глубоких нейронных сетей, базовая концепция моделирования множественных интентов и разделения пространства признаков остается высоко актуальной.
Патент имеет значительное влияние на SEO для изображений (Image SEO). Он демонстрирует, что Google активно стремится понять визуальный контекст и кластеризовать изображения по смыслу, а не просто по окружающему тексту. Для SEO-специалистов это подчеркивает критическую важность того, чтобы визуальное содержание изображения четко соответствовало одному из основных смыслов целевого запроса. Визуальные признаки (visual features) имеют приоритет над потенциально зашумленным текстом при определении релевантности смыслу.
click-through based training data или human-annotated training data. Состоят из положительных (релевантных, X+) и отрицательных (нерелевантных, X−) примеров изображений для запроса.Claim 1 (Независимый пункт): Описывает основной метод ранжирования изображений.
senses) запроса.space), представляя каждое изображение точкой.hyperplanes) в этом пространстве на основе этих точек. Уточняется, что первая гиперплоскость связана с первым смыслом, а вторая — со вторым смыслом.scores) для изображений на основе точек и гиперплоскостей.Claim 6 (Зависимый от 1): Детализирует процесс проецирования (mapping) и пространственного разделения.
Это описывает цель обучения модели: добиться четкого пространственного разделения между разными смыслами и шумом.
Claim 8 (Зависимый от 1): Детализирует механизм расчета оценок (scoring).
first score) на основе расстояния между конкретной точкой (изображением) и первой гиперплоскостью.second score) на основе расстояния между этой же точкой и второй гиперплоскостью.particular score) для изображения на основе первой и второй оценок.Claim 9 (Зависимый от 8): Определяет метод агрегации оценок.
Итоговая оценка равна первой оценке, если первая оценка больше второй. Итоговая оценка равна второй оценке, если вторая оценка больше первой. Это критически важный момент: используется функция MAX. Изображению достаточно быть высокорелевантным только одному смыслу, чтобы получить высокий итоговый балл.
Claim 10 (Зависимый от 8): Описывает альтернативный метод расчета итоговой оценки с использованием взвешивания.
click-through rate (CTR) для изображений, связанных с соответствующим смыслом.Это позволяет системе приоритизировать более популярные смыслы запроса.
Изобретение применяется в системе поиска по изображениям (Image Search Engine) и затрагивает несколько этапов поиска, а также офлайн-процессы обучения моделей.
INDEXING – Индексирование и извлечение признаков
На этом этапе из изображений извлекаются и сохраняются визуальные признаки (visual features). Описание упоминает гистограммы цвета и текстур (color and texton histograms). Также собираются данные для обучения (клики, метки).
(Офлайн-обработка / Обучение модели)
Это ключевой этап для данного патента. Модель обучается для конкретных запросов с использованием обучающих данных и признаков изображений. Система определяет количество смыслов S(q) и вычисляет параметры гиперплоскостей Wq,s.
RANKING – Ранжирование (в Image Search)
Когда поступает запрос, система использует предварительно обученную модель для этого запроса. Она вычисляет оценки fq(x) для изображений-кандидатов на основе их признаков и изученных гиперплоскостей, после чего ранжирует их.
Входные данные (Online):
Выходные данные (Online):
Процесс разделен на две части: офлайн-обучение и онлайн-ранжирование.
Процесс А: Офлайн-обучение модели (IMAX)
Stochastic Gradient Descent). Цель оптимизации — максимизировать маржу (margin) между положительными и отрицательными примерами, стремясь к тому, чтобы максимальная оценка положительного примера была больше максимальной оценки отрицательного примера плюс маржа (например, maxf(x+)>maxf(x−)+1).Процесс Б: Онлайн-ранжирование
Kernel Principal Component Analysis, Kernel PCA), например, до 100 измерений. Эти признаки формируют входные векторы (x).click-through based training data — данные о том, сколько пользователей кликнули на изображение по данному запросу. Также (Claim 10) click-through rate может использоваться для взвешивания важности разных смыслов.human-annotated training data (изображения, размеченные людьми как релевантные/нерелевантные). Также (Claim 5) упоминается использование терминов (terms used to label) для первоначальной идентификации изображений.ranking loss function / margin-based ranking error) с учетом ограничений на векторы весов (регуляризация, например, ∣∣Wq,s∣∣2≤C).senses) для запроса.IMAX) использует hyperplanes в пространстве признаков для создания границ принятия решений, отделяя релевантные изображения от нерелевантных для каждого конкретного смысла.Этот патент подтверждает стратегический сдвиг в Image Search от анализа текста вокруг изображения к анализу самого изображения. Он подтверждает использование Google сложного машинного обучения для понимания визуального контента и неоднозначности интента. Для SEO это означает, что качество, четкость и визуальная релевантность самого изображения имеют первостепенное значение для ранжирования в поиске по картинкам.
Сценарий: Оптимизация интернет-магазина под запрос "Bass"
Запрос "Bass" имеет как минимум два основных смысла: рыба (Fish) и музыкальный инструмент (Guitar).
hyperplanes).Применяется ли этот патент к веб-поиску или только к поиску по картинкам?
Патент описывает методы, специфичные для ранжирования изображений (Image Search). Он фокусируется на использовании визуальных признаков для разрешения неоднозначности запросов. Хотя общие принципы разрешения неоднозначности применяются и в веб-поиске, описанные здесь технические механизмы (гиперплоскости на основе визуальных гистограмм и текстур) относятся именно к поиску по картинкам.
Какие именно "признаки" (features) Google использует для анализа изображений согласно патенту?
Патент упоминает конкретные типы визуальных признаков: "пространственные и/или многомасштабные гистограммы цвета и текстур (texton histograms)". Это методы компьютерного зрения, которые описывают визуальное содержание изображения математически. Затем эти высокоразмерные данные обрабатываются с помощью Kernel PCA для создания компактного представления (например, 100-мерного вектора), используемого моделью.
Как Google решает, сколько смыслов (senses) имеет запрос?
Количество смыслов S(q) определяется автоматически во время офлайн-обучения модели. Система тестирует разное количество смыслов (например, от 1 до 5) и выбирает то количество, которое обеспечивает наилучшую производительность (наименьшую ошибку) на валидационном наборе данных. Это процесс кросс-валидации.
Если у запроса несколько смыслов, отдает ли Google предпочтение одному из них?
Да, это возможно. Claim 10 описывает механизм взвешивания оценок разных смыслов. Веса могут базироваться на click-through rate (CTR) для каждого смысла. Если пользователи значительно чаще кликают на изображения, относящиеся к смыслу А, чем к смыслу Б, система может присвоить смыслу А больший вес, тем самым отдавая ему предпочтение в ранжировании.
Что означает "Гиперплоскость" (Hyperplane) в этом контексте?
В машинном обучении Hyperplane — это граница принятия решений в многомерном пространстве признаков. Если представить все изображения как точки в этом пространстве, гиперплоскость делит это пространство на две части. В данном патенте для каждого смысла создается своя гиперплоскость, которая отделяет изображения, релевантные этому смыслу, от всех остальных. Оценка изображения определяется его расстоянием до этой гиперплоскости.
Насколько важен текст, окружающий изображение, согласно этому патенту?
Текст играет вспомогательную роль. Он важен на начальных этапах: для первоначальной идентификации изображений-кандидатов (Claim 5) и для сбора обучающих данных (например, через аннотации или анализ кликов по запросам). Однако сам механизм ранжирования, описанный в патенте, основан на анализе визуальных признаков изображения, а не окружающего текста.
Как система обрабатывает изображение, которое релевантно двум разным смыслам одновременно?
Система использует функцию MAX для определения итоговой оценки (Claim 9). Если изображение релевантно обоим смыслам, оно получит высокие оценки от обеих соответствующих гиперплоскостей. Итоговая оценка будет равна наибольшей из этих двух оценок. Таким образом, такие изображения будут ранжироваться очень высоко.
Что такое алгоритм "IMAX", упомянутый в описании?
IMAX — это внутреннее название, данное авторами патента предложенной модели ранжирования. Это модель машинного обучения, которая оптимизирует ранжирование, явно учитывая множественные смыслы запроса и используя функцию MAX для агрегации оценок по разным смыслам.
Обучается ли эта система в режиме реального времени?
Нет. Обучение модели, включая определение количества смыслов и расчет гиперплоскостей, происходит офлайн с использованием исторических данных (логи кликов, аннотации). В режиме реального времени, когда пользователь вводит запрос, система применяет уже обученную модель для быстрого расчета оценок и ранжирования изображений.
Каков основной вывод для оптимизации изображений товаров в e-commerce?
Ключевой вывод — абсолютная необходимость визуальной четкости и однозначности изображений товаров. Изображение товара должно быть максимально репрезентативным для своего типа. Это гарантирует, что его визуальные признаки будут расположены близко к гиперплоскости соответствующего смысла запроса, что приведет к высокому Ranking Score.

Семантика и интент
Мультимедиа
SERP

Мультимедиа
SERP

Семантика и интент
Knowledge Graph
Мультимедиа

Мультимедиа
SERP
Поведенческие сигналы

Мультимедиа
Семантика и интент

EEAT и качество
Ссылки

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
SERP
Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Ссылки
SERP

Поведенческие сигналы
Семантика и интент
Структура сайта

Персонализация
Поведенческие сигналы
SERP

Local SEO
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Ссылки

Ссылки
Антиспам
SERP
