
Google персонализирует Поиск Изображений, анализируя исторические данные о кликах. Система сравнивает, на что кликает общая популяция пользователей, с тем, что предпочитают пользователи с тем же языком и местоположением. Если предпочтения значительно различаются, Google переранжирует изображения в соответствии с локальным консенсусом, обеспечивая культурно и контекстуально релевантные результаты.
Патент решает проблему неоднозначности запросов в поиске по изображениям и субъективности визуальной релевантности. Одно и то же изображение может восприниматься по-разному в зависимости от культурного, языкового и географического контекста пользователя. Изобретение направлено на улучшение релевантности результатов поиска изображений путем адаптации выдачи к предпочтениям конкретных групп пользователей (сегментированных по языку и местоположению), предотвращая ситуации, когда глобально популярные изображения оказываются нерелевантными на локальном уровне.
Запатентована система и метод для условного переранжирования результатов поиска изображений на основе сегментированного поведения пользователей. Система определяет, следует ли использовать глобальные данные о кликах (statistics of accesses) или данные о кликах, специфичные для атрибутов пользователя (язык и местоположение). Решение принимается путем сравнения сходства (set similarity) между предпочтениями глобальной аудитории и предпочтениями конкретного сегмента пользователей.
Механизм работает следующим образом:
Top K lists) для данного запроса: First Set: Основан на кликах всех пользователей (глобальные данные).Second Set: Основан на кликах пользователей с теми же атрибутами, что и у текущего пользователя (специфичные данные).Set Similarity Score) между двумя наборами, обычно путем измерения степени их пересечения.First Set).Second Set), так как предпочтения сегмента значительно отличаются от глобальных.Высокая. Локализация, понимание культурного контекста и намерений пользователя остаются критически важными задачами для Google, особенно в поиске изображений, где визуальная интерпретация сильно варьируется в разных регионах и культурах. Этот механизм предоставляет конкретный способ использования поведенческих данных для улучшения локальной релевантности.
Патент имеет значительное влияние (7.5/10) на стратегии международного SEO и продвижения в Поиске Изображений. Он демонстрирует, что глобальная популярность или стандартная оптимизация изображения недостаточны для успеха на всех рынках. Изображения должны резонировать с конкретной целевой демографической группой (местоположение/язык), так как именно их поведение определяет финальное ранжирование в случае расхождения предпочтений.
language attribute) и местоположению (locale attribute), часто объединяемым в пару (например, Indian-English).Top K List.Top K List.First Set и Second Set. В патенте описан метод расчета на основе количества общих изображений (пересечения), а не порядка.click data) или CTR для конкретных изображений по конкретным запросам.Set Similarity Score. Если оценка сходства ниже порога, активируется специфичное ранжирование; если выше – используется глобальное.Claim 1 (Независимый пункт): Описывает основной процесс адаптации поиска изображений.
First plurality of images (Первое множество изображений) на основе first click data (клики пользователей с различными атрибутами – общая популяция).Second plurality of images (Второе множество изображений) на основе second click data (клики пользователей, имеющих те же атрибуты языка и местоположения, что и текущий пользователь).similarity) между Первым и Вторым множествами. Уточняется, что вычисление включает сравнение количества общих изображений между множествами.Claim 2 (Зависимый): Детализирует логику ранжирования при низком сходстве.
Если сходство между Первым и Вторым множествами меньше заданного порогового значения (specified threshold value), ранжирование основывается, по крайней мере, на second click data (специфичных для атрибутов пользователя).
Claim 3 (Зависимый): Детализирует логику ранжирования при высоком сходстве.
Если сходство больше или равно заданному пороговому значению, ранжирование основывается, по крайней мере, на first click data (глобальных данных).
Claims 4 и 5 (Зависимые): Уточняют природу Первого и Второго множеств.
Они определяются как Top K images (Топ-K изображений), идентифицированные как наиболее часто выбираемые (most frequently selected) соответствующими группами пользователей (общей популяцией и специфичным сегментом).
Изобретение применяется в системе поиска изображений (Image Search) и затрагивает финальные этапы обработки запроса.
INDEXING – Индексирование и извлечение признаков
На этом этапе изображения индексируются. Также происходит офлайн-обработка логов поведения пользователей для агрегации statistics of accesses, сегментированной по атрибутам пользователей (язык/местоположение). Эти данные сохраняются для использования в реальном времени.
RANKING – Ранжирование
На этом этапе генерируется начальный набор изображений, удовлетворяющих запросу, с использованием стандартных сигналов релевантности (например, упоминается information retrieval score, такой как TF-IDF).
RERANKING – Переранжирование
Основное применение патента происходит на этом этапе. Система использует атрибуты текущего пользователя и предварительно рассчитанные данные о кликах для корректировки финального порядка выдачи.
First Set (глобальный Топ-K) и Second Set (специфичный Топ-K) для данного запроса и атрибутов.Set Similarity Score и сравнивается с порогом для выбора источника данных для ранжирования (глобального или специфичного).Входные данные:
Statistics of Accesses), сегментированные по атрибутам.Выходные данные:
Second Set) активируется только тогда, когда Set Similarity Score между глобальными и специфичными предпочтениями ниже установленного порога.Second Set, система, вероятно, будет полагаться на глобальные данные (First Set) или стандартные сигналы ранжирования. Патент упоминает возможность отбрасывания изображений с недостаточным количеством кликов.Процесс обработки запроса на изображения в реальном времени:
First Set) на основе статистики доступов всех пользователей (глобальной популяции), которые ранее вводили этот запрос.Second Set) на основе статистики доступов пользователей, имеющих те же атрибуты, что и текущий пользователь.Set Similarity Score) между Первым и Вторым наборами. Например, используется формула, основанная на пересечении изображений в обоих наборах.Патент фокусируется на использовании атрибутов пользователя и поведенческих данных для переранжирования.
Statistics of accesses (статистика доступов или click data). Эти данные агрегируются по запросам и сегментируются по атрибутам пользователей.Locale attribute (атрибут местоположения). Может определяться по IP-адресу, домену поисковой системы (например, google.it), профилю пользователя или cookies.Language attribute (языковой атрибут). Может определяться по языку интерфейса, выбору языка пользователем, языку запроса или настройкам браузера.count of times the image was selected).Top K Lists. Патент предлагает конкретную формулу для расчета:
Statistics of accesses (данные о кликах) используются как основной индикатор для определения предпочтений пользователей и, следовательно, релевантности в конкретном контексте.Top K lists) для различных сегментов пользователей, определенных по языку и местоположению.Second Set) используется только тогда, когда он значительно отличается (Set Similarity Score ниже порога) от глобального консенсуса (First Set).Second Set.Second Set).Патент подтверждает важность локализации за пределами простого перевода текста. Визуальная коммуникация должна быть адаптирована к целевому рынку. Для международного SEO это означает, что поведенческие данные пользователей в целевом регионе напрямую определяют успех в ранжировании изображений. Система может предпочесть изображение с меньшим количеством глобальных сигналов (например, ссылок), если оно демонстрирует высокую вовлеченность среди пользователей конкретного языкового и географического сегмента.
Сценарий: Оптимизация изображений для интернет-магазина одежды
First Set) и специфичные данные (Second Set) показывают предпочтение классических белых платьев. Set Similarity Score высокий. Ранжирование стандартное.First Set) показывают белые платья. Однако специфичные данные (Second Set) показывают, что пользователи в Индии гораздо чаще кликают на изображения традиционных цветных (красных, золотых) сари или лехенга по этому запросу.Set Similarity Score низкий (ниже порога). Система переключает ранжирование для пользователя из Индии на Second Set.Применяется ли этот патент к обычному веб-поиску?
Патент явно описывает методы для Image Search (поиска изображений), включая статичные, движущиеся изображения и изображения в мультимедийном контенте. Хотя принципы локализации применяются и в веб-поиске, описанный механизм сравнения Top K Lists на основе кликов специфичен для контекста поиска изображений.
Как система определяет местоположение и язык пользователя?
Патент упоминает несколько методов. Местоположение может определяться по IP-адресу, домену поисковой системы (например, google.it или google.in), данным профиля пользователя или cookies. Язык может определяться по языку интерфейса, настройкам браузера, явному выбору пользователя или языку самого запроса.
Что такое "First Set" и "Second Set" простыми словами?
First Set – это список изображений, которые популярны по данному запросу среди всех пользователей мира (глобальный консенсус). Second Set – это список изображений, которые популярны по этому же запросу только среди пользователей из вашего региона и говорящих на вашем языке (локальный консенсус).
Что произойдет, если для моего региона или запроса недостаточно данных о кликах?
Если данных недостаточно для формирования надежного Second Set (локального консенсуса), система, скорее всего, будет по умолчанию использовать First Set (глобальный консенсус) или стандартные факторы ранжирования. Патент упоминает, что изображения с количеством кликов ниже определенного порога могут быть отброшены.
Как именно Google рассчитывает сходство между двумя наборами?
Основной метод, описанный в патенте, заключается в измерении степени пересечения (overlap) между двумя Top K Lists. Считается количество общих изображений, деленное на минимальный размер из двух списков. Это означает, что система проверяет, насколько совпадают сами изображения в списках, а не их порядок.
Важен ли порядок изображений в Top K списках для расчета сходства?
Согласно основной формуле, предложенной в патенте (Set Similarity Score), порядок не имеет значения; важен только факт присутствия изображения в обоих списках. Однако патент также упоминает возможность использования альтернативных методов (таких как Kendall's Tau или Spearman's Rho), которые учитывают порядок.
Как я могу оптимизировать свои изображения для конкретной страны?
Исследуйте и используйте визуальные элементы, стиль и тематику, которые культурно и контекстуально привлекательны для пользователей в этой стране. Поскольку их клики определяют Second Set, создание контента, который резонирует с локальной аудиторией, является ключом к высокому ранжированию в локальном поиске изображений.
Это персонализация или локализация?
Технически это форма локализации или сегментации. Система адаптирует результаты на основе общих атрибутов группы пользователей (язык и местоположение), а не на основе индивидуальной истории поиска конкретного пользователя.
Что означает низкий показатель сходства (Low Similarity Score)?
Низкий показатель сходства означает, что пользователи в данном конкретном регионе предпочитают совершенно другие изображения по этому запросу, чем пользователи в среднем по миру. Это служит триггером для Google, чтобы переключиться на локализованное ранжирование.
Почему Google не всегда использует локализованные данные для ранжирования?
Во-первых, для эффективности и экономии ресурсов – если локальные предпочтения совпадают с глобальными, нет необходимости в дополнительной обработке. Во-вторых, для обеспечения стабильности и качества, особенно в случаях, когда локальных данных недостаточно или они зашумлены.

Индексация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

Мультимедиа
SERP
Поведенческие сигналы

Поведенческие сигналы
SERP
Мультимедиа

Поведенческие сигналы
Ссылки
SERP

Local SEO
Поведенческие сигналы
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

SERP
Персонализация
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

SERP
Семантика и интент
Ссылки

Индексация
Техническое SEO
Структура сайта

SERP
Ссылки
Структура сайта

Семантика и интент
Ссылки
SERP

Ссылки
Антиспам
SERP
