Как Google использует клики пользователей (Collaborative Filtering) для определения схожести запросов и изображений

Google использует поведенческие данные для определения семантической связи между запросами и изображениями. Если пользователи часто кликают на одни и те же изображения в ответ на два разных запроса (даже на разных языках), эти запросы считаются схожими. Аналогично, если два изображения часто получают клики по одним и тем же запросам, они считаются схожими, независимо от их визуального содержания.

Описание

Какую задачу решает

Патент решает проблему определения семантической схожести между поисковыми запросами и/или изображениями, когда традиционные методы (анализ текста запроса или пикселей изображения) неэффективны. Это особенно актуально для сравнения запросов на разных языках или разных типов (текст против изображения). Изобретение использует агрегированное поведение пользователей (клики на результаты поиска изображений) как универсальный сигнал для определения интента и схожести, применяя методы коллаборативной фильтрации (Collaborative Filtering).

Что запатентовано

Запатентована система определения схожести на основе Selection Vectors (Векторов выбора). Для каждого запроса создается вектор, отражающий, какие изображения были выбраны (кликнуты) пользователями по этому запросу. Аналогично, для каждого изображения создается вектор, отражающий, по каким запросам оно было выбрано. Схожесть между двумя объектами (запросами или изображениями) вычисляется путем сравнения их соответствующих Selection Vectors.

Как это работает

Система анализирует исторические данные (логи запросов и кликов):

Сбор данных: Агрегируются данные: какой запрос был введен и на какое изображение кликнул пользователь.
Генерация векторов: Создается матрица, где строки – запросы, столбцы – изображения. На пересечении – количество кликов. Каждая строка/столбец является Selection Vector.
Расчет схожести: Система сравнивает векторы двух объектов (например, двух запросов), используя метрики, такие как Cosine Similarity (Косинусное сходство) или KL Divergence (Дивергенция Кульбака-Лейблера).
Оптимизация: Для эффективной обработки огромной и разреженной матрицы используются методы оптимизации, такие как Inverted Image Lists.
Применение: Полученные меры схожести используются для предложения похожих запросов (Query Suggestion) или показа похожих изображений (Similar Images).

Актуальность для SEO

Высокая. Использование поведенческих данных и коллаборативной фильтрации для понимания связей между сущностями является фундаментальной частью современных поисковых и рекомендательных систем. Этот метод позволяет Google связывать концепции независимо от языка и типа контента, что остается крайне актуальным для мультимодального поиска.

Важность для SEO

Влияние на SEO, особенно в Image Search, значительно (8/10). Патент демонстрирует, что ассоциация изображения с запросом и схожесть изображений между собой напрямую зависят от того, насколько часто пользователи кликают на это изображение. Это подчеркивает критическую важность оптимизации изображений для высокого CTR. Поведенческие сигналы являются ключевыми для ранжирования и группировки в поиске по картинкам.

Детальный разбор

Термины и определения

Selection Vector (Вектор выбора): Векторное представление запроса или изображения, основанное на поведении пользователей.
Для запроса: Вектор, где каждый элемент соответствует уникальному изображению, а значение пропорционально числу кликов на это изображение по данному запросу.
Для изображения: Вектор, где каждый элемент соответствует уникальному запросу, а значение пропорционально числу кликов на это изображение, полученных по этому запросу.
Similarity Measure (Мера схожести): Числовое значение, определяющее степень похожести двух запросов или двух изображений, рассчитанное на основе их Selection Vectors.
Cosine Similarity (Косинусное сходство): Метрика схожести, рассчитываемая как косинус угла между двумя Selection Vectors. Используется для сравнения профилей кликов. Формула: sim(Qi, Qj) = (Zi · Zj) / (||Zi|| · ||Zj||).
KL Divergence (Дивергенция Кульбака-Лейблера): Мера того, насколько одно распределение вероятностей отличается от другого. Используется, когда элементы Selection Vector представляют собой вероятности клика. Требует усреднения для симметрии.
Inverted Image List (Инвертированный список изображений): Техника оптимизации для работы с разреженными матрицами (sparse matrix). Для каждого изображения хранится список запросов (в виде кортежей), по которым это изображение получало клики. Используется для эффективного вычисления схожести.
Image Contribution Value (Значение вклада изображения): Промежуточное значение при расчете схожести. Для изображения, которое было кликнуто по обоим сравниваемым запросам (Q1 и Q2), это произведение количества кликов от Q1 на количество кликов от Q2.
Historical Data (Исторические данные): Логи запросов и данные о кликах (выборах) пользователей по результатам поиска.

Ключевые утверждения (Анализ Claims)

Примечание: Патент US9507804B2 является дивизионным (divisional application), и его Claims (1-12) сосредоточены конкретно на определении схожести изображений, хотя в описании (Description) патента также детально разбирается схожесть запросов.

Claim 1 (Независимый пункт): Описывает метод определения схожести изображений на основе поведения пользователей.

Система генерирует Selection Vector для каждого изображения.
Каждый элемент вектора соответствует уникальному поисковому запросу.
Значение элемента пропорционально количеству пользовательских выборов (кликов) этого изображения, когда оно было показано в результатах по этому запросу.
Выбираются два изображения (первое и второе).
На основе их Selection Vectors определяется Similarity Measure.
Если мера схожести превышает заданный порог (specified threshold), система предоставляет данные, представляющие оба изображения клиенту в ответ на запрос.

Claim 4 (Зависимый от 1): Уточняет, что Similarity Measure может быть рассчитана как Cosine Similarity между векторами выбора первого и второго изображений.

Claim 2 (Зависимый от 1): Уточняет, что значения элементов вектора могут быть вероятностями выбора, а Similarity Measure рассчитывается как дивергенция (divergence) между распределениями вероятностей двух векторов.

Claim 3 (Зависимый от 2): Детализирует расчет дивергенции для достижения симметрии. Система рассчитывает первую дивергенцию (вектора А от вектора Б) и вторую дивергенцию (вектора Б от вектора А), а затем усредняет их для получения итоговой Similarity Measure.

Где и как применяется

Изобретение использует данные, собранные на разных этапах, и влияет на понимание запросов и финальное представление результатов.

INDEXING (Индексирование, Извлечение признаков и Анализ данных)
На этом этапе происходит сбор и обработка Historical Data (логов запросов и кликов). Система анализирует эти данные офлайн для построения матрицы взаимосвязей и генерации Selection Vectors для всех запросов и изображений. Также рассчитываются нормализационные значения (например, Евклидова норма вектора).

QUNDERSTANDING (Понимание Запросов)
Данные о схожести запросов (описанные в Description) используются для глубокого понимания интента. Система может идентифицировать, что два разных по написанию запроса (включая разные языки или модальности) семантически схожи, если они ведут к выбору одних и тех же изображений. Это используется для Query Suggestion (предложения похожих запросов).

RANKING / RERANKING (Ранжирование и Переранжирование)
Механизм может использоваться для Search Augmentation (Расширение поиска). Если ранжирование по исходному запросу дает результаты низкого качества, система может автоматически выполнить поиск по схожим запросам.

METASEARCH (Метапоиск и Смешивание)
При формировании выдачи по картинкам (Image Search SERP) система использует данные о схожести изображений (Claim 1) для реализации функции «Похожие изображения» (Search Result Augmentation или «more like this»).

Входные данные:

Логи поисковых запросов и кликов (Historical Data).
Уникальные идентификаторы изображений и запросов.

Выходные данные:

Selection Vectors для запросов и изображений.
Матрица мер схожести (Similarity Measures) между парами запросов и парами изображений.

На что влияет

Типы контента: В первую очередь влияет на изображения и поиск по картинкам (Image Search).
Специфические запросы: Влияет на все типы запросов, по которым показываются и кликаются изображения. Особенно полезно для неоднозначных, мультиязычных и мультимодальных запросов (текст и картинка как запрос).
Языковые ограничения: Ключевое преимущество — независимость от языка. Система может связать запросы на разных языках через общие клики на изображения.

Когда применяется

Временные рамки: Построение векторов и расчет схожести происходит офлайн в процессе анализа логов. Использование этих данных происходит в реальном времени при обработке запроса.
Условия применения: Применяется, когда для запросов или изображений накоплено достаточно поведенческих данных (кликов) для формирования надежных Selection Vectors.
Пороговые значения: Для классификации пары как «похожей» требуется, чтобы рассчитанная Similarity Measure превысила установленный порог (minimum similarity threshold).

Пошаговый алгоритм

Процесс А: Определение схожести Изображений (по Claims)

Сбор данных: Агрегация Historical Data (запросы и клики).
Генерация Selection Vectors (для изображений): Для каждого уникального изображения создается вектор. Элементы соответствуют уникальным запросам, значения — количеству кликов на изображение по этому запросу (или вероятности).
Выбор пары изображений: Выбор Image A и Image B.
Расчет Similarity Measure: Вычисление схожести между векторами.
Метод 1 (Cosine Similarity): Расчет косинусного сходства.
Метод 2 (KL Divergence): Расчет и усреднение дивергенции распределений вероятностей.
Сравнение с порогом: Определение, превышает ли Similarity Measure минимальный порог.
Применение: Если порог превышен, предоставление Image B как похожего на Image A (и наоборот).

Процесс Б: Эффективный расчет схожести Запросов (Оптимизация для Sparse Matrix, из Description)

Этот процесс используется для эффективного расчета Cosine Similarity в условиях огромной разреженной матрицы.

Генерация Inverted Image Lists: Для каждого изображения создается список кортежей (tuples). Каждый кортеж содержит {ID Запроса, Количество кликов} и, опционально, нормализованное значение.
Выбор первого запроса (Q1).
Отбор списков: Выбираются все Inverted Image Lists, которые содержат кортеж, идентифицирующий Q1 (т.е. изображения, кликнутые по Q1).
Поиск второго запроса (Q2): В отобранных списках ищутся кортежи, идентифицирующие Q2.
Расчет вклада изображения: Для каждого списка, где найдены кортежи и для Q1, и для Q2, перемножаются значения их векторов (клики). Это дает Image Contribution Value.
Суммирование: Суммируются все Image Contribution Values. (Это скалярное произведение векторов – числитель формулы).
Нормализация: Сумма делится на произведение норм векторов Q1 и Q2 (знаменатель формулы) для получения Cosine Similarity.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на поведенческих данных и данных из логов. Он намеренно игнорирует контентные, ссылочные или технические факторы для расчета схожести.

Поведенческие факторы: Ключевые данные. Количество выборов (number of user selections) или кликов на изображение, когда оно было представлено в качестве результата поиска по конкретному запросу.
Системные данные: Логи поисковых запросов (Historical Data), идентификаторы уникальных изображений и запросов.

Какие метрики используются и как они считаются

Selection Vector Values: Значения элементов вектора. Могут быть:
1. Сырое количество кликов.
2. Вероятность (probability) клика (P(Image|Query) или P(Query|Image)).
Cosine Similarity: Основная метрика схожести для векторов с сырыми значениями кликов. Рассчитывается по стандартной формуле.
KL Divergence: Альтернативная метрика схожести для векторов с вероятностями. Рассчитывается дивергенция Q от P и P от Q.
Symmetric Divergence: Усредненное значение двух KL-дивергенций для обеспечения симметричной меры схожести.
Euclidean Norm (Евклидова норма): Используется для нормализации при расчете Cosine Similarity.
Minimum Similarity Threshold: Пороговое значение, при превышении которого два объекта считаются схожими.

Выводы

Поведенческие данные как основа схожести (Collaborative Filtering): Ключевой вывод — схожесть определяется исключительно поведением пользователей (кликами), а не анализом контента (текста запроса или пикселей изображения). Если пользователи реагируют одинаково на два разных объекта, эти объекты считаются схожими.
Независимость от языка и модальности: Этот подход позволяет находить схожесть между запросами на разных языках или между запросами разных типов (текстовый запрос и изображение как запрос), так как они связаны через общие клики на изображения.
Инверсия механизма: Система работает в двух направлениях. Она определяет похожие запросы (если они приводят к кликам на схожие изображения) и похожие изображения (если на них кликают по схожим запросам).
Критическая важность CTR в Image Search: Для SEO это означает, что частота кликов (CTR) на изображение напрямую влияет на его ассоциацию с запросами и его связь с другими изображениями. Поведенческие сигналы критически важны для успеха в поиске по картинкам.
Эффективность обработки данных: Google использует оптимизированные методы (Inverted Image Lists) для обработки огромных объемов разреженных данных (sparse matrix) о кликах, что делает подход масштабируемым.

Практика

Best practices (это мы делаем)

Оптимизация изображений для высокого CTR: Ключевая стратегия для Image Search. Необходимо делать изображения максимально привлекательными, качественными и релевантными для целевых запросов, чтобы стимулировать клики. Это напрямую укрепляет связь «запрос-изображение» в Selection Vector.
Обеспечение строгой релевантности изображения интенту: Изображение должно точно соответствовать ожиданиям пользователя. Клики по релевантным запросам формируют точный и качественный Selection Vector, связывая изображение с правильным семантическим кластером.
Создание уникального визуального контента: Отдавать предпочтение собственным фотографиям и графикам вместо стоковых изображений. Уникальный контент имеет больше шансов сформировать четкий поведенческий профиль (Selection Vector), в то время как у стоковых фото он может быть размыт.
Мониторинг похожих изображений: Анализируйте блок «Похожие изображения» у ваших картинок и у конкурентов. Это даст понимание того, как Google группирует изображения на основе поведенческих данных, и поможет выявить запросы, по которым эти изображения получают клики.

Worst practices (это делать не надо)

Кликбейт и нерелевантные изображения: Использование изображений, которые привлекают клики, но не соответствуют интенту запроса. Это «загрязняет» Selection Vector, связывая изображение с иррелевантными запросами, что ухудшает качество поведенческого профиля.
Фокус только на метаданных (Alt-текст): Недостаточно иметь оптимизированный Alt-текст, если пользователи игнорируют изображение в выдаче. Без кликов изображение не сформирует сильных ассоциаций с запросами в рамках этого механизма.
Накрутка поведенческих факторов: Искусственное генерирование кликов по изображениям для манипуляции Selection Vectors является нарушением правил и рискованно.

Стратегическое значение

Патент подтверждает стратегию Google по использованию агрегированных данных о поведении пользователей как источника истины о связях между концепциями, минуя сложности семантического и визуального анализа. Для долгосрочного SEO в Image Search критически важно создавать изображения, которые не просто релевантны по метаданным, но и действительно выбираются пользователями как лучший ответ. Успех зависит от того, насколько эффективно изображение удовлетворяет информационную потребность, что подтверждается кликом.

Практические примеры

Сценарий 1: Определение схожести запросов (Query Similarity)

Запрос А: «Eiffel Tower» (английский).
Запрос Б: «Tour Eiffel» (французский).
Поведение пользователей: Пользователи часто кликают на одни и те же популярные фотографии Эйфелевой башни в ответ на оба запроса.
Механизм: Selection Vectors для Запроса А и Запроса Б будут иметь значительное пересечение по изображениям. Cosine Similarity будет высокой.
Результат: Google считает запросы схожими, несмотря на разный язык.

Сценарий 2: Определение схожести изображений (Image Similarity)

Изображение А: Фотография готового блюда «Паста Карбонара».
Изображение Б: Инфографика с ингредиентами и шагами приготовления «Пасты Карбонара».
Поведение пользователей: Оба изображения часто кликают пользователи, которые ищут по запросам: «рецепт карбонары», «как приготовить карбонару».
Механизм: Selection Vectors (где элементы это запросы) для Изображения А и Изображения Б будут схожи.
Результат: Несмотря на то, что визуально фото и инфографика сильно отличаются, Google классифицирует их как похожие изображения, так как они удовлетворяют схожий набор информационных потребностей.

Вопросы и ответы

Что такое Selection Vector (Вектор выбора) простыми словами?

Это «поведенческий профиль» изображения или запроса, основанный на кликах. Для изображения это список всех запросов, которые приводили к клику на него, с указанием частоты. Для запроса это список всех изображений, на которые кликали пользователи после ввода этого запроса. Это позволяет математически сравнивать их между собой.

Значит ли это, что визуальное сходство изображений не имеет значения для Google?

Патент описывает механизм, который не использует визуальное сходство (анализ пикселей). Он полагается исключительно на клики. Если пользователи считают, что два визуально разных изображения отвечают на одни и те же запросы (например, фото продукта и схема его устройства), система сочтет их похожими. На практике Google использует комбинацию визуальных и поведенческих сигналов, но этот патент подчеркивает важность последних.

Как этот патент влияет на оптимизацию Alt-текстов и имен файлов?

Патент не умаляет важности базовой оптимизации (Alt, имена файлов), так как они помогают изображению появиться в выдаче изначально (этап Retrieval). Однако, чтобы изображение закрепилось в топе и начало ассоциироваться с запросом через этот механизм, нужны клики. Хорошие метаданные помогают получить показ, а привлекательность изображения помогает получить клик.

Как система определяет схожесть запросов на разных языках?

Это ключевое преимущество механизма. Поскольку система анализирует клики на изображения, а не текст запросов, она может находить сходства между запросами на разных языках. Если пользователи, вводящие запросы на разных языках, часто кликают на одно и то же изображение, система определит эти запросы как похожие, используя изображение как связующее звено.

В чем разница между Cosine Similarity и KL Divergence в этом патенте?

Cosine Similarity обычно используется, когда Selection Vector содержит абсолютное количество кликов, и измеряет направление векторов. KL Divergence используется, когда вектор содержит вероятности кликов (распределение), и измеряет разницу между этими распределениями. KL Divergence асимметрична, поэтому патент предлагает ее усреднять.

Как практически использовать знания из этого патента для улучшения позиций в Image Search?

Главный вывод — нужно максимизировать CTR ваших изображений в выдаче. Тестируйте разные варианты изображений. Убедитесь, что изображение выделяется на фоне конкурентов, четко передает суть и мотивирует пользователя кликнуть на него. Чем больше релевантных кликов собирает изображение, тем сильнее его Selection Vector.

Как система обрабатывает новые изображения, у которых еще нет кликов?

Для новых изображений Selection Vector будет пустым. Эта система коллаборативной фильтрации неэффективна для «холодного старта». Для ранжирования и определения схожести новых изображений Google должен полагаться на другие сигналы, такие как анализ пикселей, атрибут ALT или окружающий текст.

Что такое Inverted Image List и почему это важно?

Это техническая оптимизация для работы с огромным объемом данных. Представьте матрицу из миллиардов запросов и миллиардов изображений — она почти пустая (разреженная). Inverted Image List позволяет системе быстро находить пересечения кликов между двумя запросами, не перебирая все нулевые значения, что делает расчет схожести возможным в реальных условиях.

Может ли этот механизм связать текстовый запрос и запрос в виде изображения (Query by Image)?

Да. Патент упоминает, что запросы могут быть разных типов. Если текстовый запрос и загруженное пользователем изображение как запрос приводят к кликам на один и тот же набор результатов, система определит эти два запроса как схожие, несмотря на разную модальность ввода.

Учитывает ли система показатель отказов (bounce rate) после клика на изображение?

Данный патент фокусируется исключительно на факте выбора (selection) изображения в результатах поиска как на входных данных. Он не упоминает анализ поведения пользователя после клика (например, удовлетворенность или быстрый возврат в выдачу).