
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
Патент решает проблему определения схожести между поисковыми запросами, когда анализ их семантического (текст) или визуального (изображение) содержания затруднен или неточен. Это особенно актуально при сравнении запросов на разных языках или разных типов (текст против изображения). Изобретение предлагает использовать поведение пользователей (клики по изображениям) как индикатор схожести интента. Кроме того, патент решает вычислительную проблему эффективной обработки огромных объемов данных (миллиарды запросов и изображений) в условиях разреженной матрицы (sparse matrix).
Запатентована система для определения меры схожести (similarity measure) между поисковыми запросами и изображениями на основе агрегированного поведения пользователей. Суть изобретения в генерации «вектора выбора» (selection vector) для каждого запроса, который отражает профиль кликов по изображениям. Схожесть определяется путем сравнения этих векторов. Ключевой частью изобретения является оптимизация этого процесса с использованием инвертированных списков (Inverted Image Lists) для эффективной обработки разреженных данных.
Система работает на основе исторических данных о запросах и кликах в поиске по изображениям:
selection vector. Значение элемента пропорционально количеству кликов по соответствующему изображению для данного запроса.Cosine Similarity) или Дивергенция Кульбака-Лейблера (KL Divergence).inverted image lists для быстрого нахождения пересечений кликов, игнорируя нулевые значения.Высокая. Концепция использования поведенческих данных (кликов, совместной встречаемости) для определения схожести и понимания намерений пользователей (Коллаборативная фильтрация) остается фундаментальной для современных поисковых систем. Хотя конкретные математические методы могли эволюционировать (например, в сторону нейросетевых эмбеддингов), базовый принцип «поведенческой схожести» критически важен, особенно для мультимедийного и кросс-модального поиска.
Патент имеет значительное влияние на SEO (7.5/10), особенно в контексте Image Search. Он демонстрирует, что связь между запросом и изображением устанавливается и укрепляется через поведение пользователей (клики), а не только через ключевые слова или визуальные признаки. Это подчеркивает важность оптимизации изображений для достижения высокого CTR и обеспечения того, чтобы изображение удовлетворяло интенту пользователя, тем самым обучая Google ассоциировать изображение с релевантным кластером запросов.
Selection Vectors.Similarity Measure. Симметричная метрика, измеряющая косинус угла между двумя Selection Vectors. Высокое значение указывает на значительное пересечение кликов.Selection Vector интерпретируется как распределение вероятностей кликов. Измеряет разницу между двумя такими распределениями.tuples), идентифицирующих запросы, которые привели к клику на это изображение, и количество кликов (ненулевое значение вектора).Selection Vector, например, Евклидова норма (Euclidean norm) вектора. Используется в расчете Cosine Similarity.Патент фокусируется как на методе определения схожести через клики, так и на способе эффективного вычисления этой схожести для разреженных данных.
Claim 1 (Независимый пункт): Описывает метод определения схожести запросов с использованием оптимизации.
Selection Vector для каждого запроса (значение элемента пропорционально кликам на соответствующее изображение).Inverted Image List для каждого изображения. Список содержит кортежи {Запрос, Ненулевое значение элемента}.Similarity Measure между первым и вторым запросами.Система использует структуру Inverted Image List, чтобы избежать сравнения всех элементов в огромных векторах. Обрабатываются только те изображения, которые были кликнуты для обоих запросов.
Claim 2 и 3 (Зависимые от 1): Детализируют расчет Similarity Measure (фактически описывая расчет Cosine Similarity).
Image Contribution Value. Затем эти значения суммируются (это скалярное произведение векторов).Image Contribution Values делится на произведение Normalization Values (например, Евклидовых норм) первого и второго запросов.Claim 14 (Независимый пункт): Описывает инвертированный процесс для определения схожести изображений.
Selection Vector для каждого изображения (элементы соответствуют запросам, которые привели к кликам).Inverted Query Lists для оптимизации.Similarity Measure путем нахождения общих запросов и расчета схожести (аналогично Claims 1-3).Изобретение применяется в компонентах, отвечающих за понимание запросов и улучшение результатов поиска, преимущественно в поиске по изображениям.
INDEXING – Индексирование и извлечение признаков (Обработка данных)
Основная часть вычислений происходит здесь в офлайн-режиме. Система (Query Similarity Subsystem) обрабатывает Historical Data (логи запросов и кликов) для:
Selection Vectors для всех запросов и изображений.Inverted Image Lists и Inverted Query Lists.Similarity Measures.QUNDERSTANDING – Понимание Запросов
Система использует рассчитанные данные о схожести запросов для:
METASEARCH / RERANKING – Метапоиск и Переранжирование (Image Search)
Результаты анализа схожести изображений используются для:
Входные данные:
Выходные данные:
Similarity Measures между парами запросов и парами изображений.Selection Vectors и Similarity Measures происходит в офлайн-режиме или периодически, обрабатывая исторические данные.Minimum Similarity Threshold. Запросы/изображения считаются похожими, только если их мера схожести превышает этот порог.Процесс А: Подготовка данных (Офлайн)
Historical Data о запросах (Q) и кликах по изображениям (I).Normalization Value (например, Евклидовой нормы) для каждого вектора выбора.tuples). Кортеж содержит: Идентификатор запроса, Количество выборов (ненулевой элемент вектора), и (опционально) Значение нормализации для этого запроса.Процесс Б: Эффективное вычисление схожести между Запросом А и Запросом Б (Основан на FIG. 3)
Inverted Image Lists, которые содержат кортеж, идентифицирующий Запрос А.Image Contribution Value.Image Contribution Values.minimum similarity threshold.Процесс В: Расчет схожести изображений (Image Similarity)
Процесс аналогичен Процессам А и Б, но данные инвертируются:
Selection Vector, где элементы соответствуют запросам.Inverted Query Lists.Similarity Measure.Патент фокусируется исключительно на использовании поведенческих данных для определения схожести.
Контентные, технические, ссылочные и другие факторы в данном патенте не используются.
Euclidean norms). Формула: (где Z — это Selection Vector).Inverted Lists. Это критически важно для масштабирования системы и эффективной обработки миллиардов запросов и изображений.Selections) являются основным сигналом для установления связей, необходимо оптимизировать привлекательность и релевантность изображений в выдаче. Используйте высококачественные, релевантные и визуально привлекательные миниатюры (thumbnails).Патент подтверждает стратегическую важность поведенческих факторов в работе поисковых систем. Он демонстрирует, что Google активно использует данные о взаимодействии пользователей для организации информации и понимания связей между сущностями, выходя за рамки текстового или визуального анализа. Для SEO это означает, что фокус должен быть смещен с формальной оптимизации на фактическое удовлетворение интента пользователя, подтверждением которого служат клики.
Сценарий 1: Кластеризация запросов на разных языках (Query Similarity)
Historical Data и видит, что пользователи, вводящие Q1 и Q2, часто кликают на один и тот же набор популярных фотографий Эйфелевой башни.Selection Vectors для Q1 и Q2 очень похожи. Система рассчитывает высокую Cosine Similarity и классифицирует запросы как схожие, несмотря на разный язык. Q2 будет предложен как подсказка для Q1.Сценарий 2: Определение похожих изображений (Image Similarity)
Selection Vector для I1 и видит, что на него часто кликают по запросам "golden retriever puppy", "dog playing fetch". Затем она ищет другие изображения (например, I2), чей Selection Vector также содержит высокие значения для этих же запросов.Применяется ли этот механизм только к поиску по изображениям?
Патент сфокусирован на поиске изображений (Image Search), где Selection Vector состоит из кликов по изображениям. Однако базовая концепция — определение схожести запросов на основе общих кликов по результатам (Коллаборативная фильтрация) — применима и к основному веб-поиску, хотя конкретная реализация там может отличаться.
Как система обрабатывает неоднозначные запросы (например, "Ягуар")?
Этот механизм идеально подходит для обработки неоднозначности. Если для запроса "Ягуар" пользователи в основном кликают на изображения автомобиля, то Selection Vector этого запроса будет похож на вектор запроса "Jaguar car". Если же клики идут на изображения животного, вектор будет похож на вектор запроса "большая кошка". Поведение пользователей определяет доминирующий интент.
Учитывает ли система только факт клика или также пост-клик поведение (например, время на сайте)?
Данный патент (US8280881B1) описывает использование только факта выбора (Selection), то есть клика. Значение векторного элемента пропорционально количеству кликов. Пост-клик поведение (удовлетворенность пользователя, pogo-sticking) в этом конкретном патенте не рассматривается, но оно учитывается другими системами Google.
Что такое Inverted Image List и зачем он нужен?
Это структура данных для оптимизации. В реальности матрица "запросы-изображения" огромна и очень разрежена (sparse matrix). Inverted Image List хранит для каждого изображения только те запросы, которые привели к клику. Это позволяет при сравнении двух запросов быстро найти только те изображения, которые у них общие, игнорируя миллионы не связанных данных, что радикально ускоряет вычисления.
В чем разница между Cosine Similarity и KL Divergence в контексте патента?
Cosine Similarity рассматривает векторы кликов как геометрические векторы и измеряет угол между ними; это хорошо работает с сырыми данными о количестве кликов. KL Divergence рассматривает векторы как распределения вероятностей (вероятность клика на изображение) и измеряет, насколько одно распределение отличается от другого. KL Divergence может быть более точным, но требует нормализации данных в вероятности.
Как этот патент помогает в SEO для изображений?
Он подчеркивает критическую важность CTR и удовлетворения интента. Чтобы изображение хорошо ранжировалось и ассоциировалось с нужными запросами, оно должно быть достаточно привлекательным и релевантным, чтобы пользователи на него кликали. Эти клики обучают Google и укрепляют связь изображения с запросом.
Может ли этот механизм связать текстовый запрос с визуальным (Image Query)?
Да. Патент явно указывает, что запросы могут быть разных типов. Если текстовый запрос "Эйфелева башня ночью" и загруженное пользователем фото ночного Парижа (визуальный запрос) приводят к кликам на одни и те же результаты в выдаче, система определит эти два разных типа запросов как похожие.
Работает ли этот механизм для определения схожести запросов на разных языках?
Да. Поскольку сравнение происходит не на основе текста запроса, а на основе профиля кликов, два запроса на разных языках будут считаться похожими, если пользователи в разных странах кликают на одни и те же изображения по этим запросам. Это позволяет преодолевать языковые барьеры в понимании интента.
Как используется инвертированный процесс (Image Similarity)?
Инвертированный процесс (Claim 14) используется для поиска похожих изображений. Два изображения считаются похожими, если они удовлетворяют одним и тем же запросам (т.е. пользователи ищут одно и то же и кликают на оба изображения). Это напрямую используется для функции "Похожие изображения" (Related Images) в поиске по картинкам.
Как часто обновляются данные о схожести?
Патент указывает, что процесс генерации Selection Vectors и вычисления схожести происходит офлайн путем обработки исторических данных (логов). Это подразумевает периодическое обновление базы данных по мере накопления новых данных о поведении пользователей, а не обновление в реальном времени.

Поведенческие сигналы
SERP
Мультимедиа

Индексация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Мультимедиа
Персонализация

Поведенческие сигналы
Семантика и интент
SERP

Персонализация
Мультимедиа
Поведенческие сигналы

EEAT и качество
Индексация
Семантика и интент

Поведенческие сигналы
Семантика и интент

Персонализация
Семантика и интент
Поведенческие сигналы

Local SEO
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
EEAT и качество
SERP

Индексация
Семантика и интент
Ссылки

Семантика и интент
Техническое SEO
EEAT и качество

Ссылки
Поведенческие сигналы
Антиспам

Семантика и интент
Ссылки
Knowledge Graph

EEAT и качество
Техническое SEO
Ссылки
