Google анализирует поведение пользователей в поиске по картинкам, чтобы определить связь между изображениями. Если пользователи часто кликают на изображение А и изображение Б в рамках одной сессии поиска и в течение короткого времени, система считает их связанными. Этот механизм используется для показа блока «Связанные изображения» и генерации связанных запросов.
Описание
Какую задачу решает
Патент решает задачу улучшения пользовательского опыта в поиске по картинкам. Цель — предоставить пользователю релевантные связанные изображения и запросы после того, как он выбрал конкретное изображение из результатов поиска. Система определяет семантическую и визуальную связь между изображениями, используя агрегированные поведенческие данные (паттерны кликов), а не полагаясь исключительно на анализ контента, метаданных или текстового окружения изображений.
Что запатентовано
Запатентована система идентификации связанных изображений на основе анализа совместных кликов (co-clicks). Система агрегирует данные о том, какие пары изображений пользователи выбирают последовательно в рамках одной поисковой сессии и в течение короткого промежутка времени. Изображения считаются связанными, если частота (count of occurrences) их совместных кликов превышает определенный порог, при этом учитывается время просмотра каждого изображения.
Как это работает
Механизм работает путем анализа логов поиска по картинкам:
- Отслеживание сессий: Система отслеживает запросы пользователей и их последующие клики на изображения.
- Идентификация пар: Идентифицируются пары изображений (A и B), на которые один и тот же пользователь кликнул в ответ на один запрос в течение заданного временного интервала (time threshold).
- Фильтрация по времени просмотра: Клик учитывается только если пользователь просматривал изображение достаточно долго (threshold amount of viewing time), что отсеивает случайные клики.
- Агрегация и расчет частоты: Пары агрегируются по всем пользователям. Рассчитывается частота (frequency count) для каждой уникальной пары.
- Определение связи: Если частота пары превышает порог, изображения считаются связанными.
- Применение: Когда пользователь выбирает изображение A, система показывает B (и другие связанные изображения) в качестве рекомендаций.
Актуальность для SEO
Высокая. Анализ поведения пользователей (Clickstream data) и использование данных о совместных кликах являются фундаментальными методами в современных поисковых и рекомендательных системах, особенно в визуальном поиске (Google Images, Google Lens) и e-commerce. Понимание связей между сущностями на основе взаимодействия пользователей остается критически важной задачей.
Важность для SEO
Патент имеет высокое значение для SEO-стратегий сайтов, зависящих от трафика из поиска по картинкам (e-commerce, стоковые фото, визуальные портфолио). Он демонстрирует, что связь между изображениями определяется не столько текстовой оптимизацией, сколько реальным поведением пользователей. Это напрямую влияет на видимость изображений на втором этапе взаимодействия (после первого клика) и подчеркивает важность создания серий изображений, которые стимулируют последовательный просмотр и удовлетворяют интент пользователя.
Детальный разбор
Термины и определения
- Co-clicked image (Совместно выбранное изображение)
- Изображение из результатов поиска, выбранное пользователем в течение определенного порогового времени (например, 10 минут) до или после выбора другого изображения (Reference image) в ответ на тот же запрос.
- Reference image (Референтное изображение)
- Первое изображение в паре совместно выбранных изображений.
- Unique Image Pair (Уникальная пара изображений)
- Пара, состоящая из Reference image и Co-clicked image. Используется для агрегации данных о совместных кликах.
- Count of occurrences / Frequency Count (Количество вхождений / Частота)
- Метрика, показывающая, сколько раз данная уникальная пара изображений была совместно выбрана пользователями.
- Time Threshold (Временной порог между кликами)
- Максимально допустимое время между выбором первого и второго изображения в паре. Если время превышено, пара не учитывается в расчетах.
- Viewing Time Threshold (Порог времени просмотра)
- Минимальное время, в течение которого пользователь должен просматривать выбранное изображение, чтобы этот выбор был учтен в анализе. Используется для фильтрации случайных кликов.
- Related Image Queries (Связанные запросы)
- Запросы, в ответ на которые были показаны и выбраны изображения, составившие высокочастотную уникальную пару.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения и предоставления связанных изображений.
- Система определяет количество вхождений (count of occurrences) для каждой уникальной пары изображений (Первое и Второе изображение). Условия формирования пары:
- Оба изображения были показаны в ответ на один запрос.
- Они были выбраны пользователем последовательно.
- Первое изображение просматривалось не менее порогового времени (threshold amount of viewing time).
- Определено правило агрегации: если два изображения на разных URL имеют идентичное содержимое (identical content), их статистика совместных кликов может взаимно учитываться.
- Система получает данные о выборе пользователем изображения из результатов поиска.
- На основе этого выбора система отбирает уникальные пары, где первое изображение совпадает с выбранным, и чье количество вхождений превышает порог. Этот порог может зависеть от возраста (свежести) изображений в паре.
- Система предоставляет вторые изображения из отобранных пар в ответ на выбор пользователя.
Claim 4 (Зависимый от 1): Добавляет ограничение на время между кликами. Уникальные пары не включают те пары, где время между выбором первого и второго изображения превышает второй порог (Time Threshold).
Claim 5 (Зависимый от 1): Уточняет, что предоставление вторых изображений включает их упорядочивание на основе времени между кликами или на основе их частоты (respective counts).
Claim 6 (Зависимый от 1): Уточняет, что в подсчет частоты не включаются пары, которые были показаны в результатах поиска до определенной даты (учет актуальности данных).
Claim 8 (Зависимый от 1): Описывает применение метода для классификации контента. Если первое изображение в паре определено как порнографическое, то второе изображение также идентифицируется как порнографическое.
Где и как применяется
Изобретение применяется в системе поиска по изображениям и затрагивает несколько этапов обработки данных и взаимодействия с пользователем.
CRAWLING & INDEXING (Сканирование и Индексирование)
На этом этапе система должна индексировать изображения и проводить анализ их содержимого. Это необходимо для реализации правила из Claim 1, позволяющего идентифицировать изображения с identical content на разных URL, а также для первичной классификации (например, детекции порнографии, Claim 8).
RANKING (Ранжирование)
Система генерирует начальный набор результатов поиска по картинкам. Качество этого набора влияет на то, какие изображения будут выбраны пользователями и, следовательно, какие данные поступят для анализа совместных кликов.
RERANKING / Post-Click Analysis (Переранжирование / Анализ поведения)
Основное применение патента происходит в двух режимах:
- Офлайн-анализ (Analysis System): Система анализирует логи взаимодействия пользователей (Tracking Logs) с результатами поиска. Происходит расчет частот для уникальных пар изображений с учетом всех порогов (время просмотра, время между кликами). Результаты сохраняются в базе данных связанных изображений.
- Онлайн-обработка (Related Image Engine): Когда пользователь кликает на изображение в выдаче, система в реальном времени запрашивает связанные изображения из преcalculated базы и отображает их пользователю.
Входные данные:
- Логи поиска (Tracking Logs): Запросы, показанные результаты (URL изображений), выбранные результаты, временные метки кликов, время просмотра изображений, идентификаторы пользователей/сессий (IP, cookie).
- Индекс изображений и данные анализа контента (для дедупликации и классификации).
Выходные данные:
- База данных уникальных пар изображений с рассчитанными частотами (Frequency Counts).
- Набор связанных изображений и связанных запросов, отображаемый пользователю после клика на референтное изображение.
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на изображения, которые естественно просматривать сериями: товары с разных ракурсов, похожие товары (альтернативы), фотографии из одной серии, шаги в инструкциях.
- Конкретные ниши или тематики: Критично для e-commerce, моды, дизайна, путешествий, стоковых фотографий — тематик, где пользователи активно исследуют визуальные варианты. Также влияет на фильтрацию контента (SafeSearch) из-за механизма классификации в Claim 8.
- Специфические запросы: Влияет на запросы, подразумевающие выбор или сравнение (например, «идеи дизайна кухни», «красные кроссовки Nike»).
Когда применяется
- Временные рамки и частота применения: Офлайн-анализ логов происходит постоянно или периодически для обновления базы связанных изображений. Онлайн-компонент активируется при каждом клике пользователя на изображение в результатах поиска.
- Триггеры активации: Клик пользователя на изображение (онлайн).
- Условия применения (Офлайн):
- Время просмотра изображения пользователем превышает Viewing Time Threshold (например, 20 секунд).
- Время между последовательными кликами не превышает Time Threshold (например, 10 минут).
- Частота совместных кликов пары превышает Frequency Threshold.
Пошаговый алгоритм
Процесс А: Офлайн-анализ и генерация базы связанных изображений
- Сбор данных: Накопление логов взаимодействия пользователей с поиском по картинкам (Tracking Logs).
- Парсинг и фильтрация сессий: Анализ логов для выделения поисковых сессий (запрос и последующие клики).
- Фильтрация кликов по времени просмотра: Исключение кликов, где время просмотра изображения было меньше Viewing Time Threshold.
- Идентификация пар изображений: Формирование кортежей (Запрос, Изображение 1, Изображение 2, Время между кликами) для последовательных кликов в рамках одной сессии и одного запроса.
- Фильтрация пар по времени между кликами: Исключение пар, где время между кликами превышает Time Threshold.
- Агрегация уникальных пар: Группировка пар по (Изображение 1, Изображение 2) независимо от запроса.
- Дедупликация контента: Объединение статистики для пар, содержащих изображения с идентичным контентом, но разными URL.
- Расчет частоты и Фильтрация по актуальности: Вычисление Frequency Count для каждой уникальной пары. Исключение устаревших данных (например, старше 3 месяцев).
- Применение порога частоты: Отбор пар, чья частота превышает Frequency Threshold (порог может быть снижен для свежих изображений).
- Сохранение и Классификация: Запись связей (Изображение 1 -> Изображение 2) и связанных запросов в базу данных. Распространение классификационных меток (например, порнография) между связанными изображениями.
Процесс Б: Обработка запроса в реальном времени
- Получение клика: Система получает сигнал о выборе пользователем Изображения 1.
- Запрос к базе: Поиск связанных изображений для Изображения 1 в преcalculated базе.
- Ранжирование связанных изображений: Упорядочивание найденных связанных изображений (Изображение 2, 3, …) на основе их Frequency Count или времени между кликами.
- Отображение результатов: Предоставление пользователю блока связанных изображений и связанных запросов.
Какие данные и как использует
Данные на входе
Основной акцент в патенте сделан на поведенческих данных.
- Поведенческие факторы (Критично):
- Клики (Image Selections): Факт выбора изображения пользователем.
- Последовательность кликов: Порядок, в котором пользователь выбирает изображения в рамках одной сессии и одного запроса.
- Время просмотра (Dwell Time): Продолжительность просмотра выбранного изображения перед возвратом к выдаче или следующим кликом.
- Логи запросов: Исходные запросы, которые привели к показу и выбору изображений.
- Идентификаторы сессий: IP-адреса или cookie для группировки действий одного пользователя.
- Технические факторы:
- Resource Address (URL): Используется для идентификации изображений.
- Контентные факторы (Визуальные):
- Содержимое изображения (Image Content): Используется для определения идентичности изображений, размещенных на разных URL (дедупликация статистики), и для классификации контента (например, определение порнографии).
- Временные факторы:
- Возраст изображения (Image Age): Может использоваться для корректировки порогов частоты (продвижение свежего контента).
- Давность логов: Старые данные исключаются из анализа (например, старше 3 месяцев).
Какие метрики используются и как они считаются
- Viewing Time Threshold: Пороговое значение (например, 20 секунд). Если время просмотра меньше, клик не учитывается.
- Time Threshold: Пороговое значение (например, 10 минут). Если время между двумя кликами больше, пара не формируется.
- Frequency Count (Count of occurrences): Рассчитывается путем агрегации и подсчета количества уникальных пар изображений, удовлетворяющих всем временным порогам.
- Frequency Threshold: Минимальное значение Frequency Count, необходимое для признания связи между изображениями. Патент указывает, что этот порог может быть динамическим и снижаться для новых (свежих) изображений.
Выводы
- Поведенческие сигналы как основа связей: Патент демонстрирует метод определения связи между изображениями, который полностью основан на анализе поведения пользователей (co-clicks). Это означает, что семантическая или визуальная близость устанавливается «мудростью толпы», а не только алгоритмами анализа контента или текста.
- Критичность времени просмотра (Dwell Time): Использование Viewing Time Threshold является ключевым механизмом фильтрации шума. Система учитывает только те клики, которые привели к достаточно длительному просмотру, что является сильным сигналом удовлетворенности пользователя и релевантности изображения.
- Учет дубликатов контента: Система способна распознавать идентичные изображения на разных URL и объединять их поведенческую статистику. Это важно для агрегации сигналов вокруг контента, а не конкретного URL.
- Баланс частоты и свежести: Патент предусматривает возможность корректировки порогов частоты в зависимости от возраста изображения. Это позволяет системе быстрее выявлять связи для нового, трендового контента, снижая для него требования к минимальному количеству накопленных кликов.
- Генерация связанных запросов и Классификация: Механизм также используется для идентификации Related Queries и для распространения классификационных меток (например, порнографии) между связанными изображениями.
Практика
Best practices (это мы делаем)
- Создание серий связанных изображений: Разрабатывайте контент так, чтобы стимулировать последовательный просмотр нескольких изображений. В e-commerce это означает предоставление высококачественных фотографий товара с разных ракурсов, в разных сценариях использования, а также демонстрацию аксессуаров или альтернативных вариантов.
- Оптимизация под длительное время просмотра (Dwell Time): Убедитесь, что изображения релевантны запросу, имеют высокое разрешение и информативны. Изображение должно удерживать внимание пользователя. Если время просмотра будет ниже Viewing Time Threshold, клик не будет учтен системой для установления связей.
- Анализ связанных запросов в Google Images: Изучайте блок Related Queries, который появляется при клике на ваши изображения или изображения конкурентов. Эти запросы генерируются описанным механизмом и дают представление о том, как пользователи уточняют или расширяют свой поиск. Используйте эти данные для расширения семантики и создания нового контента.
- Фокус на уникальном визуальном контенте: Хотя система умеет склеивать дубликаты, создание уникального, авторского контента повышает шансы стать центральным узлом в графе связанных изображений и аккумулировать поведенческие сигналы.
- Разделение SFW и NSFW контента: Если на сайте присутствует контент разного типа, убедитесь, что они четко разделены. Из-за механизма распространения классификации (Claim 8), совместные клики между порнографическим и безопасным контентом могут привести к пессимизации безопасного контента в SafeSearch.
Worst practices (это делать не надо)
- Использование кликбейтных миниатюр: Если миниатюра привлекает клик, но само изображение не соответствует ожиданиям, время просмотра будет коротким. Такие клики будут отфильтрованы системой (Viewing Time Threshold) и не принесут пользы в установлении связей.
- Игнорирование качества и разрешения изображений: Низкокачественные изображения, которые пользователи быстро закрывают, не будут генерировать сильные поведенческие сигналы.
- Манипуляции с поведенческими факторами: Попытки искусственно накрутить совместные клики сложны в реализации из-за необходимости соблюдения паттернов реального поведения, включая время просмотра и разнообразие пользователей, и могут быть идентифицированы как спам.
Стратегическое значение
Патент подтверждает стратегическую важность поведенческих факторов в поиске по картинкам. Для Google связь между изображениями — это то, как люди их используют вместе. Долгосрочная стратегия в Image SEO должна фокусироваться не только на оптимизации Alt-текстов и метаданных, но и на создании визуального опыта, который удовлетворяет интент пользователя, удерживает его внимание (высокий Dwell Time) и естественным образом стимулирует дальнейшее исследование (последовательные клики).
Практические примеры
Сценарий: Оптимизация карточки товара в интернет-магазине одежды
- Задача: Увеличить видимость фотографий нового платья в блоках «Связанные изображения».
- Действия согласно патенту:
- Разместить 5-7 высококачественных фотографий: вид спереди, сзади, детали ткани, фото на модели в движении, фото с аксессуаром (например, сумкой).
- Убедиться, что фото загружаются быстро и в высоком разрешении (для увеличения Viewing Time).
- Оптимизировать все фото под схожий набор запросов, чтобы они могли появиться в одной выдаче.
- Как работает механизм: Пользователи ищут «вечернее платье», кликают на основное фото. Заинтересовавшись, они тратят время на просмотр (превышая Viewing Time Threshold), а затем последовательно кликают на фото сзади и фото деталей ткани (не превышая Time Threshold между кликами).
- Ожидаемый результат: Система фиксирует высокую частоту совместных кликов между этими фотографиями. Теперь, когда любой пользователь кликает на основное фото этого платья в Google Images, фото сзади и фото деталей будут показаны как связанные, увеличивая общее вовлечение и вероятность конверсии.
Вопросы и ответы
Что такое «co-clicked image» в контексте этого патента?
Это два изображения, которые были показаны в ответ на один и тот же запрос и на которые один и тот же пользователь кликнул последовательно в течение короткого промежутка времени (например, до 10 минут). Это основной механизм для определения связи между картинками.
Насколько важно время просмотра (Dwell Time) изображения?
Оно критически важно. Патент явно указывает на использование Viewing Time Threshold. Если пользователь кликнул на изображение и сразу же его закрыл (например, из-за кликбейта или низкого качества), этот клик не будет учтен системой при расчете связанных изображений.
Как этот патент влияет на SEO для E-commerce сайтов?
Влияние значительно. Он подчеркивает необходимость иметь несколько качественных фотографий товара с разных ракурсов. Если пользователи часто просматривают эти фото последовательно, они будут связаны системой и показаны вместе в Google Images, улучшая пользовательский опыт и увеличивая вовлеченность с вашим контентом.
Учитывает ли система текст (например, Alt-атрибуты) для определения связанных изображений?
Этот конкретный патент фокусируется исключительно на поведенческих сигналах (совместных кликах и времени просмотра) для определения связей. Текстовая релевантность используется для первичного ранжирования, но связь между изображениями устанавливается на основе действий пользователей.
Что произойдет, если одно и то же изображение размещено на моем сайте и на сайте конкурента?
Патент предусматривает механизм обработки идентичного контента на разных URL. Если система определит, что изображения идентичны, поведенческие сигналы (совместные клики) с обоих URL могут быть объединены при расчете общей частоты для этого контента.
Как система определяет, какие связанные изображения показать первыми?
Связанные изображения ранжируются на основе Frequency Count — то есть, чем чаще пара изображений выбиралась совместно пользователями в прошлом, тем выше будет показано связанное изображение. Также может учитываться время между кликами.
Влияет ли свежесть контента на этот механизм?
Да. Патент упоминает, что порог частоты (Frequency Threshold), необходимый для установления связи, может быть снижен для более новых изображений. Это позволяет свежему или трендовому контенту быстрее появляться в блоке связанных изображений, не дожидаясь накопления большого объема статистики.
Могу ли я повлиять на то, какие изображения будут показаны как связанные с моим контентом?
Да, косвенно. Создавая серии изображений, которые логически связаны и интересны пользователям (например, фото до/после, разные этапы процесса, разные ракурсы продукта), вы стимулируете последовательные клики. Если этот паттерн станет массовым, система установит связь между этими изображениями.
Как используются «Связанные запросы» (Related Queries) в этом патенте?
Система анализирует, какие запросы чаще всего приводили к совместному выбору определенной пары изображений. Эти запросы затем идентифицируются как связанные с этими изображениями и могут быть предложены пользователю для дальнейшего уточнения поиска.
Может ли этот механизм использоваться для фильтрации контента (SafeSearch)?
Да. Патент явно указывает (Claim 8), что если первое изображение в паре классифицировано как порнографическое, то связанное с ним изображение также идентифицируется как порнографическое. Это означает, что связи на основе поведения пользователей используются для улучшения классификации контента для взрослых.