Google использует механизм для борьбы с кликбейтными или нерелевантными изображениями в поиске. Система анализирует, как часто пользователи кликают на изображение по множеству несвязанных запросов. Если изображение часто выбирают независимо от темы запроса, ему присваивается высокая «Оценка отвлекательности», и оно понижается в выдаче, уступая место более релевантному контенту.
Описание
Какую задачу решает
Патент решает проблему наличия в результатах поиска по изображениям контента, который является нерелевантным запросу, но при этом часто кликабельным из-за своей отвлекающей природы (например, юмористический, шокирующий или порнографический контент). Такие результаты «отвлекают» пользователя от его первоначальной цели поиска, снижают эффективность поиска и могут ошибочно повышаться традиционными алгоритмами, основанными на CTR.
Что запатентовано
Запатентована система для вычисления «Distractiveness Score» (Оценки отвлекательности) для изображений. Эта оценка базируется на анализе поведения пользователей (кликов) по большому количеству независимых (unrelated/independent) запросов. Изобретение определяет «отвлекательность» как склонность изображения привлекать клики независимо от контекста исходного запроса. Полученная оценка используется для модификации будущих результатов поиска.
Как это работает
Ключевой механизм заключается в мониторинге и анализе кликов пользователей (user selections).
- Мониторинг поведения: Система (Behavior Analyzer) отслеживает, какие изображения выбирают пользователи в ответ на различные запросы.
- Анализ независимости от запроса: Оценивается частота кликов на конкретное изображение по широкому спектру несвязанных между собой запросов или классов запросов.
- Расчет оценки: Если изображение демонстрирует высокую частоту кликов (selection-rate) независимо от тематики запроса, оно признается отвлекающим и получает высокий Distractiveness Score.
- Применение: При формировании будущей выдачи система использует сохраненные Distractiveness Scores для понижения (reduce the prominence) или удаления отвлекающих изображений.
- Исключения: Система может не применять эту оценку, если запрос классифицирован как порнографический, так как в этом контексте отвлекающий контент может быть релевантным.
Актуальность для SEO
Средняя/Высокая. Хотя патент подан в 2004 году, принципы использования поведенческих факторов для оценки качества и борьбы с кликбейтом остаются фундаментальными для Google, особенно в поиске по картинкам. Описанные механизмы, вероятно, эволюционировали с развитием машинного обучения, но базовая концепция отделения общей популярности (кликбейта) от контекстуальной релевантности остается актуальной.
Важность для SEO
Патент имеет существенное значение (7/10) для стратегий в Google Images. Он описывает конкретный механизм, направленный против использования кликбейтных миниатюр (thumbnails), которые генерируют высокий CTR за счет сенсационности или обмана, но не соответствуют интенту запроса. Для SEO-специалистов это означает, что попытки манипулировать CTR с помощью нерелевантных, но привлекательных изображений, будут активно пессимизироваться системой.
Детальный разбор
Термины и определения
- Behavior Analyzer (Анализатор поведения)
- Компонент поисковой системы, который отслеживает действия пользователей (например, клики на изображения) и вычисляет метрики, такие как Distractiveness Score.
- Distracting Images (Отвлекающие изображения)
- Изображения, которые привлекают внимание или любопытство пользователя независимо от его исходного запроса. Примеры включают юмористический, оскорбительный, непристойный или порнографический контент.
- Distractiveness Score (Оценка отвлекательности)
- Метрика, вычисляемая для изображения и отражающая его способность привлекать клики по множеству несвязанных (независимых) запросов. Высокая оценка используется для понижения изображения в выдаче.
- Independent/Unrelated Queries (Независимые/Несвязанные запросы)
- Запросы, которые не имеют общих ключевых слов или тематики (например, «военные корабли» и «животные»). Анализ кликов по этим запросам является ядром патента.
- Query Classes (Классы запросов)
- Группы запросов, связанных общей тематикой (например, «собаки» и «кошки» в классе «домашние животные»). Система анализирует клики по несвязанным классам запросов.
- Query-independent selection-rate (Частота выбора, не зависящая от запроса)
- Метрика, показывающая, как часто пользователи кликают на изображение по множеству различных и несвязанных запросов.
- Seeded Images (Посевные/Засевные изображения)
- Изображения, которые намеренно добавляются в результаты поиска, даже если они не связаны с запросом, с целью изучения реакции пользователей и статистического анализа (активный анализ).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод идентификации отвлекающих изображений.
- Система получает запрос и отправляет набор изображений.
- Мониторит поведение пользователя (клики).
- Вычисляет Distractiveness Score для изображения на основе этого поведения.
Ключевым в Claim 1 является определение Distractiveness Score: оценка используется для снижения видимости (reduces a prominence) изображения в результатах поиска, и эта оценка основана на том, что пользователь выбрал это изображение в ответ на первый запрос И выбрал это же изображение в ответ на второй запрос, причем первый и второй запросы не связаны по тематике (unrelated in subject matter).
Claim 2, 3, 5 (Зависимые): Детализируют расчет Distractiveness Score.
- Расчет включает вычисление query-independent selection-rate.
- Расчет может производиться по множеству классов запросов (plurality of query classes) или путем определения количества независимых запросов, по которым изображение было показано.
Claim 4, 14, 16 (Зависимые): Описывают обработку порнографических запросов.
- Система определяет, является ли запрос порнографическим.
- При расчете Distractiveness Score (Claim 4) могут учитываться клики только по не порнографическим запросам.
- При применении оценки для понижения (Claim 14, 16) система использует Distractiveness Score, только если запрос не порнографический. (Логика: если пользователь ищет порнографию, то порнографические картинки релевантны, а не отвлекающи).
Claim 7-11 (Зависимые): Указывают, что мониторинг и расчет оценок могут производиться для подмножеств пользователей на основе демографических групп (пол, возраст, география).
Claim 19 (Независимый пункт): Описывает метод активного анализа (Seeding).
- Система определяет связанные изображения для запроса.
- Добавляет к ним Seeded Images (посевные изображения).
- Отправляет объединенный набор пользователю и мониторит поведение.
- Вычисляет Distractiveness Score (определенный так же, как в Claim 1 – на основе кликов по несвязанным запросам).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, фокусируясь на анализе поведения и корректировке ранжирования в Поиске по картинкам.
INDEXING – Индексирование и извлечение признаков (Офлайн-анализ)
На этом этапе (или в рамках непрерывного анализа логов) Behavior Analyzer обрабатывает агрегированные данные о кликах пользователей. Система вычисляет Distractiveness Score для изображений, анализируя частоту кликов по независимым запросам. Эти оценки сохраняются в индексе или базе данных (Storage Module).
RANKING / RERANKING – Ранжирование и Переранжирование (Реальное время)
Это основные этапы применения патента.
- Отбор кандидатов: Когда пользователь вводит запрос, система определяет набор релевантных изображений.
- Извлечение оценок: Для каждого кандидата извлекается сохраненный Distractiveness Score.
- Корректировка ранжирования: Система модифицирует ранжирование (RERANKING). Изображения с высоким Distractiveness Score понижаются в выдаче или удаляются из нее (если они нерелевантны текущему запросу и запрос не является исключением, например, порнографическим).
Входные данные:
- Журналы поисковых запросов и данные о кликах пользователей (user behavior).
- Результаты поиска (показанные изображения).
- Классификация запросов (например, порнографический/не порнографический).
- (Опционально) Демографические данные пользователя.
Выходные данные:
- Distractiveness Score для изображений.
- Скорректированный набор результатов поиска с пониженными отвлекающими изображениями.
На что влияет
- Конкретные типы контента: В первую очередь влияет на Поиск по Изображениям (Google Images). Патент также упоминает, что методы могут применяться к любым документам, включая веб-страницы.
- Специфические запросы: Наибольшее влияние на общие или неоднозначные запросы, где в выдачу могут попасть популярные, но нерелевантные изображения (кликбейт).
- Определенные форматы контента: Влияет на контент, склонный к кликбейту: юмористические картинки, мемы, шок-контент, порнография.
Когда применяется
- Триггеры активации: Расчет оценок происходит непрерывно по мере накопления данных о поведении. Применение оценки происходит в реальном времени при обработке запроса, если в наборе кандидатов есть изображения с вычисленным Distractiveness Score.
- Условия применения и Исключения: Система учитывает контекст. Если запрос является порнографическим, то Distractiveness Score для порнографических изображений может игнорироваться или использоваться слабее, так как они становятся релевантными интенту.
Пошаговый алгоритм
Процесс А: Вычисление Оценки Отвлекательности (Фоновый/Непрерывный)
- Мониторинг поведения: Сбор данных о кликах пользователей на изображения по различным запросам.
- Классификация запросов: Определение связей между запросами, группировка их в Query Classes и идентификация Independent Queries. Определение порнографических запросов.
- Агрегация данных: Подсчет частоты кликов (selection-rate) для конкретного изображения по множеству независимых запросов (возможно, исключая порнографические запросы).
- Расчет метрик: Вычисление query-independent selection-rate и/или отклонения от ожидаемой частоты кликов.
- Вычисление Distractiveness Score: Расчет итоговой оценки отвлекательности. Может использоваться функция агрегации различных метрик:
Выводы
- Разделение популярности и релевантности (Борьба с кликбейтом): Google активно различает изображения, которые популярны в целом (высокий CTR по многим темам), и изображения, которые релевантны конкретному запросу. Популярность без релевантности классифицируется как «отвлекательность» и пессимизируется.
- Клики по несвязанным запросам как негативный сигнал: Ядро патента — использование кликов по Independent Queries. Если изображение получает много трафика из несвязанных тематик, это является сигналом для его понижения в этих тематиках. Это форма нормализации CTR.
- Контекст имеет значение (Обработка Adult-контента): Система учитывает интент запроса. Если пользователь ищет Adult-контент, то откровенные изображения считаются релевантными, и Distractiveness Score не применяется для их понижения по этим запросам.
- Активное тестирование (Seeding): Google оставляет за собой право намеренно подмешивать (Seeded Images) нерелевантный контент в выдачу для изучения поведения пользователей и калибровки своих систем обнаружения отвлекаемости.
- Персонализация и демография: Система может учитывать, что разные группы пользователей (пол, возраст) находят отвлекающими разные типы контента, и рассчитывать персонализированные Distractiveness Scores.
Практика
Best practices (это мы делаем)
- Фокус на специфической релевантности изображений: Убедитесь, что изображения (и особенно их миниатюры в выдаче) точно соответствуют тематике запросов, по которым они ранжируются. Изображение должно удовлетворять интент пользователя, а не просто привлекать внимание.
- Использование уникальных и контекстуальных изображений: Отдавайте предпочтение изображениям, которые несут смысловую нагрузку в контексте страницы (инфографика, схемы, реальные фото продукта). Избегайте стоковых или общих изображений, которые могут появляться в выдаче по слишком многим темам.
- Оптимизация контекста: Убедитесь, что метаданные (alt-текст) и окружающий текст тесно связаны с изображением. Это укрепляет сигнал релевантности и снижает риск ложной классификации.
- Анализ источников трафика для изображений: Отслеживайте, по каким запросам изображения получают трафик в Google Images. Если изображение получает много кликов по широкому спектру несвязанных запросов, оно рискует быть классифицированным как отвлекающее.
Worst practices (это делать не надо)
- Использование кликбейтных миниатюр (Clickbait Thumbnails): Использование вводящих в заблуждение, чрезмерно сенсационных, шокирующих или сексуально провокационных изображений для привлечения кликов на контент, не связанный с этими изображениями. Этот патент описывает механизм, который напрямую борется с этой тактикой.
- Манипуляции с CTR через нецелевой трафик: Попытки «накрутить» популярность изображения за счет привлечения кликов из нерелевантных источников приведут к увеличению Distractiveness Score и понижению в выдаче.
- Оптимизация одного изображения под разные интенты: Попытки ранжировать одно и то же привлекательное изображение по широкому спектру несвязанных запросов приведут к пессимизации.
Стратегическое значение
Патент подтверждает стратегию Google на приоритизацию релевантности над простыми поведенческими метриками (CTR). Он демонстрирует, что Google анализирует не просто количество кликов, а их контекст и источники (качество трафика). Для долгосрочной SEO-стратегии в визуальном поиске это означает, что попытки обмануть систему с помощью привлекательных, но нерелевантных изображений обречены на провал.
Практические примеры
Сценарий: Понижение кликбейтного изображения в выдаче (На основе примера из патента FIG. 7A и 7B)
- Запрос пользователя: «Бейсбольная бита» (baseball bat).
- Исходная выдача (FIG. 7A): На первой позиции (Image 1) находится юмористический комикс, где одно животное бьет другое битой.
- Поведение пользователя: Пользователи, ищущие реальные биты, кликают на комикс из любопытства (высокий CTR).
- Анализ Google: Behavior Analyzer фиксирует, что данное изображение также получает клики по множеству Independent Queries (например, «смешные животные», «мультики»).
- Расчет оценки: Система вычисляет высокий Distractiveness Score, так как частота кликов не зависит от конкретной тематики запроса «бейсбольная бита».
- Применение (FIG. 7B): При следующем ранжировании по запросу «бейсбольная бита» Google использует Distractiveness Score для понижения этого изображения (Image 1 перемещается на последнюю позицию), отдавая предпочтение фотографиям реальных бит.
Вопросы и ответы
Что является ключевым фактором при определении «отвлекательности» изображения?
Ключевым фактором является частота кликов на изображение по большому количеству несвязанных (независимых) запросов. Если пользователи часто кликают на картинку независимо от того, искали ли они «рецепт пирога» или «автозапчасти», система помечает такое изображение как отвлекающее (Distracting).
Означает ли этот патент, что высокий CTR для изображения — это плохо?
Не обязательно. Высокий CTR — это хорошо, если он достигается по релевантным запросам и отражает удовлетворенность пользователя. Однако, если высокий CTR достигается за счет кликбейта и привлечения внимания пользователей, которые ищут что-то другое (высокий query-independent selection-rate), это приведет к увеличению Distractiveness Score и последующему понижению в выдаче.
Как система обрабатывает Adult-контент (порнографию)?
Патент признает, что Adult-контент по своей природе является очень «отвлекающим». Поэтому система использует специальную логику: она определяет, был ли исходный запрос порнографическим. Если да, то Adult-изображения считаются релевантными, и Distractiveness Score не используется для их понижения. Если запрос не порнографический, то такие изображения будут активно понижаться.
Что такое «посевные изображения» (Seeded Images) и зачем они нужны?
Это изображения, которые Google может намеренно добавлять в результаты поиска, даже если они не совсем релевантны запросу. Это делается для «активного анализа» — изучения реакции пользователей на новый или спорный контент и калибровки алгоритмов расчета Distractiveness Score.
Влияет ли этот патент только на Google Images или на основной веб-поиск тоже?
Патент в первую очередь описывает систему для поиска по изображениям. Однако в тексте упоминается, что описанные методы могут применяться к любым документам, включая веб-страницы. Можно предположить, что аналогичные механизмы используются для борьбы с кликбейтом в заголовках и сниппетах в основном поиске или Google Discover.
Учитывает ли система демографию пользователей?
Да, патент предусматривает такую возможность. Система может рассчитывать разные Distractiveness Scores для разных групп пользователей (например, мужчин и женщин, разных возрастных групп), поскольку то, что отвлекает одну группу, может не отвлекать другую.
Как защитить свои изображения от классификации как «отвлекающие»?
Необходимо гарантировать максимальную релевантность изображения контенту страницы и запросам, по которым оно ранжируется. Избегайте использования общих, стоковых или кликбейтных изображений. Изображение должно нести ценность для пользователя, ищущего конкретную информацию, а не просто привлекать внимание.
Что такое «независимые запросы» (Independent Queries) в контексте патента?
Это запросы, которые не имеют общей тематики или общих ключевых слов. Например, «уход за кактусом» и «история Рима» — независимые запросы. Анализ поведения пользователей именно по таким запросам позволяет отделить релевантность от общей привлекательности (кликбейта) изображения.
Может ли этот механизм понизить релевантное изображение, если оно стало вирусным?
Теоретически, да. Если изображение становится вирусным и начинает появляться и получать клики по огромному количеству несвязанных запросов, его Distractiveness Score может вырасти. Однако система также учитывает отклонение от «ожидаемой частоты кликов» и контекст, что должно помогать сбалансировать этот эффект для действительно релевантного контента.
Насколько актуальны эти методы, учитывая возраст патента (подача 2004 г.)?
Принципы, заложенные в патенте (нормализация CTR, борьба с кликбейтом, анализ поведения по несвязанным запросам), являются фундаментальными и остаются актуальными. Техническая реализация, безусловно, усовершенствована с помощью современных технологий машинного обучения и анализа изображений, но общая логика работы системы сохраняется.