Google анализирует, какие изображения пользователи выбирают (кликают) в ответ на конкретные поисковые запросы в Image Search. Система использует эти поведенческие данные для понимания того, что изображено на картинке, и ассоциирует ее с релевантными концепциями. Эти ассоциации также переносятся на визуально похожие изображения и используются для улучшения ранжирования и таргетинга контента.
Описание
Какую задачу решает
Патент решает фундаментальную проблему автоматической идентификации и категоризации нетекстового контента, в частности изображений. Традиционные методы, такие как анализ метаданных или сложные алгоритмы распознавания образов, могут быть неточными, ресурсоемкими и лишены человеческого контекстуального понимания. Изобретение предлагает метод использования коллективного поведения пользователей (mining user association data) для понимания содержания изображений.
Что запатентовано
Запатентована система и метод ассоциации электронного документа (например, изображения) с концепцией путем анализа действий пользователей. Система отслеживает, какие документы пользователи выбирают (user performance criteria, т.е. клики) из результатов поиска по определенному запросу (idea). На основе агрегированных данных система устанавливает связь (idea-electronic document association) между документом и концепцией.
Как это работает
Механизм использует клики пользователей как сигнал валидации контента. Если пользователи ищут «Авраам Линкольн» и массово кликают на конкретное изображение, система ассоциирует это изображение с концепцией «Авраам Линкольн».
Кроме того, патент (в частности, Claim 1 текущей версии) описывает механизм переноса ассоциаций через сходство. Если новое Изображение А визуально похоже на Изображение Б, и известно (по кликам), что Изображение Б связано с запросом «синий виджет», то Изображение А также ассоциируется с «синий виджет». Эти ассоциации затем используются для таргетинга контента или рекламы на пользователей, интересующихся данной концепцией на контентных страницах.
Актуальность для SEO
Высокая. Хотя это патент-продолжение (Continuation) заявок, поданных в 2004 году, его публикация в 2023 году подчеркивает фундаментальную важность этих методов. Понимание изображений и использование поведенческих сигналов для определения релевантности и обучения моделей (включая мультимодальные) остаются критически важными компонентами современного поиска (Google Images, Lens) и рекламных систем.
Важность для SEO
Влияние на SEO значительно (85/100), особенно для Image SEO и E-commerce. Патент раскрывает, что релевантность изображения определяется не только метаданными или окружающим текстом, но и тем, насколько успешно оно отвечает на запросы пользователей на практике (через клики). Это подчеркивает важность создания изображений, которые не только релевантны теме, но и привлекают клики в контексте поиска.
Детальный разбор
Термины и определения
- Concept (Концепция) / Idea (Идея)
- Термины используются взаимозаменяемо и обозначают любую тему, слово, запрос или содержание. Idea часто относится к исходному поисковому запросу пользователя, а Concept — к выведенному пониманию темы.
- Document / Electronic Document (Документ)
- Любой элемент контента. В контексте патента чаще всего подразумеваются изображения или графическая реклама, но также включает веб-страницы, аудио/видео файлы.
- Idea-electronic document association (Ассоциация Идея-Документ)
- Связь между Идеей (запросом) и Документом (изображением), установленная на основе действий пользователя.
- User Performance Criteria (Критерии производительности пользователя)
- Поведенческие данные, указывающие на предпочтение пользователя. Ключевым действием является выбор (клик) документа из списка результатов.
- Set of similar documents (Набор похожих документов)
- Группа документов, идентифицированных системой как похожие (например, визуально) на обрабатываемый документ.
- Document Comparison Module (Модуль сравнения документов)
- Компонент системы, который определяет степень сходства между двумя документами.
- Content Page (Страница контента)
- Страница, на которой может быть представлен таргетированный контент (например, сайт партнерской сети или страница результатов поиска).
Ключевые утверждения (Анализ Claims)
Анализ сосредоточен на независимом пункте 1 патента US11775595B1, который описывает механизм косвенной ассоциации и таргетинга.
Claim 1 (Независимый пункт): Описывает метод использования схожести документов и поведения пользователей в поиске для таргетинга документа на контентной странице.
- Идентификация первого документа.
- Обработка первого документа для идентификации набора похожих документов (set of similar documents).
- Определение поисковых запросов (search queries), отправленных пользователями, которые выбрали (selected) документы из этого набора похожих документов (когда эти документы были представлены в ответ на запросы).
- Ассоциация первого документа с концепцией (concept), соответствующей этим поисковым запросам. Эта ассоциация основана на том факте, что пользователи выбирали похожие документы в ответ на эти запросы.
- Определение того, что пользователь, просматривающий страницу контента (content page), имеет интерес к этой концепции.
- Представление первого документа на этой странице контента на основе (i) интереса пользователя и (ii) установленной ассоциации.
Ядро изобретения заключается в использовании поведенческих данных, связанных с похожими документами, для определения концепций исходного документа и последующего использования этих концепций для таргетинга. Система полагается на схожесть и агрегированное поведение пользователей (клики на похожие документы), а не на прямой анализ содержания первого документа.
Где и как применяется
Изобретение задействует несколько этапов поисковой архитектуры, связывая обработку данных о поведении пользователей с индексированием и таргетингом контента.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна иметь механизмы для определения схожести между документами (например, изображениями). Это требует извлечения признаков (например, визуальных векторных эмбеддингов) и хранения их для быстрого поиска set of similar documents.
RANKING (Сбор данных о поведении)
Когда пользователи взаимодействуют с результатами поиска (особенно Image Search), система фиксирует, какие документы были показаны и какие выбраны (кликнуты) в ответ на конкретные запросы. Это сбор сырых данных для майнинга.
INDEXING (Обновление индекса / Майнинг ассоциаций)
Основной процесс, описанный в патенте (офлайн или в близком к реальному времени режиме). Система анализирует собранные поведенческие данные для выполнения шагов 1-4 из Claim 1:
- Анализ кликов на похожие документы.
- Выявление ключевых запросов (Ideas), которые привели к этим кликам.
- Генерация Concepts и их ассоциация с исходным документом. Эти новые ассоциации сохраняются в индексе.
RANKING / METASEARCH (Таргетинг и Ранжирование)
Применение результатов майнинга (шаги 5-6 из Claim 1). Когда пользователь просматривает контентную страницу, система определяет его интересы (interest in the concept) и выбирает релевантные документы (например, рекламу), используя сгенерированные ассоциации. Также эти ассоциации используются для улучшения ранжирования в Image Search.
Входные данные:
- Первый документ (например, изображение).
- База данных документов с признаками схожести.
- Логи поведения пользователей (запросы, показы, клики).
- Контекст пользователя на контентной странице.
Выходные данные:
- Ассоциации между первым документом и концепциями (обновленный индекс).
- Таргетированный документ, представленный пользователю.
На что влияет
- Типы контента: Основной фокус на изображениях и графической рекламе, но применимо к любым электронным документам.
- Конкретные ниши: Особенно сильно влияет на E-commerce (понимание товаров), медиа (идентификация знаменитостей) и любые ниши с визуальным контентом.
- Системы: Google Images (ранжирование и сбор данных), Google Display Network (таргетинг рекламы на основе выведенных концепций).
Когда применяется
- Триггеры активации (Майнинг): Активируется при обработке новых документов или при накоплении достаточного объема новых поведенческих данных о существующих документах.
- Триггеры активации (Таргетинг): Активируется в момент загрузки контентной страницы пользователем или при выполнении поискового запроса.
- Условия: Наличие данных о схожести документов и статистически значимых данных о поведении пользователей (кликах) по похожим документам.
Пошаговый алгоритм
Процесс А: Генерация ассоциаций через схожесть (на основе Claim 1)
- Инициализация: Получение первого документа (например, нового изображения) для анализа.
- Определение схожести: Система (Document Comparison Module) обрабатывает признаки первого документа и идентифицирует set of similar documents.
- Анализ поведения по схожим документам: Система извлекает из логов данные о том, какие поисковые запросы приводили к выбору (кликам) документов из этого похожего набора.
- Извлечение концепций: Поисковые запросы агрегируются и обрабатываются для определения ключевых Concepts.
- Установление ассоциации: Система ассоциирует первый документ с этими извлеченными концепциями и сохраняет эту связь в индексе.
Процесс Б: Таргетинг документа (на основе Claim 1)
- Определение контекста пользователя: Пользователь посещает контентную страницу. Система анализирует контекст для определения его текущих интересов (Concepts).
- Выбор документа: Система ищет документы, которые ассоциированы (в Процессе А) с этими интересующими концепциями. Первый документ становится кандидатом на показ.
- Ранжирование и показ: Первый документ ранжируется среди других кандидатов и представляется пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании поведенческих данных и данных о схожести.
- Поведенческие факторы (Критически важные):
- Search queries: Тексты запросов, введенные пользователями.
- User selections (Клики / User Performance Criteria): Данные о том, на какие документы пользователи кликнули после ввода запроса.
- Мультимедиа факторы / Признаки схожести: Данные, позволяющие системе определить, что два документа похожи. Патент упоминает сравнение изображений, текста, форматирования и паттернов (Document Comparison Module).
- Пользовательские факторы: Данные, позволяющие определить интересы пользователя (interest in the concept) при просмотре контентной страницы (используется на этапе таргетинга).
Какие метрики используются и как они считаются
- Степень схожести (Similarity Rating): Метрика, определяющая, насколько один документ похож на другой. Используется для нахождения set of similar documents.
- Сила ассоциации (Association Strength): Метрика, определяющая надежность связи между документом и концепцией. Вероятно, рассчитывается на основе агрегированных поведенческих данных (частота выбора, CTR похожих документов по соответствующим запросам).
Выводы
- Поведение пользователей определяет понимание контента: Патент подтверждает, что Google активно использует данные о кликах пользователей (User Selections) в результатах поиска для понимания того, что изображено на картинках. Успешность документа в поиске (высокий CTR) напрямую обучает систему его релевантности.
- Механизм переноса релевантности через схожесть: Ключевым элементом является способность системы переносить ассоциации с одного документа на другой, если они признаны похожими. Это позволяет быстро категоризировать новые документы, используя уже имеющиеся поведенческие данные.
- Важность привлекательности контента (Clickability): Чтобы система установила сильную связь между вашим изображением и нужной концепцией, необходимо, чтобы пользователи выбирали его в поиске. Оптимизация привлекательности миниатюры изображения критически важна.
- Связь между поиском и контекстным таргетингом: Патент четко описывает, как данные, собранные в поиске (Search), используются для таргетинга контента на других площадках (Content Pages, например, GDN). Успех в Image Search может влиять на видимость в других системах Google.
- Идентификация без прямого анализа контента: Система может ассоциировать документ с концепцией, полагаясь на поведенческие данные и схожесть, даже если она не способна напрямую распознать объект на картинке с помощью компьютерного зрения.
Практика
Best practices (это мы делаем)
- Оптимизация изображений под кликабельность (CTR) в Image Search: Создавайте уникальные, высококачественные и привлекательные изображения, которые выделяются в выдаче по целевым запросам. Чем выше CTR изображения в поиске по картинкам, тем сильнее система будет ассоциировать его с запросом.
- Создание серий похожих изображений (E-commerce): При работе с похожими товарами (например, разные цвета одной модели), поддержание консистентного стиля фотографий может способствовать переносу релевантности. Если фото одного цвета станет популярным, система может перенести его ассоциации на похожие фото других цветов.
- Анализ SERP в Image Search: Изучайте визуальные паттерны, которые доминируют в топе по вашим ключевым запросам. Адаптируйте свой визуальный контент под эти паттерны, чтобы максимизировать сбор поведенческих сигналов.
- Использование четких метаданных (Alt-text, Title): Начальное ранжирование (необходимое для сбора кликов) по-прежнему зависит от базовых сигналов релевантности. Они помогают системе понять, по каким запросам стоит начать показывать изображение.
Worst practices (это делать не надо)
- Кликбейт и манипуляция CTR: Использование изображений, которые привлекают клик, но не соответствуют интенту запроса. Это приведет к неудовлетворенности пользователей и, вероятно, будет отфильтровано другими системами качества поиска (например, анализом коротких кликов).
- Использование стоковых, неуникальных изображений: Если ваше изображение идентично тысячам других, оно не будет выделяться в выдаче, что снижает CTR. Системе также сложнее приоритизировать вашу копию.
- Игнорирование Image SEO: Рассматривать изображения только как элемент дизайна, игнорируя их потенциал как точки входа трафика и инструмента для укрепления тематической релевантности.
Стратегическое значение
Этот патент подчеркивает стратегическую важность поведенческих факторов в понимании контента поисковыми системами. Для SEO это означает, что оптимизация взаимодействия пользователя с контентом в SERP критически важна. В Image SEO это ставит во главу угла не только техническую релевантность, но и визуальную привлекательность и полезность изображения для пользователя. Также он демонстрирует, как Google строит кросс-платформенное понимание контента.
Практические примеры
Сценарий: Оптимизация карточки товара E-commerce (Кроссовки)
- Анализ (Best Practice): SEO-специалист анализирует выдачу Google Images по запросу «Nike Air Max 270 blue». Он замечает, что в топе преобладают яркие фотографии на белом фоне и lifestyle-фотографии.
- Действие (Оптимизация под CTR): Специалист заменяет тусклую стоковую фотографию на сайте на серию высококачественных, ярких фотографий, соответствующих топовым результатам.
- Результат (Механизм патента): Пользователи начинают чаще кликать на новое изображение в Google Images. Система фиксирует эти User Selections.
- Ассоциация: Система усиливает ассоциацию между этим изображением и концепцией «Nike Air Max 270 blue».
- Перенос релевантности (Схожесть): Если на сайте есть такие же кроссовки в красном цвете с похожим стилем фото, система может быстрее ассоциировать красные кроссовки с соответствующим запросом, используя данные о схожести с успешными синими кроссовками.
Вопросы и ответы
Означает ли этот патент, что Google не использует компьютерное зрение (AI/ML) для анализа изображений?
Нет, не означает. Google активно использует передовые технологии компьютерного зрения. Однако этот патент описывает дополнительный и важный механизм: использование поведения пользователей (кликов) как способа валидации и уточнения того, что изображено. Это позволяет системе использовать «мудрость толпы» для понимания контекста и релевантности изображений, дополняя данные AI.
Как механизм схожести (similarity) влияет на SEO для интернет-магазинов?
Он имеет большое значение. Если у вас есть много похожих товаров (например, одежда разных цветов), система может определить их схожесть. Если одно изображение становится популярным (получает много кликов по релевантным запросам), система может перенести его «понимание» (ассоциации с концепциями) на похожие товары. Это ускоряет индексацию и улучшает ранжирование для всего ассортимента.
Что важнее для Image SEO согласно этому патенту: Alt-текст или CTR изображения?
Они оба важны на разных этапах. Alt-текст и окружающий контент помогают Google понять, по каким запросам стоит изначально показывать изображение. CTR изображения в выдаче (User Selection) помогает Google валидировать эту релевантность и усилить ассоциацию. Без начальной релевантности не будет показов и кликов; без кликов ассоциация останется слабой.
Как можно оптимизировать изображения для повышения CTR в Google Images?
Необходимо анализировать выдачу по целевым запросам и выявлять визуальные паттерны, доминирующие в топе. Создавайте уникальные, высококачественные изображения, которые четко передают суть контента. Используйте контрастные цвета, четкий фокус на объекте и избегайте визуального шума. Изображение должно быть привлекательным и выделяться.
Применяется ли этот механизм только к изображениям?
Хотя патент акцентирует внимание на изображениях (Mining Image Searches), в нем используется широкий термин Electronic Document. Теоретически, этот же принцип — использование кликов для валидации релевантности и перенос ассоциаций через схожесть — может применяться к видео, документам PDF или веб-страницам, если система может эффективно определять их схожесть.
Как система определяет, что два изображения похожи?
Патент не детализирует алгоритмы, но упоминает Document Comparison Module, который сравнивает изображения, текст, форматирование и паттерны. На практике это обычно реализуется через извлечение визуальных признаков и создание векторных эмбеддингов, где близкие векторы указывают на высокую степень схожести.
Описывает ли патент защиту от накрутки кликов (CTR)?
Нет, данный патент не фокусируется на механизмах борьбы со спамом или накрутками. Он описывает базовый механизм использования пользовательского выбора как сигнала релевантности. Можно предположить, что в реальной системе существуют отдельные механизмы для фильтрации недействительных кликов и аномального поведения.
Что такое «Content Page» в контексте Claim 1?
Content Page — это страница контента, отличная от страницы результатов поиска (SERP), хотя Claim 7 уточняет, что это может быть и SERP. В основном это относится к сайтам-партнерам (например, в Google Display Network), где может быть показана контекстная реклама. Патент описывает использование ассоциаций, полученных из поиска, для таргетинга на этих страницах.
Может ли этот механизм привести к тому, что популярное, но менее релевантное изображение будет ранжироваться выше?
Да, если система слишком сильно полагается только на клики. Если пользователи массово кликают на привлекательное, но неточное изображение (кликбейт), система может ошибочно усилить его ассоциацию с запросом. Однако поисковые системы обычно балансируют множество сигналов, включая сигналы удовлетворенности пользователя (например, короткие клики), чтобы предотвратить это.
Почему этот патент, основанный на заявках 2004 года, был выдан только в 2023?
Это патент-продолжение (Continuation Patent). Google продолжает развивать и защищать базовую технологию. Выдача патента в 2023 году с обновленной формулой изобретения (Claims), фокусирующейся на переносе ассоциаций через схожесть для таргетинга, указывает на то, что эти методы крайне актуальны и активно используются в текущих системах Google.