Google использует комплексный подход к визуальному поиску. Система строит персональный Граф Визуальных Интересов пользователя для персонализации выдачи и проактивных рекомендаций. Она анализирует композицию кадра и контекст (например, окружающий текст), чтобы определить, ищет ли пользователь конкретный объект или категорию, а также объединяет несколько сущностей в сложный составной запрос, обеспечивая более точный ответ.
Описание
Какую задачу решает
Патент решает ключевые ограничения традиционных систем визуального поиска, которые часто фокусируются только на визуальном сходстве (пикселях), игнорируя истинное намерение пользователя. Он адресует проблему определения гранулярности запроса: ищет ли пользователь конкретный объект на фото, общую категорию или информацию о комбинации нескольких сущностей. Кроме того, он решает проблему перегруженности интерфейса (например, в Google Lens/AR) путем персонализированной фильтрации результатов на основе интересов пользователя.
Что запатентовано
Запатентована система интеллектуальной обработки визуальных запросов, которая интегрирует распознавание объектов с глубоким анализом контекста и персонализацией. Система строит User-Centric Visual Interest Graph для понимания предпочтений пользователя. Она анализирует Compositional Characteristics (композицию кадра) для определения интента и использует внешние Contextual Signals (метаданные, окружающий веб-контент) для формирования сложных составных запросов (Composed Queries) и выбора нескольких связанных элементов (Multiple Canonical Items).
Как это работает
Система работает через несколько взаимосвязанных механизмов:
- Персонализация (Visual Interest Graph): На основе прошлых взаимодействий пользователя с изображениями строится граф интересов. Он используется для ранжирования и фильтрации результатов визуального поиска (например, уведомлений Gleams в AR) и для проактивных рекомендаций в лентах (Feeds).
- Дисамбигуация (Объект vs Категория): Система анализирует Compositional Characteristics кадра (центрирование, угол, расстояние), чтобы определить, является ли запрос object-specific или categorical.
- Составные сущности (Composed Entities): Система объединяет несколько распознанных сущностей на фото и использует контекст (например, текст на исходной веб-странице) для генерации сложного Composed Query (например, «Актер А на Мероприятии Б»).
- Множественные канонические элементы (Multiple Canonical Items): Вместо фокусировки на одном объекте, система идентифицирует связанные сущности в графе (например, продукт и бренд) и возвращает комбинированный набор контента.
Актуальность для SEO
Критически высокая. Патент описывает фундаментальные механизмы, лежащие в основе современных систем визуального поиска, таких как Google Lens, и проактивных лент, таких как Google Discover. По мере роста значимости визуального и мультимодального поиска, понимание этих механизмов становится необходимым для SEO.
Важность для SEO
Патент имеет критическое значение (9/10) для SEO, особенно для E-commerce, издателей и любого бизнеса, полагающегося на визуальный контент. Он демонстрирует, что оптимизация под визуальный поиск выходит далеко за рамки базовых атрибутов изображений. Ключевое значение приобретают контекст, в котором изображение размещено, композиция самого изображения, связи между сущностями (Structured Data) и история взаимодействия пользователя с визуальным контентом бренда.
Детальный разбор
Термины и определения
- Categorical Query (Категориальный запрос)
- Визуальный запрос, целью которого является получение информации об общей категории объектов, а не о конкретных экземплярах на фото.
- Compositional Characteristics (Композиционные характеристики)
- Атрибуты изображения, используемые для определения интента. Включают расстояние до объекта, количество объектов, их сходство друг с другом, угловую ориентацию и центрирование в кадре.
- Composed Query (Составной запрос)
- Запрос, сгенерированный системой на основе комбинации нескольких сущностей, распознанных на изображении и в его контексте.
- Contextual Signals (Контекстуальные сигналы)
- Информация, не содержащаяся в пикселях, но используемая для интерпретации запроса. Включает местоположение, время, метаданные, текст на исходной веб-странице, данные предварительного поиска.
- Gleams / Visual Result Notifications (Визуальные уведомления)
- Визуальные индикаторы результатов поиска, накладываемые поверх изображения (например, в Google Lens или AR).
- Multiple Canonical Items (Несколько канонических элементов)
- Несколько связанных сущностей разной гранулярности, идентифицированных в ответ на один визуальный запрос (например, конкретная модель обуви, бренд, стиль).
- Object-Specific Query (Объектно-специфичный запрос)
- Визуальный запрос, относящийся строго к конкретным объектам, идентифицированным на изображении.
- User-Centric Visual Interest Graph (Пользовательский граф визуальных интересов)
- Структура данных, представляющая визуальные интересы пользователя, построенная на основе анализа изображений, с которыми он взаимодействовал ранее. Используется для персонализации. Веса интересов могут затухать со временем (time decay).
Ключевые утверждения (Анализ Claims)
Примечание: Патент US12339896B2 является дивизиональным (divisional). Его Описание (Description) охватывает широкий спектр функций (персонализация, дисамбигуация, составные запросы). Однако его Формула изобретения (Claims 1-20) сфокусирована конкретно на механизме возврата комбинированного набора контента для нескольких элементов с использованием иерархического графа визуальных интересов.
Claim 1 (Независимый пункт): Описывает метод возврата комбинированного контента с использованием персонализированного иерархического графа.
- Система получает визуальный запрос (изображение объекта).
- Система получает user-centric visual interest graph, специфичный для пользователя. Этот граф имеет иерархическую структуру (hierarchical representation).
- Система выбирает несколько элементов из этого графа:
- Идентифицирует основной элемент (primary item), соответствующий объекту на фото.
- Идентифицирует дополнительные элементы (additional items), связанные с основным в рамках иерархии.
- Система возвращает комбинированный набор контента (combined set of content), включающий контент для всех выбранных элементов (основного и дополнительных).
Ядро изобретения — использование персонализированной иерархии для намеренного расширения результатов поиска за пределы одного распознанного объекта.
Claims 2-3 (Зависимые): Уточняют, что контент может быть пользовательским (user-generated content), например, отзывами (product reviews).
Claim 9 (Зависимый): Система анализирует пользовательский контент для определения уровня его визуальной описательности (level of visual descriptiveness) и использует этот уровень для принятия решения о включении контента в финальный набор результатов.
Claims 5-7 (Зависимые): Описывают альтернативную структуру графа (не иерархическую), основанную на визуальном сходстве (visual similarity) между индексированными изображениями. Выбор элементов происходит через алгоритм порогового значения ребер (edge threshold algorithm) для идентификации кластеров похожих изображений.
Где и как применяется
Изобретение охватывает широкий спектр механизмов, применяемых на разных этапах обработки визуального запроса в системах типа Google Lens и Google Discover.
INDEXING – Индексирование и извлечение признаков
Офлайн-процессы: Построение и обновление User-Centric Visual Interest Graph на основе истории взаимодействий пользователя с изображениями. Индексация изображений, извлечение визуальных признаков и эмбеддингов.
QUNDERSTANDING – Понимание Запросов
Основной этап применения. При получении визуального запроса система:
- Распознает объекты и текст (OCR).
- Анализирует Contextual Signals (источник, метаданные, локация).
- Анализирует Compositional Characteristics (композицию кадра).
- Определяет интент (Object-Specific vs. Categorical).
- Формирует Composed Queries или определяет Multiple Canonical Items в графе.
RANKING / RERANKING – Ранжирование и Переранжирование
Ранжирование кандидатов с учетом весов из User-Centric Visual Interest Graph (персонализация). Агрегация Combined Set of Content для нескольких элементов. Фильтрация результатов (например, UGC по критерию описательности) и фильтрация визуальных уведомлений (Gleams) для предотвращения перегрузки интерфейса.
Входные данные:
- Изображение или видеопоток (Визуальный запрос).
- Данные пользователя (Visual Interest Graph).
- Контекстуальные сигналы (местоположение, время, метаданные, данные об источнике изображения).
Выходные данные:
- Ранжированный набор результатов поиска, включающий контент для нескольких связанных сущностей.
- Визуальные уведомления (Gleams), наложенные на изображение.
- Контент для проактивных лент рекомендаций (Feeds).
На что влияет
- E-commerce и товары: Критическое влияние. Система определяет, показывать ли результаты для конкретного товара, категории или бренда. Влияет на видимость отзывов (UGC).
- Медиа и развлечения: Используется для распознавания людей, медиа-продуктов и генерации сложных запросов о событиях и персоналиях (Composed Queries).
- Проактивные ленты (Discover): Visual Interest Graph используется для подбора контента на основе визуальных предпочтений пользователя без явного запроса.
Когда применяется
- Триггеры активации: При любом использовании функций визуального поиска (Google Lens) или при генерации контента для проактивных лент.
- Условия работы: Механизмы персонализации требуют наличия истории пользователя. Механизмы дисамбигуации и составных запросов активируются при наличии соответствующих сигналов в композиции изображения и его контексте.
Пошаговый алгоритм
Обобщенный алгоритм интеллектуальной обработки визуального запроса:
- Получение данных: Получение визуального запроса (изображения) и Contextual Signals.
- Распознавание и Анализ:
- Идентификация сущностей (объектов, текста) с помощью ML-моделей и OCR.
- Извлечение Compositional Characteristics (центрирование, углы, расстояние).
- Определение Интента и Формулирование Запроса: Система выбирает путь обработки:
- Дисамбигуация: Определение, является ли запрос Object-Specific или Categorical на основе композиции.
- Композиция: Генерация Composed Query, если обнаружено несколько значимых сущностей и контекст указывает на их связь.
- Расширение: Идентификация основного элемента (Primary Item) и поиск связанных дополнительных элементов (Additional Items) в графе.
- Получение и Агрегация Контента: Извлечение контента для сформулированных запросов или выбранных элементов.
- Персонализированное Ранжирование и Фильтрация:
- Ранжирование результатов с использованием весов из User-Centric Visual Interest Graph.
- Фильтрация контента (например, UGC на основе Level of Visual Descriptiveness).
- Фильтрация уведомлений (Gleams) для предотвращения перегрузки интерфейса.
- Предоставление Результатов: Предоставление комбинированного набора контента или отфильтрованных визуальных уведомлений.
Какие данные и как использует
Данные на входе
- Контентные факторы (Визуальные): Пиксельные данные, визуальные эмбеддинги, детекции объектов, распознанный текст (OCR).
- Контентные факторы (Текстуальные / Контекстные): Текст, окружающий изображение на исходной веб-странице. Текстовые метаданные (captions). Сопутствующий текстовый или голосовой запрос.
- Технические факторы: Данные камеры/сенсоров, используемые для оценки Compositional Characteristics. Метаданные EXIF.
- Пользовательские факторы: История взаимодействий пользователя с изображениями (просмотры, клики, загрузки, скриншоты), используемая для построения User-Centric Visual Interest Graph.
- Географические факторы: Местоположение пользователя или место съемки как Contextual Signal.
Какие метрики используются и как они считаются
- Веса интересов (Interest Weights): Переменные веса в Visual Interest Graph, отражающие уровень интереса пользователя. Упоминается, что эти веса могут затухать со временем (decays over time).
- Метрики композиции кадра (Compositional Characteristics): Численные значения для центрирования (например, отношение расстояний до краев кадра), угловой ориентации, оценки расстояния, количества объектов, сходства объектов.
- Уровень визуальной описательности (Level of visual descriptiveness): Метрика, рассчитываемая путем семантического анализа слов в пользовательском контенте (например, отзывах) (Claim 9).
- Визуальное сходство (Visual Similarity): Используется для построения альтернативных графов (Claim 5). Рассчитывается как расстояние между визуальными эмбеддингами.
- Алгоритмы: Edge threshold algorithm для кластеризации в графах сходства.
Выводы
- Визуальный поиск глубоко персонализирован: User-Centric Visual Interest Graph является центральным элементом системы. Результаты визуального поиска и проактивные рекомендации (Feeds) фильтруются на основе истории визуальных взаимодействий пользователя.
- Google активно интерпретирует интент, а не просто ищет похожие картинки: Система использует сложные механизмы для определения гранулярности запроса. Она решает, ищет ли пользователь конкретный объект (Object-Specific), категорию (Categorical) или комбинацию сущностей (Composed Entities).
- Композиция кадра является сигналом интента: То, как сделана фотография (центрирование, угол, расстояние — Compositional Characteristics), используется Google как прямой сигнал для понимания того, что именно интересует пользователя на изображении.
- Контекст критически важен для интерпретации: Contextual Signals (где изображение найдено, окружающий текст, метаданные, локация) играют решающую роль в формировании финального запроса (Composed Query). Изображение не интерпретируется в вакууме.
- Приоритет комбинированных результатов (Multiple Canonical Items): Система предпочитает возвращать контент сразу для нескольких связанных иерархических сущностей (например, продукт и бренд), чтобы полнее удовлетворить интент пользователя.
Практика
Best practices (это мы делаем)
- Оптимизация композиции изображений под интент:
- Для карточек товаров (PDP): Используйте четкие, центрированные изображения продукта крупным планом. Это сигнализирует об Object-Specific интенте.
- Для категорий или блогов: Используйте «lifestyle» изображения или фото коллекций, которые могут сигнализировать о Categorical интенте.
- Усиление контекста изображения на веб-странице: Гарантируйте, что изображения размещены в семантически релевантном текстовом окружении. Текст должен четко описывать связи между сущностями на фото (например, Актер А в Костюме Б на Мероприятии В). Это критично для формирования Composed Queries.
- Усиление связей между сущностями (Structured Data): Используйте разметку Schema.org для явного указания иерархических связей между элементами (продукт, бренд, категория). Это поможет системе корректно идентифицировать Multiple Canonical Items (Claim 1).
- Оптимизация пользовательского контента (UGC) на визуальную описательность: Поощряйте пользователей оставлять отзывы, которые детально описывают внешний вид и характеристики продукта. Система оценивает level of visual descriptiveness (Claim 9).
- Построение визуальной связи с брендом (для Discover): Стимулируйте пользователей взаимодействовать с вашим визуальным контентом. Это повышает вес вашего контента в их Visual Interest Graph и улучшает видимость в персонализированном поиске и проактивных лентах.
Worst practices (это делать не надо)
- Изоляция изображений от контекста: Размещение изображений без сопроводительного текста или в нерелевантных разделах сайта ухудшает способность системы понять их значение и связать с другими сущностями.
- Использование неоднозначных изображений для продуктов: Изображения, на которых сложно выделить объект или которые имеют сложную композицию, могут быть неверно интерпретированы как категориальные запросы.
- Игнорирование структуры сайта и связей сущностей: Отсутствие четкой иерархии и связей между контентом не позволит воспользоваться механизмом Multiple Canonical Items.
Стратегическое значение
Патент подтверждает, что визуальный поиск является одним из стратегических приоритетов Google и становится все более сложным, персонализированным и контекстно-зависимым. Для SEO это означает необходимость перехода от базовой оптимизации изображений к комплексной стратегии визуального контента. Эта стратегия должна учитывать персонализацию (Visual Interest Graph), контекстуальное окружение, композицию кадра и четкое представление сущностей и их связей в Knowledge Graph.
Практические примеры
Сценарий 1: E-commerce и дисамбигуация интента через композицию
- Задача: Оптимизировать карточку товара (кроссовки) для точного распознавания модели.
- Действия: Разместить основное изображение: четкое, центрированное, снятое под прямым углом (90 градусов), крупным планом.
- Обоснование (по патенту): Эти Compositional Characteristics (центрирование, угол, расстояние) максимизируют сигналы для Object-Specific запроса.
- Ожидаемый результат: Когда пользователь ищет через Google Lens по этому фото, система распознает точный интент и возвращает результаты для этой конкретной модели, а не для категории «кроссовки».
Сценарий 2: Издатель и составные сущности (Composed Entities)
- Задача: Оптимизировать новостную статью о технологической конференции.
- Действия: Использовать фотографию, где ключевые спикеры (например, CEO двух компаний) стоят вместе на фоне логотипа конференции. В подписи к фото (caption) и в тексте рядом с фото явно упомянуть имена всех спикеров и название мероприятия.
- Обоснование (по патенту): Система распознает несколько сущностей (CEO 1, CEO 2, Конференция). Используя Contextual Signals из статьи (текст рядом с фото), система генерирует Composed Query.
- Ожидаемый результат: При визуальном поиске по этому фото Google вернет результаты о совместном выступлении или партнерстве (например, «Сотрудничество CEO 1 и CEO 2 на Конференции 2025»), а не просто биографии спикеров.
Вопросы и ответы
Что такое Граф Визуальных Интересов (Visual Interest Graph) и как он влияет на SEO?
Это персонализированный профиль, который Google строит для пользователя на основе изображений, с которыми он взаимодействовал (смотрел, кликал, сохранял, фотографировал). Для SEO это означает, что результаты визуального поиска и рекомендации в Discover сильно персонализированы. Ваша задача — создавать привлекательный визуальный контент, чтобы пользователи взаимодействовали с ним, тем самым увеличивая вес вашего бренда в их личных графах интересов.
Как Google определяет, ищет ли пользователь конкретный товар на фото или категорию товаров?
Google анализирует Compositional Characteristics (композицию кадра). Если объект четкий, центрированный, снят близко и под прямым углом, это сигнал для объектно-специфичного поиска. Если объектов много, они сняты издалека или под углом, это сигнал для категориального поиска. Также учитывается контекст, например, местоположение пользователя (магазин vs дом).
Что такое «Compositional Characteristics» и как SEO-специалист может на них повлиять?
Это характеристики кадра: центрирование, угол съемки, расстояние до объекта, количество объектов. SEO-специалист может контролировать изображения на своем сайте. Для карточек товаров следует использовать изображения, сигнализирующие объектный интент (четкие, центрированные), а для блогов или разделов категорий — изображения, отвечающие категориальному интенту.
Как работает механизм составных запросов (Composed Queries) и почему важен контекст на странице?
Если на изображении распознано несколько сущностей (например, два человека и место), система пытается понять связь между ними. Для этого она активно использует Contextual Signals, включая текст, окружающий изображение на веб-странице. Если текст описывает взаимодействие этих сущностей, Google сформирует сложный запрос, объединяющий их. Поэтому критически важно размещать изображения в релевантном текстовом окружении.
Что означает концепция «Multiple Canonical Items» для E-commerce?
Это означает, что Google в ответ на фото товара может вернуть результаты не только для этого конкретного товара, но и для связанных иерархических сущностей: категории, бренда или связанных аксессуаров. Для E-commerce это подчеркивает важность наличия качественного контента на всех уровнях иерархии и использования структурированных данных для связи этих сущностей.
Как этот патент влияет на оптимизацию отзывов (UGC)?
Патент указывает (Claim 9), что система анализирует UGC (например, отзывы), чтобы определить его «уровень визуальной описательности». Отзывы, которые хорошо описывают внешний вид продукта, могут быть предпочтительнее при ранжировании результатов визуального поиска. Стоит мотивировать пользователей оставлять детальные отзывы о визуальных характеристиках товаров.
Что такое «Gleams» и почему Google их фильтрует?
«Gleams» (или Visual Result Notifications) — это визуальные уведомления или точки интереса, которые появляются поверх изображения в интерфейсах типа Google Lens. Если система распознает слишком много объектов, интерфейс становится перегруженным. Google использует Visual Interest Graph для агрессивной фильтрации этих уведомлений, показывая только наиболее релевантные интересам пользователя.
Могут ли интересы пользователя в графе устаревать?
Да, в патенте упоминается, что веса интересов в Visual Interest Graph могут затухать со временем (decays over time). Это означает, что система адаптируется к изменениям в интересах пользователя. Для SEO это подчеркивает необходимость постоянного вовлечения аудитории свежим визуальным контентом.
В чем разница между иерархическим графом и графом визуального сходства?
Иерархический граф (используется в Claim 1) организует элементы по смысловым связям и уровням абстракции (например, Бренд -> Линейка -> Продукт). Граф визуального сходства (упоминается в Claim 5) организует изображения на основе их внешнего вида (цвета, формы, эмбеддинги) и используется для поиска похожих по стилю объектов.
Применяются ли эти механизмы только при активном поиске через Google Lens?
Нет. Механизмы распознавания и, в частности, Visual Interest Graph, используются также для проактивного предложения контента, например, в лентах рекомендаций (Google Discover), даже если пользователь не инициировал конкретный поисковый запрос.