Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически определяет и предлагает наиболее релевантные области для увеличения на изображениях в поиске

    SMART SUGGESTIONS FOR IMAGE ZOOM REGIONS (Умные предложения областей масштабирования изображений)
    • US20250181632A1
    • Google LLC
    • 2025-06-05
    • 2021-06-01
    2021 Matthew Sharifi Victor Carbune Мультимедиа Патенты Google Персонализация

    Google использует систему для улучшения взаимодействия с изображениями в поиске. Анализируя запрос, исторические данные о поведении пользователей и личные предпочтения, система определяет наиболее релевантные объекты или детали на изображении. Эти области могут быть предложены как интерактивные подсказки или автоматически увеличены для экономии времени пользователя.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности и неудобства ручного масштабирования изображений в результатах поиска, особенно на мобильных устройствах с ограниченным размером экрана. Пользователи часто интересуются конкретными деталями или объектами интереса (object of interest) на изображении, но процесс ручной настройки местоположения и уровня увеличения требует времени, точности движений и расходует вычислительные ресурсы устройства.

    Что запатентовано

    Запатентована система для автоматического определения и предложения областей масштабирования (image zoom regions) на изображениях, возвращаемых в ответ на поисковый запрос. Система предсказывает, какие части изображения наиболее интересны пользователю, основываясь на самом запросе, агрегированном историческом поведении пользователей и персональных предпочтениях. Эти области предлагаются в виде интерактивных подсказок или используются для автоматического масштабирования изображения.

    Как это работает

    Система использует комбинацию анализа данных и машинного обучения для определения zoom regions:

    • Исторические данные: Анализ логов (historical data, zoom logs) о том, какие области на этом или похожих изображениях часто увеличивали другие пользователи.
    • Релевантность запросу: Определение областей на изображении, которые напрямую соответствуют поисковому запросу.
    • Персонализация: Учет предыдущего поведения и интересов конкретного пользователя (user preferences).
    • Машинное обучение: Использование моделей локализации объектов (например, CNN, SSD, RCNN), обученных на исторических данных, для предсказания областей интереса.

    Система может работать в нескольких режимах: показывать подсказки на превью изображений, показывать подсказки после выбора изображения пользователем или автоматически увеличивать изображение при показе в выдаче, если уровень уверенности (confidence level) высок.

    Актуальность для SEO

    Высокая. Улучшение пользовательского опыта в мобильном и визуальном поиске является ключевым приоритетом. Технологии, описанные в патенте (использование передовых ML-моделей для анализа изображений и предсказания интереса на основе поведения пользователей), активно развиваются. Способность идентифицировать релевантные части изображения для конкретного запроса крайне актуальна в контексте мультимодального поиска.

    Важность для SEO

    Влияние на SEO умеренное (4/10). Патент в первую очередь описывает улучшение пользовательского интерфейса (UX) и презентации результатов, а не алгоритмы ранжирования. Однако он имеет важное стратегическое значение, так как демонстрирует способность Google анализировать изображения на уровне объектов и собирать гранулярные поведенческие сигналы (действия по масштабированию). Это подчеркивает важность качества и композиции изображений для Image SEO.

    Детальный разбор

    Термины и определения

    Bounding Box (Ограничивающий прямоугольник)
    Область на изображении, определяющая границы объекта или Zoom Region. Является выходом моделей локализации объектов.
    Confidence Level (Уровень уверенности)
    Метрика, определяющая уверенность системы в том, что предложенный Zoom Region интересен пользователю. Используется для принятия решения об автоматическом увеличении.
    Historical Data / Zoom Logs (Исторические данные / Логи масштабирования)
    Записи о том, как пользователи взаимодействовали с изображениями в прошлом: какие области увеличивали, при каких запросах, с каким уровнем зума.
    Indication (Индикация / Подсказка)
    Визуальный элемент интерфейса (например, подсветка, рамка, иконка), накладываемый на изображение для обозначения предлагаемой zoom region.
    Machine Learning Model (Модель машинного обучения)
    Модели, используемые для предсказания Zoom Regions. Упоминаются Convolutional Neural Network (CNN) и модели локализации объектов, такие как Single-Shot Detector (SSD) и Recurrent Convolutional Neural Network (RCNN).
    Object of Interest (Объект интереса)
    Конкретный объект или информация на изображении, которую пользователь, вероятно, хочет рассмотреть подробнее.
    Query-Agnostic / Query-Specific (Независимые от запроса / Специфичные для запроса)
    Разделение Zoom Regions на те, что представляют общий интерес независимо от запроса, и те, что релевантны именно текущему запросу.
    Zoom Region (Область масштабирования)
    Область внутри изображения, которая идентифицирована системой как потенциально интересная для пользователя и предлагаемая для увеличения.

    Ключевые утверждения (Анализ Claims)

    Патент является заявкой (A1). Анализ основан на Claim 1 и описании различных вариантов реализации (embodiments).

    Claim 1 (Независимый пункт): Описывает базовый процесс предоставления подсказок для масштабирования (Вариант 1).

    1. Система получает поисковый запрос.
    2. Выполняется поиск, идентифицируются результаты, включающие изображения (image search results).
    3. Для данного изображения определяется как минимум одна область масштабирования (zoom region).
    4. Система предоставляет результаты поиска, включая данное изображение и индикацию (indication) этой области масштабирования.

    Интерпретация механизма (на основе зависимых пунктов и описания):

    • Взаимодействие: При получении ввода пользователя (выбор indication) система корректирует уровень масштабирования и центрирует изображение на выбранном zoom region (определенном через позицию, уровень зума или bounding box).
    • Источники данных: Zoom region может определяться на основе:
      • Метаданных (metadata) изображения, которые могут включать сопоставление между запросами и областями.
      • Исторических данных (historical data) о предыдущих увеличениях этого изображения в ответ на этот или похожий запрос.
      • Предпочтений пользователя (preference of a user), даже если они не связаны с запросом.

    Альтернативные варианты реализации (на основе описания):

    • Отложенное определение (Вариант 2): Система определяет и показывает indications только после того, как пользователь выбрал конкретное изображение для просмотра.
    • Автоматическое масштабирование (Вариант 3): Система предоставляет изображение уже в увеличенном виде (zoomed-in view), центрированном на zoom region, без взаимодействия пользователя. Это применяется, если confidence level превышает порог (confidence level threshold).

    Где и как применяется

    Изобретение затрагивает этапы индексирования (для предварительной обработки) и финальной презентации результатов (онлайн-обработка).

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходят офлайн-процессы:

    • Сбор и анализ исторических данных (Zoom Logs).
    • Кластеризация (clustering) и квантование (quantization) схожих действий пользователей для определения общих zoom regions.
    • Обучение моделей машинного обучения (CNN, SSD, RCNN) для предсказания zoom regions.
    • Идентификация Query-Agnostic Zoom Regions и сохранение их как метаданных изображения.

    RANKING – Ранжирование
    Search Engine определяет исходный набор изображений, релевантных запросу.

    METASEARCH – Метапоиск и Смешивание / RERANKING (Презентация)
    Основное применение патента происходит на этапе презентации результатов (Presentation Engine) в онлайн-режиме:

    • Система определяет Query-Specific Zoom Regions, используя ML-модели в реальном времени или извлекая данные из метаданных.
    • Система принимает решение о способе отображения (показывать индикацию или автоматически применить масштабирование), основываясь на confidence level.
    • Рендеринг финальной выдачи с модифицированным представлением изображений.

    Входные данные:

    • Поисковый запрос.
    • Набор изображений-кандидатов.
    • Исторические данные (Zoom Logs).
    • Модели машинного обучения и метаданные изображений.
    • Данные о предпочтениях пользователя (для персонализации).

    Выходные данные:

    • Страница результатов поиска (SERP), где изображения могут содержать графические индикации zoom regions ИЛИ могут быть показаны в предварительно увеличенном (pre-zoomed) виде.

    На что влияет

    • Конкретные типы контента: Изображения, где важны детали: схемы, диаграммы, фотографии товаров (eCommerce), фотографии с несколькими объектами. Патент также упоминает применимость к видео путем анализа ключевых кадров.
    • Специфические запросы: Запросы, направленные на поиск конкретных объектов, которые могут быть частью более крупного изображения.
    • Форматы контента: Поиск по картинкам (Image Search) и блоки изображений в универсальной выдаче.
    • Устройства: Наибольшее влияние на мобильные устройства из-за ограниченного размера экрана.

    Когда применяется

    • Триггеры активации: Система идентифицирует область на изображении, которая с высокой вероятностью соответствует запросу, часто увеличивается пользователями (historical data) или соответствует интересам пользователя.
    • Пороговые значения: Для автоматического масштабирования (Вариант 3) требуется, чтобы confidence level превышал пороговое значение (confidence level threshold).

    Пошаговый алгоритм

    Патент описывает три основных варианта реализации.

    Вариант 1: Подсказки на результатах поиска

    1. Получение запроса и поиск: Система получает запрос и находит релевантные изображения.
    2. Определение Zoom Regions: Для одного или нескольких изображений система определяет zoom regions (используя ML-модели или метаданные).
    3. Предоставление результатов: Система отображает результаты поиска. Изображения содержат графические индикации (подсветка, иконки) определенных zoom regions.
    4. Взаимодействие пользователя: Пользователь выбирает (нажимает) на одну из индикаций.
    5. Автоматическое масштабирование: Система корректирует уровень зума и центрирует изображение на выбранной области.

    Вариант 2: Подсказки после выбора изображения

    1. Получение запроса, поиск и предоставление результатов: Система отображает результаты поиска (без подсказок).
    2. Выбор изображения пользователем: Пользователь выбирает конкретное изображение для просмотра.
    3. Определение Zoom Regions (На лету): В ответ на выбор пользователя система определяет zoom regions для этого изображения.
    4. Отображение индикаций: На выбранном изображении отображаются графические индикации zoom regions.
    5. Взаимодействие пользователя и масштабирование.

    Вариант 3: Автоматическое масштабирование при показе

    1. Получение запроса и поиск.
    2. Определение Zoom Region и оценка уверенности: Система определяет zoom region и вычисляет confidence level.
    3. Проверка порога: Если confidence level превышает порог.
    4. Предоставление результатов (Авто-зум): Система предоставляет результаты поиска, при этом данное изображение сразу отображается в увеличенном виде, центрированном на zoom region.
    5. Индикация и управление: Система может предоставить индикацию того, что изображение увеличено, и элементы управления для изменения масштаба.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Ключевые данные):
      • Логи масштабирования (Zoom Logs / Historical Data): Агрегированные данные о том, какие области изображений увеличивают пользователи (позиция, уровень зума) в контексте конкретных запросов или без них.
      • Персонализированная история: История масштабирования конкретного пользователя.
      • Другие сигналы интереса: История веб-поиска, просмотров видео, покупок, путешествий (используются для определения User Preferences при персонализации).
    • Мультимедиа факторы: Пиксельные данные изображений (используются как входные данные для моделей машинного обучения).
    • Системные данные: Поисковые запросы (используются для определения контекста и как вход для ML-моделей); Метаданные изображений.

    Какие метрики используются и как они считаются

    • Модели машинного обучения:
      • Используются Convolutional Neural Networks (CNN).
      • Специализированные модели локализации объектов: SSD (Single-Shot Detector), RCNN (Recurrent Convolutional Neural Network).
      • Модели обучаются на Zoom Logs для предсказания Bounding Boxes. Модели могут быть мультимодальными (multimodal), принимая на вход как изображение, так и текст запроса.
    • Кластеризация и Квантование (Clustering/Quantization): Используются в офлайн-процессе для обработки Zoom Logs. Система группирует схожие взаимодействия разных пользователей в один кластер, представляющий общий Zoom Region.
    • Confidence Level (Уровень уверенности): Метрика, рассчитываемая для каждого предложенного Zoom Region. Может основываться на выходе ML-модели или статистических данных.
    • Confidence Level Threshold: Пороговое значение для Confidence Level. Если порог превышен, система может активировать автоматическое масштабирование (Вариант 3).

    Выводы

    1. Гранулярное понимание изображений (Intra-Image Relevance): Патент подтверждает способность Google сегментировать изображения на отдельные объекты (Objects of Interest) и понимать, какая часть изображения наиболее релевантна конкретному запросу или пользователю.
    2. Активное использование поведенческих данных: Исторические данные о взаимодействии (Zoom Logs) активно собираются и используются для обучения ML-моделей. Google измеряет, что именно пользователи хотят рассмотреть детальнее.
    3. Мультимодальный анализ в действии: Система использует мультимодальные ML-модели, которые анализируют одновременно изображение и текст запроса для определения наиболее релевантных областей.
    4. Персонализация на уровне взаимодействия: Персонализация (User Preferences) учитывается не только при ранжировании, но и при определении того, как именно показать результат. Система может предложить увеличить разные части одного изображения разным пользователям.
    5. Изменение презентации результатов (Auto-Zoom): Google готов изменять стандартное отображение результатов (показывать увеличенную часть вместо целого превью), если уверенность в интенте высока (Confidence Level). Это может существенно влиять на визуальную привлекательность и CTR результата в выдаче.

    Практика

    Best practices (это мы делаем)

    Хотя патент фокусируется на UX функции поисковой системы, он дает важные инсайты для стратегии работы с изображениями (Image SEO).

    • Четкость основного объекта (Оптимизация для ML): Используйте изображения, на которых основной объект (релевантный целевому запросу) является четким, визуально доминирующим и легко идентифицируемым системами локализации объектов (Object Localization Models). Это увеличивает вероятность того, что система корректно определит его как Zoom Region.
    • Высокое разрешение и детализация: Предоставляйте изображения в высоком разрешении. Если система предлагает пользователю увеличить часть изображения, важно, чтобы эта часть была детализированной и качественной, удовлетворяя интент пользователя. Это критично для e-commerce и технических диаграмм.
    • Композиция, фокусирующая внимание: Выстраивайте композицию изображения так, чтобы она естественным образом фокусировала внимание на главном объекте. Это может коррелировать с тем, что увеличивают пользователи, тем самым обучая систему (через Zoom Logs) распознавать эту область как важную.

    Worst practices (это делать не надо)

    • Перегруженные и хаотичные изображения: Использование изображений с большим количеством несвязанных объектов затрудняет для системы определение основного фокуса. Это снижает вероятность корректного определения Zoom Region.
    • Основной объект не в фокусе или мал: Размещение релевантного объекта на заднем плане или в малом размере может привести к тому, что система не идентифицирует его как Object of Interest.
    • Визуальный кликбейт: Использование изображений, где наиболее заметный (салиентный) элемент не является релевантным запросу. Система может ошибочно предложить увеличить нерелевантную часть, что приведет к неудовлетворенности пользователя.
    • Низкое качество изображений: Использование изображений низкого разрешения делает функцию масштабирования бессмысленной и ухудшает UX.

    Стратегическое значение

    Патент подчеркивает стратегическую важность качества и композиции визуального контента в SEO. По мере того как Google все глубже понимает содержание изображений на уровне отдельных объектов (используя Computer Vision) и их связь с запросами, оптимизация изображений становится более технической. Стратегия должна включать создание визуальных активов, которые не только привлекательны для людей, но и легко интерпретируются алгоритмами машинного зрения.

    Практические примеры

    Сценарий 1: Оптимизация изображения товара для eCommerce (Пример Auto-Zoom)

    Задача: Продажа конкретной модели кроссовок «Nike Air Max 90».

    1. Действие: Разместить высококачественное фото, где кроссовки показаны крупным планом на контрастном фоне.
    2. Механизм (Как работает Google):
      • Пользователи ищут «Nike Air Max 90».
      • Алгоритмы локализации объектов (SSD/RCNN) легко идентифицируют кроссовки на фото благодаря четкой композиции и сопоставляют с запросом.
      • Confidence Level высокий.
    3. Результат (Вариант 3 патента): В поиске по картинкам Google может автоматически применить масштабирование (Auto-Zoom), показывая в превью сразу увеличенное изображение кроссовок. Это делает результат более заметным и релевантным, повышая CTR.

    Сценарий 2: Информационная статья с диаграммой (Пример Подсказки)

    Задача: Показать, как работает двигатель внутреннего сгорания.

    1. Действие: Использовать четкую, детализированную схему двигателя.
    2. Механизм (Как работает Google):
      • Пользователь ищет «как работает клапан EGR».
      • Система анализирует общую схему двигателя.
      • На основе historical data (другие пользователи часто увеличивали эту область при схожих запросах) система определяет Zoom Region вокруг клапана EGR.
    3. Результат (Вариант 1 патента): В результатах поиска на схеме появляется интерактивная подсказка (например, подсветка) вокруг клапана EGR. Пользователь может нажать на нее для быстрого увеличения этой конкретной детали.

    Вопросы и ответы

    Влияет ли описанный механизм на ранжирование изображений?

    Патент не описывает использование Zoom Regions как прямого фактора ранжирования. Это в первую очередь механизм улучшения пользовательского опыта (UX) и презентации результатов. Однако улучшение UX и повышение вовлеченности пользователей (если они чаще взаимодействуют с полезными подсказками) может косвенно влиять на поведенческие сигналы, которые учитываются поисковой системой.

    Что такое «Автоматическое масштабирование» (Auto-Zoom) и как оно влияет на вид в SERP?

    Это Вариант 3 реализации патента. Если система имеет высокий уровень уверенности (Confidence Level) в релевантности определенной части изображения, она может сразу показать изображение в увеличенном виде в результатах поиска. Это означает, что превью изображения в SERP будет обрезано и увеличено. Это может значительно повысить визуальную привлекательность и CTR результата.

    Как Google определяет, какие области изображения интересны пользователям?

    Используется комбинация трех основных методов. Во-первых, анализ релевантности области тексту запроса с помощью мультимодальных ML-моделей. Во-вторых, анализ агрегированных исторических данных (Zoom Logs) о том, что увеличивали другие пользователи. В-третьих, персонализация на основе известных интересов и предыдущего поведения конкретного пользователя.

    Какие технологии машинного обучения упоминаются в патенте?

    Упоминаются сверточные нейронные сети (CNN) и специализированные модели локализации объектов. Конкретно названы SSD (Single-Shot Detector) и RCNN (Recurrent Convolutional Neural Network). Эти модели принимают на вход изображение и выдают ограничивающие прямоугольники (Bounding Boxes) для объектов интереса.

    Как SEO-специалист может повлиять на то, какие области Google предложит увеличить на моих изображениях?

    Напрямую контролировать это нельзя, но можно оптимизировать изображения. Используйте четкую композицию, где главный объект визуально доминирует и находится в фокусе. Это облегчает работу моделей локализации объектов и увеличивает вероятность того, что пользователи будут фокусироваться именно на этом объекте. Со временем система обучится на этом поведении (Zoom Logs).

    Используется ли этот механизм только в поиске по картинкам?

    Патент описывает применение в контексте результатов поиска (search results), что включает как специализированный поиск по картинкам, так и блоки изображений в универсальной веб-выдаче. Также упоминается возможность применения технологии при просмотре пользователем собственной фотогалереи (Photo Viewer Application).

    Что делать, если Google автоматически увеличивает не ту часть изображения?

    Это указывает на то, что система считает эту часть наиболее релевантной запросу или наиболее визуально заметной. Если это не соответствует вашим целям, необходимо пересмотреть композицию изображения. Возможно, основной объект слишком мал, нечеток или есть другой, более доминирующий элемент, который перетягивает на себя внимание алгоритмов и пользователей.

    Требуются ли для работы этого механизма изображения высокого разрешения?

    Да, это крайне рекомендуется. Цель механизма – позволить пользователю рассмотреть детали (finer details). Если при увеличении Zoom Region пользователь увидит пикселизированное или нечеткое изображение, это приведет к негативному пользовательскому опыту. Высокое разрешение критично для эффективности этой функции.

    Может ли система предложить несколько областей для увеличения на одном изображении?

    Да. В патенте указано определение «как минимум одной» (at least one zoom region) области. Если на изображении есть несколько объектов интереса, система может предоставить несколько графических индикаций (подсказок), позволяя пользователю выбрать, какую именно деталь он хочет рассмотреть.

    Может ли эта технология применяться к видео?

    Да, в описании патента упоминается возможность применения к видео. Система может обрабатывать видео как коллекцию изображений, идентифицируя и извлекая ключевые кадры (key frames). Затем эти кадры индексируются и обрабатываются так же, как обычные изображения, с определением областей масштабирования.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.