Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует касания пользователя для фокусировки алгоритмов визуального поиска и оптимизации распознавания объектов

    VISUAL RECOGNITION USING USER TAP LOCATIONS (Визуальное распознавание с использованием местоположения касания пользователя)
    • US20240330372A1
    • Google LLC
    • 2024-10-03
    • 2016-06-28
    2016 Matthew Sharifi Мультимедиа Патенты Google Персонализация Поведенческие сигналы

    Google оптимизирует визуальный поиск (например, Google Lens), анализируя, куда пользователь нажимает на изображении. Система направляет основные вычислительные ресурсы (мощные нейросети, детальный OCR) на выбранную область, а остальную часть изображения обрабатывает в экономном режиме. Это позволяет точно определить интересующую пользователя сущность и сформировать релевантные текстовые запросы.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективного использования вычислительных ресурсов и неоднозначности контента при визуальном поиске. Анализ всего изображения с высокой интенсивностью ресурсоемок и может занимать много времени. Кроме того, на сложных изображениях системе трудно определить истинное намерение пользователя. Изобретение позволяет пользователю явно указать объект интереса (через касание), что повышает точность распознавания релевантного объекта и скорость ответа.

    Что запатентовано

    Запатентована система визуального поиска, которая использует ввод пользователя (касание или клик на изображении) для динамического распределения вычислительной мощности (processing power). Система применяет более интенсивные и точные методы распознавания (например, более мощный OCR или более глубокие нейросети) к выбранной области и менее интенсивные методы к остальной части изображения.

    Как это работает

    Система работает следующим образом:

    • Получение ввода: Пользователь загружает изображение (Query Image) и указывает область интереса касанием (User Tap Location).
    • Фокусировка обработки: Система определяет зону интереса на основе касания (например, путем обрезки или выделения области).
    • Дифференцированное распознавание: К выбранной области применяются ресурсоемкие алгоритмы (например, First OCR operation с большей мощностью). К остальным областям применяются экономичные методы (Second OCR operation).
    • Идентификация сущностей: Система идентифицирует сущности (Entities), причем сущности, близкие к касанию, получают приоритет.
    • Генерация ответа: На основе приоритетных сущностей генерируется информация (например, Knowledge Card) или предлагаемые поисковые запросы (Suggested Search Queries).

    Актуальность для SEO

    Высокая. Визуальный поиск (например, Google Lens) активно развивается и интегрируется в мобильные и веб-интерфейсы. Эффективность, скорость и точность распознавания объектов являются ключевыми приоритетами. Механизмы, описанные в патенте, напрямую связаны с улучшением пользовательского опыта и оптимизацией ресурсов в этих продуктах.

    Важность для SEO

    Влияние на SEO оценивается как высокое (75/100), особенно для стратегий, связанных с визуальным поиском. Патент раскрывает, как Google интерпретирует намерения пользователя при взаимодействии с изображением. Это критически важно для оптимизации изображений в e-commerce, издательском деле и локальном поиске, поскольку влияет на то, какие сущности Google свяжет с изображением и какие текстовые запросы он из него сгенерирует.

    Детальный разбор

    Термины и определения

    Query Image (Изображение-запрос)
    Изображение, предоставленное пользователем в качестве входных данных для визуального поиска.
    User Tap Location (Местоположение касания пользователя)
    Координаты или область на Query Image, которую пользователь выбрал (коснулся, кликнул) для указания объекта интереса.
    Recognition Engine (Механизм распознавания)
    Компонент системы, отвечающий за идентификацию сущностей на изображении. Может использовать нейросети, OCR, сопоставление дескрипторов.
    OCR (Optical Character Recognition) (Оптическое распознавание символов)
    Технология извлечения текста из изображений. В патенте ключевую роль играет использование OCR разной мощности (вычислительной стоимости) для разных областей изображения.
    Entity (Сущность)
    Распознанный объект, концепция, место или персона (например, «The Gherkin», «Майкл Джордан»).
    Knowledge Engine (Механизм знаний)
    Компонент, который хранит информацию о сущностях и связанные с ними поисковые запросы (например, Knowledge Graph).
    Suggested/Candidate Search Query (Предлагаемый/Кандидатный поисковый запрос)
    Текстовый запрос, сгенерированный системой на основе распознанной сущности (например, «Высота The Gherkin?»).
    Relevance Score (Оценка релевантности)
    Метрика, используемая для ранжирования предлагаемых запросов. Учитывает близость сущности к касанию, популярность запроса, контекст и т.д.
    Descriptor Matching Engine (Механизм сопоставления дескрипторов)
    Система, которая извлекает визуальные дескрипторы (особенности) из изображения и сопоставляет их с базой данных.
    Neural Network (Нейронная сеть)
    Модель машинного обучения для распознавания образов. В патенте упоминаются «глубокие» (deep) и «более мелкие» (shallower) сети, соответствующие высокой и низкой вычислительной мощности.

    Ключевые утверждения (Анализ Claims)

    Анализ фокусируется на Claims, представленных в данной публикации (US20240330372A1).

    Claim 1 (Независимый пункт): Описывает основной метод дифференцированной обработки OCR на основе касания пользователя.

    1. Система получает изображение-запрос (Query Image).
    2. Система получает ввод от пользователя (User Input), выбирающий часть изображения.
    3. Система получает результаты поиска и предлагаемый запрос (Suggested Search Query) на основе двух операций OCR:
      • Первая операция OCR выполняется для обнаружения текста в первой области изображения, связанной с выбранной пользователем частью.
      • Вторая операция OCR выполняется для обнаружения текста во второй области изображения, отличной от первой.
    4. Ключевое условие: Вычислительная мощность (processing power), связанная с первой операцией OCR, выше, чем вычислительная мощность, связанная со второй операцией.
    5. Система предоставляет пользовательский интерфейс, включающий результаты поиска и предлагаемый запрос.

    Ядро изобретения — это оптимизация ресурсов путем применения дорогостоящего, высокоточного OCR только к той части изображения, которая интересует пользователя (указана касанием), и использование более дешевого OCR для остальной части.

    Claim 9 (Зависимый): Уточняет техническую реализацию операций OCR.

    Первая операция OCR использует первый механизм OCR, а вторая — второй механизм. Первый механизм имеет более высокую вычислительную мощность, чем второй.

    Claim 11 (Зависимый): Уточняет, как реализуется разница в мощности.

    Второй механизм OCR включает более «мелкую» (shallower) нейронную сеть, чем нейронная сеть первого механизма OCR. Более сложная (глубокая) модель применяется к зоне касания, более простая (мелкая) — к остальному изображению.

    Claim 10 (Зависимый): Описывает процесс использования результатов OCR.

    1. Идентификация сущностей путем анализа текста из первой и второй областей.
    2. Предоставление контента об этих сущностях, который смещен (biased) в сторону сущностей, найденных в первой области (зоне касания). Система отдает предпочтение тем сущностям, которые были явно выбраны пользователем.

    Где и как применяется

    Этот механизм применяется в системах визуального поиска (например, Google Lens) и затрагивает несколько этапов поисковой архитектуры.

    QUNDERSTANDING – Понимание Запросов (Основное применение)
    Это ключевой этап применения патента. Система интерпретирует визуальный ввод и взаимодействие пользователя (касание) как запрос. Происходит распознавание объектов (с помощью Image Processing Module и Recognition Engine) и преобразование визуального запроса в семантические сущности и потенциальные текстовые запросы (с помощью Knowledge Engine).

    RANKING – Ранжирование (Применение для ранжирования предложений)
    Рассчитанные Relevance Scores используются для ранжирования предлагаемых поисковых запросов (Candidate Search Queries), связанных с распознанными сущностями.

    Входные данные:

    • Query Image (изображение).
    • User Tap Location (координаты касания).

    Выходные данные:

    • Информация о распознанных сущностях (например, Knowledge Card).
    • Список ранжированных Suggested Search Queries.
    • Результаты поиска по наиболее релевантному сгенерированному запросу.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на изображения со множеством объектов (сложные сцены, витрины магазинов, страницы каталогов) или изображения, содержащие текст (документы, вывески, упаковка товаров).
    • Конкретные ниши или тематики: E-commerce (идентификация конкретного товара из группы), локальный поиск (распознавание зданий, вывесок, чтение меню), путешествия.
    • Определенные форматы контента: Фотографии, скриншоты.

    Когда применяется

    • Триггеры активации: Активируется, когда пользователь выполняет визуальный поиск и явно указывает область интереса на изображении с помощью касания или клика.
    • Условия работы: Система использует этот механизм для оптимизации распределения вычислительных ресурсов и уточнения намерения пользователя при обработке визуального запроса.

    Пошаговый алгоритм

    1. Получение ввода: Система получает Query Image и User Tap Location от пользовательского устройства.
    2. Предварительная обработка (Image Processing): Система обрабатывает изображение на основе местоположения касания. Варианты реализации включают:
      • Кадрирование (Cropping): Изображение обрезается вокруг касания. Может использоваться фиксированный размер, алгоритмы обнаружения объектов (object detection neural network) или контентно-зависимое кадрирование.
      • Определение областей интереса: Выделяется область вокруг касания для приоритетной обработки.
    3. Дифференцированное распознавание (Recognition): Система применяет разные уровни вычислительной мощности к разным областям.
      • Для OCR: Мощный OCR (например, глубокая нейросеть) применяется к тексту вблизи касания. Экономичный OCR (например, мелкая нейросеть) применяется к остальному тексту.
      • Для классификации объектов: Глубокая нейросеть с большим количеством классов применяется к кадрированной области. Более простая сеть может применяться ко всему изображению для определения общего контекста.
      • Для сопоставления дескрипторов: Извлекается высокая плотность дескрипторов в области касания и низкая плотность в остальных областях.
    4. Идентификация сущностей: Результаты распознавания (текст, классы объектов, дескрипторы) используются для идентификации Entities.
    5. Контекстуализация и объединение: Результаты из приоритетной области и общей области объединяются. Данные из общей области могут использоваться для контекстуализации приоритетных сущностей.
    6. Генерация и ранжирование предложений (Knowledge Engine):
      • Для идентифицированных сущностей извлекаются связанные Candidate Search Queries из базы знаний.
      • Для каждого запроса рассчитывается Relevance Score. Оценка сильно зависит от близости сущности к User Tap Location (например, проверяется, находится ли касание внутри ограничивающей рамки объекта). Также учитываются популярность запроса, контекст изображения и полезность потенциальной выдачи.
    7. Формирование ответа: Система выбирает лучшие предложения и предоставляет пользователю информацию о сущности или результаты поиска.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Query Image (пиксельные данные изображения). В патенте упоминается возможность передачи данных в разном разрешении: высокое разрешение для области вокруг касания и низкое для остальной части.
    • Пользовательские факторы: User Tap Location (координаты взаимодействия пользователя с интерфейсом). Это прямой сигнал о намерении пользователя.
    • Контентные факторы (извлекаемые в процессе): Текст, извлеченный с помощью OCR; визуальные дескрипторы; классификации объектов, полученные от нейросетей.

    Какие метрики используются и как они считаются

    • Proximity to User Tap Location (Близость к касанию): Ключевая метрика для взвешивания значимости распознанных сущностей. Может определяться, например, попадает ли касание внутрь ограничивающей рамки (bounding box) распознанной сущности.
    • Relevance Score (Оценка релевантности для запросов): Агрегированная метрика для ранжирования Candidate Search Queries. В патенте упоминаются факторы, которые могут в нее входить:
      • Result confidence (Уверенность в результате распознавания).
      • Query popularity (Популярность запроса среди пользователей).
      • Topicality (Актуальность или тематичность запроса).
      • Мера, указывающая, насколько интересна и полезна страница результатов поиска (SERP), связанная с запросом (например, наличие визуальных элементов, готовых ответов).
    • Processing Power / Computational Cost (Вычислительная мощность / Стоимость): Используется для дифференциации применяемых алгоритмов (например, глубина нейронной сети, плотность извлекаемых дескрипторов).

    Выводы

    1. Фокус на намерении пользователя в визуальном поиске: Google активно использует прямое взаимодействие пользователя с изображением (касание) как сильный сигнал для определения его истинного намерения, что особенно важно на сложных изображениях с несколькими объектами.
    2. Приоритет выбранного объекта: Сущности, расположенные в непосредственной близости от касания пользователя (User Tap Location), получают значительный приоритет (biased) при идентификации и генерации связанных запросов. Контент в этой зоне считается наиболее релевантным.
    3. Оптимизация ресурсов и дифференцированная обработка: Патент подтверждает, что Google применяет алгоритмы разной сложности к разным частям контента для оптимизации скорости и стоимости. Область интереса обрабатывается более дорогими и точными методами (глубокие нейросети, мощный OCR), а фон — более экономичными (shallower neural networks).
    4. Визуальный поиск как генератор текстовых запросов: Ключевая функция описанной системы — преобразование визуального ввода в релевантные текстовые Suggested Search Queries, которые затем могут быть обработаны стандартной поисковой системой.
    5. Важность контекста: Хотя фокус делается на выбранном объекте, остальная часть изображения также анализируется (хотя и менее интенсивно) для определения контекста. Этот контекст помогает уточнить сущность и улучшить релевантность предложений.

    Практика

    Best practices (это мы делаем)

    • Четкость и выделение ключевых объектов на изображении: Убедитесь, что ключевые объекты (товары, логотипы, достопримечательности) на ваших изображениях четкие, хорошо освещенные и визуально отделены от фона. Это облегчает системе корректное определение границ объекта (bounding box), когда пользователь на него нажимает.
    • Оптимизация текста на изображениях (OCR-Friendly): Если на изображении есть важный текст (название продукта, вывеска), он должен быть легко читаем и иметь достаточный контраст. Система применит мощный OCR к тексту, на который укажет пользователь, поэтому точность распознавания критична для правильной идентификации сущности.
    • Использование высококачественных изображений: Предоставляйте изображения в высоком разрешении. Система может использовать высокое разрешение в области касания для точного распознавания деталей, что улучшает идентификацию.
    • Насыщение Knowledge Graph: Убедитесь, что ваши ключевые сущности (продукты, бренд) корректно представлены в Графе Знаний и связаны с популярными запросами. Система использует эти данные для генерации Suggested Search Queries после успешного распознавания сущности на изображении.

    Worst practices (это делать не надо)

    • Перегруженные и запутанные изображения: Использование изображений, где множество объектов сливаются, имеют нечеткие границы или перекрывают друг друга, затрудняет системе выделение конкретного объекта, на который нажал пользователь.
    • Использование нечеткого или чрезмерно стилизованного текста: Применение сложных шрифтов, низкого разрешения или низкоконтрастного текста на изображениях может привести к ошибкам OCR, даже при использовании мощных алгоритмов в зоне касания.
    • Перекрытие важных элементов «водяными знаками»: Размещение логотипов или текста поверх ключевого объекта или важного текста может ухудшить его распознавание, когда пользователь коснется этой области.

    Стратегическое значение

    Патент подчеркивает стратегическую важность визуального поиска как способа ввода информации (например, через Google Lens). SEO-специалистам необходимо рассматривать изображения не только как контент для ранжирования в поиске по картинкам, но и как точку входа для генерации текстовых запросов. Оптимизация под визуальное распознавание сущностей и обеспечение машиночитаемости самого визуального контента становится неотъемлемой частью комплексной SEO-стратегии.

    Практические примеры

    Сценарий: Оптимизация карточки товара для визуального поиска в E-commerce.

    1. Что делать: Разместить основное изображение товара (например, кроссовка) на чистом, контрастном фоне. Убедиться, что логотип бренда и название модели (если они присутствуют на самом товаре) четко видны и легко читаемы.
    2. Как это работает: Когда пользователь использует Google Lens и нажимает на кроссовок, система легко определяет его границы (bounding box) благодаря контрастному фону. Если пользователь нажимает конкретно на область логотипа или названия модели, система применяет мощный OCR (First OCR operation) для точного распознавания текста.
    3. Ожидаемый результат: Система с высокой вероятностью идентифицирует точную модель товара. Она генерирует релевантные Suggested Search Queries типа «купить кроссовки [Бренд] [Модель]», игнорируя фоновые объекты или менее релевантные детали.

    Вопросы и ответы

    Что происходит, если пользователь случайно нажимает на фон или неважную часть изображения?

    Система все равно применит интенсивный анализ к этой области, как описано в патенте. Если там нет значимых объектов или текста, распознавание может не дать релевантных результатов в этой зоне. Однако система также анализирует все изображение (с меньшей интенсивностью) для определения контекста и может идентифицировать другие сущности на изображении, хотя приоритет им будет ниже.

    Как система решает, какой алгоритм является «более мощным» или «вычислительно дорогим»?

    В патенте приводятся конкретные примеры реализации разной вычислительной мощности. Для OCR и классификации объектов это использование более глубоких нейронных сетей по сравнению с более мелкими (shallower neural networks). Для сопоставления дескрипторов это извлечение более высокой плотности особенностей (дескрипторов) в выбранной области.

    Влияет ли этот патент на ранжирование изображений в стандартном поиске по картинкам (Google Images)?

    Напрямую нет. Патент описывает обработку ввода пользователя в реальном времени в интерфейсах визуального поиска (например, Google Lens). Однако понимание того, как Google распознает сущности на изображениях, определяет их границы и обрабатывает текст на них, критически полезно для общей стратегии оптимизации изображений.

    Как система определяет границы объекта, на который нажал пользователь?

    Патент упоминает несколько методов. Это может быть применение фиксированного размера кадрирования вокруг точки касания, использование нейронной сети для обнаружения объектов (object detection neural network), что позволяет определить точный bounding box объекта, или применение алгоритмов контентно-зависимого кадрирования (content aware cropping).

    Как Google определяет, какие текстовые запросы предложить для распознанной сущности?

    Система использует Knowledge Engine (базу знаний), который содержит предварительно рассчитанные связи между сущностями и популярными запросами (pre-computed query map), часто основанные на анализе логов поиска. Затем эти предлагаемые запросы ранжируются с использованием Relevance Score.

    Что важнее всего для Relevance Score предлагаемого запроса?

    Критически важным фактором, согласно патенту, является близость распознанной сущности к точке касания пользователя (User Tap Location). Также учитываются популярность запроса, уверенность системы в правильности распознавания и потенциальная полезность страницы результатов (например, наличие готовых ответов или визуальных элементов).

    Если на моем изображении есть текст, стоит ли его оптимизировать для SEO?

    Да, безусловно. Если пользователь нажмет на область с текстом, Google применит свой самый мощный OCR для его распознавания. Четкий, читаемый текст поможет точно идентифицировать сущность, упомянутую в тексте (например, название продукта или компании), что приведет к более релевантным результатам визуального поиска.

    Как контекст всего изображения используется при фокусировке на одном объекте?

    Система может использовать результаты анализа всего изображения (полученные с помощью более простых алгоритмов) для уточнения сущности, выбранной пользователем. Например, если пользователь выбрал объект «мяч», а контекст всего изображения — «спортивный магазин», это повлияет на предлагаемые запросы (скорее о покупке), чем если бы контекст был «баскетбольный матч» (скорее об игре).

    Применяется ли этот механизм, если пользователь не нажимает на изображение во время визуального поиска?

    Патент сфокусирован именно на сценариях, где пользователь явно указывает местоположение касания (User Tap Location). Если касания нет, система, вероятно, использует стандартные методы визуального распознавания всего изображения без динамического перераспределения ресурсов и приоритизации, описанных в этом документе.

    Насколько важна визуальная привлекательность изображений в контексте этого патента?

    Важна не столько эстетическая привлекательность, сколько техническое качество и ясность представления объектов. Четкие границы объектов, хорошее разрешение и читаемый текст напрямую влияют на способность системы корректно обработать касание пользователя и распознать интересующий его объект или текст.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.