Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google анализирует контент на экране (изображения и текст) для понимания и переписывания неоднозначных запросов

    CONTEXTUALLY DISAMBIGUATING QUERIES (Контекстуальное устранение неоднозначности запросов)
    • CN108628919A
    • Google LLC
    • 2018-10-09
    • 2017-03-20
    2017 Knowledge Graph Мультимедиа Патенты Google Персонализация

    Google использует технологию для интерпретации неоднозначных запросов (например, голосовой команды «Что это?»), анализируя текущий контент на экране устройства. Система распознает ключевое изображение (Specific Sub-image) и окружающий его текст (OCR), генерирует метки (Labels) для описания контекста и переписывает исходный запрос в конкретный поисковый запрос (например, «Что такое Эйфелева башня?»).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему обработки неоднозначных запросов (часто голосовых), которые ссылаются на контент, отображаемый на экране устройства, без его явного упоминания. Например, пользователь видит фотографию и спрашивает: «Что это?» или «Сколько это стоит?». Изобретение позволяет системе понять, к какому именно элементу на экране относится запрос, используя визуальный и текстовый контекст для устранения неоднозначности.

    Что запатентовано

    Запатентована система, которая использует контекст экрана (визуальный и текстовый) для устранения неоднозначности и переписывания запросов. Система комбинирует распознавание изображений (Image Recognition) на основном объекте интереса (Specific Sub-image) и распознавание текста (Text Recognition/OCR) на окружающем контенте. На основе этого генерируются контекстные метки (Labels), которые используются для преобразования исходного высказывания пользователя в точный поисковый запрос.

    Как это работает

    Система работает в несколько этапов:

    • Получение данных: Система получает изображение экрана (например, скриншот) и транскрипцию (transcription) высказывания пользователя.
    • Идентификация фокуса: Анализируется изображение экрана для определения Specific Sub-image — области, которая, скорее всего, является объектом интереса пользователя.
    • Визуальный контекст (First Labels): На Specific Sub-image выполняется распознавание изображений для генерации Первых Меток (например, идентификация объектов).
    • Текстовый контекст (Second Labels): На остальной части экрана (вне Specific Sub-image) выполняется распознавание текста (OCR) для генерации Вторых Меток (например, чтение подписей, комментариев).
    • Генерация запроса: Система генерирует конкретный поисковый запрос, комбинируя транскрипцию и полученные метки, часто заменяя местоимения («это») на идентифицированные сущности.

    Актуальность для SEO

    Крайне высокая. Описанная технология лежит в основе мультимодального ввода и активно используется в таких продуктах, как Google Lens, функции анализа экрана на Android и Circle to Search. Это передний край взаимодействия с контентом и понимания контекста пользователя.

    Важность для SEO

    Влияние на SEO значительное (7.5/10). Хотя это не патент о ранжировании, он критически влияет на то, как генерируются запросы и как обнаруживается контент в мультимодальных интерфейсах. Он подчеркивает первостепенную важность оптимизации изображений (чтобы они были четко распознаваемыми) и окружающего их текстового контекста. Чтобы Google мог правильно идентифицировать сущности, когда пользователь инициирует поиск на основе этого контента, этот контекст должен быть точным и релевантным.

    Детальный разбор

    Термины и определения

    Image (Изображение)
    Захваченное представление дисплея устройства (например, скриншот) в момент запроса.
    Specific Sub-image (Конкретное подизображение)
    Часть Image, идентифицированная как вероятный фокус интереса пользователя (например, основная фотография на веб-странице).
    Transcription (Транскрипция)
    Текстовая версия произнесенного пользователем запроса.
    First Labels (Первые Метки)
    Контекстные теги, сгенерированные путем выполнения распознавания изображений (Image Recognition) на Specific Sub-image. Указывают на визуальный контекст (например, «Эйфелева башня», «собака»).
    Second Labels (Вторые Метки)
    Контекстные теги, сгенерированные путем выполнения распознавания текста (Text Recognition/OCR) на областях Image за пределами Specific Sub-image (например, чтение подписей или комментариев).
    Image Confidence Score (Оценка уверенности изображения)
    Метрика, указывающая вероятность того, что данное подизображение является основным объектом интереса пользователя. Используется для выбора Specific Sub-image.
    Label Confidence Score (Оценка уверенности метки)
    Метрика, указывающая вероятность того, что метка соответствует основному интересу пользователя. Используется для выбора меток при генерации запроса.
    Query Confidence Score (Оценка уверенности запроса)
    Метрика, указывающая на вероятность того, что кандидат в поисковый запрос является точной переформулировкой исходной транскрипции (Claim 5).
    Historical Query Data (Исторические данные запросов)
    Данные о предыдущих поисковых запросах, используемые для валидации и выбора наилучшего кандидата поискового запроса.
    Control Event (Событие управления)
    Действие пользователя на устройстве (например, касание или обведение элемента), которое помогает системе идентифицировать Specific Sub-image (Claim 7).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод контекстного устранения неоднозначности.

    1. Система получает изображение, отображаемое на дисплее, и транскрипцию высказывания пользователя.
    2. Идентифицируется Specific Sub-image в пределах изображения.
    3. Определяются First Labels на основе распознавания изображений на Specific Sub-image.
    4. Определяются Second Labels на основе распознавания текста в областях изображения за пределами Specific Sub-image.
    5. Генерируется поисковый запрос на основе транскрипции, First Labels и Second Labels.
    6. Поисковый запрос предоставляется для вывода.

    Ядро изобретения — использование двух раздельных источников контекста (визуального фокуса и окружающего текста) для уточнения запроса.

    Claim 2 (Зависимый от 1): Уточняет механизм генерации запроса.

    Генерация поискового запроса включает замену термина в транскрипции (например, местоимения «это») одним или несколькими First Labels или Second Labels.

    Claim 3 (Зависимый): Описывает использование оценок уверенности для меток.

    Для каждой метки генерируется Label Confidence Score. Система выбирает метки на основе этих оценок для использования в генерации поискового запроса. Это механизм фильтрации шума и выбора наиболее релевантного контекста.

    Claim 4 (Зависимый): Описывает валидацию сгенерированного запроса.

    Система генерирует кандидатов в поисковые запросы, сравнивает их с Historical Query Data (предыдущие запросы других пользователей) и выбирает итоговый запрос на основе этого сравнения (выбирая наиболее естественный или частый вариант).

    Claim 6 (Зависимый): Уточняет механизм автоматического выбора Specific Sub-image.

    Система идентифицирует несколько подизображений на экране. Для каждого генерируется Image Confidence Score. Specific Sub-image выбирается на основе этих оценок.

    Claim 7 (Зависимый): Уточняет механизм ручного выбора Specific Sub-image.

    Идентификация Specific Sub-image может основываться на получении данных, указывающих на выбор Control Event (например, пользователь коснулся или обвел объект).

    Claim 11 (Зависимый): Упоминает использование метаданных.

    Определение First Labels может также основываться на метаданных (metadata), связанных с Specific Sub-image.

    Где и как применяется

    Патент в первую очередь относится к этапу понимания запроса, используя мультимодальный ввод для генерации точного поискового намерения.

    QUNDERSTANDING – Понимание Запросов (Основное применение)
    Это ядро изобретения. Система принимает мультимодальный ввод (голос + контекст экрана) и преобразует его в структурированный, однозначный поисковый запрос. Это сложная форма переписывания запроса (Query Rewriting), основанная на анализе контекста в реальном времени.

    INDEXING (Косвенно)
    Система полагается на способность Google распознавать изображения и сущности, которая основана на ранее собранных данных и натренированных моделях. Кроме того, если система может получить доступ к базовым данным, она может использовать метаданные, связанные с подизображением (Claim 11).

    Взаимодействие с компонентами:

    • Image Recognition Engine: Анализирует Specific Sub-image для генерации First Labels.
    • Text Recognition Engine (OCR): Анализирует окружающий текст для генерации Second Labels.

    Входные данные:

    • Изображение дисплея (Image).
    • Транскрипция высказывания (Transcription).
    • (Опционально) Данные о Control Event (Claim 7).
    • (Опционально) Метаданные, связанные с Specific Sub-image (Claim 11).
    • Historical Query Data (для валидации).

    Выходные данные:

    • Однозначный поисковый запрос (Search Query).
    • Или команда для выполнения действия (например, сохранить изображение, импортировать в приложение), как описано в Claims 9 и 10.

    На что влияет

    • Типы контента: Сильно влияет на визуальный контент (фотографии, изображения продуктов, графика) и окружающий его текст (подписи, обзоры, статьи в лентах социальных сетей или на веб-страницах).
    • Специфические запросы: В первую очередь влияет на информационные и транзакционные запросы, инициируемые из визуального контекста и содержащие неоднозначные термины («Что это?», «Купить это», «Где это?»).
    • Конкретные ниши: E-commerce (идентификация продуктов), Путешествия (идентификация достопримечательностей), Медиа (понимание контекста фотографий).

    Когда применяется

    • Триггеры активации: Обнаружение высказывания, часто после ключевого слова (hotword) (Claim 8) или определенного действия пользователя (например, запуск Circle to Search или Lens), во время отображения контента на экране.
    • Условия: Когда система определяет, что запрос является неоднозначным и требует контекстного уточнения на основе содержимого экрана. Система должна быть в состоянии идентифицировать фокусное Specific Sub-image и сгенерировать достаточно уверенные Labels.

    Пошаговый алгоритм

    1. Получение ввода: Система получает изображение экрана и транскрипцию высказывания пользователя.
    2. Идентификация фокуса: Изображение анализируется для выбора Specific Sub-image. Это делается либо автоматически (расчет Image Confidence Scores для всех подизображений, Claim 6), либо вручную (на основе Control Event пользователя, Claim 7).
    3. Генерация First Labels (Визуальный контекст): Выполняется распознавание изображений на Specific Sub-image. Также могут использоваться связанные метаданные (Claim 11). Генерируются First Labels.
    4. Генерация Second Labels (Текстовый контекст): Выполняется распознавание текста (OCR) на остальной части изображения (за пределами Specific Sub-image). Генерируются Second Labels.
    5. Оценка и выбор меток: Для всех меток генерируются Label Confidence Scores (Claim 3). Наиболее релевантные метки выбираются на основе уверенности. Система может взвешивать First Labels и Second Labels по-разному (Claims 13, 18).
    6. Генерация и валидация запроса: Генерируются кандидаты поисковых запросов путем объединения транскрипции с выбранными метками (например, путем подстановки, Claim 2). Кандидаты проверяются по Historical Query Data (Claim 4) или рассчитываются Query Confidence Scores (Claim 5).
    7. Вывод: Выбранный поисковый запрос предоставляется для выполнения (или выполняется команда).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Текстовые, через OCR): Текст, распознанный на экране за пределами основного изображения (используется для Second Labels) — подписи, заголовки, комментарии, текст статьи.
    • Мультимедиа факторы (Визуальные, через Image Recognition): Визуальные характеристики Specific Sub-image (используются для First Labels) — формы объектов, цвета, распознавание достопримечательностей, анализ композиции (размер, фокус).
    • Технические факторы (Метаданные): В Claim 11 упоминается использование метаданных, связанных с Specific Sub-image (например, данные EXIF или потенциально Alt-текст/структурированные данные, если они доступны системе).
    • Поведенческие/Пользовательские факторы: Historical Query Data используется для валидации сгенерированных запросов. Данные о взаимодействии пользователя с экраном (Control Event) используются для идентификации фокуса. Голосовое высказывание (Transcription).

    Какие метрики используются и как они считаются

    • Image Confidence Score: Вероятность того, что подизображение является фокусом внимания пользователя. Может рассчитываться на основе размера, заметности (saliency), центрального положения, наличия распознаваемых сущностей.
    • Label Confidence Score: Вероятность того, что сгенерированная метка (First или Second) является точной и релевантной интересу пользователя. Основывается на уверенности движков распознавания.
    • Query Confidence Score: Вероятность того, что кандидат поискового запроса является точным переписыванием намерения пользователя.
    • Взвешивание (Weighting): Система может взвешивать First Labels иначе, чем Second Labels (Claims 13, 18), например, придавая больший вес визуальному распознаванию или окружающему тексту в зависимости от контекста и уверенности.

    Выводы

    1. Мультимодальный ввод как стандарт: Google активно комбинирует визуальный, текстовый и голосовой ввод в реальном времени для понимания намерения пользователя. Экран является критически важным источником контекста для устранения неоднозначности.
    2. Двойной источник контекста и его разделение: Патент явно разделяет контекст, извлеченный из самого изображения (First Labels), и контекст из окружающего текста (Second Labels). Это подтверждает, что текст вокруг изображения критически важен для его правильной интерпретации системой.
    3. Устранение неоднозначности через переписывание: Цель состоит в том, чтобы преобразовать неоднозначный ввод («Что это?») в конкретный, основанный на сущностях запрос («Эйфелева башня») путем замены расплывчатых терминов.
    4. Управление неопределенностью через Confidence Scores: Система использует многоуровневые оценки уверенности (Image Confidence, Label Confidence, Query Confidence) для определения фокуса внимания пользователя и выбора наиболее вероятной интерпретации.
    5. Валидация реалистичности: Система проверяет сгенерированные запросы по Historical Query Data, чтобы убедиться, что они соответствуют тому, как люди обычно формулируют поисковые запросы.
    6. Возможность выполнения команд: Механизм может использоваться не только для поиска, но и для генерации команд (Claims 9, 10), например, для сохранения или импорта контента.

    Практика

    Best practices (это мы делаем)

    • Оптимизация изображений для распознавания (First Labels): Используйте четкие, высококачественные изображения, на которых основной объект (продукт, персона, локация) хорошо виден и занимает центральное место. Это помогает движку Image Recognition генерировать точные First Labels с высокой уверенностью.
    • Оптимизация окружающего текстового контекста (Second Labels): Размещайте описательные подписи, релевантные заголовки и контекстный основной текст рядом с изображением. Это критически важно для генерации точных Second Labels (через OCR, если система анализирует скриншот). Это подтверждает важность SEO-практики оптимизации контекста вокруг изображения.
    • Обеспечение соответствия Текст-Изображение (Alignment): Убедитесь, что текст, окружающий изображение, семантически тесно связан с его содержанием. Это помогает системе корректно связать First и Second Labels и повысить общую уверенность в контексте.
    • Оптимизация метаданных изображений (Alt Text/Structured Data): Хотя патент фокусируется на распознавании экрана, он упоминает возможность использования связанных метаданных (Claim 11). Обеспечение точного alt-текста и структурированных данных (например, схема Product) предоставляет надежные сигналы, если система может получить доступ к базовой структуре данных.

    Worst practices (это делать не надо)

    • Использование неоднозначных или вводящих в заблуждение изображений: Изображения, на которых объект неясен, загроможден или слишком мал, приведут к плохой генерации First Labels и неверной идентификации.
    • Несоответствие изображения и текста (Clickbait): Размещение изображений рядом с нерелевантным текстом. Это может запутать систему при сопоставлении First и Second Labels, что приведет к неправильному переписыванию запроса из-за конфликта контекстов.
    • Скрытие контекста внутри основного изображения: Система анализирует текст вне Specific Sub-image для генерации Second Labels. Размещение важного описательного текста внутри основного изображения может помешать его использованию в качестве контекстного сигнала.

    Стратегическое значение

    Этот патент подчеркивает сдвиг в сторону концепции «искать то, что видишь». Пользователи все чаще используют визуальный ввод для инициирования поиска (Google Lens, Circle to Search). SEO-стратегия должна учитывать это, гарантируя, что каждый визуальный актив на сайте оптимизирован для машинного распознавания и точно контекстуализирован окружающими элементами. Это максимизирует обнаруживаемость контента в мультимодальных интерфейсах.

    Практические примеры

    Сценарий: Идентификация продукта в блоге (E-commerce)

    1. Ситуация: Пользователь читает статью о стиле жизни и видит фотографию человека в куртке.
    2. Запрос пользователя (Неоднозначный): Пользователь активирует голосовой поиск и спрашивает: «Сколько стоит эта куртка?».
    3. Действие системы:
      • Система захватывает экран и идентифицирует фотографию как Specific Sub-image.
      • Выполняет распознавание изображений и генерирует First Labels: «синяя джинсовая куртка».
      • Выполняет OCR на тексте статьи рядом с фото (например, в подписи) и генерирует Second Labels: «Бренд: Levi’s».
    4. Переписанный запрос: «Сколько стоит синяя джинсовая куртка Levi’s».
    5. SEO-действие: Убедиться, что изображения продуктов в статье четкие, а название бренда и модель присутствуют в тексте или подписи, непосредственно окружающей изображение.

    Вопросы и ответы

    В чем разница между First Labels и Second Labels?

    First Labels генерируются на основе визуального анализа (Image Recognition) основного объекта интереса (Specific Sub-image). Second Labels генерируются на основе анализа текста (Text Recognition/OCR) на экране, который находится за пределами этого основного объекта, например, подписи, комментарии или текст статьи вокруг изображения.

    Как система определяет, какая часть экрана является основным объектом интереса (Specific Sub-image)?

    Патент предлагает два метода. Автоматический (Claim 6): система идентифицирует все подизображения и рассчитывает Image Confidence Score для каждого (на основе размера, заметности и т.д.), выбирая наиболее вероятный. Ручной (Claim 7): система может использовать данные о взаимодействии пользователя с экраном (Control Event, например, касание или обведение объекта) для идентификации фокуса.

    Использует ли система Alt-текст или структурированные данные?

    Основной механизм полагается на визуальный анализ скриншота (Image Recognition и OCR). Однако в Claim 11 упоминается, что определение First Labels может также основываться на «метаданных, связанных с Specific Sub-image». Это предполагает, что если система имеет доступ к базовому коду или структуре данных (а не только к пикселям), она может использовать Alt-текст или структурированные данные для повышения точности.

    Что важнее: распознавание изображения (First Labels) или окружающий текст (Second Labels)?

    Система использует оба источника. В патенте (Claims 13, 18) указано, что эти два типа меток могут взвешиваться по-разному. Важность зависит от Label Confidence Scores и конкретного контекста. Для точной идентификации необходима синергия обоих источников.

    Как этот патент связан с Google Lens или Circle to Search?

    Патент описывает фундаментальные механизмы, которые лежат в основе этих технологий. Он объясняет, как Google использует содержимое экрана (визуальное и текстовое) для понимания намерения пользователя, когда он взаимодействует с контентом посредством голоса или жестов.

    Что произойдет, если распознавание изображения и окружающий текст противоречат друг другу?

    Система использует Label Confidence Scores (Claim 3) для управления такими ситуациями. Она выберет метки с наивысшей уверенностью. Кроме того, возможность различного взвешивания First Labels и Second Labels позволяет системе отдавать предпочтение более надежному источнику в данном контексте.

    Как система проверяет, что переписанный запрос имеет смысл?

    Патент описывает механизмы валидации. Сгенерированные кандидаты могут сравниваться с Historical Query Data (Claim 4), чтобы выбрать формулировку, похожую на реальные запросы пользователей. Также может рассчитываться Query Confidence Score (Claim 5), оценивающий точность переписывания.

    Может ли этот механизм использоваться для выполнения действий, а не только для поиска?

    Да. В патенте (Claims 9, 10) описывается возможность генерации и выполнения команд (command) на основе анализа экрана и высказывания. Примеры включают сохранение изображения в памяти, загрузку его на сервер или импорт в приложение (например, сохранение визитки в контакты).

    Какая главная рекомендация для SEO-специалистов, исходя из этого патента?

    Главная рекомендация — обеспечить максимальную синергию между визуальным контентом и окружающим его текстом. Нельзя полагаться только на качество изображения или только на текст. Система оценивает их вместе, чтобы понять контекст, поэтому оба элемента должны быть оптимизированы и семантически согласованы.

    Влияет ли этот патент на ранжирование моего сайта?

    Напрямую нет, так как это патент о Query Understanding, а не о ранжировании. Однако он влияет на обнаруживаемость вашего контента. Если ваш контент (изображения и текст) оптимизирован так, что система может его точно распознать в мультимодальном интерфейсе, это приведет к генерации релевантных поисковых запросов, по которым ваш сайт сможет ранжироваться.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.