Как Google интеллектуально уточняет запросы из изображений, предсказывая намерения пользователя и исправляя ошибки OCR

Google совершенствует визуальный поиск (например, Google Lens), анализируя текст на изображениях (OCR) и предсказывая задачу пользователя (например, перевод, покупка). Если результаты поиска по исходному тексту не решают эту задачу, система автоматически корректирует ошибки распознавания и генерирует уточненный запрос, используя данные о завершенных поисковых сессиях (Query Completion).

Описание

Какую задачу решает

Патент решает проблему низкой релевантности результатов при поиске на основе изображений, содержащих текст. Традиционный подход использования необработанного текста из оптического распознавания символов (OCR) в качестве запроса часто неэффективен из-за ошибок распознавания, неполноты текста или отсутствия контекста о намерении пользователя. Это приводит к неудовлетворительным результатам и вынуждает пользователей вручную переформулировать запрос, что также увеличивает нагрузку на вычислительные ресурсы.

Что запатентовано

Запатентована система условного уточнения запросов, извлеченных из изображений. Ключевым является Query Refinement Engine, который интегрирует коррекцию ошибок (OCR Correction), предсказание намерения пользователя (Task Prediction) и автодополнение запроса (Query Completion). Система активирует процесс уточнения запроса только в том случае, если первичные результаты поиска не выполняют предсказанную системную задачу (Predicted System Task).

Как это работает

Система работает следующим образом:

Извлечение и Коррекция: Изображение обрабатывается OCR Engine для извлечения текста. OCR Correction Engine опционально исправляет вероятные ошибки распознавания.
Предсказание Задачи: Task Prediction Engine анализирует текст и другие мультимодальные сигналы для определения намерения пользователя (Predicted System Task) — например, перевод, поиск продукта.
Первичный Поиск и Оценка: Выполняется поиск по извлеченному тексту (Unrefined Query). Система оценивает, решают ли полученные результаты предсказанную задачу.
Условное Уточнение: Если задача не решена, активируется Query Completion Engine. Он генерирует уточненный запрос (Refined Query), основываясь на ассоциациях с ранее завершенными пользовательскими запросами (Completed User Queries).
Генерация SERP: Финальная выдача формируется на основе уточнения. Она может включать результаты уточненного запроса или предлагать его в виде элементов интерфейса (Query Chips).

Актуальность для SEO

Высокая. Патент подан в конце 2023 года и напрямую связан с ключевыми направлениями развития Google: мультимодальным поиском (Google Lens, Circle to Search) и использованием ИИ (включая LLM, упомянутые в патенте) для глубокого понимания сложных запросов и намерений пользователей.

Важность для SEO

Влияние на традиционное веб-SEO умеренное, но влияние на визуальный поиск (VSEO) и оптимизацию под Google Lens высокое (7.5/10). Патент описывает механизмы, с помощью которых Google интерпретирует визуальный контекст и переформулирует его в эффективные текстовые запросы. Понимание этого процесса критично для ниш, где пользователи часто используют изображения для поиска: e-commerce, локальный бизнес, путешествия.

Детальный разбор

Термины и определения

Completed User Queries (Завершенные пользовательские запросы): База данных исторических запросов, введенных пользователями. Используется для поиска ассоциаций с извлеченным текстовым фрагментом и генерации Refined Queries.
Error Probability Data (Данные о вероятности ошибок): Статические или динамические данные, описывающие вероятность ошибок OCR (например, вероятность того, что распознанный «v» на самом деле является «r»). Используется OCR Correction Engine.
OCR Correction Engine (Система коррекции OCR): Компонент, исправляющий ошибки в распознанном тексте, используя Error Probability Data.
Predicted System Task (Предсказанная системная задача): Предполагаемое намерение пользователя или задача, которую система должна выполнить (например, перевод, поиск рейса, поиск продукта). Определяется Task Prediction Engine.
Query Chips (Чипы запросов): Элементы пользовательского интерфейса на странице результатов, предлагающие Refined Query в качестве альтернативы.
Query Completion Engine (Система завершения запросов): Компонент, генерирующий Refined Query на основе ассоциаций между текстовым фрагментом и Completed User Queries или с помощью ML-моделей (например, LLM).
Query Refinement Engine (Механизм уточнения запросов): Центральная система, координирующая работу OCR Correction, Task Prediction и Query Completion.
Task Prediction Engine (Система предсказания задач): Компонент, определяющий Predicted System Task на основе распознанного текста и, возможно, других мультимодальных сигналов (изображение, аудио).
Unrefined Query (Неуточненный запрос): Первичный запрос, сформулированный на основе исходного или скорректированного текста из OCR, до процесса Query Completion.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки запроса на основе изображения с условным уточнением.

Система получает данные изображения.
С помощью OCR генерируется текстовый фрагмент (text fragment).
Определяется Predicted System Task на основе этого фрагмента.
Получаются результаты поиска для первого запроса (Unrefined Query).
Система определяет, что Predicted System Task НЕ выполнена (is not fulfilled) этими результатами.
В ответ на это (условное выполнение) генерируется уточнение запроса (Query Refinement). Это уточнение основано на ассоциации между текстовым фрагментом и Completed User Queries.
Генерируется страница результатов поиска (SERP) на основе этого уточнения.

Ядром изобретения является условная логика: ресурсоемкое уточнение запроса активируется только тогда, когда система предсказывает намерение и видит, что первичные результаты ему не соответствуют.

Claim 2 и 3 (Зависимые): Уточняют вид SERP.

В Claim 2 SERP включает результаты Unrefined Query и элемент интерфейса (например, Query Chip) для Query Refinement. В Claim 3 наоборот: SERP включает результаты Query Refinement и элемент интерфейса для Unrefined Query.

Claim 5 (Зависимый): Добавляет этап коррекции ошибок OCR.

Система обнаруживает ошибку в текстовом фрагменте, используя Error Probability Data, генерирует скорректированный фрагмент, и последующая генерация Query Refinement основывается уже на скорректированном фрагменте.

Claim 11 (Зависимый): Уточняет механизм генерации Query Refinement.

Он включает предоставление текстового фрагмента в качестве входных данных для обученной модели завершения запросов (machine-learned query completion model).

Claim 12 (Зависимый): Подтверждает мультимодальный подход.

Определение Predicted System Task может основываться не только на текстовом фрагменте, но и на дополнительных вводах (например, анализ самого изображения или аудиоввод).

Где и как применяется

Система применяется в конвейере обработки мультимодальных запросов (например, Google Lens) и затрагивает несколько этапов поиска.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Система получает мультимодальный ввод (изображение) и преобразует его в текстовое намерение.

Происходит извлечение признаков: OCR и коррекция ошибок (OCR Correction Engine).
Происходит интерпретация: предсказание намерения (Task Prediction Engine) на основе извлеченного текста и других сигналов.
Происходит переписывание запроса: генерация альтернативных формулировок (Query Completion Engine).

RANKING – Ранжирование
Система взаимодействует с этим этапом, выполняя поиск как по Unrefined Query, так и (условно) по Refined Query для получения наборов кандидатов.

RERANKING / METASEARCH – Переранжирование и Смешивание
На этом этапе происходит критическая оценка и формирование финальной выдачи.

Система оценивает результаты Unrefined Query на предмет выполнения задачи (Task Fulfilled?).
На основе этой оценки принимается решение о том, как представить результаты пользователю: использовать первичные результаты, результаты уточненного запроса или комбинацию с Query Chips.

Входные данные:

Данные изображения (Input Image).
Потенциально другие модальности (аудио, данные сенсоров).
Error Probability Data (для коррекции OCR).
База данных Completed User Queries (для уточнения запроса).

Выходные данные:

Search Results Page, адаптированная для выполнения предсказанной задачи.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на E-commerce (поиск по фото товара или этикетке), локальный бизнес (распознавание вывесок, меню), путешествия (анализ билетов, расписаний) и контент, требующий перевода или определения.
Специфические запросы: Запросы, инициированные через визуальный поиск (Google Lens, Circle to Search), где намерение пользователя часто неявно и требует интерпретации визуального и текстового контекста на изображении или скриншоте.

Когда применяется

Условия работы: Применяется при обработке запросов, включающих изображение с распознаваемым текстом.
Триггер активации уточнения: Ключевой механизм Query Refinement активируется только при условии, что Predicted System Task НЕ выполнена результатами поиска по Unrefined Query.
Эффективность ресурсов: Патент подчеркивает условный характер уточнения для экономии вычислительных ресурсов — система избегает сложного процесса уточнения, если первичные результаты достаточно хороши.

Пошаговый алгоритм

Получение данных: Система получает данные изображения (Input Image).
Извлечение текста (OCR): OCR Engine обрабатывает изображение и генерирует Text Fragment.
Коррекция текста (Опционально): OCR Correction Engine анализирует Text Fragment, используя Error Probability Data, и генерирует Modified Text Fragment, исправляя вероятные ошибки.
Генерация первичного запроса: Формируется Unrefined Query на основе исходного или модифицированного текста.
Первичный поиск: Unrefined Query передается поисковой платформе, получаются первичные результаты поиска.
Предсказание задачи: Параллельно Task Prediction Engine определяет Predicted System Task (например, перевод, поиск продукта) на основе текста и, возможно, других мультимодальных сигналов.
Проверка выполнения задачи: Система оценивает, удовлетворяют ли первичные результаты поиска предсказанной задаче (например, превышают ли порог выполнения fulfillment threshold).
- Если ДА: Генерируется Search Results Page с первичными результатами. Процесс завершен.
- Если НЕТ: Переход к шагу 8.
Уточнение запроса: Query Completion Engine генерирует один или несколько Query Refinements. Это делается путем сопоставления текста с Completed User Queries или использования ML-модели (например, LLM).
Вторичный поиск (Опционально): Refined Query может быть выполнен для получения вторичных результатов.
Генерация SERP: Генерируется Search Results Page на основе уточнения. Варианты: показ первичных результатов с предложением Query Chips или показ результатов Refined Query напрямую.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Данные изображения (Input Image) являются основным вводом. Также упоминается возможность использования аудио вводов и визуальных данных изображения для определения Predicted System Task (мультимодальный подход).
Контентные факторы (Извлеченные): Текст, извлеченный из изображения (Text Fragment, Modified Text Fragment).
Поведенческие факторы (Агрегированные): База данных завершенных пользовательских запросов (Completed User Queries). Критически важна для генерации релевантных уточнений.
Системные данные: Error Probability Data (статические таблицы или динамически рассчитываемые вероятности ошибок OCR).

Какие метрики используются и как они считаются

Error Probability (Вероятность ошибки): Метрика, указывающая вероятность того, что распознанный символ неверен. Используется для коррекции OCR. Упоминаются статические таблицы (например, «v» с вероятностью 0.5 является «r») и динамический расчет.
Task Fulfillment (Выполнение задачи): Оценка того, удовлетворяют ли результаты поиска предсказанной задаче. Патент указывает, что система определяет, удовлетворяют ли результаты одному или нескольким критериям выполнения (fulfillment criteria), например, превышая порог выполнения (fulfillment threshold).
Алгоритмы машинного обучения: Патент явно подтверждает использование ML-моделей:
- Task Prediction: Упоминается использование ML-моделей (классификационные модели, большие языковые модели (LLM) или другие модели обработки последовательностей) для предсказания задачи.
- Query Completion: Упоминается использование обученных ML-моделей (machine-learned query completion model), включая LLM или fine-tuned LLM, для генерации уточненных запросов.

Выводы

Интерпретация визуального ввода как намерения: Google рассматривает изображения не просто как набор данных для OCR, а как сигнал о конкретной задаче пользователя (Predicted System Task). Система активно пытается понять, зачем пользователь инициировал визуальный запрос (купить, перевести, узнать больше).
Мультимодальность в предсказании задач: Предсказание задачи является мультимодальным. Оно может основываться не только на тексте из OCR, но и на других сигналах, таких как распознанные объекты на изображении, сопутствующий аудиоввод или контекст (например, язык текста относительно местоположения пользователя).
Условное уточнение запроса (Conditional Query Refinement): Ключевая особенность — уточнение запроса происходит не всегда. Оно активируется только если первичные результаты (по Unrefined Query) нерелевантны предсказанному намерению. Это указывает на оптимизацию использования вычислительных ресурсов.
Активная коррекция ошибок OCR: Наличие OCR Correction Engine показывает, что Google активно борется с неточностями распознавания, используя вероятностные модели для исправления текста до его использования в поиске.
Важность данных о завершенных запросах и роль LLM: Система активно использует агрегированные данные о поведении пользователей (Completed User Queries) и сложные ML-модели (включая LLM) для переписывания неполного текста из OCR в эффективный, естественно звучащий поисковый запрос.

Практика

Best practices (это мы делаем)

Оптимизация под визуальный поиск (VSEO) и Google Lens: Убедитесь, что ключевая информация о вашем продукте или услуге (названия, модели, цены, адреса) представлена в формате, который легко распознается OCR и четко сигнализирует о задаче (System Task).
Четкая визуальная иерархия и читаемость текста: Используйте контрастные цвета, стандартные и разборчивые шрифты для текста на изображениях товаров, баннерах, инфографике. Это минимизирует ошибки распознавания и поможет OCR Correction Engine правильно интерпретировать контент.
Создание контента, соответствующего предсказуемым задачам (Task-Based Optimization): Анализируйте, какие задачи могут решать пользователи, взаимодействуя с вашим контентом визуально. Если пользователь фотографирует продукт (Predicted Task: Product Search), ваша страница должна предоставлять возможность покупки или обзор. Контент должен быстро и полно решать эту задачу.
Использование семантических связей для Query Completion: Оптимизируйте контент под естественные формулировки запросов, которые пользователи могут использовать для описания того, что видят. Это повышает вероятность того, что ваша страница будет релевантна для Refined Query, сгенерированного системой на основе данных о поведении пользователей.

Worst practices (это делать не надо)

Размещение критически важного текста в виде сложных изображений: Использование витиеватых шрифтов, низкого контраста или наложение текста на шумный фон. Это увеличивает вероятность ошибок OCR и может привести к неправильной классификации задачи системой.
Игнорирование визуального контекста: Полагаться только на оптимизацию текста на странице, игнорируя то, как пользователи могут визуально взаимодействовать с вашим продуктом или контентом в реальном мире или через скриншоты.
Создание контента, не решающего задачу: Если страница формально релевантна распознанному тексту, но не решает Predicted System Task, система активирует Query Refinement и может предпочесть другие ресурсы, которые лучше справляются с задачей.

Стратегическое значение

Патент подтверждает стратегический фокус Google на мультимодальном поиске и понимании намерений за пределами явно введенного текста. Для SEO это означает, что оптимизация должна учитывать не только ключевые слова, но и визуальный контекст, и задачи, которые пользователи пытаются решить с помощью различных интерфейсов (камера, скриншоты). Возрастает значение оптимизации под Google Lens и другие визуальные интерфейсы как полноценных точек входа в поиск.

Практические примеры

Сценарий 1: E-commerce и визуальный поиск продукта

Действие пользователя: Пользователь фотографирует этикетку на бутылке вина с помощью Google Lens.
OCR и Коррекция: OCR Engine извлекает название и год. OCR Correction Engine исправляет небольшую ошибку в названии из-за блика.
Прогнозирование Задачи: Task Prediction Engine анализирует текст и изображение бутылки (мультимодальный ввод) и определяет Predicted System Task как «Поиск продукта/Покупка».
Неуточненный Поиск: Запрос по точному тексту этикетки выполняется. Результаты представляют собой смесь обзоров и веб-сайта винодельни.
Проверка Выполнения: Система определяет, что задача «Покупка» выполнена не оптимально (нет четких ссылок на покупку). Task Fulfilled: No.
Уточнение: Query Completion Engine генерирует уточнения на основе Completed User Queries, такие как «купить [название вина] [год]» или «цена [название вина]».
Результат: Пользователь видит первоначальные результаты, но также получает Query Chips с предложениями «Купить онлайн» и «Сравнить цены», которые запускают уточненные запросы.

Сценарий 2: Поиск определения из скриншота статьи

Действие пользователя: Пользователь делает скриншот научной статьи и выделяет термин (например, с помощью Circle to Search).
OCR: Система распознает текст «Quantum Entanglement».
Предсказание Задачи: Task Prediction Engine определяет Predicted System Task = Определение/Объяснение.
Исходный запрос: Выполняется поиск по «Quantum Entanglement».
Оценка: Результаты разнообразны (новости, видео). Система решает, что задача определения выполнена не оптимально. Task Fulfilled: No.
Уточнение: Query Completion Engine генерирует уточнения: «what is Quantum Entanglement» или «Quantum Entanglement definition».
Результат: Сайт, оптимизированный под запрос «what is Quantum Entanglement» и предоставляющий четкое определение, получит преимущество, так как он соответствует сгенерированному уточнению.

Вопросы и ответы

Что такое «Predicted System Task» (Предсказанная системная задача) в контексте этого патента?

Это интерпретация системой того, чего пытается достичь пользователь, отправляя запрос на основе изображения. Вместо того чтобы просто искать распознанный текст, система пытается понять цель. Примеры включают перевод текста (если язык отличается от локального), поиск информации о продукте (если распознан товар и цена), или поиск рейса (если распознан код аэропорта).

Как система определяет, выполнена ли задача (Task Fulfilled)?

Патент не дает точной формулы, но указывает, что система сравнивает результаты поиска по первичному запросу (Unrefined Query) с критериями выполнения (fulfillment criteria) для предсказанной задачи. Если результаты не достигают определенного порога выполнения (fulfillment threshold), задача считается невыполненной, что запускает процесс уточнения запроса.

Что происходит, если OCR распознает текст с ошибками?

Патент предусматривает механизм коррекции (OCR Correction Engine). Он использует данные о вероятности ошибок (Error Probability Data) — статические таблицы или динамические расчеты — чтобы заменить символы с высокой вероятностью ошибки на более вероятные варианты (например, исправить «vunning» на «running»). Это повышает качество входных данных для последующих этапов.

Использует ли система только текст (OCR) для понимания изображения?

Нет. Патент (Claim 12) указывает, что Task Prediction Engine может использовать и другие входные данные для определения задачи. Это могут быть данные самого изображения (например, распознавание объектов) или сопутствующий аудиоввод. Система применяет мультимодальный подход к пониманию намерения.

Как генерируются уточнения запроса (Query Refinements)?

Они генерируются модулем Query Completion Engine. Он использует ассоциации между распознанным текстовым фрагментом и базой данных Completed User Queries (как пользователи обычно формулируют полные запросы). Также могут использоваться обученные модели машинного обучения, включая LLM, для генерации естественно звучащих уточнений.

Применяется ли уточнение запроса (Query Refinement) всегда?

Нет, это ключевая особенность патента. Уточнение применяется условно — только если результаты первичного поиска не выполняют предсказанную системную задачу. Если первичные результаты достаточно хороши, система предоставляет их сразу, экономя вычислительные ресурсы на процессе уточнения.

Как этот патент влияет на оптимизацию изображений для SEO (VSEO)?

Он подчеркивает важность читаемости текста на изображениях. SEO-специалистам следует рекомендовать дизайнерам использовать четкие, контрастные шрифты для важной информации на баннерах, инфографике и фотографиях товаров. Это уменьшает ошибки OCR и помогает системе правильно определить задачу пользователя.

Как этот механизм работает в Google Lens или Circle to Search?

Этот патент описывает базовую логику этих инструментов. Когда вы выделяете объект или текст, система пытается понять, что вы хотите сделать (купить, перевести, узнать больше). Если первоначальная интерпретация не дает хороших результатов, система предлагает альтернативные запросы (часто в виде чипов внизу экрана) — это и есть реализация Query Refinement и Query Chips.

Как оптимизировать контент, чтобы он соответствовал предсказуемым задачам?

Необходимо анализировать, какие задачи могут возникнуть у пользователя при визуальном взаимодействии с вашим контентом или продуктом. Контент должен быть структурирован так, чтобы быстро и полно решать эту задачу. Если задача — покупка, цена и кнопка «Купить» должны быть доступны; если задача — инструкция, шаги должны быть четкими.

Связан ли этот патент с MUM (Multitask Unified Model) или Gemini?

Хотя эти модели явно не упоминаются, описанные технологии полностью соответствуют концепции мультимодальных моделей, таких как MUM или Gemini. Эти модели нацелены на понимание информации через различные модальности (текст, изображение) и выполнение сложных задач. Этот патент описывает конкретную реализацию мультимодальной обработки для улучшения поиска.