
Google совершенствует визуальный поиск (например, Google Lens), анализируя текст на изображениях (OCR) и предсказывая задачу пользователя (например, перевод, покупка). Если результаты поиска по исходному тексту не решают эту задачу, система автоматически корректирует ошибки распознавания и генерирует уточненный запрос, используя данные о завершенных поисковых сессиях (Query Completion).
Патент решает проблему низкой релевантности результатов при поиске на основе изображений, содержащих текст. Традиционный подход использования необработанного текста из оптического распознавания символов (OCR) в качестве запроса часто неэффективен из-за ошибок распознавания, неполноты текста или отсутствия контекста о намерении пользователя. Это приводит к неудовлетворительным результатам и вынуждает пользователей вручную переформулировать запрос, что также увеличивает нагрузку на вычислительные ресурсы.
Запатентована система условного уточнения запросов, извлеченных из изображений. Ключевым является Query Refinement Engine, который интегрирует коррекцию ошибок (OCR Correction), предсказание намерения пользователя (Task Prediction) и автодополнение запроса (Query Completion). Система активирует процесс уточнения запроса только в том случае, если первичные результаты поиска не выполняют предсказанную системную задачу (Predicted System Task).
Система работает следующим образом:
OCR Engine для извлечения текста. OCR Correction Engine опционально исправляет вероятные ошибки распознавания.Task Prediction Engine анализирует текст и другие мультимодальные сигналы для определения намерения пользователя (Predicted System Task) — например, перевод, поиск продукта.Unrefined Query). Система оценивает, решают ли полученные результаты предсказанную задачу.Query Completion Engine. Он генерирует уточненный запрос (Refined Query), основываясь на ассоциациях с ранее завершенными пользовательскими запросами (Completed User Queries).Query Chips).Высокая. Патент подан в конце 2023 года и напрямую связан с ключевыми направлениями развития Google: мультимодальным поиском (Google Lens, Circle to Search) и использованием ИИ (включая LLM, упомянутые в патенте) для глубокого понимания сложных запросов и намерений пользователей.
Влияние на традиционное веб-SEO умеренное, но влияние на визуальный поиск (VSEO) и оптимизацию под Google Lens высокое (7.5/10). Патент описывает механизмы, с помощью которых Google интерпретирует визуальный контекст и переформулирует его в эффективные текстовые запросы. Понимание этого процесса критично для ниш, где пользователи часто используют изображения для поиска: e-commerce, локальный бизнес, путешествия.
Refined Queries.OCR Correction Engine.Error Probability Data.Task Prediction Engine.Refined Query в качестве альтернативы.Refined Query на основе ассоциаций между текстовым фрагментом и Completed User Queries или с помощью ML-моделей (например, LLM).OCR Correction, Task Prediction и Query Completion.Predicted System Task на основе распознанного текста и, возможно, других мультимодальных сигналов (изображение, аудио).Query Completion.Claim 1 (Независимый пункт): Описывает основной метод обработки запроса на основе изображения с условным уточнением.
OCR генерируется текстовый фрагмент (text fragment).Predicted System Task на основе этого фрагмента.Unrefined Query).Predicted System Task НЕ выполнена (is not fulfilled) этими результатами.Query Refinement). Это уточнение основано на ассоциации между текстовым фрагментом и Completed User Queries.Ядром изобретения является условная логика: ресурсоемкое уточнение запроса активируется только тогда, когда система предсказывает намерение и видит, что первичные результаты ему не соответствуют.
Claim 2 и 3 (Зависимые): Уточняют вид SERP.
В Claim 2 SERP включает результаты Unrefined Query и элемент интерфейса (например, Query Chip) для Query Refinement. В Claim 3 наоборот: SERP включает результаты Query Refinement и элемент интерфейса для Unrefined Query.
Claim 5 (Зависимый): Добавляет этап коррекции ошибок OCR.
Система обнаруживает ошибку в текстовом фрагменте, используя Error Probability Data, генерирует скорректированный фрагмент, и последующая генерация Query Refinement основывается уже на скорректированном фрагменте.
Claim 11 (Зависимый): Уточняет механизм генерации Query Refinement.
Он включает предоставление текстового фрагмента в качестве входных данных для обученной модели завершения запросов (machine-learned query completion model).
Claim 12 (Зависимый): Подтверждает мультимодальный подход.
Определение Predicted System Task может основываться не только на текстовом фрагменте, но и на дополнительных вводах (например, анализ самого изображения или аудиоввод).
Система применяется в конвейере обработки мультимодальных запросов (например, Google Lens) и затрагивает несколько этапов поиска.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Система получает мультимодальный ввод (изображение) и преобразует его в текстовое намерение.
OCR Correction Engine).Task Prediction Engine) на основе извлеченного текста и других сигналов.Query Completion Engine).RANKING – Ранжирование
Система взаимодействует с этим этапом, выполняя поиск как по Unrefined Query, так и (условно) по Refined Query для получения наборов кандидатов.
RERANKING / METASEARCH – Переранжирование и Смешивание
На этом этапе происходит критическая оценка и формирование финальной выдачи.
Unrefined Query на предмет выполнения задачи (Task Fulfilled?).Query Chips.Входные данные:
Input Image).Error Probability Data (для коррекции OCR).Completed User Queries (для уточнения запроса).Выходные данные:
Search Results Page, адаптированная для выполнения предсказанной задачи.Query Refinement активируется только при условии, что Predicted System Task НЕ выполнена результатами поиска по Unrefined Query.Input Image).OCR Engine обрабатывает изображение и генерирует Text Fragment.OCR Correction Engine анализирует Text Fragment, используя Error Probability Data, и генерирует Modified Text Fragment, исправляя вероятные ошибки.Unrefined Query на основе исходного или модифицированного текста.Unrefined Query передается поисковой платформе, получаются первичные результаты поиска.Task Prediction Engine определяет Predicted System Task (например, перевод, поиск продукта) на основе текста и, возможно, других мультимодальных сигналов.fulfillment threshold). Search Results Page с первичными результатами. Процесс завершен.Query Completion Engine генерирует один или несколько Query Refinements. Это делается путем сопоставления текста с Completed User Queries или использования ML-модели (например, LLM).Refined Query может быть выполнен для получения вторичных результатов.Search Results Page на основе уточнения. Варианты: показ первичных результатов с предложением Query Chips или показ результатов Refined Query напрямую.Input Image) являются основным вводом. Также упоминается возможность использования аудио вводов и визуальных данных изображения для определения Predicted System Task (мультимодальный подход).Text Fragment, Modified Text Fragment).Completed User Queries). Критически важна для генерации релевантных уточнений.Error Probability Data (статические таблицы или динамически рассчитываемые вероятности ошибок OCR).fulfillment criteria), например, превышая порог выполнения (fulfillment threshold).Task Prediction: Упоминается использование ML-моделей (классификационные модели, большие языковые модели (LLM) или другие модели обработки последовательностей) для предсказания задачи.Query Completion: Упоминается использование обученных ML-моделей (machine-learned query completion model), включая LLM или fine-tuned LLM, для генерации уточненных запросов.Predicted System Task). Система активно пытается понять, зачем пользователь инициировал визуальный запрос (купить, перевести, узнать больше).Unrefined Query) нерелевантны предсказанному намерению. Это указывает на оптимизацию использования вычислительных ресурсов.OCR Correction Engine показывает, что Google активно борется с неточностями распознавания, используя вероятностные модели для исправления текста до его использования в поиске.Completed User Queries) и сложные ML-модели (включая LLM) для переписывания неполного текста из OCR в эффективный, естественно звучащий поисковый запрос.OCR и четко сигнализирует о задаче (System Task).OCR Correction Engine правильно интерпретировать контент.Refined Query, сгенерированного системой на основе данных о поведении пользователей.OCR и может привести к неправильной классификации задачи системой.Predicted System Task, система активирует Query Refinement и может предпочесть другие ресурсы, которые лучше справляются с задачей.Патент подтверждает стратегический фокус Google на мультимодальном поиске и понимании намерений за пределами явно введенного текста. Для SEO это означает, что оптимизация должна учитывать не только ключевые слова, но и визуальный контекст, и задачи, которые пользователи пытаются решить с помощью различных интерфейсов (камера, скриншоты). Возрастает значение оптимизации под Google Lens и другие визуальные интерфейсы как полноценных точек входа в поиск.
Сценарий 1: E-commerce и визуальный поиск продукта
OCR Engine извлекает название и год. OCR Correction Engine исправляет небольшую ошибку в названии из-за блика.Task Prediction Engine анализирует текст и изображение бутылки (мультимодальный ввод) и определяет Predicted System Task как «Поиск продукта/Покупка».Task Fulfilled: No.Query Completion Engine генерирует уточнения на основе Completed User Queries, такие как «купить [название вина] [год]» или «цена [название вина]».Query Chips с предложениями «Купить онлайн» и «Сравнить цены», которые запускают уточненные запросы.Сценарий 2: Поиск определения из скриншота статьи
Task Prediction Engine определяет Predicted System Task = Определение/Объяснение.Task Fulfilled: No.Query Completion Engine генерирует уточнения: "what is Quantum Entanglement" или "Quantum Entanglement definition".Что такое "Predicted System Task" (Предсказанная системная задача) в контексте этого патента?
Это интерпретация системой того, чего пытается достичь пользователь, отправляя запрос на основе изображения. Вместо того чтобы просто искать распознанный текст, система пытается понять цель. Примеры включают перевод текста (если язык отличается от локального), поиск информации о продукте (если распознан товар и цена), или поиск рейса (если распознан код аэропорта).
Как система определяет, выполнена ли задача (Task Fulfilled)?
Патент не дает точной формулы, но указывает, что система сравнивает результаты поиска по первичному запросу (Unrefined Query) с критериями выполнения (fulfillment criteria) для предсказанной задачи. Если результаты не достигают определенного порога выполнения (fulfillment threshold), задача считается невыполненной, что запускает процесс уточнения запроса.
Что происходит, если OCR распознает текст с ошибками?
Патент предусматривает механизм коррекции (OCR Correction Engine). Он использует данные о вероятности ошибок (Error Probability Data) — статические таблицы или динамические расчеты — чтобы заменить символы с высокой вероятностью ошибки на более вероятные варианты (например, исправить "vunning" на "running"). Это повышает качество входных данных для последующих этапов.
Использует ли система только текст (OCR) для понимания изображения?
Нет. Патент (Claim 12) указывает, что Task Prediction Engine может использовать и другие входные данные для определения задачи. Это могут быть данные самого изображения (например, распознавание объектов) или сопутствующий аудиоввод. Система применяет мультимодальный подход к пониманию намерения.
Как генерируются уточнения запроса (Query Refinements)?
Они генерируются модулем Query Completion Engine. Он использует ассоциации между распознанным текстовым фрагментом и базой данных Completed User Queries (как пользователи обычно формулируют полные запросы). Также могут использоваться обученные модели машинного обучения, включая LLM, для генерации естественно звучащих уточнений.
Применяется ли уточнение запроса (Query Refinement) всегда?
Нет, это ключевая особенность патента. Уточнение применяется условно — только если результаты первичного поиска не выполняют предсказанную системную задачу. Если первичные результаты достаточно хороши, система предоставляет их сразу, экономя вычислительные ресурсы на процессе уточнения.
Как этот патент влияет на оптимизацию изображений для SEO (VSEO)?
Он подчеркивает важность читаемости текста на изображениях. SEO-специалистам следует рекомендовать дизайнерам использовать четкие, контрастные шрифты для важной информации на баннерах, инфографике и фотографиях товаров. Это уменьшает ошибки OCR и помогает системе правильно определить задачу пользователя.
Как этот механизм работает в Google Lens или Circle to Search?
Этот патент описывает базовую логику этих инструментов. Когда вы выделяете объект или текст, система пытается понять, что вы хотите сделать (купить, перевести, узнать больше). Если первоначальная интерпретация не дает хороших результатов, система предлагает альтернативные запросы (часто в виде чипов внизу экрана) — это и есть реализация Query Refinement и Query Chips.
Как оптимизировать контент, чтобы он соответствовал предсказуемым задачам?
Необходимо анализировать, какие задачи могут возникнуть у пользователя при визуальном взаимодействии с вашим контентом или продуктом. Контент должен быть структурирован так, чтобы быстро и полно решать эту задачу. Если задача — покупка, цена и кнопка "Купить" должны быть доступны; если задача — инструкция, шаги должны быть четкими.
Связан ли этот патент с MUM (Multitask Unified Model) или Gemini?
Хотя эти модели явно не упоминаются, описанные технологии полностью соответствуют концепции мультимодальных моделей, таких как MUM или Gemini. Эти модели нацелены на понимание информации через различные модальности (текст, изображение) и выполнение сложных задач. Этот патент описывает конкретную реализацию мультимодальной обработки для улучшения поиска.

Мультимедиа
Семантика и интент

Семантика и интент

Мультимедиа
Семантика и интент

Мультимедиа
EEAT и качество
Семантика и интент

Мультиязычность
Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
SERP
Ссылки

Поведенческие сигналы
Ссылки
SERP

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Knowledge Graph
Свежесть контента
Семантика и интент

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP
