
Google использует технологию мультимодального поиска, которая анализирует как визуальные характеристики захваченного изображения (например, с камеры телефона), так и текст, распознанный внутри него (OCR). Комбинация этих двух типов данных позволяет точнее идентифицировать электронный оригинал изображения, что критически важно для работы систем визуального поиска (например, Google Lens).
Патент решает проблему повышения точности идентификации электронных версий контента, захваченного из физического мира или с экрана (rendered document). Поиск, основанный только на визуальном сопоставлении, может давать неоднозначные результаты из-за схожести изображений или условий съемки. Система улучшает точность визуального поиска (Visual Search) путем использования текста, находящегося внутри изображения, для устранения этой неоднозначности (disambiguation).
Запатентован метод и система мультимодального поиска. Мобильное устройство захватывает изображение из отображаемого документа. Система ищет электронную версию, используя комбинацию двух ключевых компонентов: визуальных характеристик изображения (characteristics of the image) и текста, распознанного (например, через OCR) внутри этого же изображения (text within the contents of the image).
Система работает следующим образом:
OCR для распознавания текста внутри изображения.Высокая. Технология лежит в основе современных систем визуального поиска, таких как Google Lens. С развитием мультимодальных моделей (например, MUM), способность точно интерпретировать изображения, содержащие текст (упаковки товаров, вывески, инфографика), является стратегическим направлением развития поиска Google.
Патент имеет высокое значение (80/100) для Image SEO и стратегий визуального поиска. Он прямо подтверждает, что Google активно извлекает и использует текст, размещенный непосредственно внутри изображений (в пикселях), как значимый сигнал для идентификации контента. Это требует от SEO-специалистов оптимизации не только метаданных (alt-текст), но и дизайна самого визуального контента для обеспечения машиночитаемости (OCR).
OCR.constrain) результатов поиска.actions), которые система может предпринять при взаимодействии с этим фрагментом.Анализ основан на Abstract (Аннотации), Detailed Description (Подробном описании) и доступных Claims патента.
Claim 1 (Независимый пункт): Описывает основной метод поиска электронного контента с помощью мобильного устройства.
rendered document.characteristics of the image), И (ii) текст в содержимом изображения (text within the contents of the image).Ядро изобретения — обязательное использование мультимодального ввода (визуальные признаки + встроенный текст) для поиска изображения, инициированного мобильным устройством.
Claim 2 и 4 (Зависимые): Уточняют механизм извлечения текста. Текст (ii) получается путем применения OCR к захваченному изображению.
Claim 5 (Зависимый): Описывает инфраструктуру. Поиск включает запрос к индексу, который поддерживает как текстовые запросы, так и сопоставление изображений (image matching).
Это требует наличия мультимодального индекса, где для изображений хранятся и визуальные признаки, и распознанный текст.
Claim 7 (Зависимый): Детализирует механизм поиска. Он включает выполнение поиска изображения (Image Search) и использование текста для дальнейшего устранения неоднозначности (further disambiguate) и идентификации совпадений.
Claims 8 и 9 (Зависимые): Вводят использование контекста. Поиск может быть ограничен (constrained) на основе контекста (Context Analysis), который может включать идентификацию документа, из которого было захвачено изображение, что позволяет ограничить корпус поиска.
Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая работу визуального поиска.
CRAWLING – Сканирование и Сбор данных (В контексте пользователя)
В данном патенте этот этап реализуется на стороне пользователя: захват изображения из rendered document с помощью портативного устройства (камеры телефона).
INDEXING – Индексирование и извлечение признаков
Применяется двояко:
OCR) из изображений в индексе и расчет их визуальных сигнатур для создания мультимодального индекса.OCR и извлечение визуальных сигнатур для формирования запроса.QUNDERSTANDING – Понимание Запросов
Когда пользователь инициирует визуальный поиск, система интерпретирует входящие данные как мультимодальный запрос. Происходит конструирование сложного запроса (query construction), объединяющего визуальные и текстовые данные.
RANKING – Ранжирование (Retrieval)
Система выполняет поиск по мультимодальному индексу. Алгоритмы ранжирования оценивают релевантность кандидатов на основе комбинированного совпадения визуальных характеристик и распознанного текста. Текст используется для валидации и уточнения результатов.
RERANKING – Переранжирование
Результаты поиска могут уточняться с использованием контекста (Context Analysis) для ограничения поиска (constrain) и повышения точности.
Входные данные:
Выходные данные:
Actions).Детальное описание процесса обработки захваченного контента:
rendered document.Image Characteristics).OCR для конвертации данных в текст. Может включать генерацию набора возможных текстовых транскрипций (упоминается в описании как Uncertain OCR).constrain).Markup Analysis).Система использует следующие типы данных:
image characteristics — визуальные признаки, используемые для сопоставления (формы, цвета, объекты, логотипы).OCR (text within the contents of the image). Это могут быть названия, слоганы, ключевые слова.user and account info), история захватов, время и местоположение захвата (используются в Context Analysis для ограничения поиска).Патент не приводит конкретных формул, но описывает использование следующих метрик и подходов:
Uncertain OCR.disambiguation (устранения неоднозначности) визуальных результатов.OCR) и используется как неотъемлемая часть поискового запроса наравне с визуальными признаками.OCR. Это напрямую влияет на подходы к дизайну веб-графики и маркетинговых материалов (OCR-friendly design).constrain) и повышения релевантности результатов (Claims 8 и 9).OCR для идентификации контента в визуальном поиске.OCR и мешает системе извлечь текстовые сигналы.alt-тегов и окружающего текста. В контексте данного патента, игнорирование текста внутри самого изображения является упущением возможности улучшить видимость в визуальном поиске.Патент подтверждает стратегический приоритет Google в развитии мультимодального поиска и технологий типа Google Lens. Для SEO это означает, что оптимизация визуальных активов становится критически важной. Патент доказывает, что текст, встроенный в изображения, активно индексируется и используется для поиска и ранжирования. Стратегия создания контента должна учитывать, как пользователи ищут информацию через камеры своих устройств, особенно в E-commerce и локальном поиске.
Сценарий: Оптимизация карточки товара в E-commerce для визуального поиска
OCR.Означает ли этот патент, что Google читает и индексирует весь текст на моих изображениях?
Да, патент прямо указывает на использование OCR для извлечения текста из изображений (text within the contents of the image) и использования этого текста как одного из двух ключевых компонентов для поиска. Следует исходить из того, что любой машиночитаемый текст на изображении потенциально индексируется и используется в поиске.
Что важнее для идентификации по этому патенту: визуальное сходство или распознанный текст?
Патент подчеркивает, что результат поиска основан на комбинации обоих факторов. Визуальные элементы используются для поиска похожих изображений, а текст играет ключевую роль в устранении неоднозначности (disambiguation) между ними (Claim 7). Для точного совпадения в идеале должны совпасть оба компонента.
Как мне оптимизировать текст внутри изображений для этой системы?
Главное — обеспечить максимальную читаемость для OCR. Используйте чистые шрифты достаточного размера (предпочтительно без засечек), обеспечьте высокий контраст между текстом и фоном, избегайте наложения текста на сложные узоры и убедитесь в достаточном разрешении изображения.
Чем это отличается от использования ALT-текста?
ALT-текст — это внешнее описание в HTML-коде. Технология в патенте анализирует внутреннее содержание пикселей изображения, распознавая текст, который является частью самой картинки. Это разные сигналы, и оба важны, но патент фокусируется на прямом анализе визуального контента.
Как эта технология связана с Google Lens?
Эта технология описывает фундаментальный мультимодальный подход, который используется в Google Lens. Когда вы используете Lens для сканирования объекта с текстом (например, меню или упаковки товара), система одновременно распознает объект (визуальные характеристики) и читает текст (OCR), комбинируя эти данные для предоставления результата.
Какие типы изображений наиболее выигрывают от этой технологии?
Наибольший выигрыш получают изображения, где текст и графика несут совместную смысловую нагрузку: инфографика, рекламные баннеры, фотографии товаров в упаковке, слайды презентаций, логотипы с текстом и фотографии вывесок (Local SEO).
Что такое "Rendered Document" в контексте этого патента?
Rendered Document — это любой документ, который может воспринимать человек. Это включает физические носители (бумага, рекламный щит, упаковка), а также цифровые дисплеи (экран компьютера). Система предназначена для захвата изображений с любого из этих источников.
Использует ли система контекст при таком поиске?
Да, в патенте упоминается Context Analysis и возможность ограничения (constrain) поиска на основе контекста (Claims 8 и 9). Например, если система может определить, из какого документа (журнала, сайта) было захвачено изображение, она может сузить область поиска для повышения точности.
Как система справляется с ошибками OCR?
В описании патента упоминается концепция "Uncertain OCR". Система может генерировать несколько вариантов распознавания текста с разными весами вероятности (probability weightings) и использовать их при поиске, чтобы повысить шанс нахождения правильного совпадения, даже если качество захвата было низким.
Как проверить, хорошо ли Google распознает текст на моих изображениях?
Самый практичный способ — использовать Google Lens на смартфоне. Наведите камеру на изображение (в печатном виде или на экране) и проверьте, может ли система выделить и корректно скопировать текст. Также можно использовать Google Vision AI API для более технического анализа качества распознавания.

Мультимедиа
Индексация
EEAT и качество

Индексация
Local SEO
Мультимедиа

Мультимедиа
Семантика и интент


Мультимедиа
Семантика и интент

EEAT и качество
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Структура сайта

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа

SERP
Семантика и интент
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP
