Как Google использует OCR и канонические документы для улучшения результатов визуального поиска

Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.

Описание

Какую задачу решает

Патент решает проблему низкого качества или сложности чтения текста в визуальных запросах (например, размытых или искаженных фотографиях документов). Традиционный поиск по такому контенту затруднен. Изобретение улучшает пользовательский опыт, предоставляя чистую, авторитетную версию распознанного текста путем сопоставления его с каноническим документом (canonical document) и комбинирования результатов с исходным изображением.

Что запатентовано

Запатентована система обработки визуальных запросов, которая выполняет оптическое распознавание символов (OCR) и использует сложный механизм оценки качества распознанного текста. Система идентифицирует строки текста высокого качества (high quality textual strings) и ищет их в индексе канонических документов. При обнаружении совпадения система генерирует комбинацию исходного визуального запроса и соответствующей части канонического документа (текста или изображения), часто накладывая каноническую версию поверх исходного изображения для улучшения читаемости.

Как это работает

Система работает в несколько этапов:

Получение и OCR: Система получает визуальный запрос (изображение) и выполняет OCR.
Оценка качества символов: Каждый распознанный символ оценивается. Оценка учитывает не только уверенность OCR для самого символа, но и оценки соседних символов, а также вероятность появления символа в контексте языковой модели (language-conditional character probability).
Идентификация качественных строк: Выявляются последовательности символов с высокими оценками качества.
Поиск канонического документа: Эти строки используются для поиска соответствующего канонического документа в базе данных.
Генерация комбинации: Система создает комбинированный результат, накладывая часть канонического документа (чистый текст или изображение) поверх исходного визуального запроса, выравнивая его по ориентации исходного изображения.

Актуальность для SEO

Высокая. Технология напрямую связана с функциональностью Google Lens и обработкой изображений в поиске. Возможность распознавать текст в сложных условиях, сопоставлять его с авторитетными источниками и предоставлять улучшенную версию изображения является ключевым компонентом современных систем визуального поиска.

Важность для SEO

Патент имеет среднее стратегическое значение для SEO. Он не описывает алгоритмы ранжирования веб-страниц, но критически важен для понимания того, как Google извлекает информацию из изображений (Image SEO) и связывает ее с каноническими документами (веб-страницами). Патент подтверждает, что текст внутри изображений индексируется и используется для генерации стандартных веб-результатов. Для SEO-специалистов это подчеркивает важность обеспечения того, чтобы их контент выступал в качестве канонического источника для информации, содержащейся в изображениях (например, инфографике, фотографиях продуктов).

Детальный разбор

Термины и определения

Visual Query (Визуальный запрос): Изображение (например, фотография, скан, скриншот), отправленное в поисковую систему в качестве запроса.
Canonical Document (Канонический документ): Авторитетный исходный документ (например, веб-страница, книга, опубликованная статья) из установленного источника, хранящийся в базе данных. Текст в таких документах считается авторитетным представлением контента.
OCR (Optical Character Recognition): Оптическое распознавание символов. Процесс преобразования изображений текста в машиночитаемый текст.
Text Recognition Data (Данные распознавания текста): Выходные данные процесса OCR, включающие распознанные символы и связанную с ними информацию.
High Quality Textual Strings (Текстовые строки высокого качества): Последовательности распознанных символов, которые имеют оценку качества выше определенного порога. Используются для поиска канонического документа.
Language-Conditional Character Probability (Вероятность символа, обусловленная языком): Метрика, указывающая, насколько распознанный символ и предшествующие ему символы соответствуют определенной языковой модели.
Structural Information (Структурная информация): Данные, описывающие макет текста в визуальном запросе: относительные позиции, размеры, порядок символов, количество символов и категорию шрифта.
Visual Query Server System (Система сервера визуальных запросов): Серверная инфраструктура, предназначенная для обработки визуальных запросов, включающая параллельные системы поиска (например, OCR, распознавание лиц, распознавание объектов).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса для генерации комбинированного результата.

Система получает визуальный запрос от клиента.
Выполняется OCR для получения данных, представляющих текстовые символы в непрерывной области изображения.
Выполняется оценка (scoring) каждого текстового символа. Ключевой аспект: оценка символа основана как на качестве OCR самого символа, так и на качестве OCR одного или нескольких соседних символов.
На основе оценок идентифицируются одна или несколько high quality textual strings.
Извлекается canonical document, содержащий эти строки.
Генерируется комбинация визуального запроса и по крайней мере части канонического документа.
Комбинация отправляется клиенту.

Claim 2 (Зависимый от 1): Уточняет механизм генерации комбинации.

Генерация комбинации включает наложение (superimposing) части канонического документа на визуальный запрос.

Claim 3 (Зависимый от 1): Уточняет ориентацию при генерации комбинации.

Часть канонического документа ориентируется в комбинации в соответствии с ориентацией визуального запроса (т.е. если исходное фото было под углом, наложенный текст также будет под углом).

Claim 9 (Зависимый от 1): Детализирует механизм оценки символов.

Оценка символа включает генерацию language-conditional character probability, которая показывает, насколько символ и предшествующий ему набор символов соответствуют определенной языковой модели.

Claim 12 (Независимый пункт): Описывает метод выбора типа возвращаемого канонического контента на основе качества.

После выполнения OCR, оценки символов и идентификации качественных строк рассчитывается quality score (оценка качества) для этих строк.
Если оценка качества ниже порогового значения, извлекается версия канонического документа в виде изображения (image version).
Если оценка качества равна или выше порогового значения, извлекается версия канонического документа в виде машиночитаемого текста (machine readable text version).
Генерируется комбинация визуального запроса и извлеченной версии.

Где и как применяется

Патент описывает процессы внутри специализированной системы Visual Query Server System, которая функционирует параллельно основному веб-поиску (Term Query Server System). Он затрагивает этапы, аналогичные стандартной архитектуре поиска, но применяемые к визуальным данным.

CRAWLING / INDEXING (Канонических документов)
Система полагается на существующую базу данных или индекс канонических документов (например, индекс веб-страниц, Google Books). Эти документы должны быть предварительно проиндексированы.

INDEXING (Извлечение признаков из визуального запроса)
Основная часть работы происходит здесь, в частности в подсистеме OCR Search System. Визуальный запрос анализируется, выполняется OCR, извлекается текст и структурная информация (Structural Information). Происходит сложная оценка качества символов и строк.

RANKING / RETRIEVAL (Поиск соответствий)
Идентифицированные high quality textual strings используются как запрос к базе данных канонических документов для поиска соответствий. В некоторых вариантах также учитывается Structural Information для выбора наиболее подходящего документа (например, правильного издания книги).

METASEARCH / RERANKING (Генерация и смешивание результатов)
На этом этапе система генерирует финальный результат. Ключевым моментом является создание «комбинации» — наложение канонического контента на исходный визуальный запрос. Также система может использовать извлеченный текст для генерации дополнительных веб-результатов (Web Results) через Term Query Server System и смешивать их с визуальными результатами.

Входные данные:

Визуальный запрос (изображение).
(Опционально) Географическое положение клиента.

Выходные данные:

Комбинация визуального запроса и части канонического документа (наложенный текст или изображение).
(Опционально) Отдельные сегменты канонического документа (текст и/или изображение).
(Опционально) Список релевантных веб-результатов.

На что влияет

Типы контента: В первую очередь влияет на изображения, содержащие текст: фотографии документов, книг, газет, упаковки продуктов, вывесок, инфографику.
Специфические запросы: Визуальные запросы, целью которых является идентификация источника текста или улучшение читаемости сфотографированного текста.
Географические факторы: Система может адаптировать распознавание и результаты в зависимости от местоположения пользователя, используя локализованные языковые модели и уточняя географические названия, найденные в тексте.

Когда применяется

Триггеры активации: Применяется, когда система обнаруживает текст в визуальном запросе и может идентифицировать high quality textual strings, достаточные для поиска соответствия в базе канонических документов.
Условия работы: Работает при наличии доступа к обширной базе канонических документов. Эффективность зависит от качества OCR и способности сопоставить распознанный текст с источником.

Пошаговый алгоритм

Процесс обработки визуального запроса и генерации комбинации

Получение данных: Система получает визуальный запрос и (опционально) географическое положение клиента.
Выполнение OCR: На визуальном запросе выполняется оптическое распознавание символов для получения текстовых символов и (опционально) структурной информации (шрифт, расположение, размер).
Оценка символов (Scoring): Каждый распознанный символ оценивается.
1. Выбирается языковая модель (по умолчанию или на основе географического положения).
2. Генерируется language-conditional character probability для каждого символа с учетом контекста (предшествующих символов) и выбранной языковой модели.
3. Генерируется text quality score для каждого символа. Эта оценка зависит как от качества распознавания самого символа, так и от оценок соседних символов.
Идентификация качественных строк: На основе оценок символов (и, возможно, оценок слов) система идентифицирует одну или несколько high quality textual strings.
Поиск канонического документа: Система ищет canonical document, который содержит эти высококачественные строки. В некоторых вариантах поиск также требует соответствия структурной информации визуального запроса и канонического документа.
Генерация комбинации:
1. Извлекается соответствующая часть канонического документа (в виде текста или изображения). Выбор типа может зависеть от итоговой оценки качества (Claim 12).
2. Генерируется комбинация путем наложения извлеченной части на исходный визуальный запрос.
3. Наложенная часть ориентируется в соответствии с ориентацией текста в исходном визуальном запросе.
Генерация веб-результатов (Опционально): Идентифицируются веб-результаты, релевантные визуальному запросу и (опционально) географическому положению. Если в тексте найден географический термин, он может быть уточнен с помощью местоположения клиента.
Отправка результатов: Комбинация и (опционально) веб-результаты отправляются клиенту.

Какие данные и как использует

Данные на входе

Контентные факторы (Изображение): Пиксельные данные визуального запроса, которые анализируются системой OCR.
Структурные факторы (Извлеченные): Система извлекает из изображения Structural Information: относительные позиции, размеры, порядок символов, категорию шрифта.
Географические факторы: IP-адрес или GPS-координаты клиента используются для выбора языковой модели и уточнения географических терминов в тексте.
Системные данные (Внутренние): База данных канонических документов, языковые модели (language models).

Какие метрики используются и как они считаются

OCR Quality Score (Оценка качества OCR): Уверенность системы OCR в правильности распознавания отдельного символа.
Language-Conditional Character Probability: Вероятность появления символа в заданном контексте (последовательности предшествующих символов) согласно языковой модели.
Text Quality Score (Оценка качества текста): Агрегированная оценка для символа. Патент указывает, что она зависит от качества OCR самого символа И от оценок соседних символов (Claim 1). Это предполагает использование алгоритмов сглаживания или контекстной постобработки OCR.
Quality Score (для строк): Оценка, рассчитываемая для high quality textual strings. Используется для принятия решения о том, возвращать ли текстовую или графическую версию канонического документа (Claim 12).
Соответствие структурной информации: Метрика, оценивающая, насколько макет текста в визуальном запросе соответствует макету текста в каноническом документе.

Выводы

Google активно использует текст в изображениях для поиска: Патент демонстрирует сложный механизм извлечения текста из визуальных запросов (OCR) и его использования для поиска релевантной информации, включая генерацию стандартных веб-результатов. Текст в изображениях является индексируемым контентом.
Важность канонических источников: Система стремится сопоставить распознанный текст с canonical document. Это подчеркивает важность наличия четкого, индексируемого текстового контента на сайте, который может служить авторитетным источником для информации, распространяемой в графическом формате.
Сложная оценка качества OCR: Google не просто полагается на уверенность распознавания отдельных символов. Используются языковые модели и контекст (соседние символы) для определения high quality textual strings. Это позволяет системе работать даже с искаженными или размытыми изображениями.
Учет структуры и формата: Система анализирует Structural Information (макет, шрифты) и может использовать это для различения разных версий одного и того же текста (например, разных изданий книги).
Локализация в визуальном поиске: Географическое положение пользователя влияет на процесс OCR (выбор языковой модели для учета локальных вариантов написания) и на генерацию результатов (уточнение географических названий в тексте).

Практика

Best practices (это мы делаем)

Обеспечение каноничности текстового контента: Убедитесь, что текст, используемый в ваших изображениях (инфографика, схемы, цитаты), также присутствует на вашем сайте в виде индексируемого HTML-текста. Это позволит Google идентифицировать ваш сайт как canonical document для этого контента.
Оптимизация текста в изображениях для OCR: Используйте четкие, контрастные шрифты и избегайте наложения текста на сложные фоны. Хотя система Google предназначена для работы со сложными случаями, упрощение задачи OCR повышает вероятность правильного распознавания и сопоставления.
Использование текста в изображениях продуктов (E-commerce): Текст на упаковке продукта или на самом продукте является важным сигналом. Патент показывает, что Google может распознать этот текст и использовать его для идентификации продукта и генерации релевантных веб-результатов.
Локализация визуального контента: При работе на нескольких рынках учитывайте локальные особенности языка и написания в визуальных материалах, так как Google может использовать локализованные языковые модели для OCR на основе местоположения пользователя.

Worst practices (это делать не надо)

Публикация важной информации только в виде изображений: Размещение ключевой информации (например, спецификаций продукта, контактных данных, основных тезисов статьи) исключительно в графическом формате без текстового дублирования на странице затрудняет идентификацию вашего сайта как канонического источника.
Использование намеренно искаженных шрифтов для ключевой информации: Использование CAPTCHA-подобных или чрезмерно стилизованных шрифтов может снизить качество OCR и помешать системе извлечь high quality textual strings.
Игнорирование географической неоднозначности: Если в изображении упоминается географическое название, которое имеет несколько значений (например, «Париж»), и контекст неясен, система может ошибочно связать его с местоположением пользователя. Рекомендуется предоставлять уточняющий контекст (например, «Париж, Франция»).

Стратегическое значение

Этот патент подтверждает стратегию Google по извлечению и пониманию информации из любых форматов, включая сложные визуальные данные. Для SEO это означает, что граница между текстовым и визуальным контентом стирается. Стратегия должна включать оптимизацию изображений не только через alt-тексты и имена файлов, но и через обеспечение читаемости и каноничности контента, содержащегося внутри самих изображений. Это особенно важно в контексте роста популярности визуального поиска (например, Google Lens).

Практические примеры

Сценарий: Оптимизация инфографики для идентификации канонического источника

Действие: Компания создает и публикует детальную инфографику со статистикой по своей отрасли.
Реализация (Best Practice): Одновременно с публикацией инфографики на странице блога публикуется полная текстовая расшифровка всех данных и тезисов, содержащихся в инфографике, непосредственно под изображением.
Ожидаемый результат: Когда пользователи или другие сайты делятся этой инфографикой (делают скриншоты, фотографии), система Google выполняет OCR. Она идентифицирует high quality textual strings и сопоставляет их с текстовой расшифровкой в блоге. Сайт компании идентифицируется как canonical document, что повышает вероятность показа этого сайта в результатах визуального поиска или в связанных веб-результатах.

Сценарий: Использование локализации в визуальном поиске (E-commerce)

Действие: Международный ритейлер продает продукт с разным написанием названия на упаковке для рынка США («Color») и рынка Великобритании («Colour»).
Реализация (Best Practice): Ритейлер поддерживает отдельные канонические страницы продуктов для каждого региона с соответствующим написанием.
Ожидаемый результат: Пользователь в Великобритании фотографирует упаковку с надписью «Colour». Система Google использует географическое положение пользователя для выбора британской языковой модели (Claim 9, FIG. 25A). Это повышает точность распознавания слова «Colour». Система сопоставляет его с канонической страницей продукта для Великобритании и генерирует соответствующие локальные веб-результаты.

Вопросы и ответы

Что такое «канонический документ» в контексте этого патента?

Canonical document — это авторитетный источник контента, хранящийся в базе данных Google (например, проиндексированная веб-страница, книга из Google Books). Когда система распознает текст в визуальном запросе, она пытается найти этот же текст в своей базе канонических документов, чтобы подтвердить точность распознавания и получить чистую версию контента.

Как Google оценивает качество распознанного текста (OCR)?

Оценка качества сложная и не полагается только на уверенность OCR для отдельных символов. Ключевым аспектом (Claim 1) является то, что оценка символа зависит от оценок его соседей. Также используется language-conditional character probability — метрика, проверяющая, насколько последовательность символов соответствует языковой модели. Это позволяет системе идентифицировать надежные строки (high quality textual strings) даже в искаженных изображениях.

Что такое «комбинация» визуального запроса и канонического документа?

Это ключевая часть изобретения. Вместо того чтобы просто показать распознанный текст, система генерирует новый визуальный результат, накладывая чистый текст или изображение из канонического документа поверх исходного (возможно, размытого или искаженного) визуального запроса. Это создает эффект «исправления» или улучшения исходного изображения для пользователя.

Влияет ли этот патент на ранжирование моего сайта в обычном поиске?

Напрямую нет, так как он описывает обработку визуальных запросов. Однако патент показывает, что текст, извлеченный из изображений с помощью OCR, используется для генерации стандартных веб-результатов (Web Results). Если система сможет распознать текст в изображении и идентифицировать ваш сайт как канонический источник этого текста, ваш сайт может быть показан в этих результатах.

Как SEO-специалисту использовать информацию из этого патента на практике?

Основное применение — обеспечение каноничности вашего контента. Если вы публикуете изображения, содержащие текст (например, инфографику), убедитесь, что этот же текст присутствует на вашем сайте в формате HTML. Это поможет Google связать визуальный контент с вашим сайтом как авторитетным источником.

Учитывает ли система форматирование текста при поиске канонического документа?

Да. Патент описывает извлечение Structural Information (шрифт, размер, расположение, порядок слов). Система может использовать эту информацию, чтобы найти канонический документ, который не только содержит тот же текст, но и имеет схожую структуру. Это помогает, например, различать разные издания одной и той же книги.

Как местоположение пользователя влияет на этот процесс?

Местоположение используется двумя способами. Во-первых, оно помогает выбрать правильную языковую модель для OCR (например, для учета различий в написании между американским и британским английским). Во-вторых, оно используется для уточнения географических названий, найденных в тексте (например, чтобы понять, имеется ли в виду Париж во Франции или в Техасе).

Должен ли я оптимизировать текст в изображениях для лучшего распознавания?

Да. Хотя система Google разработана для работы со сложными случаями, использование четких, контрастных шрифтов и простого макета повышает вероятность того, что OCR сгенерирует high quality textual strings. Это, в свою очередь, увеличивает шансы на успешное сопоставление с вашим каноническим документом.

Что происходит, если Google уверен в качестве распознанного текста?

Патент (Claim 12) описывает сценарий, когда система принимает решение на основе оценки качества. Если оценка качества высока (выше порога), система предпочитает использовать машиночитаемую текстовую версию канонического документа для генерации комбинации. Если оценка ниже порога, она может использовать версию в виде изображения.

Является ли это описанием работы Google Lens?

Хотя патент не упоминает Google Lens по имени, описанные технологии — обработка визуальных запросов, параллельное использование OCR и других систем распознавания, сопоставление с каноническими источниками и улучшение изображения — тесно связаны с функциональностью, наблюдаемой в Google Lens и современных системах визуального поиска.