Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
Описание
Какую задачу решает
Патент решает проблему надежного поиска оригинального цифрового документа (Canonical Document), когда в качестве запроса используется изображение текста (Visual Query), например, фотография страницы. Такие изображения часто бывают низкого качества, что приводит к ошибкам оптического распознавания символов (OCR). Использование зашумленного текста затрудняет точное сопоставление с оригиналом. Изобретение предлагает метод фильтрации ошибок OCR для повышения точности идентификации источника.
Что запатентовано
Запатентована система, которая улучшает точность идентификации источника по визуальному запросу за счет сложного механизма оценки качества результатов OCR. Ключевым элементом является оценка достоверности распознавания каждого символа с учетом его контекста — оценок соседних символов и соответствия языковой модели. Это позволяет выделить «высококачественные текстовые строки» (High Quality Textual Strings), которые затем используются для точного поиска канонического документа.
Как это работает
Система получает визуальный запрос и выполняет OCR. Затем происходит оценка качества. Для каждого символа рассчитывается вероятность его появления с учетом языковой модели (Language-Conditional Character Probability). Далее вычисляется оценка качества символа (Text Quality Score), причем эта оценка зависит от оценок соседних символов (с использованием параметра Transition Cost). Система идентифицирует строки с наивысшей совокупной оценкой качества. Эти надежные строки используются как запрос для поиска в базе данных канонических документов, и найденный источник возвращается пользователю.
Актуальность для SEO
Высокая. Технологии визуального поиска, такие как Google Lens, активно развиваются и интегрируются в поисковые продукты. Возможность быстро и точно связать физический объект (книгу, документ) с его цифровой канонической версией является ключевой функцией современных поисковых систем и сервисов типа Google Books.
Важность для SEO
Влияние на SEO минимальное (2/10). Патент описывает инфраструктурную технологию обработки визуальных запросов и повышения качества OCR, а не алгоритмы ранжирования веб-страниц. Он критически важен для понимания механизмов работы визуального поиска текста, но не предоставляет прямых практических рекомендаций для традиционного SEO продвижения сайтов.
Детальный разбор
Термины и определения
- Visual Query (Визуальный запрос)
- Изображение (фотография, скан, кадр видео), отправляемое пользователем в качестве запроса в поисковую систему.
- OCR (Optical Character Recognition)
- Оптическое распознавание символов. Технология извлечения текста из изображения.
- Canonical Document (Канонический документ)
- Оригинальный, эталонный цифровой источник документа (например, файл книги в Google Books), который система пытается найти по визуальному запросу.
- Text Quality Score (Оценка качества текста)
- Метрика, присваиваемая отдельному символу, слову или строке, которая отражает уверенность системы в правильности распознавания.
- High Quality Textual String (Высококачественная текстовая строка)
- Последовательность символов, извлеченная из визуального запроса, которая получила высокую оценку качества и используется для поиска канонического документа.
- Language-Conditional Character Probability (Вероятность символа, обусловленная языком)
- Оценка того, насколько хорошо распознанный символ и его контекст (например, предшествующие ему символы) соответствуют статистической языковой модели.
- Transition Cost (Стоимость перехода)
- Параметр, используемый в алгоритме скоринга (Claim 1). Он влияет на то, насколько оценка качества символа зависит от оценок его соседей. Высокая стоимость перехода способствует сглаживанию оценок (символ с большей вероятностью получит ту же оценку качества, что и его соседи).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса для поиска канонического документа.
- Система получает визуальный запрос.
- Выполняется OCR для извлечения символов в непрерывной области изображения.
- Производится оценка (scoring) каждого символа. Эта оценка основана на оценках качества (как высоких, так и низких) окружающих символов. Оценка частично базируется на Transition Cost, которая определяет, насколько схожей будет оценка символа с оценками соседей (чем выше стоимость, тем больше схожесть).
- Идентифицируются один или несколько высококачественных текстовых сегментов (строк). Критерий — сегмент должен содержать множество символов с высокой оценкой.
- Идентифицируется документ, содержащий хотя бы один из этих высококачественных сегментов.
- Этот документ извлекается (retrieving).
- Часть извлеченного документа отправляется клиенту.
Claim 5 (Зависимый от 1): Детализирует процесс идентификации высококачественных строк.
- Сначала оцениваются слова на основе оценок составляющих их символов.
- Затем идентифицируются высококачественные текстовые сегменты, состоящие из высококачественных слов.
Claim 6 (Зависимый от 1): Уточняет, что оценка символа может быть бинарной: либо символ высокого качества, либо низкого.
Claim 7 (Зависимый от 1): Уточняет, что процесс оценки символа включает генерацию Language-Conditional Character Probability — метрики, показывающей, насколько хорошо символ и предшествующие ему символы соответствуют языковой модели.
Claim 9 (Зависимый от 1): Описывает логику выбора формата возвращаемого документа в зависимости от рассчитанной оценки качества (Quality Score).
- Если оценка качества ниже определенного порога, возвращается изображение (image version) канонического документа.
- Если оценка качества равна или выше порога, возвращается машиночитаемый текст (machine readable text version) канонического документа.
Где и как применяется
Изобретение применяется в системах визуального поиска (например, Google Lens) и системах поиска по книгам (Google Books).
INDEXING – Индексирование (Подготовка)
Для работы системы необходима база данных Canonical Documents (например, оцифрованные книги, проиндексированные документы). Эта база создается на этапе индексирования.
QUNDERSTANDING – Понимание Запросов (Основное применение)
На этом этапе происходит обработка входящего Visual Query. Система выполняет OCR, проводит сложную контекстную оценку качества распознавания (Scoring) и выделяет High Quality Textual Strings. Это является ключевым процессом интерпретации визуального запроса.
RANKING – Ранжирование (Извлечение)
Выделенные высококачественные строки используются как запрос для поиска точных или близких совпадений в индексе канонических документов и извлечения соответствующего источника.
Входные данные:
- Visual Query (изображение, содержащее текст).
- Языковые модели (используются для оценки качества).
Выходные данные:
- Часть найденного Canonical Document (в формате изображения или машиночитаемого текста).
На что влияет
- Конкретные типы контента: В первую очередь влияет на контент, который часто фотографируют или сканируют с целью поиска оригинала: книги, журналы, научные статьи, официальные документы.
- Специфические запросы: Визуальные запросы, содержащие текст.
- Конкретные ниши: Издательское дело, электронные библиотеки, образование.
Когда применяется
- Триггеры активации: Алгоритм активируется, когда пользователь отправляет визуальный запрос и система OCR обнаруживает в нем текст, который потенциально может соответствовать каноническому документу в базе данных.
Пошаговый алгоритм
- Получение запроса: Система получает Visual Query (изображение с текстом) от клиента.
- Выполнение OCR: Модуль OCR обрабатывает изображение для извлечения символов и генерации первичных данных распознавания.
- Оценка качества символов (Scoring): Этот этап является ядром изобретения.
- a. Генерация Language-Conditional Character Probability: Для каждого символа оценивается вероятность его появления в данном контексте на основе языковой модели.
- b. Расчет Text Quality Score: Вычисляется оценка качества для каждого символа. Эта оценка зависит не только от вероятности (пункт а), но и от оценок качества соседних символов. Используется механизм сглаживания (с учетом Transition Cost), чтобы оценки соседних символов были схожими. Оценка может быть бинарной.
- Идентификация высококачественных строк: Система выделяет High Quality Textual Strings — последовательности символов, имеющие высокую совокупную оценку качества. (В одном из вариантов реализации: сначала оцениваются слова, затем строки, состоящие из высококачественных слов).
- Поиск канонического документа: Выделенные высококачественные строки используются как запрос для поиска совпадений в базе данных Canonical Documents.
- Извлечение документа: Найденный канонический документ извлекается из хранилища.
- Отправка результата: Система отправляет релевантную часть найденного документа клиенту. Формат ответа (изображение или текст) выбирается в зависимости от итоговой оценки качества (Claim 9).
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Основные данные — это само изображение (Visual Query), содержащее текст, который необходимо распознать и сопоставить.
Какие метрики используются и как они считаются
- Text Quality Score (Оценка качества текста): Метрика для символа, слова или строки. Может быть числовой или бинарной (Claim 6). Рассчитывается на основе вероятностей и контекста.
- Language-Conditional Character Probability: Вероятностная метрика, показывающая соответствие последовательности символов языковой модели (например, на основе N-грамм символов).
- Transition Cost: Параметр алгоритма скоринга, используемый для сглаживания оценок качества между соседними символами. Определяет степень влияния оценок соседних символов.
- Пороговые значения: Используются для классификации строк как High Quality и для выбора формата вывода (текст vs изображение, Claim 9).
Выводы
- Патент описывает инфраструктуру визуального поиска текста. Это техническое описание механизма, который позволяет системам типа Google Lens или Google Books находить оригинальный источник по фотографии.
- Ключевая технология — контекстная оценка качества OCR. Изобретение фокусируется на постобработке результатов OCR. Система использует языковую модель и оценки соседних символов (сглаживание через Transition Cost), чтобы выделить наиболее надежные (High Quality) строки даже в очень шумном или искаженном изображении.
- Цель — найти Канонический Документ. Весь процесс направлен на точное сопоставление визуального запроса с его эталонной цифровой версией (Canonical Document).
- Адаптивный формат ответа. Система может возвращать результат в виде оригинального изображения или машиночитаемого текста в зависимости от уверенности (Quality Score) в правильности распознавания (Claim 9).
- Отсутствие влияния на веб-ранжирование. Патент не описывает факторы ранжирования сайтов в основном поиске и имеет минимальную практическую ценность для традиционных задач SEO.
Практика
Практическое применение в SEO
Патент носит преимущественно инфраструктурный характер и описывает внутренние процессы обработки визуальных запросов. Он не дает прямых практических выводов для стандартного SEO продвижения сайтов.
Best practices (это мы делаем)
- Обеспечение доступности канонических версий. Если ваш контент существует в печатном виде (книги, каталоги, брошюры) и вы хотите, чтобы его можно было найти через визуальный поиск, убедитесь, что его цифровая версия (Canonical Document) доступна для индексации Google (например, через Google Books или в виде индексируемого PDF/HTML на вашем сайте). Это позволит системе связать визуальный запрос пользователя с вашим контентом.
- Использование четких шрифтов и контраста. Для материалов, которые могут быть сфотографированы (печатная продукция, инфографика, слайды презентаций), использование стандартных, четких шрифтов и высокого контраста повысит вероятность успешного распознавания и получения высоких Text Quality Scores при обработке OCR.
Worst practices (это делать не надо)
- Не применимо. Патент не направлен на борьбу с SEO-манипуляциями или спамом в веб-поиске.
Стратегическое значение
Патент подтверждает стратегическую важность визуального поиска как альтернативного способа доступа к информации. Google инвестирует в технологии, позволяющие преодолеть разрыв между физическим миром (печатный текст) и цифровым индексом. Для владельцев контента это подчеркивает необходимость присутствия в цифровом пространстве в качестве индексируемого канонического источника для обеспечения максимальной доступности информации.
Практические примеры
Сценарий: Продвижение книги или каталога
- Задача: Обеспечить возможность пользователям находить цифровую версию печатного каталога.
- Действие: Опубликовать PDF-версию каталога на сайте и убедиться, что она индексируется, или загрузить ее в Google Books. Эта версия становится Canonical Document.
- Результат: Пользователь фотографирует страницу физического каталога с помощью Google Lens. Система применяет описанный в патенте алгоритм: выполняет OCR, идентифицирует High Quality Textual Strings, находит каноническую PDF-версию в индексе Google. Пользователю предоставляется ссылка на скачивание или просмотр оригинального цифрового каталога.
Вопросы и ответы
Влияет ли этот патент на ранжирование моего сайта в основном веб-поиске?
Нет, напрямую не влияет. Патент описывает технологию визуального поиска — как Google обрабатывает изображения, содержащие текст, чтобы найти оригинальный цифровой документ. Он не затрагивает алгоритмы ранжирования сайтов по текстовым запросам в стандартной выдаче.
Что такое «Канонический документ» (Canonical Document) в контексте этого патента? Это то же самое, что и страница с rel=canonical?
Нет. В данном патенте Canonical Document означает эталонную цифровую версию контента, который был сфотографирован пользователем. Например, если пользователь фотографирует страницу из «Войны и мира», каноническим документом будет цифровая версия этой книги в базе данных Google (например, в Google Books). Это не связано с SEO-тегом rel=canonical, который используется для устранения дубликатов веб-страниц.
Как Google определяет качество распознанного текста (OCR), если фотография размыта?
Система использует сложный механизм оценки. Она не просто полагается на уверенность OCR-движка для каждого символа в отдельности. Она учитывает контекст: насколько вероятно появление этого символа с точки зрения языковой модели (Language-Conditional Probability) и каково качество соседних символов (используя Transition Cost). Это позволяет выделить надежные участки текста даже при плохом качестве изображения.
Что такое «Language-Conditional Character Probability»?
Это показатель того, насколько вероятно появление определенного символа в данном контексте (после определенных предыдущих символов) с точки зрения статистики языка. Например, после букв «АЛГОРИ» вероятность появления буквы «Т» очень высока, а буквы «Ъ» — крайне мала. Эта вероятность используется для расчета итоговой оценки качества распознавания.
Что такое «Transition Cost», упоминаемая в Claim 1?
Это технический параметр алгоритма оценки качества, который отвечает за «сглаживание» результатов. Он определяет, насколько оценка одного символа должна быть похожа на оценки его соседей. Это помогает избежать ситуаций, когда один символ ошибочно признан качественным среди некачественных соседей, и наоборот, повышая общую надежность выделения текстовых строк.
Зачем Google иногда возвращает изображение канонического документа вместо текста?
В патенте (Claim 9) указано, что если общая оценка качества (Quality Score) распознавания ниже определенного порога, система предпочтет вернуть изображение оригинального документа, чтобы избежать предоставления пользователю текста с ошибками. Если уверенность высока, возвращается машиночитаемый текст.
Как этот патент связан с Google Lens?
Этот патент описывает базовую технологию, которая, вероятно, лежит в основе функции распознавания, копирования и поиска текста в Google Lens. Когда вы наводите камеру на текст и нажимаете «Поиск», Google Lens использует подобный механизм для выделения надежных строк и поиска их в интернете или Google Books.
Могу ли я оптимизировать свой контент под этот алгоритм?
Единственная релевантная оптимизация — это обеспечение доступности вашего контента в виде индексируемого цифрового Canonical Document. Если у вас есть печатные материалы, убедитесь, что их цифровые копии (HTML или PDF с текстовым слоем) доступны для Google. Это позволит пользователям находить ваш контент через визуальный поиск.
Влияет ли качество печати или шрифта на работу этого алгоритма?
Да, безусловно. Хотя алгоритм и пытается компенсировать плохое качество изображения и распознавания с помощью контекста и языковых моделей, чем четче исходный текст и лучше условия съемки, тем выше будет Text Quality Score распознанных строк и тем быстрее система найдет канонический документ.
Может ли этот алгоритм распознать текст на фоне сложного изображения или рекламы?
Да, система предназначена для работы с любыми визуальными запросами, содержащими текст. Она анализирует непрерывные области текста. Если текст на рекламе распознан с высоким качеством (благодаря контексту и языковой модели), он будет использован для поиска канонического источника, если таковой существует в базе Google.