Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR

IDENTIFYING MATCHING CANONICAL DOCUMENTS IN RESPONSE TO A VISUAL QUERY (Идентификация совпадающих канонических документов в ответ на визуальный запрос)

US9183224B2
Google LLC
2010-08-06
2015-11-10

Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).

Какую проблему решает

Патент решает проблему надежного поиска оригинального цифрового документа (Canonical Document), когда в качестве запроса используется изображение текста (Visual Query), например, фотография страницы. Такие изображения часто бывают низкого качества, что приводит к ошибкам оптического распознавания символов (OCR). Использование зашумленного текста затрудняет точное сопоставление с оригиналом. Изобретение предлагает метод фильтрации ошибок OCR для повышения точности идентификации источника.

Что запатентовано

Запатентована система, которая улучшает точность идентификации источника по визуальному запросу за счет сложного механизма оценки качества результатов OCR. Ключевым элементом является оценка достоверности распознавания каждого символа с учетом его контекста — оценок соседних символов и соответствия языковой модели. Это позволяет выделить «высококачественные текстовые строки» (High Quality Textual Strings), которые затем используются для точного поиска канонического документа.

Как это работает

Система получает визуальный запрос и выполняет OCR. Затем происходит оценка качества. Для каждого символа рассчитывается вероятность его появления с учетом языковой модели (Language-Conditional Character Probability). Далее вычисляется оценка качества символа (Text Quality Score), причем эта оценка зависит от оценок соседних символов (с использованием параметра Transition Cost). Система идентифицирует строки с наивысшей совокупной оценкой качества. Эти надежные строки используются как запрос для поиска в базе данных канонических документов, и найденный источник возвращается пользователю.

Актуальность для SEO

Высокая. Технологии визуального поиска, такие как Google Lens, активно развиваются и интегрируются в поисковые продукты. Возможность быстро и точно связать физический объект (книгу, документ) с его цифровой канонической версией является ключевой функцией современных поисковых систем и сервисов типа Google Books.

Важность для SEO

Влияние на SEO минимальное (2/10). Патент описывает инфраструктурную технологию обработки визуальных запросов и повышения качества OCR, а не алгоритмы ранжирования веб-страниц. Он критически важен для понимания механизмов работы визуального поиска текста, но не предоставляет прямых практических рекомендаций для традиционного SEO продвижения сайтов.

Термины и определения

Visual Query (Визуальный запрос): Изображение (фотография, скан, кадр видео), отправляемое пользователем в качестве запроса в поисковую систему.
OCR (Optical Character Recognition): Оптическое распознавание символов. Технология извлечения текста из изображения.
Canonical Document (Канонический документ): Оригинальный, эталонный цифровой источник документа (например, файл книги в Google Books), который система пытается найти по визуальному запросу.
Text Quality Score (Оценка качества текста): Метрика, присваиваемая отдельному символу, слову или строке, которая отражает уверенность системы в правильности распознавания.
High Quality Textual String (Высококачественная текстовая строка): Последовательность символов, извлеченная из визуального запроса, которая получила высокую оценку качества и используется для поиска канонического документа.
Language-Conditional Character Probability (Вероятность символа, обусловленная языком): Оценка того, насколько хорошо распознанный символ и его контекст (например, предшествующие ему символы) соответствуют статистической языковой модели.
Transition Cost (Стоимость перехода): Параметр, используемый в алгоритме скоринга (Claim 1). Он влияет на то, насколько оценка качества символа зависит от оценок его соседей. Высокая стоимость перехода способствует сглаживанию оценок (символ с большей вероятностью получит ту же оценку качества, что и его соседи).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса для поиска канонического документа.

Система получает визуальный запрос.
Выполняется OCR для извлечения символов в непрерывной области изображения.
Производится оценка (scoring) каждого символа. Эта оценка основана на оценках качества (как высоких, так и низких) окружающих символов. Оценка частично базируется на Transition Cost, которая определяет, насколько схожей будет оценка символа с оценками соседей (чем выше стоимость, тем больше схожесть).
Идентифицируются один или несколько высококачественных текстовых сегментов (строк). Критерий — сегмент должен содержать множество символов с высокой оценкой.
Идентифицируется документ, содержащий хотя бы один из этих высококачественных сегментов.
Этот документ извлекается (retrieving).
Часть извлеченного документа отправляется клиенту.

Claim 5 (Зависимый от 1): Детализирует процесс идентификации высококачественных строк.

Сначала оцениваются слова на основе оценок составляющих их символов.
Затем идентифицируются высококачественные текстовые сегменты, состоящие из высококачественных слов.

Claim 6 (Зависимый от 1): Уточняет, что оценка символа может быть бинарной: либо символ высокого качества, либо низкого.

Claim 7 (Зависимый от 1): Уточняет, что процесс оценки символа включает генерацию Language-Conditional Character Probability — метрики, показывающей, насколько хорошо символ и предшествующие ему символы соответствуют языковой модели.

Claim 9 (Зависимый от 1): Описывает логику выбора формата возвращаемого документа в зависимости от рассчитанной оценки качества (Quality Score).

Если оценка качества ниже определенного порога, возвращается изображение (image version) канонического документа.
Если оценка качества равна или выше порога, возвращается машиночитаемый текст (machine readable text version) канонического документа.

Где и как применяется

Изобретение применяется в системах визуального поиска (например, Google Lens) и системах поиска по книгам (Google Books).

INDEXING – Индексирование (Подготовка)
Для работы системы необходима база данных Canonical Documents (например, оцифрованные книги, проиндексированные документы). Эта база создается на этапе индексирования.

QUNDERSTANDING – Понимание Запросов (Основное применение)
На этом этапе происходит обработка входящего Visual Query. Система выполняет OCR, проводит сложную контекстную оценку качества распознавания (Scoring) и выделяет High Quality Textual Strings. Это является ключевым процессом интерпретации визуального запроса.

RANKING – Ранжирование (Извлечение)
Выделенные высококачественные строки используются как запрос для поиска точных или близких совпадений в индексе канонических документов и извлечения соответствующего источника.

Входные данные:

Visual Query (изображение, содержащее текст).
Языковые модели (используются для оценки качества).

Выходные данные:

Часть найденного Canonical Document (в формате изображения или машиночитаемого текста).

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, который часто фотографируют или сканируют с целью поиска оригинала: книги, журналы, научные статьи, официальные документы.
Специфические запросы: Визуальные запросы, содержащие текст.
Конкретные ниши: Издательское дело, электронные библиотеки, образование.

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь отправляет визуальный запрос и система OCR обнаруживает в нем текст, который потенциально может соответствовать каноническому документу в базе данных.

Пошаговый алгоритм

Получение запроса: Система получает Visual Query (изображение с текстом) от клиента.
Выполнение OCR: Модуль OCR обрабатывает изображение для извлечения символов и генерации первичных данных распознавания.
Оценка качества символов (Scoring): Этот этап является ядром изобретения.
- a. Генерация Language-Conditional Character Probability: Для каждого символа оценивается вероятность его появления в данном контексте на основе языковой модели.
- b. Расчет Text Quality Score: Вычисляется оценка качества для каждого символа. Эта оценка зависит не только от вероятности (пункт а), но и от оценок качества соседних символов. Используется механизм сглаживания (с учетом Transition Cost), чтобы оценки соседних символов были схожими. Оценка может быть бинарной.
Идентификация высококачественных строк: Система выделяет High Quality Textual Strings — последовательности символов, имеющие высокую совокупную оценку качества. (В одном из вариантов реализации: сначала оцениваются слова, затем строки, состоящие из высококачественных слов).
Поиск канонического документа: Выделенные высококачественные строки используются как запрос для поиска совпадений в базе данных Canonical Documents.
Извлечение документа: Найденный канонический документ извлекается из хранилища.
Отправка результата: Система отправляет релевантную часть найденного документа клиенту. Формат ответа (изображение или текст) выбирается в зависимости от итоговой оценки качества (Claim 9).

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Основные данные — это само изображение (Visual Query), содержащее текст, который необходимо распознать и сопоставить.

Какие метрики используются и как они считаются

Text Quality Score (Оценка качества текста): Метрика для символа, слова или строки. Может быть числовой или бинарной (Claim 6). Рассчитывается на основе вероятностей и контекста.
Language-Conditional Character Probability: Вероятностная метрика, показывающая соответствие последовательности символов языковой модели (например, на основе N-грамм символов).
Transition Cost: Параметр алгоритма скоринга, используемый для сглаживания оценок качества между соседними символами. Определяет степень влияния оценок соседних символов.
Пороговые значения: Используются для классификации строк как High Quality и для выбора формата вывода (текст vs изображение, Claim 9).

Патент описывает инфраструктуру визуального поиска текста. Это техническое описание механизма, который позволяет системам типа Google Lens или Google Books находить оригинальный источник по фотографии.
Ключевая технология — контекстная оценка качества OCR. Изобретение фокусируется на постобработке результатов OCR. Система использует языковую модель и оценки соседних символов (сглаживание через Transition Cost), чтобы выделить наиболее надежные (High Quality) строки даже в очень шумном или искаженном изображении.
Цель — найти Канонический Документ. Весь процесс направлен на точное сопоставление визуального запроса с его эталонной цифровой версией (Canonical Document).
Адаптивный формат ответа. Система может возвращать результат в виде оригинального изображения или машиночитаемого текста в зависимости от уверенности (Quality Score) в правильности распознавания (Claim 9).
Отсутствие влияния на веб-ранжирование. Патент не описывает факторы ранжирования сайтов в основном поиске и имеет минимальную практическую ценность для традиционных задач SEO.

Практическое применение в SEO

Патент носит преимущественно инфраструктурный характер и описывает внутренние процессы обработки визуальных запросов. Он не дает прямых практических выводов для стандартного SEO продвижения сайтов.

Best practices (это мы делаем)

Обеспечение доступности канонических версий. Если ваш контент существует в печатном виде (книги, каталоги, брошюры) и вы хотите, чтобы его можно было найти через визуальный поиск, убедитесь, что его цифровая версия (Canonical Document) доступна для индексации Google (например, через Google Books или в виде индексируемого PDF/HTML на вашем сайте). Это позволит системе связать визуальный запрос пользователя с вашим контентом.
Использование четких шрифтов и контраста. Для материалов, которые могут быть сфотографированы (печатная продукция, инфографика, слайды презентаций), использование стандартных, четких шрифтов и высокого контраста повысит вероятность успешного распознавания и получения высоких Text Quality Scores при обработке OCR.

Worst practices (это делать не надо)

Не применимо. Патент не направлен на борьбу с SEO-манипуляциями или спамом в веб-поиске.

Стратегическое значение

Патент подтверждает стратегическую важность визуального поиска как альтернативного способа доступа к информации. Google инвестирует в технологии, позволяющие преодолеть разрыв между физическим миром (печатный текст) и цифровым индексом. Для владельцев контента это подчеркивает необходимость присутствия в цифровом пространстве в качестве индексируемого канонического источника для обеспечения максимальной доступности информации.

Практические примеры

Сценарий: Продвижение книги или каталога

Задача: Обеспечить возможность пользователям находить цифровую версию печатного каталога.
Действие: Опубликовать PDF-версию каталога на сайте и убедиться, что она индексируется, или загрузить её в Google Books. Эта версия становится Canonical Document.
Результат: Пользователь фотографирует страницу физического каталога с помощью Google Lens. Система применяет описанный в патенте алгоритм: выполняет OCR, идентифицирует High Quality Textual Strings, находит каноническую PDF-версию в индексе Google. Пользователю предоставляется ссылка на скачивание или просмотр оригинального цифрового каталога.

Влияет ли этот патент на ранжирование моего сайта в основном веб-поиске?

Нет, напрямую не влияет. Патент описывает технологию визуального поиска — как Google обрабатывает изображения, содержащие текст, чтобы найти оригинальный цифровой документ. Он не затрагивает алгоритмы ранжирования сайтов по текстовым запросам в стандартной выдаче.

Что такое "Канонический документ" (Canonical Document) в контексте этого патента? Это то же самое, что и страница с rel=canonical?

Нет. В данном патенте Canonical Document означает эталонную цифровую версию контента, который был сфотографирован пользователем. Например, если пользователь фотографирует страницу из «Войны и мира», каноническим документом будет цифровая версия этой книги в базе данных Google (например, в Google Books). Это не связано с SEO-тегом rel=canonical, который используется для устранения дубликатов веб-страниц.

Как Google определяет качество распознанного текста (OCR), если фотография размыта?

Система использует сложный механизм оценки. Она не просто полагается на уверенность OCR-движка для каждого символа в отдельности. Она учитывает контекст: насколько вероятно появление этого символа с точки зрения языковой модели (Language-Conditional Probability) и каково качество соседних символов (используя Transition Cost). Это позволяет выделить надежные участки текста даже при плохом качестве изображения.

Что такое "Language-Conditional Character Probability"?

Это показатель того, насколько вероятно появление определенного символа в данном контексте (после определенных предыдущих символов) с точки зрения статистики языка. Например, после букв "АЛГОРИ" вероятность появления буквы "Т" очень высока, а буквы "Ъ" — крайне мала. Эта вероятность используется для расчета итоговой оценки качества распознавания.

Что такое "Transition Cost", упоминаемая в Claim 1?

Это технический параметр алгоритма оценки качества, который отвечает за "сглаживание" результатов. Он определяет, насколько оценка одного символа должна быть похожа на оценки его соседей. Это помогает избежать ситуаций, когда один символ ошибочно признан качественным среди некачественных соседей, и наоборот, повышая общую надежность выделения текстовых строк.

Зачем Google иногда возвращает изображение канонического документа вместо текста?

В патенте (Claim 9) указано, что если общая оценка качества (Quality Score) распознавания ниже определенного порога, система предпочтет вернуть изображение оригинального документа, чтобы избежать предоставления пользователю текста с ошибками. Если уверенность высока, возвращается машиночитаемый текст.

Как этот патент связан с Google Lens?

Этот патент описывает базовую технологию, которая, вероятно, лежит в основе функции распознавания, копирования и поиска текста в Google Lens. Когда вы наводите камеру на текст и нажимаете "Поиск", Google Lens использует подобный механизм для выделения надежных строк и поиска их в интернете или Google Books.

Могу ли я оптимизировать свой контент под этот алгоритм?

Единственная релевантная оптимизация — это обеспечение доступности вашего контента в виде индексируемого цифрового Canonical Document. Если у вас есть печатные материалы, убедитесь, что их цифровые копии (HTML или PDF с текстовым слоем) доступны для Google. Это позволит пользователям находить ваш контент через визуальный поиск.

Влияет ли качество печати или шрифта на работу этого алгоритма?

Да, безусловно. Хотя алгоритм и пытается компенсировать плохое качество изображения и распознавания с помощью контекста и языковых моделей, чем четче исходный текст и лучше условия съемки, тем выше будет Text Quality Score распознанных строк и тем быстрее система найдет канонический документ.

Может ли этот алгоритм распознать текст на фоне сложного изображения или рекламы?

Да, система предназначена для работы с любыми визуальными запросами, содержащими текст. Она анализирует непрерывные области текста. Если текст на рекламе распознан с высоким качеством (благодаря контексту и языковой модели), он будет использован для поиска канонического источника, если таковой существует в базе Google.

Как Google использует OCR и канонические документы для улучшения результатов визуального поиска

Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.

US9176986B2
2015-11-03

Мультимедиа
Индексация
EEAT и качество

Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)

Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.

US8811742B2
2014-08-19

Мультимедиа
EEAT и качество

Как Google использует местоположение пользователя для улучшения распознавания текста на изображениях и поиска источника контента

Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или терминологию) для более точной интерпретации контента. Цель — найти оригинальный канонический документ, соответствующий тексту на изображении.

US8805079B2
2014-08-12

Мультиязычность
Local SEO
EEAT и качество

Как Google комбинирует визуальные признаки и распознанный текст (OCR) внутри изображения для улучшения визуального поиска

Google использует технологию мультимодального поиска, которая анализирует как визуальные характеристики захваченного изображения (например, с камеры телефона), так и текст, распознанный внутри него (OCR). Комбинация этих двух типов данных позволяет точнее идентифицировать электронный оригинал изображения, что критически важно для работы систем визуального поиска (например, Google Lens).

US9323784B2
2016-04-26

Мультимедиа
Индексация
Семантика и интент

Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)

Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.

US8151186B1
2012-04-03

Индексация

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2011-07-12

Ссылки
Краулинг
Техническое SEO

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

US9098511B1
2015-08-04

Поведенческие сигналы
Мультимедиа
SERP

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя

Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.

US8909655B1
2014-12-09

Семантика и интент
Поведенческие сигналы
SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2015-12-29

Поведенческие сигналы
Индексация
Техническое SEO