Как Google использует OCR, шаблоны и метаданные для индексации и поиска по личным документам (сканам, PDF)

DOCUMENT ARCHIVING SYSTEM (Система архивирования документов)

US20080162603A1
Google LLC
2007-08-29
2008-07-03

Индексация

Патент Google, описывающий систему для преобразования бумажных или графических документов (например, сканов, PDF) в индексируемый текст. Система использует OCR, применяет шаблоны для автоматического извлечения данных и назначения метаданных, а также управляет доступом, сохраняя всё в базе данных для личного поиска.

Какую проблему решает

Патент решает проблему хранения, индексации и обеспечения поиска по документам, которые изначально не содержат машиночитаемого текста (например, сканированные бумажные документы, изображения, PDF-файлы без текстового слоя). Система улучшает эффективность оцифровки (OCR) и организации этих документов за счет использования шаблонов и автоматического назначения метаданных.

Что запатентовано

Запатентована система архивирования документов (Document Archiving System). Она предназначена для получения изображения документа (Document Image), преобразования его в текстовый формат (Text Document) с помощью оптического распознавания символов (OCR) и ассоциации с ним элементов метаданных (Metadata Elements). Метаданные могут назначаться вручную или автоматически с помощью предопределенных шаблонов (Templates). Текст и метаданные сохраняются для последующего поиска.

Как это работает

Система захватывает изображение путем сканирования или загрузки цифрового файла. Применяется OCR для генерации текста. Ключевой особенностью является использование Template, который определяет структуру документа (например, где находятся транзакции в банковской выписке). Шаблон инструктирует систему, какие части изображения распознавать и какие метаданные им назначить. Система определяет уровень уверенности (Confidence Level) в точности OCR; если он низок, может быть инициировано повторное сканирование. Пользователь может вручную отредактировать текст и метаданные, а также назначить условия доступа (Access Conditions). Текст, метаданные и (опционально) исходное изображение сохраняются в базе данных.

Актуальность для SEO

Низкая (для SEO). Патент 2008 года описывает базовые функции, которые сегодня являются стандартными для систем управления документами (например, Google Drive). Хотя технологии OCR и извлечения данных значительно продвинулись (перейдя от шаблонных методов к ML), описанная архитектура остается фундаментальной для таких систем, но не имеет отношения к алгоритмам ранжирования публичного веб-поиска.

Важность для SEO

Минимальное влияние (1/10). Патент описывает инфраструктуру для управления личными или корпоративными документами, а не алгоритмы веб-поиска. В разделе "Background" патента упоминаются приложения вроде Google Desktop Search. Патент описывает внутренние процессы системы управления документами без прямых рекомендаций для SEO и не содержит информации о факторах ранжирования или сигналах качества сайтов.

Термины и определения

Access Conditions (Условия доступа): Правила безопасности, назначаемые документу, которые определяют, кто может получить к нему доступ и какая аутентификационная информация (пароль, PIN, биометрия) для этого требуется.
Confidence Level (Уровень уверенности): Метрика, определяемая OCR-системой, которая указывает на вероятность того, что изображение документа было точно преобразовано в текстовую версию.
Document Capture System (Система захвата документов): Компонент (сканер или программный модуль), отвечающий за получение или импорт изображений документов.
Document Image (Изображение документа): Входные данные системы. Скан бумажного документа или цифровой файл (PDF, TIFF, JPEG и т.д.), не обязательно содержащий машиночитаемый текст.
Metadata Element (Элемент метаданных): Поисковая информация (теги, категории, даты), связанная с текстовым документом или его частью для облегчения поиска. Может назначаться вручную или автоматически через шаблон.
OCR (Optical Character Recognition) (Оптическое распознавание символов): Процесс преобразования изображения текста в машиночитаемый текст.
Template (Шаблон): Предопределенная структура с инструкциями для обработки документа. Шаблон может указывать, какие области изображения распознавать, какие метаданные назначить этим областям и каков минимально допустимый Confidence Level для разных областей.
Text Document (Текстовый документ): Результат процесса OCR; поисковая текстовая версия исходного изображения документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы архивирования.

Получение изображения документа (Document Image).
Преобразование изображения в текстовый документ (Text Document).
Идентификация как минимум одного элемента метаданных (Metadata Element), связанного с текстовым документом.
Сохранение текстового документа и метаданных для последующего поиска на основе содержимого текста или метаданных.

Claim 6 (Зависимый от 1): Детализирует процесс преобразования с использованием шаблона.

Система извлекает шаблон (Template), который включает инструкции для преобразования частей изображения документа в текст.
Преобразование выполняется на основе этого шаблона.

Claim 10 и 11 (Зависимые): Описывают механизм контроля качества OCR.

Шаблон может определять минимальный уровень уверенности (minimum conversion confidence level) для части текста (Claim 10).
Система определяет фактический уровень уверенности. Если он не достигает минимального, система повторно преобразует (reconverting) соответствующую часть изображения документа (Claim 11).

Claim 13 (Зависимый от 1): Детализирует автоматическое назначение метаданных.

Система извлекает шаблон, включающий инструкции для назначения элемента метаданных определенной части текста.
Метаданные ассоциируются с этой частью текста на основе шаблона.

Claim 20 (Зависимый от 1): Описывает управление безопасностью.

Система назначает уровень доступа (Access Level) текстовому документу перед его сохранением.

Claim 35 (Независимый пункт): Описывает полный процесс, включающий сканирование, OCR, ассоциацию метаданных с частями текста, назначение индикации уровня доступа (access level indication) с требованиями аутентификации и сохранение данных.

Где и как применяется

Этот патент не описывает архитектуру веб-поиска Google (Crawling, Indexing, Ranking и т.д.). Он описывает отдельную систему или приложение для архивирования и управления документами (например, функциональность Google Drive).

Применение в контексте системы архивирования:

CRAWLING / Сбор данных (Data Acquisition)
На этом этапе Document Capture System получает изображения. Это может быть оптическое сканирование, загрузка файлов пользователем или автоматическое извлечение электронных документов с удаленных устройств (например, загрузка банковских выписок с веб-сайта банка).

INDEXING / Обработка и Индексирование
Основной этап работы системы. Происходит обработка изображения с помощью OCR software. Система может использовать Template для определения областей интереса и автоматического извлечения структурированного текста и метаданных. Вычисляется Confidence Level. Назначаются Access Conditions. Текст и метаданные сохраняются в базе данных (Document Database) и индексируются.

SEARCHING / Поиск и Извлечение
Система позволяет пользователям искать сохраненные документы, используя как содержимое Text Document, так и связанные Metadata Elements. При запросе документа система проверяет Access Conditions.

Входные данные:

Document Image (скан, PDF, JPEG, TIFF и т.д.).
Template (опционально).
Пользовательский ввод (правки текста, добавление метаданных, настройки доступа).
Аутентификационная информация.

Выходные данные:

Text Document, сохраненный в базе данных.
Связанные Metadata Elements.
Назначенные Access Conditions.

На что влияет

В контексте системы архивирования патент влияет на:

Типы контента: Любые документы, которые можно оцифровать. В патенте явно упоминаются банковские выписки, счета, квитанции, письма.
Форматы контента: Обработка нетекстовых или частично текстовых форматов: PDF, TIFF, JPEG, PNG, BMP, GIF.

Патент не влияет на конкретные типы веб-контента, специфические запросы в веб-поиске, ниши (YMYL) или тематики в контексте SEO.

Когда применяется

Алгоритм применяется каждый раз, когда пользователь добавляет новый документ (изображение) в систему архивирования.

Триггеры активации:

Запуск сканирования или загрузка файла пользователем.
Автоматическое получение документа по расписанию.
Логика шаблонов активируется, если для данного типа документа найден соответствующий Template.
Пересканирование активируется, если Confidence Level ниже установленного порога (predetermined threshold).

Пошаговый алгоритм

Процесс архивирования документа (на основе FIG. 5):

Захват изображения: Система захватывает изображение документа (сканирование или импорт).
Генерация текстового документа: Выполняется OCR для создания текстовой версии. Этот шаг может использовать Template для определения областей распознавания.
Определение уровня уверенности: Система определяет Confidence Level для сгенерированного текста.
Проверка порога уверенности: Сравнивается Confidence Level с предопределенным порогом.
- Если НЕТ (уровень низкий): Процесс возвращается к шагу 1 для повторного захвата (возможно, с повышенным разрешением).
- Если ДА (уровень достаточный): Переход к шагу 5.
Представление для ручной проверки: Текстовый документ представляется пользователю для просмотра.
Получение модификаций: Система принимает правки текста от пользователя (исправление ошибок OCR).
Ассоциация метаданных: Элементы метаданных связываются с документом или его частями (автоматически на основе Template или вручную).
Редактирование метаданных: Система принимает правки метаданных от пользователя.
Назначение условий доступа: Документу назначаются Access Conditions (уровень безопасности, совместный доступ).
Сохранение: Изображение, текстовая версия и метаданные сохраняются в базе данных документов.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Изображения документов (Document Images) в различных форматах (сканы, PDF, JPEG, PNG, BMP, GIF, TIFF). Текст, распознанный внутри этих изображений.
Технические факторы: Разрешение изображения (resolution). Упоминается, что повторный захват может выполняться с повышенным разрешением для улучшения точности OCR. Шаблоны (Templates), определяющие структуру документа.
Пользовательские факторы: Информация, вводимая пользователем для ручной коррекции текста, добавления Metadata Elements, настройки доступа. Аутентификационная информация (authentication information), такая как логин/пароль, PIN-код или биометрические данные.

Какие метрики используются и как они считаются

Confidence Level (Уровень уверенности): Метрика, вычисляемая во время OCR, которая оценивает точность преобразования изображения в текст. Патент не детализирует формулу расчета.
Predetermined Threshold / Minimum Conversion Confidence Level (Предопределенный порог / Минимальный уровень уверенности): Пороговое значение для Confidence Level. Если метрика ниже порога, активируется процесс повторного захвата или преобразования. Пороги могут быть разными для разных областей документа в зависимости от их важности и могут задаваться в Template.
Access Level (Уровень доступа): Индикатор, присваиваемый документу для определения требуемой аутентификации при его извлечении.

Патент не связан с веб-поиском и SEO: Патент описывает инфраструктуру системы управления и архивирования личных или корпоративных документов, а не алгоритмы ранжирования веб-страниц в поиске Google.
Отсутствие практических выводов для SEO: Он не дает практических выводов или рекомендаций для SEO-специалистов, работающих над продвижением сайтов.
Фокус на структурировании данных: Основная цель изобретения — преобразование неструктурированных графических данных (сканов, изображений) в структурированный, доступный для поиска текст.
Роль шаблонов в автоматизации: Система использует Templates для автоматизации оцифровки. Шаблоны определяют макет документа, что позволяет системе автоматически извлекать данные из нужных областей и назначать им релевантные метаданные.
Контроль качества OCR: Внедрен механизм контроля качества через измерение Confidence Level и возможность повторного сканирования или ручной проверки при низких показателях точности.
Управление доступом: Архитектура включает управление безопасностью (Access Conditions) и совместным доступом к документам на уровне системы хранения.

ВАЖНО: Патент является инфраструктурным и описывает систему архивирования документов. Он не дает практических выводов для SEO-продвижения сайтов в веб-поиске.

Best practices (это мы делаем)

Информация о Best Practices для SEO в патенте отсутствует.

Worst practices (это делать не надо)

Информация о Worst Practices для SEO в патенте отсутствует.

Стратегическое значение

Патент не имеет стратегического значения для SEO. Он демонстрирует ранние разработки Google в области управления персональными данными, оцифровки документов и применения OCR. Описанные механизмы концептуально связаны с функциями, которые появились в таких продуктах, как Google Desktop Search (упомянут в патенте) или Google Drive.

Практические примеры

Практических примеров для SEO нет.

Пример использования в контексте системы архивирования:

Сценарий: Автоматическая оцифровка банковской выписки

Захват: Пользователь сканирует бумажную выписку или система автоматически загружает PDF с сайта банка.
Применение шаблона: Система распознает документ как выписку конкретного банка и применяет соответствующий Template.
OCR и Извлечение: Шаблон указывает системе игнорировать логотип (секция 405), извлечь данные из секции 415 и назначить им метаданные "Информация об аккаунте", извлечь данные из секции 420 и назначить метаданные "Транзакции".
Контроль качества: Система проверяет Confidence Level. Если текст транзакций распознан плохо, она может запросить повторное сканирование.
Назначение доступа: Системы автоматически назначает высокий уровень безопасности (Access Level), так как это финансовый документ.
Сохранение: Текст и метаданные сохраняются. Теперь пользователь может искать по запросам типа "Транзакции [Название магазина]", используя комбинацию распознанного текста и назначенных метаданных.

Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

Нет. Этот патент описывает систему архивирования документов (Document Archiving System), предназначенную для оцифровки и организации личных или корпоративных файлов (например, сканов, квитанций). Он не имеет отношения к алгоритмам ранжирования веб-страниц в основном поиске Google.

Описывает ли этот патент, как Google анализирует PDF-файлы или изображения, размещенные на моем веб-сайте?

Нет. Хотя патент описывает обработку PDF/изображений и применение OCR, он делает это в контексте системы управления документами пользователя. Методы, которые Google использует для сканирования и индексации общедоступных файлов в интернете (работа Googlebot), могут отличаться и регулируются другими алгоритмами.

Что такое "Template" (Шаблон) в контексте этого патента?

Template — это предопределенная структура, которая помогает системе понять макет (layout) стандартного документа. Например, шаблон для банковской выписки может указывать, в какой части страницы находится номер счета, а в какой — список транзакций. Это позволяет системе более эффективно применять OCR и автоматически назначать метаданные нужным областям.

Что такое "Confidence Level" (Уровень уверенности) и как он используется?

Confidence Level — это оценка точности оптического распознавания текста (OCR). Если система не уверена в правильности распознавания текста (уровень ниже порога), она может инициировать повторное сканирование документа, возможно, с более высоким разрешением, или пометить документ для ручной проверки пользователем.

Могу ли я использовать метаданные, описанные в патенте, для улучшения SEO своего сайта?

Нет. Metadata Elements, описанные в патенте, — это пользовательские теги или автоматически сгенерированные категории, предназначенные для организации документов внутри архивной системы. Они не эквивалентны HTML мета-тегам (title, description) и не влияют на SEO в веб-поиске.

Описывает ли патент продвинутые методы извлечения сущностей (Entity Extraction) или NLP?

Нет. Патент фокусируется на базовом извлечении текста с помощью OCR и назначении метаданных на основе предопределенных шаблонов. Он не затрагивает сложные NLP-техники для распознавания семантических сущностей или понимания контекста, которые используются в современном поиске.

Что такое "Access Conditions" (Условия доступа)?

Это настройки безопасности и приватности, назначаемые сохраненным документам. Они определяют, кто имеет доступ к документу и требуется ли для этого аутентификация (например, пароль или биометрия). Это гарантирует защиту конфиденциальных документов внутри архива.

В каких продуктах Google могут использоваться эти технологии?

Технологии релевантны для продуктов, обрабатывающих пользовательские файлы, таких как Google Drive (поиск по PDF/изображениям) или Google Photos (распознавание текста). В патенте также упоминается Google Desktop Search (ныне не существующий продукт).

Связан ли этот патент с E-E-A-T или оценкой качества контента?

Нет. Патент не затрагивает вопросы авторитетности источников или качества контента в контексте веб-поиска. Единственная оценка качества, упомянутая в патенте, — это качество распознавания текста (Confidence Level).

Каков главный вывод для Senior SEO-специалиста из этого патента?

Главный вывод заключается в том, что этот патент не имеет отношения к практике SEO. Он описывает инфраструктурное решение для управления документами и не содержит информации об алгоритмах ранжирования, факторах E-E-A-T или других аспектах, важных для продвижения сайтов в веб-поиске.

Как Google обрабатывает и индексирует отсканированные или нетекстовые документы для персонального архивирования и поиска

Система Google для управления персональными или корпоративными документами. Она преобразует изображения документов (сканы, PDF, JPEG) в текст с помощью OCR, назначает метаданные (вручную или через шаблоны) и сохраняет их в базу данных для последующего поиска и извлечения.

US20080162602A1
2008-07-03

Индексация

Как Google использует OCR и канонические документы для улучшения результатов визуального поиска

Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.

US9176986B2
2015-11-03

Мультимедиа
Индексация
EEAT и качество

Как Google автоматически распознает и связывает отсканированные книги с их библиографическими данными (ISBN, автор, название)

Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.

US8495061B1
2013-07-23

Индексация

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

US8510312B1
2013-08-13

Индексация

Как Google использует текст внутри изображений (например, Street View) для индексации и ранжирования в локальном и имиджевом поиске

Google извлекает текст непосредственно из изображений (например, названия улиц, вывески бизнесов в Street View), используя передовые методы OCR и улучшения качества (Superresolution). Этот текст ассоциируется с точными географическими координатами (GPS). Это позволяет Google индексировать информацию из реального мира и использовать её для ответа на локальные поисковые запросы и повышения релевантности поиска по картинкам.

US8098934B2
2012-01-17

Индексация
Local SEO
Мультимедиа

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте

Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.

US9396235B1
2016-07-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

US8447760B1
2013-05-21

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR

Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.

US10922326B2
2021-02-16

Knowledge Graph
SERP
Семантика и интент

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей

Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.

US9396263B1
2016-07-19

Семантика и интент
EEAT и качество

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы