
Система Google для управления персональными или корпоративными документами. Она преобразует изображения документов (сканы, PDF, JPEG) в текст с помощью OCR, назначает метаданные (вручную или через шаблоны) и сохраняет их в базу данных для последующего поиска и извлечения.
Патент решает проблему индексирования, хранения и поиска документов, которые изначально не содержат машиночитаемого текста (non-text based documents). Это касается отсканированных бумажных документов (квитанции, банковские выписки, счета) или электронных файлов в виде изображений (например, PDF без текстового слоя, TIFF, JPEG). Изобретение устраняет ограничения традиционных инструментов индексирования, которые не могут эффективно обрабатывать такие форматы в контексте персональных или корпоративных систем хранения.
Запатентована система архивирования документов, которая преобразует изображения документов (document image) в текстовые документы (text document). Суть изобретения заключается в процессе получения поисковой информации и ассоциации поисковых элементов метаданных (searchable metadata elements) с этим текстом, вручную или автоматически. Это позволяет пользователям впоследствии находить архивированные документы, используя как их содержимое, так и связанные метаданные.
Система получает изображение документа путем сканирования или импорта электронного файла. Затем применяется оптическое распознавание символов (OCR) для генерации текстовой версии. Система может использовать шаблоны (Templates) для повышения эффективности: шаблон определяет, какие области документа нужно распознавать и какие метаданные следует назначить конкретным разделам (например, дата и сумма в счете). Также проверяется уровень уверенности (Confidence Level) OCR; при необходимости документ отправляется на ручную проверку или пересканирование. Итоговый текст и метаданные сохраняются в базе данных.
Средняя. Базовые концепции OCR, использования шаблонов для структурирования данных из сканов и назначения метаданных остаются актуальными в системах управления документами (DMS) и облачных сервисах (например, Google Drive). Однако сами технологии OCR значительно продвинулись с 2006 года. Контекст патента связан с приложениями для управления личными данными (упоминаются Google Desktop Search, Picasa).
Минимальное влияние (1/10). Патент описывает инфраструктуру и процессы для систем управления персональными или корпоративными документами, а не алгоритмы ранжирования публичного веб-поиска Google. Он не дает прямых рекомендаций для SEO-специалистов по оптимизации веб-сайтов.
OCR software, которая указывает на вероятность того, что изображение документа было точно преобразовано в текстовую версию.OCR; поисковая версия исходного изображения документа.Claim 1 (Независимый пункт): Описывает основной метод работы системы архивирования.
document image).text document).searchable metadata element) ассоциируется с текстовым документом на основе полученной информации.Claim 5 (Зависимый от 1): Уточняет метод преобразования.
Преобразование изображения в текст включает выполнение оптического распознавания символов (OCR) для распознавания текста документа.
Claim 6 (Зависимый от 1): Описывает использование шаблонов для преобразования.
template), содержащий инструкции для преобразования *частей* изображения документа в текст.OCR может быть выборочным).Claim 8 (Зависимый от 1): Описывает использование шаблонов для назначения метаданных.
Claim 14 (Зависимый от 1): Описывает механизм контроля качества.
confidence level), указывающий на точность текстового документа по отношению к изображению.Этот патент не относится напрямую к архитектуре публичного веб-поиска Google (Web Search). Он описывает инфраструктуру Системы Управления Документами (Document Management System - DMS), которая может использоваться в продуктах для личного или корпоративного использования (например, Google Drive или устаревший Google Desktop Search).
В контексте DMS применение происходит на следующих этапах:
CRAWLING – Сбор данных (Data Acquisition)
На этом этапе Document Capture System получает входные данные: сканирует физический документ (банковскую выписку, квитанцию) или импортирует электронный файл из локального хранилища или сети (например, с веб-сервера банка).
INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Это основной этап работы патента. Processing System выполняет OCR для извлечения текста из Document Image. Система может извлекать и применять Templates из базы данных шаблонов (Template Database Server) для определения структуры документа и автоматического назначения Searchable Metadata Elements. Также вычисляется Confidence Level и может инициироваться ручная проверка.
Входные данные:
Templates).Выходные данные:
Text Document).Searchable Metadata Elements).Document Database).Патент влияет исключительно на обработку документов внутри системы архивирования.
YMYL и т.д.) или форматам контента в публичном SEO.Confidence Level. Если точность распознавания ниже порога, система инициирует повторное сканирование (возможно, с повышенным разрешением) или требует ручной проверки. Пороги могут отличаться для разных областей документа в зависимости от важности информации.Процесс обработки и управления документами:
OCR для создания текстовой версии. Процесс может управляться шаблоном, который определяет области для распознавания и игнорирует другие (например, заголовки/футеры).Confidence Level для сгенерированного текста.OCR, удаление конфиденциальной информации).Searchable Metadata Elements ассоциируются с текстовой версией (всем документом или его частями). Это может происходить автоматически на основе шаблона или вручную пользователем.Патент фокусируется на обработке документов в рамках системы архивирования и использует следующие данные:
Document Images) в форматах PDF, TIFF, JPEG и т.д. Учитывается разрешение изображения, которое может быть повышено при повторном сканировании.Confidence Level. Используется для контроля качества и принятия решения о необходимости повторного сканирования или ручной проверки.OCR).Confidence Level и включает этапы повторного сканирования или ручной проверки/корректировки данных пользователем. Это подчеркивает, что система предназначена для архивирования, где важна точность данных.Патент является инфраструктурным и описывает систему архивирования пользовательских документов. Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в веб-поиске.
Практических выводов для SEO нет. Патент описывает внутренние процессы Google для архивирования документов без прямых рекомендаций для SEO веб-сайтов.
Не применимо к SEO веб-сайтов.
Патент не имеет стратегического значения для SEO публичного веб-поиска. Он демонстрирует ранние усилия Google (2006 год) по индексации и организации информации за пределами интернета, фокусируясь на персональных и корпоративных документах. Это показывает технологические возможности Google в области OCR и извлечения структурированных данных, которые используются в таких продуктах, как Google Drive.
Практических примеров для SEO нет.
Пример использования системы (вне SEO):
Document Image).Template) для счетов этой электрической компании. Шаблон указывает, где находятся дата, сумма и номер счета.Confidence Level. Если он высокий, процесс продолжается.OCR в указанных областях, извлекает данные и автоматически назначает метаданные: "Тип: Счет", "Компания: [Название]", "Дата: [Дата]", "Сумма: [Сумма]".Влияет ли этот патент на ранжирование моего сайта в Google Поиске?
Нет, этот патент не влияет на ранжирование веб-сайтов. Он описывает систему для архивирования и организации личных или корпоративных документов, таких как сканированные счета или выписки. Он относится к управлению документами (DMS), а не к алгоритмам публичного веб-поиска.
Описывает ли этот патент, как Google индексирует PDF-файлы на моем сайте?
Нет. Хотя он описывает использование OCR для извлечения текста из PDF, он делает это в контексте системы архивирования, которая включает предопределенные шаблоны, повторное сканирование и ручную проверку пользователем. Процессы индексирования контента в интернете работают иначе и не предполагают такого уровня пользовательского взаимодействия.
Что такое «Шаблон» (Template) в контексте этого патента?
Шаблон — это предварительная конфигурация для обработки однотипных документов. Он указывает системе, где на странице находится определенная информация (например, где искать дату, а где сумму), какие метаданные назначить этим областям, и какие части документа можно игнорировать при распознавании (например, логотип или футер).
Нужно ли мне создавать такие «Templates» для контента на моем сайте?
Нет. Эти шаблоны предназначены для внутренней системы архивирования, описанной в патенте. Они создаются пользователями этой системы или поставщиками услуг (например, банком для своих выписок). Они не имеют отношения к SEO или структурированию данных на публичных веб-сайтах.
Как система контролирует качество распознавания текста (OCR)?
Система использует метрику Confidence Level (Уровень уверенности). Если уверенность в точности распознавания ниже определенного порога, система может автоматически запросить повторное сканирование документа (возможно, с более высоким разрешением) или предложить пользователю вручную проверить и отредактировать распознанный текст.
Какое отношение этот патент имеет к Google Drive, Google Desktop Search или Picasa?
Патент описывает базовые технологии для поиска по содержимому загруженных файлов в таких системах. В тексте прямо упоминаются приложения для управления документами и изображениями (Google Desktop Search, Picasa). Технологии OCR и назначения метаданных для поиска по нетекстовым файлам актуальны для облачных хранилищ и локальных поисковых систем.
Могу ли я использовать этот патент для улучшения SEO моего сайта?
Нет. Этот патент не содержит информации о факторах ранжирования или алгоритмах, используемых в публичном поиске Google. Он полностью сосредоточен на внутренних механизмах систем управления документами и не предоставляет прикладной пользы для SEO-специалистов, работающих с веб-сайтами.
Метаданные назначаются только всему документу или его частям?
Патент предусматривает оба варианта. Метаданные могут быть назначены всему документу (например, метка "Банковская выписка"). Также они могут быть назначены конкретным его частям, идентифицированным с помощью шаблона (например, назначение метки "Дебет" конкретной транзакции в выписке).
Является ли назначение метаданных автоматическим или ручным?
Патент описывает гибридный подход. Метаданные могут назначаться автоматически с использованием предварительно настроенных шаблонов (Templates). Также предусмотрена возможность ручного просмотра, редактирования и назначения метаданных пользователем через интерфейс программного обеспечения для управления документами.
Где хранятся обработанные документы и метаданные?
Документы и метаданные хранятся в базе данных документов (Document Database). В патенте указано, что эта база данных может находиться на удаленном сервере, доступном через сеть (например, облачное онлайн-хранилище), или локально на устройстве пользователя.

Индексация

Мультимедиа
Индексация
EEAT и качество


Индексация

Индексация

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Ссылки
SERP
Свежесть контента

Персонализация
Поведенческие сигналы
Local SEO

EEAT и качество
Поведенческие сигналы

Ссылки
Семантика и интент
Индексация

SERP
Поведенческие сигналы
Персонализация

Local SEO
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
Мультимедиа
