SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обрабатывает и индексирует отсканированные или нетекстовые документы для персонального архивирования и поиска

DOCUMENT ARCHIVING SYSTEM (Система архивирования документов)
  • US20080162602A1
  • Google LLC
  • 2006-12-28
  • 2008-07-03
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Система Google для управления персональными или корпоративными документами. Она преобразует изображения документов (сканы, PDF, JPEG) в текст с помощью OCR, назначает метаданные (вручную или через шаблоны) и сохраняет их в базу данных для последующего поиска и извлечения.

Описание

Какую проблему решает

Патент решает проблему индексирования, хранения и поиска документов, которые изначально не содержат машиночитаемого текста (non-text based documents). Это касается отсканированных бумажных документов (квитанции, банковские выписки, счета) или электронных файлов в виде изображений (например, PDF без текстового слоя, TIFF, JPEG). Изобретение устраняет ограничения традиционных инструментов индексирования, которые не могут эффективно обрабатывать такие форматы в контексте персональных или корпоративных систем хранения.

Что запатентовано

Запатентована система архивирования документов, которая преобразует изображения документов (document image) в текстовые документы (text document). Суть изобретения заключается в процессе получения поисковой информации и ассоциации поисковых элементов метаданных (searchable metadata elements) с этим текстом, вручную или автоматически. Это позволяет пользователям впоследствии находить архивированные документы, используя как их содержимое, так и связанные метаданные.

Как это работает

Система получает изображение документа путем сканирования или импорта электронного файла. Затем применяется оптическое распознавание символов (OCR) для генерации текстовой версии. Система может использовать шаблоны (Templates) для повышения эффективности: шаблон определяет, какие области документа нужно распознавать и какие метаданные следует назначить конкретным разделам (например, дата и сумма в счете). Также проверяется уровень уверенности (Confidence Level) OCR; при необходимости документ отправляется на ручную проверку или пересканирование. Итоговый текст и метаданные сохраняются в базе данных.

Актуальность для SEO

Средняя. Базовые концепции OCR, использования шаблонов для структурирования данных из сканов и назначения метаданных остаются актуальными в системах управления документами (DMS) и облачных сервисах (например, Google Drive). Однако сами технологии OCR значительно продвинулись с 2006 года. Контекст патента связан с приложениями для управления личными данными (упоминаются Google Desktop Search, Picasa).

Важность для SEO

Минимальное влияние (1/10). Патент описывает инфраструктуру и процессы для систем управления персональными или корпоративными документами, а не алгоритмы ранжирования публичного веб-поиска Google. Он не дает прямых рекомендаций для SEO-специалистов по оптимизации веб-сайтов.

Детальный разбор

Термины и определения

Confidence Level (Уровень уверенности)
Метрика, определяемая OCR software, которая указывает на вероятность того, что изображение документа было точно преобразовано в текстовую версию.
Document Capture System (Система захвата документов)
Устройство (например, сканер) или программное обеспечение для получения изображений документов или импорта цифровых документов (PDF, TIFF, JPEG), которые могут не содержать читаемого компьютером текста.
Document Image (Изображение документа)
Захваченная версия документа до текстового распознавания (например, скан или файл изображения).
Document Management Software (Программное обеспечение для управления документами)
Приложение (упоминаются Google® Lighthouse™ или Picasa®), позволяющее вручную просматривать, редактировать текстовую версию, назначать метаданные и сохранять документ.
OCR (Optical Character Recognition / Оптическое распознавание символов)
Процесс анализа изображения документа для распознавания текста и преобразования его в текстовую версию.
Searchable Metadata Element (Поисковый элемент метаданных)
Информация, связанная с документом или его частью для облегчения последующего поиска. Примеры: дата счета, имя банка, тип транзакции («дебет», «кредит»).
Template (Шаблон)
Предварительная конфигурация для обработки однотипных документов. Шаблон может инструктировать систему, какие части документа распознавать (а какие игнорировать), а также назначать метаданные определенным разделам документа.
Text Document (Текстовый документ)
Результат процесса OCR; поисковая версия исходного изображения документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы архивирования.

  1. Система получает изображение документа (document image).
  2. Изображение преобразуется в текстовый документ (text document).
  3. Система получает поисковую информацию, относящуюся к текстовому документу.
  4. По крайней мере один поисковый элемент метаданных (searchable metadata element) ассоциируется с текстовым документом на основе полученной информации.
  5. Текстовый документ и метаданные сохраняются для последующего извлечения на основе этих метаданных.

Claim 5 (Зависимый от 1): Уточняет метод преобразования.

Преобразование изображения в текст включает выполнение оптического распознавания символов (OCR) для распознавания текста документа.

Claim 6 (Зависимый от 1): Описывает использование шаблонов для преобразования.

  1. Система извлекает шаблон (template), содержащий инструкции для преобразования *частей* изображения документа в текст.
  2. Преобразование выполняется на основе этого шаблона (т.е. OCR может быть выборочным).

Claim 8 (Зависимый от 1): Описывает использование шаблонов для назначения метаданных.

  1. Система извлекает шаблон, содержащий инструкции для назначения поисковых метаданных *части* текстового документа, соответствующей части изображения.
  2. Ассоциация метаданных с этой частью текста выполняется на основе шаблона.

Claim 14 (Зависимый от 1): Описывает механизм контроля качества.

  1. Определяется уровень уверенности (confidence level), указывающий на точность текстового документа по отношению к изображению.
  2. Если уровень уверенности ниже заданного порога, изображение документа захватывается повторно (recapturing).

Где и как применяется

Этот патент не относится напрямую к архитектуре публичного веб-поиска Google (Web Search). Он описывает инфраструктуру Системы Управления Документами (Document Management System - DMS), которая может использоваться в продуктах для личного или корпоративного использования (например, Google Drive или устаревший Google Desktop Search).

В контексте DMS применение происходит на следующих этапах:

CRAWLING – Сбор данных (Data Acquisition)
На этом этапе Document Capture System получает входные данные: сканирует физический документ (банковскую выписку, квитанцию) или импортирует электронный файл из локального хранилища или сети (например, с веб-сервера банка).

INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Это основной этап работы патента. Processing System выполняет OCR для извлечения текста из Document Image. Система может извлекать и применять Templates из базы данных шаблонов (Template Database Server) для определения структуры документа и автоматического назначения Searchable Metadata Elements. Также вычисляется Confidence Level и может инициироваться ручная проверка.

Входные данные:

  • Изображение документа (скан, PDF, TIFF, JPEG).
  • Шаблоны (Templates).
  • Пользовательский ввод (для ручной проверки и редактирования).

Выходные данные:

  • Текстовый документ (Text Document).
  • Ассоциированные поисковые метаданные (Searchable Metadata Elements).
  • Данные сохраняются в базе данных документов (Document Database).

На что влияет

Патент влияет исключительно на обработку документов внутри системы архивирования.

  • Конкретные типы контента: Влияет на нетекстовые документы, загружаемые пользователем. В патенте упоминаются банковские выписки, счета кредитных карт, счета за коммунальные услуги, письма и квитанции.
  • Специфические запросы, ниши, форматы: Не имеет отношения к типам веб-запросов, тематическим нишам (YMYL и т.д.) или форматам контента в публичном SEO.

Когда применяется

  • Условия работы: Алгоритм применяется при добавлении нового нетекстового документа в систему архивирования.
  • Триггеры активации: Загрузка файла пользователем, сканирование документа или автоматический импорт.
  • Пороговые значения: Используется порог для Confidence Level. Если точность распознавания ниже порога, система инициирует повторное сканирование (возможно, с повышенным разрешением) или требует ручной проверки. Пороги могут отличаться для разных областей документа в зависимости от важности информации.

Пошаговый алгоритм

Процесс обработки и управления документами:

  1. Захват изображения: Система захвата получает одно или несколько изображений, представляющих документ.
  2. Генерация текста: Выполняется OCR для создания текстовой версии. Процесс может управляться шаблоном, который определяет области для распознавания и игнорирует другие (например, заголовки/футеры).
  3. Определение уровня уверенности: Вычисляется Confidence Level для сгенерированного текста.
  4. Проверка порога: Уровень уверенности сравнивается с заданным порогом.
    • Если НИЖЕ порога: Процесс возвращается к шагу 1 для повторного захвата изображения.
    • Если ВЫШЕ порога: Переход к шагу 5.
  5. Ручная проверка: Сгенерированная текстовая версия представляется пользователю для просмотра и редактирования.
  6. Получение модификаций: Принимаются изменения от пользователя (исправление ошибок OCR, удаление конфиденциальной информации).
  7. Ассоциация метаданных: Searchable Metadata Elements ассоциируются с текстовой версией (всем документом или его частями). Это может происходить автоматически на основе шаблона или вручную пользователем.
  8. Сохранение: Текстовая версия и связанные с ней метаданные (и опционально исходное изображение) сохраняются в базе данных документов (локально или на сервере).

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке документов в рамках системы архивирования и использует следующие данные:

  • Мультимедиа факторы: Изображения документов (Document Images) в форматах PDF, TIFF, JPEG и т.д. Учитывается разрешение изображения, которое может быть повышено при повторном сканировании.
  • Системные данные (Templates): Шаблоны, которые содержат инструкции по распознаванию определенных областей документа и правила назначения метаданных.
  • Пользовательские факторы: Вручную внесенные исправления текста и назначенные метаданные.

Какие метрики используются и как они считаются

  • Confidence Level (Уровень уверенности): Метрика, указывающая на вероятность того, что изображение документа было точно преобразовано в текст. Патент не детализирует формулу расчета.
  • Пороговые значения: Предопределенный порог для Confidence Level. Используется для контроля качества и принятия решения о необходимости повторного сканирования или ручной проверки.
  • Методы анализа текста: Основной метод — Optical Character Recognition (OCR).

Выводы

  1. Патент чисто технический и инфраструктурный: Патент описывает внутренние процессы системы управления документами (DMS) и не дает практических выводов или рекомендаций для SEO публичного веб-поиска.
  2. Фокус на персональном/корпоративном поиске: Изобретение направлено на преобразование нетекстовых (отсканированных) данных в структурированный, доступный для поиска формат для использования в личных или корпоративных архивах.
  3. Автоматизация через шаблоны (Templates): Шаблоны играют ключевую роль в автоматизации процесса. Они позволяют эффективно обрабатывать однотипные документы (например, счета), определяя, где находится нужная информация и какие метаданные ей соответствуют.
  4. Контроль качества и ручное вмешательство: Система предусматривает строгий контроль качества через метрику Confidence Level и включает этапы повторного сканирования или ручной проверки/корректировки данных пользователем. Это подчеркивает, что система предназначена для архивирования, где важна точность данных.

Практика

Патент является инфраструктурным и описывает систему архивирования пользовательских документов. Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в веб-поиске.

Best practices (это мы делаем)

Практических выводов для SEO нет. Патент описывает внутренние процессы Google для архивирования документов без прямых рекомендаций для SEO веб-сайтов.

Worst practices (это делать не надо)

Не применимо к SEO веб-сайтов.

Стратегическое значение

Патент не имеет стратегического значения для SEO публичного веб-поиска. Он демонстрирует ранние усилия Google (2006 год) по индексации и организации информации за пределами интернета, фокусируясь на персональных и корпоративных документах. Это показывает технологические возможности Google в области OCR и извлечения структурированных данных, которые используются в таких продуктах, как Google Drive.

Практические примеры

Практических примеров для SEO нет.

Пример использования системы (вне SEO):

  1. Сценарий: Пользователь хочет архивировать бумажные счета за электричество.
  2. Действие: Пользователь сканирует счет. Система получает изображение (Document Image).
  3. Обработка: Система применяет шаблон (Template) для счетов этой электрической компании. Шаблон указывает, где находятся дата, сумма и номер счета.
  4. Контроль качества: Система рассчитывает Confidence Level. Если он высокий, процесс продолжается.
  5. Результат: Система выполняет OCR в указанных областях, извлекает данные и автоматически назначает метаданные: "Тип: Счет", "Компания: [Название]", "Дата: [Дата]", "Сумма: [Сумма]".
  6. Поиск: Позже пользователь может найти этот счет в своем архиве по запросу "Счет за электричество [Дата]".

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

Нет, этот патент не влияет на ранжирование веб-сайтов. Он описывает систему для архивирования и организации личных или корпоративных документов, таких как сканированные счета или выписки. Он относится к управлению документами (DMS), а не к алгоритмам публичного веб-поиска.

Описывает ли этот патент, как Google индексирует PDF-файлы на моем сайте?

Нет. Хотя он описывает использование OCR для извлечения текста из PDF, он делает это в контексте системы архивирования, которая включает предопределенные шаблоны, повторное сканирование и ручную проверку пользователем. Процессы индексирования контента в интернете работают иначе и не предполагают такого уровня пользовательского взаимодействия.

Что такое «Шаблон» (Template) в контексте этого патента?

Шаблон — это предварительная конфигурация для обработки однотипных документов. Он указывает системе, где на странице находится определенная информация (например, где искать дату, а где сумму), какие метаданные назначить этим областям, и какие части документа можно игнорировать при распознавании (например, логотип или футер).

Нужно ли мне создавать такие «Templates» для контента на моем сайте?

Нет. Эти шаблоны предназначены для внутренней системы архивирования, описанной в патенте. Они создаются пользователями этой системы или поставщиками услуг (например, банком для своих выписок). Они не имеют отношения к SEO или структурированию данных на публичных веб-сайтах.

Как система контролирует качество распознавания текста (OCR)?

Система использует метрику Confidence Level (Уровень уверенности). Если уверенность в точности распознавания ниже определенного порога, система может автоматически запросить повторное сканирование документа (возможно, с более высоким разрешением) или предложить пользователю вручную проверить и отредактировать распознанный текст.

Какое отношение этот патент имеет к Google Drive, Google Desktop Search или Picasa?

Патент описывает базовые технологии для поиска по содержимому загруженных файлов в таких системах. В тексте прямо упоминаются приложения для управления документами и изображениями (Google Desktop Search, Picasa). Технологии OCR и назначения метаданных для поиска по нетекстовым файлам актуальны для облачных хранилищ и локальных поисковых систем.

Могу ли я использовать этот патент для улучшения SEO моего сайта?

Нет. Этот патент не содержит информации о факторах ранжирования или алгоритмах, используемых в публичном поиске Google. Он полностью сосредоточен на внутренних механизмах систем управления документами и не предоставляет прикладной пользы для SEO-специалистов, работающих с веб-сайтами.

Метаданные назначаются только всему документу или его частям?

Патент предусматривает оба варианта. Метаданные могут быть назначены всему документу (например, метка "Банковская выписка"). Также они могут быть назначены конкретным его частям, идентифицированным с помощью шаблона (например, назначение метки "Дебет" конкретной транзакции в выписке).

Является ли назначение метаданных автоматическим или ручным?

Патент описывает гибридный подход. Метаданные могут назначаться автоматически с использованием предварительно настроенных шаблонов (Templates). Также предусмотрена возможность ручного просмотра, редактирования и назначения метаданных пользователем через интерфейс программного обеспечения для управления документами.

Где хранятся обработанные документы и метаданные?

Документы и метаданные хранятся в базе данных документов (Document Database). В патенте указано, что эта база данных может находиться на удаленном сервере, доступном через сеть (например, облачное онлайн-хранилище), или локально на устройстве пользователя.

Похожие патенты

Как Google использует OCR, шаблоны и метаданные для индексации и поиска по личным документам (сканам, PDF)
Патент Google, описывающий систему для преобразования бумажных или графических документов (например, сканов, PDF) в индексируемый текст. Система использует OCR, применяет шаблоны для автоматического извлечения данных и назначения метаданных, а также управляет доступом, сохраняя всё в базе данных для личного поиска.
  • US20080162603A1
  • 2008-07-03
  • Индексация

Как Google использует OCR и канонические документы для улучшения результатов визуального поиска
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.
  • US9176986B2
  • 2015-11-03
  • Мультимедиа

  • Индексация

  • EEAT и качество

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR
Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
  • US9183224B2
  • 2015-11-10
Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)
Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.
  • US8151186B1
  • 2012-04-03
  • Индексация

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)
Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.
  • US8510312B1
  • 2013-08-13
  • Индексация

Популярные патенты

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи
Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.
  • US8538970B1
  • 2013-09-17
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц
Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.
  • US9081832B2
  • 2015-07-14
  • Ссылки

  • SERP

  • Свежесть контента

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска
Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.
  • US8874594B2
  • 2014-10-28
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов
Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.
  • US9436709B1
  • 2016-09-06
  • EEAT и качество

  • Поведенческие сигналы

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
  • US9569432B1
  • 2017-02-14
  • SERP

  • Поведенческие сигналы

  • Персонализация

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы
Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.
  • US20150261858A1
  • 2015-09-17
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов
Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.
  • US9110975B1
  • 2015-08-18
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

seohardcore