
Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.
Патент решает проблему трудоемкого и подверженного ошибкам ручного ввода библиографических данных (название, автор, издатель, дата публикации) при масштабной оцифровке печатных изданий (книг, журналов). Изобретение автоматизирует процесс связывания отсканированного текста с существующими метаданными, делая контент и его описание доступными для поиска.
Запатентована система автоматической идентификации и верификации метаданных для отсканированных документов. Система ищет уникальные идентификаторы (например, ISBN) в тексте, полученном через OCR, и считывает их из штрихкодов. Найденный идентификатор используется как ключ для поиска в Metadata Database. Затем система сверяет найденные метаданные с текстом документа для подтверждения корректности ассоциации.
Система работает в процессе оцифровки:
OCR) и штрихкод на обложке для поиска Document Identifier (ISBN, ISSN, DOI). Идентификаторы из обоих источников сравниваются; при несовпадении приоритет отдается штрихкоду.Metadata Database.Средняя (для инфраструктуры Google Books). Технология, описанная в патенте (подача 2004 г.), является базовой для проектов по оцифровке печатных материалов. Хотя методы распознавания (OCR, NLP) с тех пор улучшились, базовая логика верификации и использования стандартных идентификаторов остается актуальной для Google Books и Google Scholar. Для веб-поиска патент не актуален.
Минимальное влияние (1/10). Патент описывает внутренние инфраструктурные процессы Google, связанные исключительно с оцифровкой печатных изданий (Google Books). Он не имеет прямого отношения к алгоритмам ранжирования веб-сайтов, анализу ссылок, оценке качества веб-контента или E-E-A-T.
ISBN или ISSN.ISBN/ISSN).Metadata Database. Примеры: ISBN, ISSN, DOI.Document Identifier или другим полям.Патент фокусируется на методах поиска, верификации идентификаторов и резервных механизмах.
Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации с детальной процедурой перекрестной проверки источников идентификатора.
Document Identifier (ISBN, ISSN или DOI).Copyright Page.Barcode в определенном месте документа.Copyright Page (ID1) и в Barcode (ID2).Document Identifier.Barcode (ID2) как Document Identifier.Document Identifier для поиска метаданных в базе данных.Ядром изобретения является механизм разрешения конфликтов: приоритет отдается штрихкоду, так как он точнее идентифицирует конкретный физический экземпляр, в то время как на странице авторских прав могут быть перечислены ID разных изданий.
Claim 3 (Независимый пункт): Описывает основной процесс и добавляет альтернативный путь обработки (fallback), если идентификатор не найден.
Document Identifier (ISBN, ISSN или DOI), поиску метаданных и их ассоциации.Document Identifier НЕ найден в документе: Этот патент не применяется в стандартной архитектуре веб-поиска. Он относится исключительно к процессу сбора и обработки данных для проектов по оцифровке печатных материалов, таких как Google Books или Google Scholar.
CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Применяется на этапе получения данных из физических носителей. Scanning System выполняет физическое сканирование документа и запускает процесс OCR для преобразования изображений в текст.
INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Основной этап применения. Processing System анализирует сырой текст после OCR и изображения (штрихкоды), извлекает ключевые признаки (идентификаторы ISBN/ISSN или предполагаемые название/автор) и взаимодействует с Metadata Database. Цель – обогатить данные о документе точной библиографической информацией перед финальной индексацией.
Входные данные:
OCR.Metadata Database (внешние библиографические данные).Выходные данные:
additional processing).Document Identifier. Если он не найден, активируется резервный механизм (поиск по названию/автору).Этап 1: Сбор данных и предобработка
Этап 2: Поиск и верификация идентификатора (Doc ID)
ISBN/ISSN на странице авторских прав и их валидация с помощью контрольных цифр.Barcode (например, на обложке). Извлечение ID2.Этап 3: Сопоставление (Основной и Резервный пути)
Metadata Database по ID.Metadata Database по этим полям.Этап 4: Финализация
OCR. Специфические ключевые слова ("ISBN", "ISSN", "Library of Congress") и символы (©), используемые для поиска Copyright Page.Barcode) на обложке документа.OCR и чтения штрихкодов).Metadata Database. Наполняется из источников библиотечной информации (OCLC, RLG), от издателей, сторонних агрегаторов (Ingram Book Company) и из Интернета.Патент не описывает алгоритмы машинного обучения или сложные метрики ранжирования. Используются прямые методы сравнения и верификации.
ISBN и ISSN имеют встроенные контрольные цифры. Система использует их для валидации распознанных числовых последовательностей и отсеивания ошибок OCR.Copyright Page vs Barcode). 2) Сравнения метаданных из базы с текстом документа. Патент указывает, что может требоваться полное совпадение или совпадение определенного процента информации.ISBN, ISSN, DOI) как надежных ключей для связывания документа с его метаданными.Copyright Page и Barcode). Ключевым является правило разрешения конфликтов: при разночтениях приоритет отдается штрихкоду как более точному идентификатору конкретного экземпляра.ВАЖНО: Патент является инфраструктурным, описывает внутренние процессы обработки печатных изданий и не дает практических рекомендаций для стандартного веб-SEO.
Рекомендаций для SEO специалистов по продвижению веб-сайтов нет.
ISBN/ISSN на странице авторских прав и наличие стандартного штрихкода на обложке. Это облегчает Google автоматическую верификацию и ускоряет индексацию контента в соответствующих сервисах.Не применимо к стандартному SEO, так как патент не описывает факторы ранжирования или методы борьбы с манипуляциями в веб-поиске.
Стратегическое значение для веб-SEO отсутствует. Патент иллюстрирует ранние усилия Google (2004 год) по масштабному сбору, оцифровке и структурированию информации из нецифровых источников. Это инфраструктурное решение, позволившее масштабировать проект Google Books, но оно не влияет на стратегию продвижения веб-сайтов.
Практических примеров для SEO нет.
Влияет ли этот патент на ранжирование моего сайта в Google Поиске?
Нет, этот патент не имеет отношения к алгоритмам ранжирования веб-поиска. Он описывает внутренний процесс, используемый Google для оцифровки и каталогизации печатных изданий, таких как книги и журналы (например, для Google Books). На SEO вашего сайта он не влияет.
Описывает ли патент, как Google определяет качество контента или E-E-A-T?
Нет. В патенте не упоминаются сигналы качества контента или авторитетности. Он сосредоточен исключительно на технических методах точного сопоставления отсканированного текста с его базовыми библиографическими метаданными (автор, название, ISBN).
Что такое Document Identifier, упоминаемый в патенте?
Это стандартные отраслевые уникальные коды, присваиваемые публикациям. В патенте явно указаны ISBN (Международный стандартный книжный номер), ISSN (Международный стандартный серийный номер) и DOI (Идентификатор цифрового объекта). Они используются как ключ для поиска информации о документе.
Как именно система находит и проверяет ISBN в отсканированной книге?
Система использует механизм двойной проверки. Она ищет ISBN в двух местах: на странице авторских прав (Copyright Page) с помощью OCR и путем декодирования штрихкода (Barcode) на обложке. Затем эти два идентификатора сравниваются для верификации.
Что произойдет, если ISBN на странице авторских прав отличается от ISBN в штрихкоде?
Патент предусматривает механизм разрешения этого конфликта: система отдает приоритет идентификатору, полученному из штрихкода. Это связано с тем, что на странице авторских прав могут быть перечислены ISBN для разных версий издания (например, разные переплеты), а штрихкод обычно соответствует конкретному физическому экземпляру.
Что происходит, если система не может автоматически найти ISBN?
Если уникальный идентификатор не найден, активируется резервный механизм. Система пытается определить название, автора и издателя непосредственно из текста документа (анализируя шрифт, размер и расположение текста на титульных страницах) и ищет совпадения в базе метаданных по этим полям.
Откуда Google берет базу метаданных (Metadata Database)?
Патент указывает, что база наполняется из внешних источников: библиотечная информация (например, от OCLC, RLG, Library of Congress), данные от издателей, сторонние источники (агрегаторы книжных данных, такие как Ingram Book Company) и Интернет.
Использует ли Google машинное обучение в этом патенте?
Патент (поданный в 2004 году) не упоминает современные методы машинного обучения. Он описывает прямые эвристические методы: поиск по ключевым словам, валидацию контрольных сумм (для ISBN/ISSN), сравнение строк и базовый анализ верстки для определения названия и автора.
Есть ли польза от этого патента для оптимизации под Google Books или Google Scholar?
Для издателей и авторов патент подчеркивает важность предоставления корректных метаданных и обеспечения того, чтобы печатные издания имели четкие, машиночитаемые ISBN, ISSN и штрихкоды. Это упрощает процесс точной оцифровки и улучшает обнаруживаемость публикации в этих сервисах.
Какова основная польза этого изобретения для SEO-специалиста?
Практической пользы для стандартного SEO нет. Патент полезен только для общего понимания того, как Google решает инфраструктурные задачи по обработке больших массивов неструктурированных данных, в данном случае — оцифровке печатного контента.

Индексация

Индексация
Ссылки
Семантика и интент

Индексация

Индексация
SERP

Индексация
Техническое SEO

Семантика и интент
Поведенческие сигналы
SERP

Local SEO
Семантика и интент
Поведенческие сигналы

Структура сайта
Техническое SEO
Ссылки

Персонализация
Поведенческие сигналы

EEAT и качество
Техническое SEO
Ссылки

Ссылки
SERP
Структура сайта

Ссылки
Краулинг
Техническое SEO

Local SEO
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
Ссылки
