Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google автоматически распознает и связывает отсканированные книги с их библиографическими данными (ISBN, автор, название)

    AUTOMATIC METADATA IDENTIFICATION (Автоматическая идентификация метаданных)
    • US8495061B1
    • Google LLC
    • 2013-07-23
    • 2004-09-29
    2004 Индексация Патенты Google

    Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему трудоемкого и подверженного ошибкам ручного ввода библиографических данных (название, автор, издатель, дата публикации) при масштабной оцифровке печатных изданий (книг, журналов). Изобретение автоматизирует процесс связывания отсканированного текста с существующими метаданными, делая контент и его описание доступными для поиска.

    Что запатентовано

    Запатентована система автоматической идентификации и верификации метаданных для отсканированных документов. Система ищет уникальные идентификаторы (например, ISBN) в тексте, полученном через OCR, и считывает их из штрихкодов. Найденный идентификатор используется как ключ для поиска в Metadata Database. Затем система сверяет найденные метаданные с текстом документа для подтверждения корректности ассоциации.

    Как это работает

    Система работает в процессе оцифровки:

    • Сканирование и OCR: Физический документ сканируется, и текст распознается.
    • Поиск и верификация идентификатора: Система анализирует страницу с копирайтом (через OCR) и штрихкод на обложке для поиска Document Identifier (ISBN, ISSN, DOI). Идентификаторы из обоих источников сравниваются; при несовпадении приоритет отдается штрихкоду.
    • Запрос к базе данных: Верифицированный идентификатор используется для запроса к Metadata Database.
    • Валидация: Полученные метаданные (например, название, автор) сравниваются с текстом, извлеченным из документа.
    • Ассоциация: При совпадении метаданные связываются с цифровой копией.
    • Резервный механизм: Если идентификатор не найден, система пытается извлечь название/автора напрямую из текста и ищет совпадения в базе.

    Актуальность для SEO

    Средняя (для инфраструктуры Google Books). Технология, описанная в патенте (подача 2004 г.), является базовой для проектов по оцифровке печатных материалов. Хотя методы распознавания (OCR, NLP) с тех пор улучшились, базовая логика верификации и использования стандартных идентификаторов остается актуальной для Google Books и Google Scholar. Для веб-поиска патент не актуален.

    Важность для SEO

    Минимальное влияние (1/10). Патент описывает внутренние инфраструктурные процессы Google, связанные исключительно с оцифровкой печатных изданий (Google Books). Он не имеет прямого отношения к алгоритмам ранжирования веб-сайтов, анализу ссылок, оценке качества веб-контента или E-E-A-T.

    Детальный разбор

    Термины и определения

    Barcode (Штрихкод)
    Графическое представление данных (например, на обложке книги), кодирующее информацию о документе, включая ISBN или ISSN.
    Copyright Page (Страница авторских прав)
    Страница в документе (обычно в начале), содержащая информацию об издателе, авторских правах, дате публикации и часто уникальные идентификаторы (ISBN/ISSN).
    Document Database (База данных документов)
    Хранилище отсканированных изображений и распознанного текста документов.
    Document Identifier (Doc ID) (Идентификатор документа)
    Уникальный ключ для идентификации документа и поиска его записи в Metadata Database. Примеры: ISBN, ISSN, DOI.
    ISBN (International Standard Book Number)
    Международный стандартный книжный номер. Имеет встроенную контрольную цифру для валидации.
    ISSN (International Standard Serial Number)
    Международный стандартный серийный номер (для периодических изданий). Имеет встроенную контрольную цифру.
    Metadata (Метаданные)
    Информация о документе (название, автор, издатель и т.д.), полученная из внешних источников (библиотеки, издатели), а не в процессе сканирования.
    Metadata Database (База данных метаданных)
    Хранилище метаданных, полученных из различных источников и индексированных по Document Identifier или другим полям.
    OCR (Optical Character Recognition) (Оптическое распознавание символов)
    Технология преобразования изображений текста в машиночитаемый формат.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на методах поиска, верификации идентификаторов и резервных механизмах.

    Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации с детальной процедурой перекрестной проверки источников идентификатора.

    1. Анализ страниц документа для идентификации страницы, содержащей Document Identifier (ISBN, ISSN или DOI).
    2. Процесс анализа включает конкретные шаги верификации:
      • Идентификация Copyright Page.
      • Чтение Barcode в определенном месте документа.
      • Поиск идентификатора на Copyright Page (ID1) и в Barcode (ID2).
      • Сравнение ID1 и ID2.
      • Если ID1 совпадает с ID2: Использовать этот номер как Document Identifier.
      • Если ID1 НЕ совпадает с ID2: Использовать ID из Barcode (ID2) как Document Identifier.
    3. Использование выбранного Document Identifier для поиска метаданных в базе данных.
    4. Сравнение найденных метаданных с текстом документа.
    5. Ассоциация метаданных с текстом документа, если они (частично) совпадают.

    Ядром изобретения является механизм разрешения конфликтов: приоритет отдается штрихкоду, так как он точнее идентифицирует конкретный физический экземпляр, в то время как на странице авторских прав могут быть перечислены ID разных изданий.

    Claim 3 (Независимый пункт): Описывает основной процесс и добавляет альтернативный путь обработки (fallback), если идентификатор не найден.

    1. Система выполняет шаги по поиску Document Identifier (ISBN, ISSN или DOI), поиску метаданных и их ассоциации.
    2. Дополнительно, если Document Identifier НЕ найден в документе:
      • Система идентифицирует в тексте документа Название, Информацию об авторе и/или Информацию об издателе.
      • Сравнивает эти идентифицированные элементы с соответствующими полями в базе данных.
      • Ассоциирует метаданные с текстом документа, если найдено совпадение по извлеченной информации.

    Где и как применяется

    Этот патент не применяется в стандартной архитектуре веб-поиска. Он относится исключительно к процессу сбора и обработки данных для проектов по оцифровке печатных материалов, таких как Google Books или Google Scholar.

    CRAWLING – Сканирование и Сбор данных (Data Acquisition)
    Применяется на этапе получения данных из физических носителей. Scanning System выполняет физическое сканирование документа и запускает процесс OCR для преобразования изображений в текст.

    INDEXING – Индексирование и извлечение признаков (Feature Extraction)
    Основной этап применения. Processing System анализирует сырой текст после OCR и изображения (штрихкоды), извлекает ключевые признаки (идентификаторы ISBN/ISSN или предполагаемые название/автор) и взаимодействует с Metadata Database. Цель – обогатить данные о документе точной библиографической информацией перед финальной индексацией.

    Входные данные:

    • Изображения страниц физического документа.
    • Текст документа после OCR.
    • Metadata Database (внешние библиографические данные).

    Выходные данные:

    • Верифицированная цифровая копия документа, связанная с корректной записью метаданных.
    • Флаг, указывающий на необходимость ручной обработки (additional processing).

    На что влияет

    • Конкретные типы контента: Влияет исключительно на обработку оцифрованных печатных изданий (книги, журналы, каталоги). Не влияет на веб-страницы, товары, локальные результаты в контексте веб-поиска.

    Когда применяется

    • Условия работы: Алгоритм применяется в процессе оцифровки и каталогизации каждого печатного документа.
    • Триггеры активации: Система всегда пытается найти Document Identifier. Если он не найден, активируется резервный механизм (поиск по названию/автору).

    Пошаговый алгоритм

    Этап 1: Сбор данных и предобработка

    1. Сканирование: Получение изображений страниц документа.
    2. OCR: Распознавание текста, его характеристик (шрифт, размер) и положения на странице.
    3. Сохранение: Временное сохранение текста и изображений.

    Этап 2: Поиск и верификация идентификатора (Doc ID)

    1. Поиск страницы авторских прав: Анализ первых страниц для поиска индикаторов (ключевые слова «ISBN», «ISSN», «Library of Congress», символ ©).
    2. Извлечение ID1 (Текст): Поиск номеров ISBN/ISSN на странице авторских прав и их валидация с помощью контрольных цифр.
    3. Чтение штрихкода: Считывание и декодирование Barcode (например, на обложке). Извлечение ID2.
    4. Верификация и выбор ID: Сравнение ID1 и ID2. Если они не совпадают, предпочтение отдается ID2 (штрихкоду).

    Этап 3: Сопоставление (Основной и Резервный пути)

    1. Проверка наличия ID:
      • Если ID найден: Переход к Основному пути (Шаг 9).
      • Если ID не найден: Переход к Резервному пути (Шаг 13).
    2. Основной путь (ID найден):
      • Запрос к Metadata Database по ID.
      • Извлечение метаданных (Название, Автор) из базы.
      • Сравнение метаданных с текстом документа.
      • Результат: При успехе – ассоциация данных. При неудаче – переход к Шагу 15.
    3. Резервный путь (ID не найден):
      • Эвристическое извлечение предполагаемого Названия/Автора/Издателя из текста документа (анализ макета и шрифтов).
      • Поиск в Metadata Database по этим полям.
      • Результат: При надежном совпадении – ассоциация данных. При неудаче – переход к Шагу 15.

    Этап 4: Финализация

    1. Ручная обработка: Если автоматическое сопоставление не удалось, документ помечается флагом для дополнительной (ручной) обработки.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа, полученный через OCR. Специфические ключевые слова («ISBN», «ISSN», «Library of Congress») и символы (©), используемые для поиска Copyright Page.
    • Структурные (Layout) факторы: Расположение текста на странице, верстка, характеристики шрифта (размер, начертание). Эти данные используются для определения предполагаемого названия и автора на основе типичного макета документа.
    • Технические факторы: Данные, закодированные в штрихкоде (Barcode) на обложке документа.
    • Мультимедиа факторы: Изображения страниц документа (как источник для OCR и чтения штрихкодов).
    • Внешние данные: Metadata Database. Наполняется из источников библиотечной информации (OCLC, RLG), от издателей, сторонних агрегаторов (Ingram Book Company) и из Интернета.

    Какие метрики используются и как они считаются

    Патент не описывает алгоритмы машинного обучения или сложные метрики ранжирования. Используются прямые методы сравнения и верификации.

    • Проверка контрольных сумм (Check Digits): ISBN и ISSN имеют встроенные контрольные цифры. Система использует их для валидации распознанных числовых последовательностей и отсеивания ошибок OCR.
    • Сравнение строк (Matching): Используется для: 1) Сравнения идентификаторов из разных источников (Copyright Page vs Barcode). 2) Сравнения метаданных из базы с текстом документа. Патент указывает, что может требоваться полное совпадение или совпадение определенного процента информации.
    • Анализ верстки: Эвристические методы определения вероятных кандидатов на роль названия и автора на основе характеристик текста (шрифт, размер) и его расположения на странице.

    Выводы

    1. Инфраструктурный патент без влияния на веб-SEO: Патент описывает внутренние процессы Google, связанные с оцифровкой книг (Google Books), и не содержит прямых рекомендаций для SEO веб-сайтов. Он направлен на автоматизацию сбора и верификации данных.
    2. Приоритет стандартных идентификаторов: Основной механизм полагается на использование уникальных идентификаторов (ISBN, ISSN, DOI) как надежных ключей для связывания документа с его метаданными.
    3. Многоуровневая верификация и разрешение конфликтов: Система использует перекрестную проверку из нескольких источников (Copyright Page и Barcode). Ключевым является правило разрешения конфликтов: при разночтениях приоритет отдается штрихкоду как более точному идентификатору конкретного экземпляра.
    4. Верификация через контент: Важным шагом является сверка метаданных, полученных из базы, с текстом самого документа. Это гарантирует, что отсканированный документ соответствует найденной библиографической записи.
    5. Резервные механизмы (Fallback): Если идентификатор не найден, система использует эвристический анализ текста и верстки для извлечения названия/автора и пытается найти соответствие в базе метаданных.

    Практика

    ВАЖНО: Патент является инфраструктурным, описывает внутренние процессы обработки печатных изданий и не дает практических рекомендаций для стандартного веб-SEO.

    Best practices (это мы делаем)

    Рекомендаций для SEO специалистов по продвижению веб-сайтов нет.

    • Для издателей и авторов (контекст Google Books/Scholar): Патент подчеркивает важность следования стандартам оформления публикаций. Необходимо обеспечить наличие корректных, четких и легко читаемых ISBN/ISSN на странице авторских прав и наличие стандартного штрихкода на обложке. Это облегчает Google автоматическую верификацию и ускоряет индексацию контента в соответствующих сервисах.

    Worst practices (это делать не надо)

    Не применимо к стандартному SEO, так как патент не описывает факторы ранжирования или методы борьбы с манипуляциями в веб-поиске.

    Стратегическое значение

    Стратегическое значение для веб-SEO отсутствует. Патент иллюстрирует ранние усилия Google (2004 год) по масштабному сбору, оцифровке и структурированию информации из нецифровых источников. Это инфраструктурное решение, позволившее масштабировать проект Google Books, но оно не влияет на стратегию продвижения веб-сайтов.

    Практические примеры

    Практических примеров для SEO нет.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

    Нет, этот патент не имеет отношения к алгоритмам ранжирования веб-поиска. Он описывает внутренний процесс, используемый Google для оцифровки и каталогизации печатных изданий, таких как книги и журналы (например, для Google Books). На SEO вашего сайта он не влияет.

    Описывает ли патент, как Google определяет качество контента или E-E-A-T?

    Нет. В патенте не упоминаются сигналы качества контента или авторитетности. Он сосредоточен исключительно на технических методах точного сопоставления отсканированного текста с его базовыми библиографическими метаданными (автор, название, ISBN).

    Что такое Document Identifier, упоминаемый в патенте?

    Это стандартные отраслевые уникальные коды, присваиваемые публикациям. В патенте явно указаны ISBN (Международный стандартный книжный номер), ISSN (Международный стандартный серийный номер) и DOI (Идентификатор цифрового объекта). Они используются как ключ для поиска информации о документе.

    Как именно система находит и проверяет ISBN в отсканированной книге?

    Система использует механизм двойной проверки. Она ищет ISBN в двух местах: на странице авторских прав (Copyright Page) с помощью OCR и путем декодирования штрихкода (Barcode) на обложке. Затем эти два идентификатора сравниваются для верификации.

    Что произойдет, если ISBN на странице авторских прав отличается от ISBN в штрихкоде?

    Патент предусматривает механизм разрешения этого конфликта: система отдает приоритет идентификатору, полученному из штрихкода. Это связано с тем, что на странице авторских прав могут быть перечислены ISBN для разных версий издания (например, разные переплеты), а штрихкод обычно соответствует конкретному физическому экземпляру.

    Что происходит, если система не может автоматически найти ISBN?

    Если уникальный идентификатор не найден, активируется резервный механизм. Система пытается определить название, автора и издателя непосредственно из текста документа (анализируя шрифт, размер и расположение текста на титульных страницах) и ищет совпадения в базе метаданных по этим полям.

    Откуда Google берет базу метаданных (Metadata Database)?

    Патент указывает, что база наполняется из внешних источников: библиотечная информация (например, от OCLC, RLG, Library of Congress), данные от издателей, сторонние источники (агрегаторы книжных данных, такие как Ingram Book Company) и Интернет.

    Использует ли Google машинное обучение в этом патенте?

    Патент (поданный в 2004 году) не упоминает современные методы машинного обучения. Он описывает прямые эвристические методы: поиск по ключевым словам, валидацию контрольных сумм (для ISBN/ISSN), сравнение строк и базовый анализ верстки для определения названия и автора.

    Есть ли польза от этого патента для оптимизации под Google Books или Google Scholar?

    Для издателей и авторов патент подчеркивает важность предоставления корректных метаданных и обеспечения того, чтобы печатные издания имели четкие, машиночитаемые ISBN, ISSN и штрихкоды. Это упрощает процесс точной оцифровки и улучшает обнаруживаемость публикации в этих сервисах.

    Какова основная польза этого изобретения для SEO-специалиста?

    Практической пользы для стандартного SEO нет. Патент полезен только для общего понимания того, как Google решает инфраструктурные задачи по обработке больших массивов неструктурированных данных, в данном случае — оцифровке печатного контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.