Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.
Описание
Какую задачу решает
Патент решает проблему трудоемкого и подверженного ошибкам ручного ввода библиографических данных (название, автор, издатель, дата публикации) при масштабной оцифровке печатных изданий (книг, журналов). Изобретение автоматизирует процесс связывания отсканированного текста с существующими метаданными, делая контент и его описание доступными для поиска.
Что запатентовано
Запатентована система автоматической идентификации и верификации метаданных для отсканированных документов. Система ищет уникальные идентификаторы (например, ISBN) в тексте, полученном через OCR, и считывает их из штрихкодов. Найденный идентификатор используется как ключ для поиска в Metadata Database. Затем система сверяет найденные метаданные с текстом документа для подтверждения корректности ассоциации.
Как это работает
Система работает в процессе оцифровки:
- Сканирование и OCR: Физический документ сканируется, и текст распознается.
- Поиск и верификация идентификатора: Система анализирует страницу с копирайтом (через OCR) и штрихкод на обложке для поиска Document Identifier (ISBN, ISSN, DOI). Идентификаторы из обоих источников сравниваются; при несовпадении приоритет отдается штрихкоду.
- Запрос к базе данных: Верифицированный идентификатор используется для запроса к Metadata Database.
- Валидация: Полученные метаданные (например, название, автор) сравниваются с текстом, извлеченным из документа.
- Ассоциация: При совпадении метаданные связываются с цифровой копией.
- Резервный механизм: Если идентификатор не найден, система пытается извлечь название/автора напрямую из текста и ищет совпадения в базе.
Актуальность для SEO
Средняя (для инфраструктуры Google Books). Технология, описанная в патенте (подача 2004 г.), является базовой для проектов по оцифровке печатных материалов. Хотя методы распознавания (OCR, NLP) с тех пор улучшились, базовая логика верификации и использования стандартных идентификаторов остается актуальной для Google Books и Google Scholar. Для веб-поиска патент не актуален.
Важность для SEO
Минимальное влияние (1/10). Патент описывает внутренние инфраструктурные процессы Google, связанные исключительно с оцифровкой печатных изданий (Google Books). Он не имеет прямого отношения к алгоритмам ранжирования веб-сайтов, анализу ссылок, оценке качества веб-контента или E-E-A-T.
Детальный разбор
Термины и определения
- Barcode (Штрихкод)
- Графическое представление данных (например, на обложке книги), кодирующее информацию о документе, включая ISBN или ISSN.
- Copyright Page (Страница авторских прав)
- Страница в документе (обычно в начале), содержащая информацию об издателе, авторских правах, дате публикации и часто уникальные идентификаторы (ISBN/ISSN).
- Document Database (База данных документов)
- Хранилище отсканированных изображений и распознанного текста документов.
- Document Identifier (Doc ID) (Идентификатор документа)
- Уникальный ключ для идентификации документа и поиска его записи в Metadata Database. Примеры: ISBN, ISSN, DOI.
- ISBN (International Standard Book Number)
- Международный стандартный книжный номер. Имеет встроенную контрольную цифру для валидации.
- ISSN (International Standard Serial Number)
- Международный стандартный серийный номер (для периодических изданий). Имеет встроенную контрольную цифру.
- Metadata (Метаданные)
- Информация о документе (название, автор, издатель и т.д.), полученная из внешних источников (библиотеки, издатели), а не в процессе сканирования.
- Metadata Database (База данных метаданных)
- Хранилище метаданных, полученных из различных источников и индексированных по Document Identifier или другим полям.
- OCR (Optical Character Recognition) (Оптическое распознавание символов)
- Технология преобразования изображений текста в машиночитаемый формат.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на методах поиска, верификации идентификаторов и резервных механизмах.
Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации с детальной процедурой перекрестной проверки источников идентификатора.
- Анализ страниц документа для идентификации страницы, содержащей Document Identifier (ISBN, ISSN или DOI).
- Процесс анализа включает конкретные шаги верификации:
- Идентификация Copyright Page.
- Чтение Barcode в определенном месте документа.
- Поиск идентификатора на Copyright Page (ID1) и в Barcode (ID2).
- Сравнение ID1 и ID2.
- Если ID1 совпадает с ID2: Использовать этот номер как Document Identifier.
- Если ID1 НЕ совпадает с ID2: Использовать ID из Barcode (ID2) как Document Identifier.
- Использование выбранного Document Identifier для поиска метаданных в базе данных.
- Сравнение найденных метаданных с текстом документа.
- Ассоциация метаданных с текстом документа, если они (частично) совпадают.
Ядром изобретения является механизм разрешения конфликтов: приоритет отдается штрихкоду, так как он точнее идентифицирует конкретный физический экземпляр, в то время как на странице авторских прав могут быть перечислены ID разных изданий.
Claim 3 (Независимый пункт): Описывает основной процесс и добавляет альтернативный путь обработки (fallback), если идентификатор не найден.
- Система выполняет шаги по поиску Document Identifier (ISBN, ISSN или DOI), поиску метаданных и их ассоциации.
- Дополнительно, если Document Identifier НЕ найден в документе:
- Система идентифицирует в тексте документа Название, Информацию об авторе и/или Информацию об издателе.
- Сравнивает эти идентифицированные элементы с соответствующими полями в базе данных.
- Ассоциирует метаданные с текстом документа, если найдено совпадение по извлеченной информации.
Где и как применяется
Этот патент не применяется в стандартной архитектуре веб-поиска. Он относится исключительно к процессу сбора и обработки данных для проектов по оцифровке печатных материалов, таких как Google Books или Google Scholar.
CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Применяется на этапе получения данных из физических носителей. Scanning System выполняет физическое сканирование документа и запускает процесс OCR для преобразования изображений в текст.
INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Основной этап применения. Processing System анализирует сырой текст после OCR и изображения (штрихкоды), извлекает ключевые признаки (идентификаторы ISBN/ISSN или предполагаемые название/автор) и взаимодействует с Metadata Database. Цель – обогатить данные о документе точной библиографической информацией перед финальной индексацией.
Входные данные:
- Изображения страниц физического документа.
- Текст документа после OCR.
- Metadata Database (внешние библиографические данные).
Выходные данные:
- Верифицированная цифровая копия документа, связанная с корректной записью метаданных.
- Флаг, указывающий на необходимость ручной обработки (additional processing).
На что влияет
- Конкретные типы контента: Влияет исключительно на обработку оцифрованных печатных изданий (книги, журналы, каталоги). Не влияет на веб-страницы, товары, локальные результаты в контексте веб-поиска.
Когда применяется
- Условия работы: Алгоритм применяется в процессе оцифровки и каталогизации каждого печатного документа.
- Триггеры активации: Система всегда пытается найти Document Identifier. Если он не найден, активируется резервный механизм (поиск по названию/автору).
Пошаговый алгоритм
Этап 1: Сбор данных и предобработка
- Сканирование: Получение изображений страниц документа.
- OCR: Распознавание текста, его характеристик (шрифт, размер) и положения на странице.
- Сохранение: Временное сохранение текста и изображений.
Этап 2: Поиск и верификация идентификатора (Doc ID)
- Поиск страницы авторских прав: Анализ первых страниц для поиска индикаторов (ключевые слова «ISBN», «ISSN», «Library of Congress», символ ©).
- Извлечение ID1 (Текст): Поиск номеров ISBN/ISSN на странице авторских прав и их валидация с помощью контрольных цифр.
- Чтение штрихкода: Считывание и декодирование Barcode (например, на обложке). Извлечение ID2.
- Верификация и выбор ID: Сравнение ID1 и ID2. Если они не совпадают, предпочтение отдается ID2 (штрихкоду).
Этап 3: Сопоставление (Основной и Резервный пути)
- Проверка наличия ID:
- Если ID найден: Переход к Основному пути (Шаг 9).
- Если ID не найден: Переход к Резервному пути (Шаг 13).
- Основной путь (ID найден):
- Запрос к Metadata Database по ID.
- Извлечение метаданных (Название, Автор) из базы.
- Сравнение метаданных с текстом документа.
- Результат: При успехе – ассоциация данных. При неудаче – переход к Шагу 15.
- Резервный путь (ID не найден):
- Эвристическое извлечение предполагаемого Названия/Автора/Издателя из текста документа (анализ макета и шрифтов).
- Поиск в Metadata Database по этим полям.
- Результат: При надежном совпадении – ассоциация данных. При неудаче – переход к Шагу 15.
Этап 4: Финализация
- Ручная обработка: Если автоматическое сопоставление не удалось, документ помечается флагом для дополнительной (ручной) обработки.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст документа, полученный через OCR. Специфические ключевые слова («ISBN», «ISSN», «Library of Congress») и символы (©), используемые для поиска Copyright Page.
- Структурные (Layout) факторы: Расположение текста на странице, верстка, характеристики шрифта (размер, начертание). Эти данные используются для определения предполагаемого названия и автора на основе типичного макета документа.
- Технические факторы: Данные, закодированные в штрихкоде (Barcode) на обложке документа.
- Мультимедиа факторы: Изображения страниц документа (как источник для OCR и чтения штрихкодов).
- Внешние данные: Metadata Database. Наполняется из источников библиотечной информации (OCLC, RLG), от издателей, сторонних агрегаторов (Ingram Book Company) и из Интернета.
Какие метрики используются и как они считаются
Патент не описывает алгоритмы машинного обучения или сложные метрики ранжирования. Используются прямые методы сравнения и верификации.
- Проверка контрольных сумм (Check Digits): ISBN и ISSN имеют встроенные контрольные цифры. Система использует их для валидации распознанных числовых последовательностей и отсеивания ошибок OCR.
- Сравнение строк (Matching): Используется для: 1) Сравнения идентификаторов из разных источников (Copyright Page vs Barcode). 2) Сравнения метаданных из базы с текстом документа. Патент указывает, что может требоваться полное совпадение или совпадение определенного процента информации.
- Анализ верстки: Эвристические методы определения вероятных кандидатов на роль названия и автора на основе характеристик текста (шрифт, размер) и его расположения на странице.
Выводы
- Инфраструктурный патент без влияния на веб-SEO: Патент описывает внутренние процессы Google, связанные с оцифровкой книг (Google Books), и не содержит прямых рекомендаций для SEO веб-сайтов. Он направлен на автоматизацию сбора и верификации данных.
- Приоритет стандартных идентификаторов: Основной механизм полагается на использование уникальных идентификаторов (ISBN, ISSN, DOI) как надежных ключей для связывания документа с его метаданными.
- Многоуровневая верификация и разрешение конфликтов: Система использует перекрестную проверку из нескольких источников (Copyright Page и Barcode). Ключевым является правило разрешения конфликтов: при разночтениях приоритет отдается штрихкоду как более точному идентификатору конкретного экземпляра.
- Верификация через контент: Важным шагом является сверка метаданных, полученных из базы, с текстом самого документа. Это гарантирует, что отсканированный документ соответствует найденной библиографической записи.
- Резервные механизмы (Fallback): Если идентификатор не найден, система использует эвристический анализ текста и верстки для извлечения названия/автора и пытается найти соответствие в базе метаданных.
Практика
ВАЖНО: Патент является инфраструктурным, описывает внутренние процессы обработки печатных изданий и не дает практических рекомендаций для стандартного веб-SEO.
Best practices (это мы делаем)
Рекомендаций для SEO специалистов по продвижению веб-сайтов нет.
- Для издателей и авторов (контекст Google Books/Scholar): Патент подчеркивает важность следования стандартам оформления публикаций. Необходимо обеспечить наличие корректных, четких и легко читаемых ISBN/ISSN на странице авторских прав и наличие стандартного штрихкода на обложке. Это облегчает Google автоматическую верификацию и ускоряет индексацию контента в соответствующих сервисах.
Worst practices (это делать не надо)
Не применимо к стандартному SEO, так как патент не описывает факторы ранжирования или методы борьбы с манипуляциями в веб-поиске.
Стратегическое значение
Стратегическое значение для веб-SEO отсутствует. Патент иллюстрирует ранние усилия Google (2004 год) по масштабному сбору, оцифровке и структурированию информации из нецифровых источников. Это инфраструктурное решение, позволившее масштабировать проект Google Books, но оно не влияет на стратегию продвижения веб-сайтов.
Практические примеры
Практических примеров для SEO нет.
Вопросы и ответы
Влияет ли этот патент на ранжирование моего сайта в Google Поиске?
Нет, этот патент не имеет отношения к алгоритмам ранжирования веб-поиска. Он описывает внутренний процесс, используемый Google для оцифровки и каталогизации печатных изданий, таких как книги и журналы (например, для Google Books). На SEO вашего сайта он не влияет.
Описывает ли патент, как Google определяет качество контента или E-E-A-T?
Нет. В патенте не упоминаются сигналы качества контента или авторитетности. Он сосредоточен исключительно на технических методах точного сопоставления отсканированного текста с его базовыми библиографическими метаданными (автор, название, ISBN).
Что такое Document Identifier, упоминаемый в патенте?
Это стандартные отраслевые уникальные коды, присваиваемые публикациям. В патенте явно указаны ISBN (Международный стандартный книжный номер), ISSN (Международный стандартный серийный номер) и DOI (Идентификатор цифрового объекта). Они используются как ключ для поиска информации о документе.
Как именно система находит и проверяет ISBN в отсканированной книге?
Система использует механизм двойной проверки. Она ищет ISBN в двух местах: на странице авторских прав (Copyright Page) с помощью OCR и путем декодирования штрихкода (Barcode) на обложке. Затем эти два идентификатора сравниваются для верификации.
Что произойдет, если ISBN на странице авторских прав отличается от ISBN в штрихкоде?
Патент предусматривает механизм разрешения этого конфликта: система отдает приоритет идентификатору, полученному из штрихкода. Это связано с тем, что на странице авторских прав могут быть перечислены ISBN для разных версий издания (например, разные переплеты), а штрихкод обычно соответствует конкретному физическому экземпляру.
Что происходит, если система не может автоматически найти ISBN?
Если уникальный идентификатор не найден, активируется резервный механизм. Система пытается определить название, автора и издателя непосредственно из текста документа (анализируя шрифт, размер и расположение текста на титульных страницах) и ищет совпадения в базе метаданных по этим полям.
Откуда Google берет базу метаданных (Metadata Database)?
Патент указывает, что база наполняется из внешних источников: библиотечная информация (например, от OCLC, RLG, Library of Congress), данные от издателей, сторонние источники (агрегаторы книжных данных, такие как Ingram Book Company) и Интернет.
Использует ли Google машинное обучение в этом патенте?
Патент (поданный в 2004 году) не упоминает современные методы машинного обучения. Он описывает прямые эвристические методы: поиск по ключевым словам, валидацию контрольных сумм (для ISBN/ISSN), сравнение строк и базовый анализ верстки для определения названия и автора.
Есть ли польза от этого патента для оптимизации под Google Books или Google Scholar?
Для издателей и авторов патент подчеркивает важность предоставления корректных метаданных и обеспечения того, чтобы печатные издания имели четкие, машиночитаемые ISBN, ISSN и штрихкоды. Это упрощает процесс точной оцифровки и улучшает обнаруживаемость публикации в этих сервисах.
Какова основная польза этого изобретения для SEO-специалиста?
Практической пользы для стандартного SEO нет. Патент полезен только для общего понимания того, как Google решает инфраструктурные задачи по обработке больших массивов неструктурированных данных, в данном случае — оцифровке печатного контента.