Этот патент описывает инфраструктуру Google для приема оцифрованных книг и журналов. Он определяет «Спецификацию контента» (XML-файл), предоставляемую издателями, которая содержит метаданные, структуру тома и явные инструкции по индексированию (например, гранулярность на уровне страниц или глав). Это позволяет Google точно обрабатывать контент, не полагаясь на эвристический анализ.
Google использует систему для эффективного обнаружения контента в облачных сервисах (например, Google Drive, социальные сети), который стал публичным. Вместо ожидания краулера система отслеживает изменения в настройках доступа (ACL). Когда контент становится публичным, его URL немедленно добавляется в список (например, Sitemap) и передается поисковой системе для индексации. Когда контент снова становится приватным, он удаляется из списка для деиндексации.