Краулинг

Анализ инфраструктурного патента Google, описывающего систему для распределенной обработки больших коллекций документов. Система позволяет рабочим процессам динамически разбивать слишком крупные задачи на подзадачи, возвращать их в общую очередь, отслеживать выполнение …
Патент описывает инфраструктуру для хранения и обработки огромных объемов данных. Система разбивает таблицы данных на "фрагменты столбцов" (Column Chunks) и распределяет их по множеству серверов. Запросы обрабатываются динамически определяемой иерархией …