Este documento describe las herramientas de un recolector de documentos que recopila información de varias fuentes como blogs, revistas electrónicas, páginas web y correos electrónicos en múltiples formatos. El recolector extrae metadatos, texto completo e información introducida manualmente y los organiza usando métodos como tesauros, cuadros de clasificación y metadatos Dublin Core para facilitar la entrada de miles de documentos diarios en una base de datos en internet.