2. eManus L’ipotesi di progetto eManus del Gruppo AlmavivA si propone di rendere fruibile agli utenti il patrimonio dei manoscritti italiani, attraverso l’utilizzo di strumenti elettronici che ne facilitino individuazione e consultazione.
3. Le fasi del progetto FASE 1 Acquisizione manoscritto Si parte avendo a disposizione il manoscritto originale, o, in alternativa, una buona riproduzione
4. Le fasi del progetto FASE 1 (continua) Acquisizione digitale Il manoscritto viene passato allo scanner e ne viene acquisita una immagine digitale (ad almeno 300 dpi)
5. Le fasi del progetto FASE 2 OCR Gli strumenti di Optical Character Recognition - riconoscimento ottico dei caratteri - consentono di acquisire in formato elettronico un testo a partire da una immagine
6. Le fasi del progetto FASE 2 (continua) Definizione del set dei caratteri manuali che compongono il character set da usare (OCR training) Riconoscimento elettronico del testo Conversione del documento elettronico in XML Il file di testo ottenuto tramite OCR viene trasformato in un file di tipo xml Sostituzione termini non riconosciuti Nel file di tipo xml vengono sostituiti, nelle opportune posizioni, i termini che l’OCR non è stato in grado di riconoscere
7. Le fasi del progetto FASE 2 (continua) Trasformazione in DJVU Il file di tipo xml viene usato per la creazione del file di formato djvu (simile al pdf)
8. Le fasi del progetto FASE 2 (continua) Controllo e correzione del testo acquisito tramite OCR
9. Le fasi del progetto FASE 3 Integrazione del documento elettronico acquisito con l’OPAC della Biblioteca Nazionale
10. Le fasi del progetto FASE 3 (continua) Ricerca e consultazione del manoscritto E’ possibile individuare il manoscritto tramite ricerca su metadati (schede unimarc) e/o tramite il canale di ricerca full text nella lingua della trascrizione del manoscritto
11. Le fasi del progetto FASE 3 (continua) Ricerca e consultazione del manoscritto Viene visualizzata una scheda catalografica con link al documento elettronico
12. Le fasi del progetto FASE 3 (continua) Fruizione elettronica del manoscritto Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf. Nell’ambito della fruizione si possono ipotizzare due diverse modalità, che presentano livelli di impegno nella realizzazione e livelli di utilizzo diversi.
13. Le fasi del progetto Livello di accesso al solo documento elettronico Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf
14. Le fasi del progetto Livello di accesso al documento elettronico ed alla sua trascrizione E’ possibile accedere contemporaneamente al manoscritto elettronico ed alla relativa trascrizione, con ricerca effettuabile in entrambe le viste
16. Il cliente fornisce il documento in formato digitale compresso Non si tratta di un progetto di digitalizzazione, bensì di un progetto che ha come punto di partenza le immagini digitali dei manoscritti; non è richiesta dunque la disponibilità dei manoscritti originali. Il committente mette a disposizione le immagini (in formato standard tipo .tif o .jpg) su supporto fisico oppure tramite server.
17. Almaviva elabora le immagini in formato elettronico Si possono ipotizzare due diversi scenari Scenario A e’ disponibile, per ogni manoscritto, un file di testo contenente la trascrizione Il file di trascrizione viene elaborato in un file testuale di interscambio per le attività di verifica e validazione (.tra). Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr). Nel file .xml, tramite un tool appositamente realizzato da Almaviva, vengono sostituiti, all’interno delle relative coordinate, i vocaboli non riconosciuti da OCR con i vocaboli presenti nella trascrizione.
18. Almaviva elabora le immagini in formato elettronico Scenario B non e’ disponibile il file di testo contenente la trascrizione E’ necessaria una fase preventiva di apprendimento della scrittura manuale presente nel manoscritto (OCR training). Tale fase crea un modello di riconoscimento che verrà usato dall’OCR/ICR. Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr).
19. Il committente controlla e valida Nel caso dello scenario B, cioè della non disponibilità della trascrizione, i file trattati vanno controllati da parte del committente: è necessario verificare che i testi, trascritti dall’OCR, corrispondano a quelli presenti nei manoscritti. A questo scopo Almaviva mette a disposizione i file, ottenuti tramite OCR, in formato di interscambio ( .tra). Il committente verifica che il testo ricavato corrisponda a quanto presente nel manoscritto, con un controllo puntuale su tutto il manoscritto: tale controllo si rende necessario in quanto il livello di attendibilità degli strumenti utilizzabili per l’OCR di scrittura non a stampa è molto basso. Gli errori vengono sanati direttamente dal committente. Nel caso di errori generati da un processo di training non corretto il committente comunica ad Almaviva gli aggiustamenti da apportare.
20.
21. se esiste deve creare uno o più tag 9xx che conterranno il testo presente nel file di eManus