SlideShare una empresa de Scribd logo
1 de 21
eManus Roma, 24 Marzo 2010
eManus L’ipotesi di progetto eManus del Gruppo AlmavivA si propone di rendere fruibile agli utenti il patrimonio dei manoscritti italiani, attraverso l’utilizzo di strumenti elettronici che ne facilitino individuazione e consultazione.
Le fasi del progetto FASE 1 Acquisizione manoscritto Si parte avendo a disposizione il manoscritto originale, o, in alternativa, una buona riproduzione
Le fasi del progetto FASE 1 (continua) Acquisizione digitale Il manoscritto viene passato allo scanner e ne viene acquisita una immagine digitale (ad almeno 300 dpi)
Le fasi del progetto FASE 2 OCR Gli strumenti di Optical Character Recognition - riconoscimento ottico dei caratteri - consentono di  acquisire in formato elettronico un testo a partire da una immagine
Le fasi del progetto FASE 2 (continua) Definizione del set dei caratteri manuali che compongono il character set da usare (OCR training)  Riconoscimento elettronico del testo Conversione del documento elettronico in XML Il file di testo ottenuto tramite OCR viene trasformato in un file di tipo xml  Sostituzione termini non riconosciuti Nel file di tipo xml vengono sostituiti, nelle opportune posizioni, i termini che l’OCR non è stato in grado di riconoscere
Le fasi del progetto FASE 2 (continua) Trasformazione in DJVU Il file di tipo xml viene usato per la creazione del file di formato djvu (simile al pdf)
Le fasi del progetto FASE 2 (continua) Controllo e correzione del testo acquisito tramite OCR
Le fasi del progetto FASE 3  Integrazione del documento elettronico acquisito con l’OPAC della Biblioteca Nazionale
Le fasi del progetto FASE 3 (continua)  Ricerca e consultazione del manoscritto E’ possibile individuare il manoscritto tramite ricerca su metadati (schede unimarc) e/o tramite il canale di ricerca full text nella lingua della trascrizione del  manoscritto
Le fasi del progetto FASE 3 (continua)  Ricerca e consultazione del manoscritto Viene visualizzata una scheda catalografica con link al documento elettronico
Le fasi del progetto FASE 3 (continua)  Fruizione elettronica del manoscritto Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf. Nell’ambito della fruizione si possono ipotizzare due diverse modalità, che presentano livelli di impegno nella realizzazione e livelli di utilizzo diversi.
Le fasi del progetto Livello di accesso al solo documento elettronico Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf
Le fasi del progetto Livello di accesso al documento elettronico ed alla sua trascrizione E’ possibile accedere contemporaneamente al manoscritto elettronico ed alla relativa trascrizione, con ricerca effettuabile in entrambe le viste
Attori
Il cliente fornisce il documento in formato digitale compresso Non si tratta di un progetto di digitalizzazione, bensì di un progetto che ha come punto di partenza le immagini digitali dei manoscritti; non è richiesta dunque la disponibilità dei manoscritti originali. Il committente mette a disposizione le immagini (in formato standard tipo .tif o .jpg) su supporto fisico oppure tramite server.
Almaviva elabora le immagini in formato elettronico Si possono ipotizzare due diversi scenari Scenario A  e’ disponibile, per ogni manoscritto, un file di testo contenente la trascrizione  Il file di trascrizione viene elaborato in un file testuale di interscambio per le attività di verifica e validazione (.tra). Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr). Nel file .xml, tramite un tool appositamente realizzato da Almaviva, vengono sostituiti, all’interno delle relative coordinate, i vocaboli non riconosciuti da OCR con i vocaboli presenti nella trascrizione.
Almaviva elabora le immagini in formato elettronico Scenario B  non e’ disponibile il file di testo contenente la trascrizione E’ necessaria una fase preventiva di apprendimento della scrittura manuale presente nel manoscritto (OCR training). Tale fase crea un modello di riconoscimento che verrà usato dall’OCR/ICR. Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr).
Il committente controlla e valida Nel caso dello scenario B, cioè della non disponibilità della trascrizione, i file trattati vanno controllati da parte del committente: è necessario verificare che i testi, trascritti dall’OCR, corrispondano a quelli presenti nei manoscritti.  A questo scopo Almaviva mette a disposizione i file, ottenuti tramite OCR, in formato di interscambio ( .tra). Il committente verifica che il testo ricavato corrisponda a quanto presente nel manoscritto, con un controllo puntuale su tutto il manoscritto: tale controllo si rende necessario in quanto il livello di attendibilità degli strumenti utilizzabili per l’OCR di scrittura non a stampa è molto basso. Gli errori vengono sanati direttamente dal committente. Nel caso di errori generati da un processo di training non corretto il committente comunica ad Almaviva gli aggiustamenti da apportare.
Almaviva aggancia i file elettronici all’OPAC E’ necessario realizzare una procedura software che integri l’attuale scarico unimarc (per il ricarico dell’OPAC) con i seguenti passi: ,[object Object]
se esiste deve creare uno o più tag 9xx che conterranno il testo presente nel file di eManus

Más contenido relacionado

Destacado

Genre Presentation
Genre PresentationGenre Presentation
Genre PresentationKate Lydon
 
Genre Presentation
Genre PresentationGenre Presentation
Genre PresentationKate Lydon
 
Q1. evaluation
Q1. evaluationQ1. evaluation
Q1. evaluationKate Lydon
 
Media Tech Presentation
Media Tech PresentationMedia Tech Presentation
Media Tech PresentationKate Lydon
 
Brand And Brand Image Presentation
Brand And Brand Image PresentationBrand And Brand Image Presentation
Brand And Brand Image PresentationKate Lydon
 
Questionnaire Charts
Questionnaire ChartsQuestionnaire Charts
Questionnaire ChartsKate Lydon
 
Estimazioa
EstimazioaEstimazioa
EstimazioaPotto
 
Psicotrastornos laborales . Dunia Dirán
Psicotrastornos laborales . Dunia DiránPsicotrastornos laborales . Dunia Dirán
Psicotrastornos laborales . Dunia DiránCeadsbcn
 
11.unitatea. denbora aurrera doa
11.unitatea.  denbora aurrera doa11.unitatea.  denbora aurrera doa
11.unitatea. denbora aurrera doanagbost
 
Paradoxon produções estreia lagos dezembro 2009
Paradoxon produções estreia lagos dezembro 2009Paradoxon produções estreia lagos dezembro 2009
Paradoxon produções estreia lagos dezembro 2009hernâni duarte maria
 
Falando sobre CUSTO
Falando sobre CUSTOFalando sobre CUSTO
Falando sobre CUSTOEdwagney Luz
 
Esse amor de água
Esse amor de águaEsse amor de água
Esse amor de águaISCIA
 
งานนำเสนอ1
งานนำเสนอ1งานนำเสนอ1
งานนำเสนอ1crazywow
 
Andy warhol[1]
Andy warhol[1]Andy warhol[1]
Andy warhol[1]yoloiyoloi
 
Ipma yc brochure_esp_final
Ipma yc brochure_esp_finalIpma yc brochure_esp_final
Ipma yc brochure_esp_finalPma Chile
 

Destacado (20)

Genre Presentation
Genre PresentationGenre Presentation
Genre Presentation
 
Web Development Process
Web Development ProcessWeb Development Process
Web Development Process
 
Genre Presentation
Genre PresentationGenre Presentation
Genre Presentation
 
Focus On Future
Focus On FutureFocus On Future
Focus On Future
 
Q1. evaluation
Q1. evaluationQ1. evaluation
Q1. evaluation
 
Media Tech Presentation
Media Tech PresentationMedia Tech Presentation
Media Tech Presentation
 
Brand And Brand Image Presentation
Brand And Brand Image PresentationBrand And Brand Image Presentation
Brand And Brand Image Presentation
 
Questionnaire Charts
Questionnaire ChartsQuestionnaire Charts
Questionnaire Charts
 
Marta -ativ-3-martamagal
Marta  -ativ-3-martamagalMarta  -ativ-3-martamagal
Marta -ativ-3-martamagal
 
Estimazioa
EstimazioaEstimazioa
Estimazioa
 
Psicotrastornos laborales . Dunia Dirán
Psicotrastornos laborales . Dunia DiránPsicotrastornos laborales . Dunia Dirán
Psicotrastornos laborales . Dunia Dirán
 
Iniciação
IniciaçãoIniciação
Iniciação
 
11.unitatea. denbora aurrera doa
11.unitatea.  denbora aurrera doa11.unitatea.  denbora aurrera doa
11.unitatea. denbora aurrera doa
 
Paradoxon produções estreia lagos dezembro 2009
Paradoxon produções estreia lagos dezembro 2009Paradoxon produções estreia lagos dezembro 2009
Paradoxon produções estreia lagos dezembro 2009
 
Falando sobre CUSTO
Falando sobre CUSTOFalando sobre CUSTO
Falando sobre CUSTO
 
Esse amor de água
Esse amor de águaEsse amor de água
Esse amor de água
 
งานนำเสนอ1
งานนำเสนอ1งานนำเสนอ1
งานนำเสนอ1
 
Andy warhol[1]
Andy warhol[1]Andy warhol[1]
Andy warhol[1]
 
Ipma yc brochure_esp_final
Ipma yc brochure_esp_finalIpma yc brochure_esp_final
Ipma yc brochure_esp_final
 
China
ChinaChina
China
 

Similar a E Manus

Presentazione tesi multitouch
Presentazione tesi multitouch Presentazione tesi multitouch
Presentazione tesi multitouch Pier Giuliano Nioi
 
Marco Signorelli 19 09 2008 Ordine Degli Avvocati Di Bergamo
Marco Signorelli   19 09 2008 Ordine Degli Avvocati Di BergamoMarco Signorelli   19 09 2008 Ordine Degli Avvocati Di Bergamo
Marco Signorelli 19 09 2008 Ordine Degli Avvocati Di BergamoAndrea Rossetti
 
Async/Await: make it simple!!
Async/Await: make it simple!!Async/Await: make it simple!!
Async/Await: make it simple!!Massimo Bonanni
 
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...Metodo spa
 
Programma il futuro : una scelta Open Source
Programma il futuro : una scelta Open SourceProgramma il futuro : una scelta Open Source
Programma il futuro : una scelta Open SourceNaLUG
 
Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...
Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...
Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...Informamuse srl
 
Sviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su AR
Sviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su ARSviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su AR
Sviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su ARGiacomo Giovanni Delfini
 
Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...
Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...
Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...Giacomo Delfini
 
HEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di BaseHEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di BaseLeonardo Pergolini
 
SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...
SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...
SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...guest12aaa586
 
La gestione documentale con supporto Workflow grafico
La gestione documentale con supporto Workflow graficoLa gestione documentale con supporto Workflow grafico
La gestione documentale con supporto Workflow graficoMetodo spa
 
Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...
Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...
Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...Cristian Randieri PhD
 
Corso di OCR
Corso di OCRCorso di OCR
Corso di OCRQabiria
 

Similar a E Manus (14)

E-book 1.
E-book 1.E-book 1.
E-book 1.
 
Presentazione tesi multitouch
Presentazione tesi multitouch Presentazione tesi multitouch
Presentazione tesi multitouch
 
Marco Signorelli 19 09 2008 Ordine Degli Avvocati Di Bergamo
Marco Signorelli   19 09 2008 Ordine Degli Avvocati Di BergamoMarco Signorelli   19 09 2008 Ordine Degli Avvocati Di Bergamo
Marco Signorelli 19 09 2008 Ordine Degli Avvocati Di Bergamo
 
Async/Await: make it simple!!
Async/Await: make it simple!!Async/Await: make it simple!!
Async/Await: make it simple!!
 
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
 
Programma il futuro : una scelta Open Source
Programma il futuro : una scelta Open SourceProgramma il futuro : una scelta Open Source
Programma il futuro : una scelta Open Source
 
Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...
Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...
Infrastruttura tecnica e workflow di produzione digitale alla Bayerische Staa...
 
Sviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su AR
Sviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su ARSviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su AR
Sviluppo di una piattaforma CLIENT/SERVER per attività didattiche basate su AR
 
Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...
Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...
Sviluppo di una piattaforma Client/Server per attività didattiche basate su R...
 
HEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di BaseHEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di Base
 
SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...
SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...
SVILUPPO DI UNA APPLICAZIONE PER L’ACQUISIZIONE DI DATI DA SUPPORTO CARTACEO:...
 
La gestione documentale con supporto Workflow grafico
La gestione documentale con supporto Workflow graficoLa gestione documentale con supporto Workflow grafico
La gestione documentale con supporto Workflow grafico
 
Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...
Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...
Lezioni di programmazione in c i file By Cristian Randieri - www.intellisyste...
 
Corso di OCR
Corso di OCRCorso di OCR
Corso di OCR
 

Último

XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldivaleriodinoia35
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiorevaleriodinoia35
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativovaleriodinoia35
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxOrianaOcchino
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaRafael Figueredo
 

Último (9)

XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldi
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiore
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativo
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptx
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
 

E Manus

  • 1. eManus Roma, 24 Marzo 2010
  • 2. eManus L’ipotesi di progetto eManus del Gruppo AlmavivA si propone di rendere fruibile agli utenti il patrimonio dei manoscritti italiani, attraverso l’utilizzo di strumenti elettronici che ne facilitino individuazione e consultazione.
  • 3. Le fasi del progetto FASE 1 Acquisizione manoscritto Si parte avendo a disposizione il manoscritto originale, o, in alternativa, una buona riproduzione
  • 4. Le fasi del progetto FASE 1 (continua) Acquisizione digitale Il manoscritto viene passato allo scanner e ne viene acquisita una immagine digitale (ad almeno 300 dpi)
  • 5. Le fasi del progetto FASE 2 OCR Gli strumenti di Optical Character Recognition - riconoscimento ottico dei caratteri - consentono di acquisire in formato elettronico un testo a partire da una immagine
  • 6. Le fasi del progetto FASE 2 (continua) Definizione del set dei caratteri manuali che compongono il character set da usare (OCR training) Riconoscimento elettronico del testo Conversione del documento elettronico in XML Il file di testo ottenuto tramite OCR viene trasformato in un file di tipo xml Sostituzione termini non riconosciuti Nel file di tipo xml vengono sostituiti, nelle opportune posizioni, i termini che l’OCR non è stato in grado di riconoscere
  • 7. Le fasi del progetto FASE 2 (continua) Trasformazione in DJVU Il file di tipo xml viene usato per la creazione del file di formato djvu (simile al pdf)
  • 8. Le fasi del progetto FASE 2 (continua) Controllo e correzione del testo acquisito tramite OCR
  • 9. Le fasi del progetto FASE 3 Integrazione del documento elettronico acquisito con l’OPAC della Biblioteca Nazionale
  • 10. Le fasi del progetto FASE 3 (continua) Ricerca e consultazione del manoscritto E’ possibile individuare il manoscritto tramite ricerca su metadati (schede unimarc) e/o tramite il canale di ricerca full text nella lingua della trascrizione del manoscritto
  • 11. Le fasi del progetto FASE 3 (continua) Ricerca e consultazione del manoscritto Viene visualizzata una scheda catalografica con link al documento elettronico
  • 12. Le fasi del progetto FASE 3 (continua) Fruizione elettronica del manoscritto Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf. Nell’ambito della fruizione si possono ipotizzare due diverse modalità, che presentano livelli di impegno nella realizzazione e livelli di utilizzo diversi.
  • 13. Le fasi del progetto Livello di accesso al solo documento elettronico Nel manoscritto in formato djvu è possibile effettuare ricerche locali, come in un qualsiasi documento di tipo pdf
  • 14. Le fasi del progetto Livello di accesso al documento elettronico ed alla sua trascrizione E’ possibile accedere contemporaneamente al manoscritto elettronico ed alla relativa trascrizione, con ricerca effettuabile in entrambe le viste
  • 16. Il cliente fornisce il documento in formato digitale compresso Non si tratta di un progetto di digitalizzazione, bensì di un progetto che ha come punto di partenza le immagini digitali dei manoscritti; non è richiesta dunque la disponibilità dei manoscritti originali. Il committente mette a disposizione le immagini (in formato standard tipo .tif o .jpg) su supporto fisico oppure tramite server.
  • 17. Almaviva elabora le immagini in formato elettronico Si possono ipotizzare due diversi scenari Scenario A e’ disponibile, per ogni manoscritto, un file di testo contenente la trascrizione Il file di trascrizione viene elaborato in un file testuale di interscambio per le attività di verifica e validazione (.tra). Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr). Nel file .xml, tramite un tool appositamente realizzato da Almaviva, vengono sostituiti, all’interno delle relative coordinate, i vocaboli non riconosciuti da OCR con i vocaboli presenti nella trascrizione.
  • 18. Almaviva elabora le immagini in formato elettronico Scenario B non e’ disponibile il file di testo contenente la trascrizione E’ necessaria una fase preventiva di apprendimento della scrittura manuale presente nel manoscritto (OCR training). Tale fase crea un modello di riconoscimento che verrà usato dall’OCR/ICR. Viene generato - tramite OCR/ICR - a partire dal file .jpg un file in formato .xml (oppure .hocr).
  • 19. Il committente controlla e valida Nel caso dello scenario B, cioè della non disponibilità della trascrizione, i file trattati vanno controllati da parte del committente: è necessario verificare che i testi, trascritti dall’OCR, corrispondano a quelli presenti nei manoscritti. A questo scopo Almaviva mette a disposizione i file, ottenuti tramite OCR, in formato di interscambio ( .tra). Il committente verifica che il testo ricavato corrisponda a quanto presente nel manoscritto, con un controllo puntuale su tutto il manoscritto: tale controllo si rende necessario in quanto il livello di attendibilità degli strumenti utilizzabili per l’OCR di scrittura non a stampa è molto basso. Gli errori vengono sanati direttamente dal committente. Nel caso di errori generati da un processo di training non corretto il committente comunica ad Almaviva gli aggiustamenti da apportare.
  • 20.
  • 21. se esiste deve creare uno o più tag 9xx che conterranno il testo presente nel file di eManus
  • 22.