SlideShare una empresa de Scribd logo
1 de 22
SESIÓN DE DEMOSTRACIÓN IMPACT,  Biblioteca Nacional de España, 5 de octubre de 2011  OCR Adaptativo – CONCERT
Esquema del proceso OCR CONVERSIÓN  DE FICHEROS CORRECCIONES GEOMÉTRICAS/ELIM. MÁRGENES “ BINARIZACIÓN” OCR POST-PROCESO + EVALUACIÓN DEMO TOOL WF TAVERNA WEB IMPACT
Ante los múltiples retos de IMPACT tiene una visión integradora de varias soluciones: OCR ADAPTATIVO ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Algunos de los componentes de OCR adaptativo ,[object Object],[object Object],[object Object],[object Object],[object Object]
“ Crowd   sourcing ”
Visión de IMPACT: ,[object Object],[object Object],[object Object]
Proyecto Gutenberg (1ª generación)
Biblioteca Nacional de Australia (2ª)  www.nla.gov.au/ndp/project_details/documents/ANDP_ ManyHands .pdf
Biblioteca Nacional de Finlandia http://www.digitalkoot.fi/en/splash
CORRECCIÓN EN COLABORACIÓN - ¿cómo funciona?  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
SISTEMAS ACTUALES ,[object Object],[object Object],[object Object],[object Object],[object Object]
CONCERT  (Cooperative Engine for Correction of Extracted Text) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Arquitectura del sistema ,[object Object],[object Object],[object Object],[object Object]
Flujo de trabajo del sistema: ,[object Object],[object Object],[object Object],[object Object]
Sesión a nivel de carácter ( character session ) ,[object Object],[object Object],[object Object],[object Object]
Sesión a nivel de palabra ( word session ) ,[object Object],[object Object],[object Object],[object Object]
Sesión a nivel de página ( page session ) ,[object Object],[object Object],[object Object],[object Object]
Demostración del sistema ,[object Object],[object Object]
ESCENARIOS POSIBLES DE INCORPORACIÓN MIXTA Una vez la colección está disponible Como parte de la digitalización Integración plataforma web OCR retrospectivo ¿? ALTOs con suficiente detalle para sesión carácter No límite de tº Corrección limitada en el tº Implicación usuarios/expertos monitorizable re-OCR y reindexación (cada nueva corrección) Corrección de colecciones nuevas y ya disponibles Modificación WF Reindexación OCR mejorado no necesario COMBINACIÓN COMBINACIÓN Grandes grupos usuarios-formación No adaptación WF Variación acuerdos proveedores Refuerzo CONCERT y motor OCR - + - + - +
PRUEBAS PILOTO ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB, Pilot (mayo 2011)
Futuro CONCERT  ,[object Object],[object Object],[object Object],[object Object],[object Object]
GRACIAS POR SU ATENCIÓN Isabel Bordes Cabrera Jefe de Servicio de Biblioteca Digital, BNE [email_address]

Más contenido relacionado

Similar a CONCERT OCR: Crowdsourcing y OCR adaptativo

Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...
Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...
Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...Antonio Ognio
 
Taller básico Herramientas Rendimiento DB2 en iSeries
Taller básico Herramientas Rendimiento DB2 en iSeriesTaller básico Herramientas Rendimiento DB2 en iSeries
Taller básico Herramientas Rendimiento DB2 en iSeriesXavier Espinoza
 
Presentación Taller Herramientas Rendimiento DB2 en IBM i y Genexus
Presentación Taller Herramientas Rendimiento DB2 en IBM i y GenexusPresentación Taller Herramientas Rendimiento DB2 en IBM i y Genexus
Presentación Taller Herramientas Rendimiento DB2 en IBM i y GenexusXavier Espinoza
 
Evaluacion de accesibilidad
Evaluacion de accesibilidadEvaluacion de accesibilidad
Evaluacion de accesibilidadtayzee
 
Introduccion teorica a los frameworks de desarrollo para php
Introduccion teorica a los frameworks de desarrollo para phpIntroduccion teorica a los frameworks de desarrollo para php
Introduccion teorica a los frameworks de desarrollo para phpDaniel Hahn
 
Visual Studio2005
Visual Studio2005Visual Studio2005
Visual Studio2005hvillarreal
 
2009_asp.net_capitulo_1
2009_asp.net_capitulo_12009_asp.net_capitulo_1
2009_asp.net_capitulo_1zhylz Zevallos
 
Desarrolladores Havana2007 Bir
Desarrolladores Havana2007 BirDesarrolladores Havana2007 Bir
Desarrolladores Havana2007 BirJulio Takayama
 
WORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTWORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTBEEVA_es
 
curso-de-visual-basic-net.pdf
curso-de-visual-basic-net.pdfcurso-de-visual-basic-net.pdf
curso-de-visual-basic-net.pdfJuanEnriquez52
 
Introducción a NodeJS
Introducción a NodeJSIntroducción a NodeJS
Introducción a NodeJSAlberto Gimeno
 
1. Introduccion A Asp.Net
1.  Introduccion A Asp.Net1.  Introduccion A Asp.Net
1. Introduccion A Asp.Netguest3cf6ff
 
1. Introduccion A Asp .Net
1.  Introduccion A Asp .Net1.  Introduccion A Asp .Net
1. Introduccion A Asp .Netguest3cf6ff
 
Sg09 Enchula Tus Aplicaciones Con Windows 7
Sg09 Enchula Tus Aplicaciones Con Windows 7Sg09 Enchula Tus Aplicaciones Con Windows 7
Sg09 Enchula Tus Aplicaciones Con Windows 7Christian Strevel
 

Similar a CONCERT OCR: Crowdsourcing y OCR adaptativo (20)

Conociendo Nuestro Fua interno
Conociendo Nuestro Fua internoConociendo Nuestro Fua interno
Conociendo Nuestro Fua interno
 
Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...
Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...
Desarrollo ágil de sistemas distribuidos con Python empleando la arquitectura...
 
Taller básico Herramientas Rendimiento DB2 en iSeries
Taller básico Herramientas Rendimiento DB2 en iSeriesTaller básico Herramientas Rendimiento DB2 en iSeries
Taller básico Herramientas Rendimiento DB2 en iSeries
 
Conceptos basicos ocr
Conceptos basicos ocrConceptos basicos ocr
Conceptos basicos ocr
 
Presentación Taller Herramientas Rendimiento DB2 en IBM i y Genexus
Presentación Taller Herramientas Rendimiento DB2 en IBM i y GenexusPresentación Taller Herramientas Rendimiento DB2 en IBM i y Genexus
Presentación Taller Herramientas Rendimiento DB2 en IBM i y Genexus
 
Evaluacion de accesibilidad
Evaluacion de accesibilidadEvaluacion de accesibilidad
Evaluacion de accesibilidad
 
Introduccion teorica a los frameworks de desarrollo para php
Introduccion teorica a los frameworks de desarrollo para phpIntroduccion teorica a los frameworks de desarrollo para php
Introduccion teorica a los frameworks de desarrollo para php
 
Visual Studio2005
Visual Studio2005Visual Studio2005
Visual Studio2005
 
1. introduccion a asp .net
1.  introduccion a asp .net1.  introduccion a asp .net
1. introduccion a asp .net
 
2009_asp.net_capitulo_1
2009_asp.net_capitulo_12009_asp.net_capitulo_1
2009_asp.net_capitulo_1
 
Desarrolladores Havana2007 Bir
Desarrolladores Havana2007 BirDesarrolladores Havana2007 Bir
Desarrolladores Havana2007 Bir
 
WORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTWORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API REST
 
curso-de-visual-basic-net.pdf
curso-de-visual-basic-net.pdfcurso-de-visual-basic-net.pdf
curso-de-visual-basic-net.pdf
 
Introducción a NodeJS
Introducción a NodeJSIntroducción a NodeJS
Introducción a NodeJS
 
1. Introduccion A Asp .Net
1.  Introduccion A Asp .Net1.  Introduccion A Asp .Net
1. Introduccion A Asp .Net
 
1. Introduccion A Asp.Net
1.  Introduccion A Asp.Net1.  Introduccion A Asp.Net
1. Introduccion A Asp.Net
 
1. Introduccion A Asp .Net
1.  Introduccion A Asp .Net1.  Introduccion A Asp .Net
1. Introduccion A Asp .Net
 
I ntroduccion a_impact_051011
I ntroduccion a_impact_051011I ntroduccion a_impact_051011
I ntroduccion a_impact_051011
 
Capitulo 1 - Proyecto integrador 2015-2016
Capitulo 1 - Proyecto integrador 2015-2016Capitulo 1 - Proyecto integrador 2015-2016
Capitulo 1 - Proyecto integrador 2015-2016
 
Sg09 Enchula Tus Aplicaciones Con Windows 7
Sg09 Enchula Tus Aplicaciones Con Windows 7Sg09 Enchula Tus Aplicaciones Con Windows 7
Sg09 Enchula Tus Aplicaciones Con Windows 7
 

Más de IMPACT Centre of Competence

Más de IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

CONCERT OCR: Crowdsourcing y OCR adaptativo

  • 1. SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011 OCR Adaptativo – CONCERT
  • 2. Esquema del proceso OCR CONVERSIÓN DE FICHEROS CORRECCIONES GEOMÉTRICAS/ELIM. MÁRGENES “ BINARIZACIÓN” OCR POST-PROCESO + EVALUACIÓN DEMO TOOL WF TAVERNA WEB IMPACT
  • 3.
  • 4.
  • 5. “ Crowd sourcing ”
  • 6.
  • 7. Proyecto Gutenberg (1ª generación)
  • 8. Biblioteca Nacional de Australia (2ª) www.nla.gov.au/ndp/project_details/documents/ANDP_ ManyHands .pdf
  • 9. Biblioteca Nacional de Finlandia http://www.digitalkoot.fi/en/splash
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19. ESCENARIOS POSIBLES DE INCORPORACIÓN MIXTA Una vez la colección está disponible Como parte de la digitalización Integración plataforma web OCR retrospectivo ¿? ALTOs con suficiente detalle para sesión carácter No límite de tº Corrección limitada en el tº Implicación usuarios/expertos monitorizable re-OCR y reindexación (cada nueva corrección) Corrección de colecciones nuevas y ya disponibles Modificación WF Reindexación OCR mejorado no necesario COMBINACIÓN COMBINACIÓN Grandes grupos usuarios-formación No adaptación WF Variación acuerdos proveedores Refuerzo CONCERT y motor OCR - + - + - +
  • 20.
  • 21.
  • 22. GRACIAS POR SU ATENCIÓN Isabel Bordes Cabrera Jefe de Servicio de Biblioteca Digital, BNE [email_address]

Notas del editor

  1. OCR Adaptativo = sw integral diseñado para mejorar el reconocimiento del texo.
  2. SUPERSÍMBOLO: Figure 1 – 3 samples of Gothic ‘f’ from the same cluster and the generated super-symbol (right) CORRECCIÓN DE CURVATURA DE PAPEL Y PÁGINA: The super symbol Gothic ‘M’ appears on the left. Its distorted representation (taken from the actual book scan) appears in the middle and finally its transformed version appears on the right. The second row shows the difference maps before (on the left) and after correction, where cyan and magenta represent pixels which are relatively far from the common template area. Clearly, the compensated image (on the right) is much closer to the template (on the left). Hence, recognition confidence is improved.
  3. First the book is scanned and enhanced using our warping [GP1]   engine (Section 5.5). Then we perform the first segmentation and recognition using existing tools (i.e. through use of state of the art omni-font OCR). We continue with our adaptive mechanism that uses both dictionaries and users' feedback to correct and re-cluster cases with low confidence (Section 5.1). Next character segmentation is performed as described in section 5.2. It uses dictionary feedback in order to choose optimal segmentation (taking into account segmentation candidates offered by either omni-font OCR or tools developed in TR2). Finally the characters are recognized using the tools described in Sections 5.6 (innovative scoring mechanism) and 5.7 (fast warping engine). The fast Recognition engine (described in section 5.4) is used in order to prune recognition options and thereby speeds up overall processing time.   [GP1] dewarping? NOS CENTRAMOS EN CONCERT  herramienta para mejorar OCR mediante usuarios ( CROWD SOURCING )
  4. Pero esta visión NO ES LA PRIMERA INICIATIVA
  5. Australian Newspaper Digitisation Interfaz sencillo para corregir el OCR directamente en el sitio web de periódicos, reintroduciendo el texto escaneado Los resultados de la mejora son directamente visibles por parte del usuario en el sitio web
  6. Finlandia se ofrece mediante un juego se da la posibilidad al usuario de corregir el OCR
  7. Motor cooperativo para la corrección de texto extraído [a través de OCR]
  8. Cuando se rechaza un carácter o cuando hay demasiadas incertidumbres en toda la palabra, se ofrece la palabra al usuario en la word session El usuario puede corregir la palabra a partir de las sugerencias que surgen a partir del diccionario interno (una combinación entre un diccionario desarrollado por IMPACT y las palabras reconocidas correctamente por parte del sw OCR) Cuando estas opciones son incorrectas  el usuario puede volver a escribir la palabra y reincorporarse así al diccionario interno. El usuario además se enfrenta a la segmentación de OCR = división de las palabras. IMÁGENES: Antes de la introducción de datos y Después de haver validado las tres primeras
  9. etiquetado_= encabezamiento, línea… LEYENDA DE COLORES Los colores indican: Rojo es que hay que revisar y corregir Azul no ha habido problemas verde que han sido verificados por el operador.
  10. VÍDEO DURA 2:50 minutos
  11. UNA OBSERVACIÓN IMPORTANTE Potencial cuando se utiliza sobre TODA la colección (repetición OCR y reindexación) Para acceder a grandes grupos de usuarios, herramienta debe ser sencilla e intuitiva
  12. 11 de 12 les gustaría participar como usuarios de biblioteca en una actividad para mejorar la buscabilidad de material digital Funcionalidad de la herramienta (velociadad, simplicidad, entretenida, intuitiva, facilidad de uso) SESIONES: - carácter = sencilla y rápida, alguna vez no claro ´porqué se muestran más para unos que para otros (sospechosos); a veces falta contexto - palabra = clara y funcionalidad obvia, pero mayor trabajo - páginas