19. ESCENARIOS POSIBLES DE INCORPORACIÓN MIXTA Una vez la colección está disponible Como parte de la digitalización Integración plataforma web OCR retrospectivo ¿? ALTOs con suficiente detalle para sesión carácter No límite de tº Corrección limitada en el tº Implicación usuarios/expertos monitorizable re-OCR y reindexación (cada nueva corrección) Corrección de colecciones nuevas y ya disponibles Modificación WF Reindexación OCR mejorado no necesario COMBINACIÓN COMBINACIÓN Grandes grupos usuarios-formación No adaptación WF Variación acuerdos proveedores Refuerzo CONCERT y motor OCR - + - + - +
20.
21.
22. GRACIAS POR SU ATENCIÓN Isabel Bordes Cabrera Jefe de Servicio de Biblioteca Digital, BNE [email_address]
Notas del editor
OCR Adaptativo = sw integral diseñado para mejorar el reconocimiento del texo.
SUPERSÍMBOLO: Figure 1 – 3 samples of Gothic ‘f’ from the same cluster and the generated super-symbol (right) CORRECCIÓN DE CURVATURA DE PAPEL Y PÁGINA: The super symbol Gothic ‘M’ appears on the left. Its distorted representation (taken from the actual book scan) appears in the middle and finally its transformed version appears on the right. The second row shows the difference maps before (on the left) and after correction, where cyan and magenta represent pixels which are relatively far from the common template area. Clearly, the compensated image (on the right) is much closer to the template (on the left). Hence, recognition confidence is improved.
First the book is scanned and enhanced using our warping [GP1] engine (Section 5.5). Then we perform the first segmentation and recognition using existing tools (i.e. through use of state of the art omni-font OCR). We continue with our adaptive mechanism that uses both dictionaries and users' feedback to correct and re-cluster cases with low confidence (Section 5.1). Next character segmentation is performed as described in section 5.2. It uses dictionary feedback in order to choose optimal segmentation (taking into account segmentation candidates offered by either omni-font OCR or tools developed in TR2). Finally the characters are recognized using the tools described in Sections 5.6 (innovative scoring mechanism) and 5.7 (fast warping engine). The fast Recognition engine (described in section 5.4) is used in order to prune recognition options and thereby speeds up overall processing time. [GP1] dewarping? NOS CENTRAMOS EN CONCERT herramienta para mejorar OCR mediante usuarios ( CROWD SOURCING )
Pero esta visión NO ES LA PRIMERA INICIATIVA
Australian Newspaper Digitisation Interfaz sencillo para corregir el OCR directamente en el sitio web de periódicos, reintroduciendo el texto escaneado Los resultados de la mejora son directamente visibles por parte del usuario en el sitio web
Finlandia se ofrece mediante un juego se da la posibilidad al usuario de corregir el OCR
Motor cooperativo para la corrección de texto extraído [a través de OCR]
Cuando se rechaza un carácter o cuando hay demasiadas incertidumbres en toda la palabra, se ofrece la palabra al usuario en la word session El usuario puede corregir la palabra a partir de las sugerencias que surgen a partir del diccionario interno (una combinación entre un diccionario desarrollado por IMPACT y las palabras reconocidas correctamente por parte del sw OCR) Cuando estas opciones son incorrectas el usuario puede volver a escribir la palabra y reincorporarse así al diccionario interno. El usuario además se enfrenta a la segmentación de OCR = división de las palabras. IMÁGENES: Antes de la introducción de datos y Después de haver validado las tres primeras
etiquetado_= encabezamiento, línea… LEYENDA DE COLORES Los colores indican: Rojo es que hay que revisar y corregir Azul no ha habido problemas verde que han sido verificados por el operador.
VÍDEO DURA 2:50 minutos
UNA OBSERVACIÓN IMPORTANTE Potencial cuando se utiliza sobre TODA la colección (repetición OCR y reindexación) Para acceder a grandes grupos de usuarios, herramienta debe ser sencilla e intuitiva
11 de 12 les gustaría participar como usuarios de biblioteca en una actividad para mejorar la buscabilidad de material digital Funcionalidad de la herramienta (velociadad, simplicidad, entretenida, intuitiva, facilidad de uso) SESIONES: - carácter = sencilla y rápida, alguna vez no claro ´porqué se muestran más para unos que para otros (sospechosos); a veces falta contexto - palabra = clara y funcionalidad obvia, pero mayor trabajo - páginas