Procesamiento previo de la imagen. Isabel Bordes Cabrera
El proyecto IMPACT está financiado por la Comunidad Europea bajo el programa FP7 ICT. El proyecto es coordinado por la Biblioteca Nacional de los Países Bajos.
Procesamiento previo de la imagen. Isabel Bordes Cabrera
1.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
PROCESAMIENTO PREVIO DE LA IMAGEN
SESIÓN DE DEMOSTRACIÓN IMPACT,
Biblioteca Nacional de España, 5 de octubre de 2011
2.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Reconocimiento Óptico de Caracteres (OCR)
Segmentar el texto en las divisiones más sencillas (letras, caracteres)
Facilitar el análisis por la máquina.
Se identifica el carácter y se comprueban sus características o
propiedades con una BD interna hasta que encuentra con la que mejor
“encaja”
texto editable a partir de una imagen.
Motores disponibles:
ABBYY FineReader Engine
IBM Adaptative OCR
Tesseract …
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 2
3.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Retos OCR: páginas dañadas, alabeadas, tintas traspasadas,
maquetación compleja, fuentes históricas…etc.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 3
4.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Características comunes de las imágenes digitales …
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 4
5.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
… y sus efectos en el OCR
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 5
6.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Reconocimientos erróneos: ¿internet inventado en el XVIII?
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 6
7.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Esquema del proceso OCR
CONVERSIÓN
DE FICHEROS
POST-PROCESO
“BINARIZACIÓN” OCR +
EVALUACIÓN
CORRECCIONES
GEOMÉTRICAS/ELIM.
MÁRGENES
WF TAVERNA WEB IMPACT DEMO TOOL
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 7
8.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Conversión
Datos en el formato adecuado para cada aplicación
Módulos disponibles:
GIMP , ImageMagick
impact_gimp_tif_to_png_conversion_202058.t2flow
OpenJPEG
XML
Basic IMPACT Abbyy FRE 9 PAGE Exporter Ir
basic_impact_abbyy_fre_9_page_xml_creator_392392.t2flow
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 8
9.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Correcciones geométricas/Elim. márgenes
¿Porqué?
rotadas, márgenes no deseados, ‘curvas’, páginas alabeadas …
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 9
10.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
A.-Correcciones geométricas
Basic IMPACT NCSR Geometric Correction Page Curl V3
Módulos disponibles:
ABBYY FineReader Engine
NCSR Geometric Correction “Page Curl”
TAVERNA:
basic_impact_ncsr_geometric_correction_page_curl_550389.t2flow
OCRopus Deskewing
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 10
11.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 11
12.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 12
13.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 13
14.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
B.- Eliminación de márgenes
Basic IMPACT NCSR BorderRemoval
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 14
15.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 15
16.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 16
17.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
‘Binarización’ de imágenes
¿Porqué?
Tinta de una cara ha traspasado a la otra cara
Sombras de la otra cara de la hoja
Módulos disponibles:
ABBYY FineReader Engine
TAVERNA: basic_abbyy_fre_10_binarisation_936808.t2flow
OCRopus
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 17
18.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 18
19.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 19
20.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 20
21.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
WFs en TAVERNA
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 21
22.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
WFs en TAVERNA
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 22
23.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
WFs en TAVERNA
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 23
24.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
PÁGINA WEB IMPACT
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 24
25.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
NCRS Image Enhancement Toolkit
(H-DocPro v.1)
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 25
26.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Binarización
NCSR: Basado en "B. Gatos, I. Pratikakis and S. J. Perantonis, Adaptive
Degraded Document Image Binarization, Pattern Recognition, Vol. 39, pp. 317-327,
2006"
FR8.1: FineReader Engine v. 8.1. IMPORTANTE: (a) Motor previamente instalado.
(b) Añadir código de licencia de FineReader
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 26
27.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Eliminación de bordes
Auto: Basado en perfiles de proyección y
análisis de componentes.
Auto_Edit: Ajuste manual mediante el arrastre
de puntos activos de un rectángulo
delimitador.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 27
28.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Eliminación de bordes
38.718 imágenes de
prueba
BL: 9% BNE: 29%
BNF: 32% BSB: 12%
JSI: 11% NLB: 2%
ONB: 5%
22.383 imágenes de prueba
BL: 7% BNE: 34%
BNF: 34% BSB: 11%
JSI: 6% NLB: 2%
ONB: 6%
Sólo imágenes con bordes
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 28
29.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Individualización de páginas
Auto: Basado en "N. Stamatopoulos, B.
Gatos, T. Georgiou, Page frame
detection for double page document
images, 9th IAPR International
Workshop on Document Analysis
Systems (DAS 2010), pp. 401-408,
Cambridge, MA, USA, June 2010"
Auto_Edit: Ajuste manual mediante el
arrastre de puntos activos de un
rectángulo delimitador.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 29
30.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Individualización de páginas
458 imágenes de la BNF
3.009 imágenes
BL: 72%
BSB: 10%
JSI: 18%
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 30
31.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Corrección de curvatura
Auto: Basado en "N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, Goal-oriented Rectification of
Camera-Based Document Images, IEEE Transactions on Image Processing, vol. 20, no. 4, pp. 910-920,
2011." IMPORTANT NOTICES: (a) It needs the MATLAB Component Runtime Installer, (b) it can be applied
only to single column documents.
Auto_Edit: Corrección manual de líneas/curvas que delimitan el texto arrastrando los puntos activos de un
rectángulo delimitador
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 31
32.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Corrección de curvatura
87,78% Corrección curvatura IMPACT v.4 BookRestorer
(81,98% sólo corrección en bruto)
80,87%
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 32
33.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Componentes para el procesamiento de imágenes
Corrección de curvatura
REFERENCIAS
VALOR DW
N. Stamatopoulos, B. Gatos and I. Pratikakis, “A Methodology for Document Image
Dewarping Techniques Performance Evaluation”, 10th International Conference on
Document Analysis and Recognition (ICDAR’09), pp. 956-960, Barcelona, Spain,
July, 2009.
METODOLOGÍA DE CORRECCIÓN DE CURVATURA (2 PASOS)
N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, “Goal-oriented
Rectification of Camera-Based Document Images”, IEEE Transactions on Image
Processing, Vol. 20, Nº4, pp. 910-920, 2011.
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 33
34.
IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
GRACIAS POR SU ATENCIÓN
Isabel Bordes Cabrera
Jefe de Servicio de Biblioteca Digital, BNE
isabel.bordes@bne.es
Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid) 34