Mejora del reconocimiento de palabras manuscritas aisladas mediante un clasificador específico para palabras cortas

Mejora del reconocimiento de palabras manuscritas
aisladas mediante un clasicador especíco para
palabras cortas

F. Zamora-Martínez M.J. Castro-Bleda S. España-Boquera
J. Gorbe-Moya

Departamento de Sistemas Informáticos y Computación

Universidad Politécnica de Valencia

Departamento de Ciencias Físicas, Matemáticas y de la Computación

Universidad CEU-Cardenal Herrera

CAEPIA 2009

F. Zamora et al. CAEPIA 09

Introducción

¾Por qué palabras aisladas manuscritas o-line?
Evaluar el rendimiento de los modelos ópticos de caracteres,
eliminando factores externos como el modelo de lenguaje.
Posibilidad de realizar experimentación exhaustiva al ser cada
experimento menos costoso que uno de escritura continua.
ICDAR 2009 Handwriting Recognition Competition (palabras
aisladas en francés).


Objetivo

Mejorar los resultados de la clasicación de palabras aisladas
mediante una combinación de reconocedores:
HMM
HMM-MLP
Clasicador holístico para palabras cortas


Marco inicial - Corpus

Subconjunto de la base de datos IAM
41 763 palabras de entrenamiento
6 313 palabras de validación
17 477 palabras de test
Talla del vocabulario: 10 199 palabras

No hay signos de puntuación


Marco inicial - Preproceso

Corrección de slope y slant
Normalización de tamaño


Marco inicial - Reconocimiento

HMM, topología left-to-right, 64 gaussianas por estado
HMM, topología left-to-right, un perceptrón multicapa estima
la probabilidad de emisión de todos los estados (HMM-MLP),

HMM WER Val.
6 estados 37,5
HMM-MLP WER Val.
7 estados 35,7
6 estados, MLP 192-128 26,2
8 estados 33,1
7 estados, MLP 192-128 24,5
9 estados 32,1
8 estados, MLP 384-128 21,9
10 estados 33,3
9 estados, MLP 384-128 22,7
11 estados 36,0
12 estados 37,7


El problema con las palabras cortas

80
HMM
HMM−MLP
70
WER en validación (%)

60

50

40

30

20
1 2 3 4 5 6 7 8 9 10
Longitud de las palabras (n)

WER para palabras del conjunto de validación con longitudes ≤ n.


Clasicador de palabras cortas

Solución propuesta: combinar los reconocedores anteriores con
uno especíco para las palabras cortas para mejorar el
rendimiento global.


Clasicador de palabras cortas: diseño

Clasicador holístico basado en MLP
Entrada: imágenes redimensionadas a 60 × 30 pixels
Salida: probabilidad de cada palabra

Palabras de longitud ≤ 3 letras
Mínimo 40 muestras de entrenamiento por palabra
−→ léxico de 56 palabras
Imágenes de entrada con y sin preproceso
Criterio de selección: ancho de la imagen ≤ 150 pixels


Clasicador de palabras cortas: MLP

Topología
Capa de entrada: 1800 neuronas (60 × 30)
Dos capas ocultas, función de activación tanh
Capa de salida: 56 neuronas, función de activación softmax
Número de neuronas en las dos capas ocultas:
256-128, 192-128, 192-192, 256-192, 128-128 y 128-64.
Combinaciones de learning rate y momentum term:
(0.0075, 0.004), (0.01, 0.002), (0.05, 0.01) y (0.005, 0.0001).
Pesos iniciales: valores aleatorios en el intervalo [−0.08, 0.08].


Clasicador de palabras cortas: entrenamiento

El clasicador puede rechazar muestras
−→ Uso de F-medida en el criterio de parada.

aciertos
P=
total aceptados
aciertos
R=
aciertos+rechazos incorrectos
2·P ·R
F=
P +R
Las palabras desconocidas se entrenaron poniendo como salida
de la red una probabilidad de 1/N en todas las neuronas.
Una imagen es aceptada si el MLP la clasica con p 0.7.


Clasicador de palabras cortas: resultados

F-medida de los clasicadores holísticos en validación (en %).
Validación 1 Validación 2
Imágenes Prec. Rec. F-medida Prec. Rec. F-medida
Prep. 77,3 73,0 75,1 76,5 77,0 76,8
Orig. 76,3 67,5 71,6 79,1 64,7 71,1

Validación 1 se utiliza para aplicar el criterio de parada.
Validación 2 para elegir parámetros/topología.


Combinación de reconocedores


Recuento Borda

Proceso electoral propuesto por Jean-Charles Borda en 1770.
Cada elector ordena los N candidatos según su preferencia y se
asignan N puntos al primero, N − 1 puntos al segundo, . . . 1
punto al último.
La suma de las puntuaciones de cada opción determina el
orden nal.


Resultados

WER de validación y test (en %) al combinar los reconocedores con
los clasicadores holísticos.

Modelo Validación Test
HMM 32,1 38,6
HMM + holístico (prep) 27,9
HMM + holístico (orig) 27,4
HMM + ambos holísticos 25,5 32,1
HMM-MLP 21,9 27,6
HMM-MLP + holístico (prep) 18,9
HMM-MLP + holístico (orig) 18,1
HMM-MLP + ambos holísticos 17,1 22,1
Todos 22,6


Conclusiones

Un MLP utilizado como clasicador holístico obtiene mejores
resultados para un conjunto limitado de palabras cortas que un
clasicador general basado en modelos de caracteres.
Esta diferencia entre clasicadores se puede explotar
combinando ambos en un ensemble y mejorando sensiblemente
los resultados.
Aunque individualmente se obtienen mejores resultados
utilizando imágenes preprocesadas, utilizando las imágenes
originales podemos obtener otro clasicador que mejore el
resultado global de la combinación.


Fin

Gracias por su atención.


aciertos
P=
total aceptados
aciertos
R=
aciertos+rechazos incorrectos
2·P ·R
F=
P +R


Mejora del reconocimiento de palabras manuscritas aisladas mediante un clasificador específico para palabras cortas

Recomendados

Recomendados

Más contenido relacionado

Más de Francisco Zamora-Martinez

Más de Francisco Zamora-Martinez (9)

Último

Último (19)

Mejora del reconocimiento de palabras manuscritas aisladas mediante un clasificador específico para palabras cortas