SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
Mejora del reconocimiento de palabras manuscritas
 aisladas mediante un clasicador especíco para
                 palabras cortas

F. Zamora-Martínez M.J. Castro-Bleda S. España-Boquera
                    J. Gorbe-Moya

         Departamento de Sistemas Informáticos y Computación

                  Universidad Politécnica de Valencia


   Departamento de Ciencias Físicas, Matemáticas y de la Computación

                   Universidad CEU-Cardenal Herrera




                            CAEPIA 2009


                    F. Zamora et al.   CAEPIA 09
Introducción



  ¾Por qué palabras aisladas manuscritas o-line?
      Evaluar el rendimiento de los modelos ópticos de caracteres,
      eliminando factores externos como el modelo de lenguaje.
      Posibilidad de realizar experimentación exhaustiva al ser cada
      experimento menos costoso que uno de escritura continua.
      ICDAR 2009 Handwriting Recognition Competition (palabras
      aisladas en francés).




                       F. Zamora et al.   CAEPIA 09
Objetivo




  Mejorar los resultados de la clasicación de palabras aisladas
  mediante una combinación de reconocedores:
      HMM
      HMM-MLP
      Clasicador holístico para palabras cortas




                       F. Zamora et al.   CAEPIA 09
Marco inicial - Corpus




      Subconjunto de la base de datos IAM
          41 763 palabras de entrenamiento
          6 313 palabras de validación
          17 477 palabras de test
          Talla del vocabulario: 10 199 palabras

      No hay signos de puntuación




                      F. Zamora et al.   CAEPIA 09
Marco inicial - Preproceso



      Corrección de slope y slant
      Normalización de tamaño




                      F. Zamora et al.   CAEPIA 09
Marco inicial - Reconocimiento

      HMM, topología left-to-right, 64 gaussianas por estado
      HMM, topología left-to-right, un perceptrón multicapa estima
      la probabilidad de emisión de todos los estados (HMM-MLP),


      HMM      WER Val.
    6 estados   37,5
                                                HMM-MLP          WER Val.
    7 estados   35,7
                                        6   estados, MLP 192-128  26,2
    8 estados   33,1
                                        7   estados, MLP 192-128  24,5
    9 estados   32,1
                                        8   estados, MLP 384-128  21,9
    10 estados  33,3
                                        9   estados, MLP 384-128  22,7
    11 estados  36,0
    12 estados  37,7



                     F. Zamora et al.       CAEPIA 09
El problema con las palabras cortas


                                    80
                                                                               HMM
                                                                            HMM−MLP
                                    70
            WER en validación (%)


                                    60


                                    50


                                    40


                                    30


                                    20
                                         1   2     3       4     5      6    7        8   9   10
                                                       Longitud de las palabras (n)


   WER para palabras del conjunto de validación con longitudes ≤ n.

                                             F. Zamora et al.        CAEPIA 09
Clasicador de palabras cortas




  Solución propuesta: combinar los reconocedores anteriores con
  uno especíco para las palabras cortas para mejorar el
  rendimiento global.




                     F. Zamora et al.   CAEPIA 09
Clasicador de palabras cortas: diseño



      Clasicador holístico basado en MLP
          Entrada: imágenes redimensionadas a 60 × 30 pixels
          Salida: probabilidad de cada palabra

      Palabras de longitud ≤ 3 letras
      Mínimo 40 muestras de entrenamiento por palabra
      −→ léxico de 56 palabras
      Imágenes de entrada con y sin preproceso
      Criterio de selección: ancho de la imagen ≤ 150 pixels




                      F. Zamora et al.   CAEPIA 09
Clasicador de palabras cortas: MLP



      Topología
           Capa de entrada: 1800 neuronas (60 × 30)
           Dos capas ocultas, función de activación   tanh
           Capa de salida: 56 neuronas, función de activación   softmax
      Número de neuronas en las dos capas ocultas:
      256-128, 192-128, 192-192, 256-192, 128-128 y 128-64.
      Combinaciones de learning rate y momentum term:
      (0.0075, 0.004), (0.01, 0.002), (0.05, 0.01) y (0.005, 0.0001).
      Pesos iniciales: valores aleatorios en el intervalo [−0.08, 0.08].




                       F. Zamora et al.   CAEPIA 09
Clasicador de palabras cortas: entrenamiento


      El clasicador puede rechazar muestras
      −→ Uso de F-medida en el criterio de parada.

                                 aciertos
                           P=
                             total aceptados
                                 aciertos
                   R=
                      aciertos+rechazos incorrectos
                                 2·P ·R
                                 F=
                                        P +R
      Las palabras desconocidas se entrenaron poniendo como salida
      de la red una probabilidad de 1/N en todas las neuronas.
      Una imagen es aceptada si el MLP la clasica con p  0.7.



                     F. Zamora et al.   CAEPIA 09
Clasicador de palabras cortas: resultados


  F-medida de los clasicadores holísticos en validación (en %).
                       Validación 1                     Validación 2
   Imágenes Prec.      Rec. F-medida              Prec. Rec. F-medida
     Prep.  77,3       73,0     75,1              76,5 77,0       76,8
     Orig.  76,3       67,5     71,6              79,1 64,7       71,1




  Validación 1 se utiliza para aplicar el criterio de parada.
  Validación 2 para elegir parámetros/topología.



                        F. Zamora et al.   CAEPIA 09
Combinación de reconocedores




                 F. Zamora et al.   CAEPIA 09
Recuento Borda




     Proceso electoral propuesto por Jean-Charles Borda en 1770.
     Cada elector ordena los N candidatos según su preferencia y se
     asignan N puntos al primero, N − 1 puntos al segundo, . . . 1
     punto al último.
     La suma de las puntuaciones de cada opción determina el
     orden nal.




                     F. Zamora et al.   CAEPIA 09
Resultados


  WER de validación y test (en %) al combinar los reconocedores con
                     los clasicadores holísticos.

                  Modelo                        Validación   Test
                   HMM                             32,1      38,6
            HMM + holístico (prep)                 27,9
             HMM + holístico (orig)                27,4
            HMM + ambos holísticos                 25,5      32,1
                HMM-MLP                            21,9      27,6
          HMM-MLP + holístico (prep)               18,9
           HMM-MLP + holístico (orig)              18,1
          HMM-MLP + ambos holísticos               17,1      22,1
                  Todos                            22,6


                      F. Zamora et al.   CAEPIA 09
Conclusiones



      Un MLP utilizado como clasicador holístico obtiene mejores
      resultados para un conjunto limitado de palabras cortas que un
      clasicador general basado en modelos de caracteres.
      Esta diferencia entre clasicadores se puede explotar
      combinando ambos en un ensemble y mejorando sensiblemente
      los resultados.
      Aunque individualmente se obtienen mejores resultados
      utilizando imágenes preprocesadas, utilizando las imágenes
      originales podemos obtener otro clasicador que mejore el
      resultado global de la combinación.




                      F. Zamora et al.   CAEPIA 09
Fin




      Gracias por su atención.




      F. Zamora et al.   CAEPIA 09
aciertos
       P=
          total aceptados
              aciertos
R=
   aciertos+rechazos incorrectos
              2·P ·R
            F=
                       P +R




    F. Zamora et al.    CAEPIA 09

Más contenido relacionado

Más de Francisco Zamora-Martinez

F-Measure as the error function to train Neural Networks
F-Measure as the error function to train Neural NetworksF-Measure as the error function to train Neural Networks
F-Measure as the error function to train Neural NetworksFrancisco Zamora-Martinez
 
Contributions to connectionist language modeling and its application to seque...
Contributions to connectionist language modeling and its application to seque...Contributions to connectionist language modeling and its application to seque...
Contributions to connectionist language modeling and its application to seque...Francisco Zamora-Martinez
 
A Connectionist approach to Part-Of-Speech Tagging
A Connectionist approach to Part-Of-Speech TaggingA Connectionist approach to Part-Of-Speech Tagging
A Connectionist approach to Part-Of-Speech TaggingFrancisco Zamora-Martinez
 
Adding morphological information to a connectionist Part-Of-Speech tagger
Adding morphological information  to a connectionist Part-Of-Speech taggerAdding morphological information  to a connectionist Part-Of-Speech tagger
Adding morphological information to a connectionist Part-Of-Speech taggerFrancisco Zamora-Martinez
 
Behaviour-based Clustering of Neural Networks applied to Document Enhancement
Behaviour-based Clustering of Neural Networks applied to Document EnhancementBehaviour-based Clustering of Neural Networks applied to Document Enhancement
Behaviour-based Clustering of Neural Networks applied to Document EnhancementFrancisco Zamora-Martinez
 
Efficient Viterbi algorithms for lexical tree based models
Efficient Viterbi algorithms for lexical tree based modelsEfficient Viterbi algorithms for lexical tree based models
Efficient Viterbi algorithms for lexical tree based modelsFrancisco Zamora-Martinez
 
Efficient BP Algorithms for General Feedforward Neural Networks
Efficient BP Algorithms for General Feedforward Neural NetworksEfficient BP Algorithms for General Feedforward Neural Networks
Efficient BP Algorithms for General Feedforward Neural NetworksFrancisco Zamora-Martinez
 
Fast evaluation of Connectionist Language Models
Fast evaluation of Connectionist Language ModelsFast evaluation of Connectionist Language Models
Fast evaluation of Connectionist Language ModelsFrancisco Zamora-Martinez
 
Some empirical evaluations of a temperature forecasting module based on Art...
Some empirical evaluations of a temperature forecasting module   based on Art...Some empirical evaluations of a temperature forecasting module   based on Art...
Some empirical evaluations of a temperature forecasting module based on Art...Francisco Zamora-Martinez
 

Más de Francisco Zamora-Martinez (9)

F-Measure as the error function to train Neural Networks
F-Measure as the error function to train Neural NetworksF-Measure as the error function to train Neural Networks
F-Measure as the error function to train Neural Networks
 
Contributions to connectionist language modeling and its application to seque...
Contributions to connectionist language modeling and its application to seque...Contributions to connectionist language modeling and its application to seque...
Contributions to connectionist language modeling and its application to seque...
 
A Connectionist approach to Part-Of-Speech Tagging
A Connectionist approach to Part-Of-Speech TaggingA Connectionist approach to Part-Of-Speech Tagging
A Connectionist approach to Part-Of-Speech Tagging
 
Adding morphological information to a connectionist Part-Of-Speech tagger
Adding morphological information  to a connectionist Part-Of-Speech taggerAdding morphological information  to a connectionist Part-Of-Speech tagger
Adding morphological information to a connectionist Part-Of-Speech tagger
 
Behaviour-based Clustering of Neural Networks applied to Document Enhancement
Behaviour-based Clustering of Neural Networks applied to Document EnhancementBehaviour-based Clustering of Neural Networks applied to Document Enhancement
Behaviour-based Clustering of Neural Networks applied to Document Enhancement
 
Efficient Viterbi algorithms for lexical tree based models
Efficient Viterbi algorithms for lexical tree based modelsEfficient Viterbi algorithms for lexical tree based models
Efficient Viterbi algorithms for lexical tree based models
 
Efficient BP Algorithms for General Feedforward Neural Networks
Efficient BP Algorithms for General Feedforward Neural NetworksEfficient BP Algorithms for General Feedforward Neural Networks
Efficient BP Algorithms for General Feedforward Neural Networks
 
Fast evaluation of Connectionist Language Models
Fast evaluation of Connectionist Language ModelsFast evaluation of Connectionist Language Models
Fast evaluation of Connectionist Language Models
 
Some empirical evaluations of a temperature forecasting module based on Art...
Some empirical evaluations of a temperature forecasting module   based on Art...Some empirical evaluations of a temperature forecasting module   based on Art...
Some empirical evaluations of a temperature forecasting module based on Art...
 

Último

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 

Último (19)

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 

Mejora del reconocimiento de palabras manuscritas aisladas mediante un clasificador específico para palabras cortas

  • 1. Mejora del reconocimiento de palabras manuscritas aisladas mediante un clasicador especíco para palabras cortas F. Zamora-Martínez M.J. Castro-Bleda S. España-Boquera J. Gorbe-Moya Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Departamento de Ciencias Físicas, Matemáticas y de la Computación Universidad CEU-Cardenal Herrera CAEPIA 2009 F. Zamora et al. CAEPIA 09
  • 2. Introducción ¾Por qué palabras aisladas manuscritas o-line? Evaluar el rendimiento de los modelos ópticos de caracteres, eliminando factores externos como el modelo de lenguaje. Posibilidad de realizar experimentación exhaustiva al ser cada experimento menos costoso que uno de escritura continua. ICDAR 2009 Handwriting Recognition Competition (palabras aisladas en francés). F. Zamora et al. CAEPIA 09
  • 3. Objetivo Mejorar los resultados de la clasicación de palabras aisladas mediante una combinación de reconocedores: HMM HMM-MLP Clasicador holístico para palabras cortas F. Zamora et al. CAEPIA 09
  • 4. Marco inicial - Corpus Subconjunto de la base de datos IAM 41 763 palabras de entrenamiento 6 313 palabras de validación 17 477 palabras de test Talla del vocabulario: 10 199 palabras No hay signos de puntuación F. Zamora et al. CAEPIA 09
  • 5. Marco inicial - Preproceso Corrección de slope y slant Normalización de tamaño F. Zamora et al. CAEPIA 09
  • 6. Marco inicial - Reconocimiento HMM, topología left-to-right, 64 gaussianas por estado HMM, topología left-to-right, un perceptrón multicapa estima la probabilidad de emisión de todos los estados (HMM-MLP), HMM WER Val. 6 estados 37,5 HMM-MLP WER Val. 7 estados 35,7 6 estados, MLP 192-128 26,2 8 estados 33,1 7 estados, MLP 192-128 24,5 9 estados 32,1 8 estados, MLP 384-128 21,9 10 estados 33,3 9 estados, MLP 384-128 22,7 11 estados 36,0 12 estados 37,7 F. Zamora et al. CAEPIA 09
  • 7. El problema con las palabras cortas 80 HMM HMM−MLP 70 WER en validación (%) 60 50 40 30 20 1 2 3 4 5 6 7 8 9 10 Longitud de las palabras (n) WER para palabras del conjunto de validación con longitudes ≤ n. F. Zamora et al. CAEPIA 09
  • 8. Clasicador de palabras cortas Solución propuesta: combinar los reconocedores anteriores con uno especíco para las palabras cortas para mejorar el rendimiento global. F. Zamora et al. CAEPIA 09
  • 9. Clasicador de palabras cortas: diseño Clasicador holístico basado en MLP Entrada: imágenes redimensionadas a 60 × 30 pixels Salida: probabilidad de cada palabra Palabras de longitud ≤ 3 letras Mínimo 40 muestras de entrenamiento por palabra −→ léxico de 56 palabras Imágenes de entrada con y sin preproceso Criterio de selección: ancho de la imagen ≤ 150 pixels F. Zamora et al. CAEPIA 09
  • 10. Clasicador de palabras cortas: MLP Topología Capa de entrada: 1800 neuronas (60 × 30) Dos capas ocultas, función de activación tanh Capa de salida: 56 neuronas, función de activación softmax Número de neuronas en las dos capas ocultas: 256-128, 192-128, 192-192, 256-192, 128-128 y 128-64. Combinaciones de learning rate y momentum term: (0.0075, 0.004), (0.01, 0.002), (0.05, 0.01) y (0.005, 0.0001). Pesos iniciales: valores aleatorios en el intervalo [−0.08, 0.08]. F. Zamora et al. CAEPIA 09
  • 11. Clasicador de palabras cortas: entrenamiento El clasicador puede rechazar muestras −→ Uso de F-medida en el criterio de parada. aciertos P= total aceptados aciertos R= aciertos+rechazos incorrectos 2·P ·R F= P +R Las palabras desconocidas se entrenaron poniendo como salida de la red una probabilidad de 1/N en todas las neuronas. Una imagen es aceptada si el MLP la clasica con p 0.7. F. Zamora et al. CAEPIA 09
  • 12. Clasicador de palabras cortas: resultados F-medida de los clasicadores holísticos en validación (en %). Validación 1 Validación 2 Imágenes Prec. Rec. F-medida Prec. Rec. F-medida Prep. 77,3 73,0 75,1 76,5 77,0 76,8 Orig. 76,3 67,5 71,6 79,1 64,7 71,1 Validación 1 se utiliza para aplicar el criterio de parada. Validación 2 para elegir parámetros/topología. F. Zamora et al. CAEPIA 09
  • 13. Combinación de reconocedores F. Zamora et al. CAEPIA 09
  • 14. Recuento Borda Proceso electoral propuesto por Jean-Charles Borda en 1770. Cada elector ordena los N candidatos según su preferencia y se asignan N puntos al primero, N − 1 puntos al segundo, . . . 1 punto al último. La suma de las puntuaciones de cada opción determina el orden nal. F. Zamora et al. CAEPIA 09
  • 15. Resultados WER de validación y test (en %) al combinar los reconocedores con los clasicadores holísticos. Modelo Validación Test HMM 32,1 38,6 HMM + holístico (prep) 27,9 HMM + holístico (orig) 27,4 HMM + ambos holísticos 25,5 32,1 HMM-MLP 21,9 27,6 HMM-MLP + holístico (prep) 18,9 HMM-MLP + holístico (orig) 18,1 HMM-MLP + ambos holísticos 17,1 22,1 Todos 22,6 F. Zamora et al. CAEPIA 09
  • 16. Conclusiones Un MLP utilizado como clasicador holístico obtiene mejores resultados para un conjunto limitado de palabras cortas que un clasicador general basado en modelos de caracteres. Esta diferencia entre clasicadores se puede explotar combinando ambos en un ensemble y mejorando sensiblemente los resultados. Aunque individualmente se obtienen mejores resultados utilizando imágenes preprocesadas, utilizando las imágenes originales podemos obtener otro clasicador que mejore el resultado global de la combinación. F. Zamora et al. CAEPIA 09
  • 17. Fin Gracias por su atención. F. Zamora et al. CAEPIA 09
  • 18. aciertos P= total aceptados aciertos R= aciertos+rechazos incorrectos 2·P ·R F= P +R F. Zamora et al. CAEPIA 09