SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
Time Delay Neural Networks for
     Speech Recognition



                             Víctor González Pacheco
             Técnicas de IA con Inspiración Biológica
           Máster en Ciencia y Tecnología Informática
                                          Enero 2009
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   2
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   3
Introducción
    Redes Neuronales “clásicas”



        Clasificación
    −

        Patrones no variables en el tiempo
    −

    ¿Cómo clasifico patrones variables en el



    tiempo?
        Time-Delay Neural Networks
    −




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   4
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   5
Arquitectura de la TDNN
    Waibel et al. (trabajos de 1988-1989)




    Reconocimiento de Fonemas



        Clasificación de los fonemas /b, d, g/ en japonés
    −

    Red Neuronal construida



        3 capas
    −

        Cada capa enlaza una serie de “celdas” de
    −
        retardo temporal




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   6
Arquitectura interna de una Celda
    Cada celda de entrada aplica una función



    sigmoide a N ∗ K ١ pesos
        N =Número de características del vector f(t)
    −

        K = Número de vectores retrasados
    −

    La entrada se compone de



        K+1 vectores {fj(t),...,fj(t-k),...,fj(t-K)}
    −

        Con características 1 ≤ j ≤ N
    −




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   7
Arquitectura Interna de una Celda




    K = vectores retrasados




    N = Características vector





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   8
Arquitectura de la TDNN
    Clasificación fonemas /b, d, g/




    Entrada de la red N=16, K=2



        Las celdas de la 1ª capa oculta
    −

             No reciben datos hasta que hay 3 vectores
         



    Vectores separados 10ms



        1ª capa oculta genera datos a los 30ms
    −

        Genera salidas cada 10ms
    −




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   9
Arquitectura de la TDNN
    1ª capa oculta




         8 celdas organizadas en una columna
     −

         Celdas totalmente conect. a las 16 celdas de la capa de entrada
     −

         Generan salida con 3 vectores de la capa de entrada
     −

    2ª capa oculta




         3 celdas por columna
     −

         Totalmente conectadas a las 8 celdas de la 1ª capa oculta
     −

         Generan salida con 5 vectores de la 1ª C.O.
     −

    Capa de salida




         3 celdas de salida (/b,d,g/)
     −

         Conectadas a sólo 1 celda de la 2ª C.O.
     −

         Salida con 9 vectores de la 2ª C.O.
     −


    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   10
Arquitectura de la TDNN




 Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   11
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   12
Aplicación para clasificación de
fonemas
    Vocabulario Japonés (fonemas /b,d,g/)




    3 anunciantes profesionales (800 fonemas



     por hablante)
    Red neuronal entrenada para cada



    hablante
    Sonidos proporcionaban 15 vectores



    espaciados 10ms.
    Fiabilidad de la red 98,5%




    Otros métodos (HMM): 93,5%




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   13
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   14
Interpretación de la representación
espacio-temporal de una TDNN
    Red distingue fonemas en condiciones



    difíciles
    Contextos fonéticos varían según palabras



        Posicionamiento de la boca varía para
    −
        fonemas según sus fonemas anteriores y
        posteriores
    Clasificación del fonema /d/



        /da/
    −

        /do/
    −



    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   15
Interpretación de la representación
espacio-temporal de una TDNN
    Input Layer





                                                       /do/
                 /da/


    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   16
Interpretación de la representación
espacio-temporal de una TDNN


 1ª C.O.




 2ª C.O.

                                                           /do/
                          /da/


  Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   17
Interpretación de la representación
    espacio-temporal de una TDNN
    Varianza temporal




          ±30ms
     −

    /do/





                                                      +30ms                   -30ms


         Máster en Ciencia y Tecnología Informática           Técnicas de IA con Insp. Biológica   18
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   19
Resumen
    Método eficiente (98,5% en las pruebas)




    Robusto



        Variaciones contextuales
    −

        Variaciones temporales
    −

    Otras pruebas realizadas mejoran



    métodos anteriores en diferentes
    contextos.
    Difícil escalar para vocabularios extensos





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   20
Referencias
[1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang,
  “Phoneme recognition using time-delay neural networks,” IEEE Trans.
  Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328-
  339
[2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech
   Processing”, Kluwer Academic Publishers, 1991, pp. 230-242.




   Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   21
Gracias por su atención




Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   22

Más contenido relacionado

Destacado

Destrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos FinancierosDestrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos Financieros
Carmen Maldonado
 
Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.
melidevelopers
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Search Foresight
 
Methode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedinMethode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedin
Ahmed Oualkadi
 

Destacado (20)

Innovacio Oberta portada a la practica (UOC)
Innovacio Oberta portada a la practica (UOC)Innovacio Oberta portada a la practica (UOC)
Innovacio Oberta portada a la practica (UOC)
 
Fiera Presentation
Fiera   PresentationFiera   Presentation
Fiera Presentation
 
Particle swarm optimization for human face recognition
Particle swarm optimization for human face recognitionParticle swarm optimization for human face recognition
Particle swarm optimization for human face recognition
 
Destrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos FinancierosDestrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos Financieros
 
Tecnologia de Imagenes (OCR) y Seguridad de datos electrónicos
Tecnologia de Imagenes (OCR) y Seguridad de datos electrónicosTecnologia de Imagenes (OCR) y Seguridad de datos electrónicos
Tecnologia de Imagenes (OCR) y Seguridad de datos electrónicos
 
Personal Branding 2.0
Personal Branding 2.0Personal Branding 2.0
Personal Branding 2.0
 
Reconocimiento supramolecular del ADN
Reconocimiento supramolecular del ADNReconocimiento supramolecular del ADN
Reconocimiento supramolecular del ADN
 
Ashtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the SeekerAshtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the Seeker
 
handwriting recognition
handwriting recognitionhandwriting recognition
handwriting recognition
 
Recherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociauxRecherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociaux
 
Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.
 
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
 
Twitter for Business
Twitter for BusinessTwitter for Business
Twitter for Business
 
How To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A RecessionHow To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A Recession
 
Working out your Team Role
Working out your Team RoleWorking out your Team Role
Working out your Team Role
 
Introduction to-thucydides
Introduction to-thucydidesIntroduction to-thucydides
Introduction to-thucydides
 
Navigating Google Analytics
Navigating Google AnalyticsNavigating Google Analytics
Navigating Google Analytics
 
Séminaire sur le Programme Exemplaire
Séminaire sur le Programme ExemplaireSéminaire sur le Programme Exemplaire
Séminaire sur le Programme Exemplaire
 
Methode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedinMethode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedin
 

Similar a TDNN for speech recognition

Untecs telecom ii_clase_1
Untecs telecom ii_clase_1Untecs telecom ii_clase_1
Untecs telecom ii_clase_1
luis2881741
 
I y c larry
I y c larryI y c larry
I y c larry
guspavo
 
Fase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayoFase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayo
jepelayo
 
Metodo de proyectos1
Metodo de proyectos1Metodo de proyectos1
Metodo de proyectos1
furucha
 
centrales telefonicas
centrales telefonicascentrales telefonicas
centrales telefonicas
Gusti Rios
 
PPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdfPPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdf
Jhonsil Ortiz
 

Similar a TDNN for speech recognition (20)

Codigos algebraicos
Codigos algebraicosCodigos algebraicos
Codigos algebraicos
 
Untecs telecom ii_clase_1
Untecs telecom ii_clase_1Untecs telecom ii_clase_1
Untecs telecom ii_clase_1
 
Curso: Redes y comunicaciones básicas: 01 Introducción
Curso: Redes y comunicaciones básicas: 01 IntroducciónCurso: Redes y comunicaciones básicas: 01 Introducción
Curso: Redes y comunicaciones básicas: 01 Introducción
 
Correcion examen final de teoria
Correcion examen final de teoriaCorrecion examen final de teoria
Correcion examen final de teoria
 
1Antenas1
1Antenas11Antenas1
1Antenas1
 
Practica comunicaciones
Practica comunicacionesPractica comunicaciones
Practica comunicaciones
 
Fiec04960 comunicaciones digitales
Fiec04960 comunicaciones digitalesFiec04960 comunicaciones digitales
Fiec04960 comunicaciones digitales
 
I y c larry
I y c larryI y c larry
I y c larry
 
Act. 1 edwin agudelo 301121 5
Act. 1 edwin agudelo 301121 5Act. 1 edwin agudelo 301121 5
Act. 1 edwin agudelo 301121 5
 
Fase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayoFase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayo
 
Desarrollo fase uno
Desarrollo fase unoDesarrollo fase uno
Desarrollo fase uno
 
Ok
OkOk
Ok
 
Curso: Redes y comunicaciones básicas: 02 Medios guiados y no guiados
Curso: Redes y comunicaciones básicas: 02 Medios guiados y no guiadosCurso: Redes y comunicaciones básicas: 02 Medios guiados y no guiados
Curso: Redes y comunicaciones básicas: 02 Medios guiados y no guiados
 
1. introduccion 2016-2 (1)
1. introduccion 2016-2 (1)1. introduccion 2016-2 (1)
1. introduccion 2016-2 (1)
 
Presentación1
Presentación1Presentación1
Presentación1
 
Metodo de proyectos1
Metodo de proyectos1Metodo de proyectos1
Metodo de proyectos1
 
centrales telefonicas
centrales telefonicascentrales telefonicas
centrales telefonicas
 
Presentación Redes Locales Básico
Presentación Redes Locales Básico Presentación Redes Locales Básico
Presentación Redes Locales Básico
 
PPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdfPPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdf
 
Presentacion proyecto
Presentacion proyectoPresentacion proyecto
Presentacion proyecto
 

Último

Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Fernando Solis
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 

Último (20)

CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
prostitución en España: una mirada integral!
prostitución en España: una mirada integral!prostitución en España: una mirada integral!
prostitución en España: una mirada integral!
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuela
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docx
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 

TDNN for speech recognition

  • 1. Time Delay Neural Networks for Speech Recognition Víctor González Pacheco Técnicas de IA con Inspiración Biológica Máster en Ciencia y Tecnología Informática Enero 2009
  • 2. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2
  • 3. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 3
  • 4. Introducción Redes Neuronales “clásicas”  Clasificación − Patrones no variables en el tiempo − ¿Cómo clasifico patrones variables en el  tiempo? Time-Delay Neural Networks − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 4
  • 5. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 5
  • 6. Arquitectura de la TDNN Waibel et al. (trabajos de 1988-1989)  Reconocimiento de Fonemas  Clasificación de los fonemas /b, d, g/ en japonés − Red Neuronal construida  3 capas − Cada capa enlaza una serie de “celdas” de − retardo temporal Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 6
  • 7. Arquitectura interna de una Celda Cada celda de entrada aplica una función  sigmoide a N ∗ K ١ pesos N =Número de características del vector f(t) − K = Número de vectores retrasados − La entrada se compone de  K+1 vectores {fj(t),...,fj(t-k),...,fj(t-K)} − Con características 1 ≤ j ≤ N − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 7
  • 8. Arquitectura Interna de una Celda K = vectores retrasados  N = Características vector  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 8
  • 9. Arquitectura de la TDNN Clasificación fonemas /b, d, g/  Entrada de la red N=16, K=2  Las celdas de la 1ª capa oculta − No reciben datos hasta que hay 3 vectores  Vectores separados 10ms  1ª capa oculta genera datos a los 30ms − Genera salidas cada 10ms − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 9
  • 10. Arquitectura de la TDNN 1ª capa oculta  8 celdas organizadas en una columna − Celdas totalmente conect. a las 16 celdas de la capa de entrada − Generan salida con 3 vectores de la capa de entrada − 2ª capa oculta  3 celdas por columna − Totalmente conectadas a las 8 celdas de la 1ª capa oculta − Generan salida con 5 vectores de la 1ª C.O. − Capa de salida  3 celdas de salida (/b,d,g/) − Conectadas a sólo 1 celda de la 2ª C.O. − Salida con 9 vectores de la 2ª C.O. − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 10
  • 11. Arquitectura de la TDNN Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 11
  • 12. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 12
  • 13. Aplicación para clasificación de fonemas Vocabulario Japonés (fonemas /b,d,g/)  3 anunciantes profesionales (800 fonemas  por hablante) Red neuronal entrenada para cada  hablante Sonidos proporcionaban 15 vectores  espaciados 10ms. Fiabilidad de la red 98,5%  Otros métodos (HMM): 93,5%  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 13
  • 14. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 14
  • 15. Interpretación de la representación espacio-temporal de una TDNN Red distingue fonemas en condiciones  difíciles Contextos fonéticos varían según palabras  Posicionamiento de la boca varía para − fonemas según sus fonemas anteriores y posteriores Clasificación del fonema /d/  /da/ − /do/ − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 15
  • 16. Interpretación de la representación espacio-temporal de una TDNN Input Layer  /do/ /da/ Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 16
  • 17. Interpretación de la representación espacio-temporal de una TDNN 1ª C.O. 2ª C.O. /do/ /da/ Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 17
  • 18. Interpretación de la representación espacio-temporal de una TDNN Varianza temporal  ±30ms − /do/  +30ms -30ms Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 18
  • 19. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 19
  • 20. Resumen Método eficiente (98,5% en las pruebas)  Robusto  Variaciones contextuales − Variaciones temporales − Otras pruebas realizadas mejoran  métodos anteriores en diferentes contextos. Difícil escalar para vocabularios extensos  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 20
  • 21. Referencias [1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang, “Phoneme recognition using time-delay neural networks,” IEEE Trans. Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328- 339 [2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech Processing”, Kluwer Academic Publishers, 1991, pp. 230-242. Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 21
  • 22. Gracias por su atención Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 22